为什么cherry studio不识别pdf呢,我看模型也支持视觉呢(可以识别图片)
- 内容介绍
- 文章标签
- 相关推荐
image2559×1368 221 KB
image1751×299 17.7 KB
--【壹】--:
读pdf不是用视觉能力吧,PDF是二进制文件
如果PDF文本内容有OCR出来(也就是PDF上的文本可以复制),理论上模型就能读了,不过也读不了PDF里的图片
--【贰】--:
搜嘎,谢谢佬
--【叁】--:
Openai chat兼容端点只能识别PDF内的文字作为文本类型回传,Openai response,Gemini,Claude端点都支持PDF的base64回传,你打开调试窗口可以看到,是否能够支持识别看上游供应商
--【肆】--:
明白了,佬
--【伍】--:
不只是翻译,翻译完还要学习论文,要问些论文里不懂的东西
--【陆】--:
这个通常和上游质量有关 和软件本身没什么关系 或者说很小
--【柒】--:
mark一下
--【捌】--:
后续/我的解决方案
我目前找的最便捷的方式是,找个pdf转word的在线工具,转成word,然后就可以用了;
MinerU虽然免费也可用,但是只能用来构建知识库,只会选取精华内容留存,会缺少些内容(如果想直接甩给cs也还是识别不了pdf)
--【玖】--:
你可以用那个啥
MinerU | 一站式 PDF 文档解析工具
从 PDF 中提取表格、公式、文字与图片,精准转换为 Markdown、JSON 等多种格式
这玩意
然后嘛里面有mcp 这样也就能衔接到 CS 了
--【拾】--:
嗷嗷,好的,感谢佬的解惑,我去配置一下
--【拾壹】--:
有些官方原生能支持pdf识别例如claude和gemini,但是newapi转发的就不确定还有没有这种能力了
--【拾贰】--:
CS这种都是本地用库操作了之后 传文字数据过去进行操作的
并不是你想象的 传pdf文件上去
有这种需求建议直接上网页 gemini.google.com chatgpt.com 发
--【拾叁】--:
学生优惠和team都掉了,所以来用cherry了
--【拾肆】--:
Google 翻译
Google 免费提供的这项服务可在简体中文和其他 100 多种语言之间即时翻译字词、短语和网页。
image1621×583 16.6 KB
佬,专业的事情让专业的工具去做吧,几秒出结果
--【拾伍】--:
欧克欧克,谢谢佬,我找官方文档看到了,然后打不开api令牌那个网页,梯子换个节点也不好使,我以为不能用呢,你又推荐了一遍,那肯定能用,换了个梯子发现能打开了 ,okok,我去配置一下
现在还有个问题,CS是不是不能长时间回答呢,我把pdf转成txt格式,然后叫它翻译,翻译一会一断,断了两三次
image2559×1368 221 KB
image1751×299 17.7 KB
--【壹】--:
读pdf不是用视觉能力吧,PDF是二进制文件
如果PDF文本内容有OCR出来(也就是PDF上的文本可以复制),理论上模型就能读了,不过也读不了PDF里的图片
--【贰】--:
搜嘎,谢谢佬
--【叁】--:
Openai chat兼容端点只能识别PDF内的文字作为文本类型回传,Openai response,Gemini,Claude端点都支持PDF的base64回传,你打开调试窗口可以看到,是否能够支持识别看上游供应商
--【肆】--:
明白了,佬
--【伍】--:
不只是翻译,翻译完还要学习论文,要问些论文里不懂的东西
--【陆】--:
这个通常和上游质量有关 和软件本身没什么关系 或者说很小
--【柒】--:
mark一下
--【捌】--:
后续/我的解决方案
我目前找的最便捷的方式是,找个pdf转word的在线工具,转成word,然后就可以用了;
MinerU虽然免费也可用,但是只能用来构建知识库,只会选取精华内容留存,会缺少些内容(如果想直接甩给cs也还是识别不了pdf)
--【玖】--:
你可以用那个啥
MinerU | 一站式 PDF 文档解析工具
从 PDF 中提取表格、公式、文字与图片,精准转换为 Markdown、JSON 等多种格式
这玩意
然后嘛里面有mcp 这样也就能衔接到 CS 了
--【拾】--:
嗷嗷,好的,感谢佬的解惑,我去配置一下
--【拾壹】--:
有些官方原生能支持pdf识别例如claude和gemini,但是newapi转发的就不确定还有没有这种能力了
--【拾贰】--:
CS这种都是本地用库操作了之后 传文字数据过去进行操作的
并不是你想象的 传pdf文件上去
有这种需求建议直接上网页 gemini.google.com chatgpt.com 发
--【拾叁】--:
学生优惠和team都掉了,所以来用cherry了
--【拾肆】--:
Google 翻译
Google 免费提供的这项服务可在简体中文和其他 100 多种语言之间即时翻译字词、短语和网页。
image1621×583 16.6 KB
佬,专业的事情让专业的工具去做吧,几秒出结果
--【拾伍】--:
欧克欧克,谢谢佬,我找官方文档看到了,然后打不开api令牌那个网页,梯子换个节点也不好使,我以为不能用呢,你又推荐了一遍,那肯定能用,换了个梯子发现能打开了 ,okok,我去配置一下
现在还有个问题,CS是不是不能长时间回答呢,我把pdf转成txt格式,然后叫它翻译,翻译一会一断,断了两三次

