openrouter上线免费的qianfan-ocr模型

2026-04-29 10:552阅读0评论SEO问题
  • 内容介绍
  • 相关推荐
问题描述:
openrouter.ai

Qianfan-OCR-Fast (free) - API Pricing & Providers

Qianfan-OCR-Fast is a domain-specific multimodal large model purpose-built for OCR. $0 per million input tokens, $0 per million output tokens. 65,536 token context window, maximum output of 28,672 tokens.

网友解答:
--【壹】--:

那我觉得你这样的需求,ocr只是工具或者说,应该要给出一个"新表头"的定义和转换的例子,然后让多模态模型把pdf转为文本data,再用程序转成pdf好一点。无思考的ocr,终究不能理解工作是什么,一般只能提取文字了,就算能把表格提取出来后续还是要处理


--【贰】--:

现在ocr王者不是阿里开源那个什么Logics-Parsing-v2么?

我记得本地部署8G显存就可以了好像


--【叁】--:

真不错,后面的这种 ocr 服务价格可以打下来能把很多文档都提取成 md 来用。


--【肆】--:

第一眼看成qianfen-ocr了,还以为可以一键识别千芬操作并自动砸蛋


--【伍】--:

我前段时间做了一个很长的重复工作,就是把pdf日程表规格统一,因为每个人处理的日程表有不同的表头,然后要把所有的日程表统一成相同的表头,再重新生成pdf,我是让我的claw去做的,然后第1个思路是。直接让AI调用视觉模型,识别了之后,让AI直接做新表格做word转pdf,第二个就是放知识库用解析再读取,结果是前者的效果更好一点,但是做到后面的时候,就会开始忘了前面要做什么,开始忘记表头是什么,然后忘记正确的规范是什么。第2个在知识库里,再从知识库里提出来的时候,内容结构很混乱。不过那会还没用上mineru, mineru解析出来的表格结构和文字看起来都蛮不错的。我做的这件事大概就是你说的。 Ocr识别结构化,并把结构化重新嵌入。


--【陆】--:

ocr的主要功能是识别文字并标记位置吧,到底是要重新嵌入文字才完整


--【柒】--:

mineru的pdf转md我感觉是最好的,ocr还有什么场景比较复杂吗


--【捌】--:

没充值的帐号,每天只能调用50次吧?没什么用。