这个0.9B小模型GLM-OCR,本地运行识别复杂文档,开源后能成为识别领域的巅峰之作吗?
- 内容介绍
- 文章标签
- 相关推荐
说实话, 最近大模型圈子里那种“越大越好”的军备竞赛,多少让人有点审美疲劳。动辄几百亿甚至上千亿的参数, 虽然性能是强了但对于咱们普通开发者或者中小企业落地部署的成本简直让人头秃。 麻了... 就在大家都在卷算力、 卷显存的时候,智谱AI反其道而行之,搞了个大动作——直接把自家的新一代OCR模型 GLM-OCR 给开源了。
0.9B的小个子, 却有大能量
最让我惊讶的不是它开源了而是它的体量。这玩意儿走的是极致的“小而美”路线,参数量仅仅只有0.9B。你没听错,不到10亿参数。但别看它个头小, 本事可一点都不小,在业内极具权威性的 OmniDocBench V1.5 榜单上,它硬是拿下了 94.6 分的高分。这成绩, 直接在文本识别、公式解析、表格还原以及信息抽取这几个核心领域冲到了 SOTA,甚至性能直逼 Gemini-3-Pro 这种顶尖的闭源大模型。这不禁让人想问:这难道就是传说中的“开源即巅峰”,放心去做...?
不只是“识字”, 更是“看懂”
在聊 GLM-OCR 之前,咱们先得回顾一下过去。只要是经常跟文档打交道的朋友,大概率都被传统的 OCR 工具“坑”过。那种无力感,真的谁用谁知道。
就拿最让人头疼的扫描版PDF来说吧。以前我们想把一些老资料数字化, 扫描进去稍微有点模糊,或者表格刚好跨页了那出来的后来啊简直就是一场灾难。要么是缺行少列,要么就是数字错位,你还得花比重新录入还多的时间去校对。更别提那些复杂的表格了 什么合并单元格、多层表头,在传统 OCR 眼里简直就是不可逾越的天堑。识别出来往往就是一串毫无逻辑的一维文本,你想把它还原成 Excel 可用的表格?得,准备好手动调整半天吧。
还有手写体识别,这更是传统 OCR 的“滑铁卢”。不管是学生党想数字化课堂笔记,还是医生那龙飞凤舞的处方,丢给传统软件,识别率直接跳水。
说实话, 最近大模型圈子里那种“越大越好”的军备竞赛,多少让人有点审美疲劳。动辄几百亿甚至上千亿的参数, 虽然性能是强了但对于咱们普通开发者或者中小企业落地部署的成本简直让人头秃。 麻了... 就在大家都在卷算力、 卷显存的时候,智谱AI反其道而行之,搞了个大动作——直接把自家的新一代OCR模型 GLM-OCR 给开源了。
0.9B的小个子, 却有大能量
最让我惊讶的不是它开源了而是它的体量。这玩意儿走的是极致的“小而美”路线,参数量仅仅只有0.9B。你没听错,不到10亿参数。但别看它个头小, 本事可一点都不小,在业内极具权威性的 OmniDocBench V1.5 榜单上,它硬是拿下了 94.6 分的高分。这成绩, 直接在文本识别、公式解析、表格还原以及信息抽取这几个核心领域冲到了 SOTA,甚至性能直逼 Gemini-3-Pro 这种顶尖的闭源大模型。这不禁让人想问:这难道就是传说中的“开源即巅峰”,放心去做...?
不只是“识字”, 更是“看懂”
在聊 GLM-OCR 之前,咱们先得回顾一下过去。只要是经常跟文档打交道的朋友,大概率都被传统的 OCR 工具“坑”过。那种无力感,真的谁用谁知道。
就拿最让人头疼的扫描版PDF来说吧。以前我们想把一些老资料数字化, 扫描进去稍微有点模糊,或者表格刚好跨页了那出来的后来啊简直就是一场灾难。要么是缺行少列,要么就是数字错位,你还得花比重新录入还多的时间去校对。更别提那些复杂的表格了 什么合并单元格、多层表头,在传统 OCR 眼里简直就是不可逾越的天堑。识别出来往往就是一串毫无逻辑的一维文本,你想把它还原成 Excel 可用的表格?得,准备好手动调整半天吧。
还有手写体识别,这更是传统 OCR 的“滑铁卢”。不管是学生党想数字化课堂笔记,还是医生那龙飞凤舞的处方,丢给传统软件,识别率直接跳水。

