提问：哪个模型对视频与书籍学习的能力好一点

2026-04-11 08:150阅读0评论SEO资源

问题描述：

我最近有想做一个就是把一系列专业书籍都放入一个坑中，然后对ai进行提问判断对错以及找出所在的出处，比如视频的几分几秒，书本的第几页，让学生多翻翻书算是。对于视频来说，画面内容转化为文字，会不会损失太多信息，你们觉得呢？

网友解答：

--【壹】--：

AI是用截图实现的，我自己200G的视频，还是先转为文字，形成文字信息点（原始语料）然后让ai分析重点，再让gpt5.4调用图片分析的ai，截图分析关键帧，
ai分析用的GPT5.4，
截图分析用的 gemma 4 31b(在aistudio 每天可以免费调用 1000多次)

--【贰】--：

书籍非常适合做这件事；视频如果只转语音成文字，肯定会损失一部分画面信息，但大部分知识点和出处追溯还是能保留下来。更稳妥的做法是：先做语音转写，再给重点片段补关键帧和OCR，这样既能问答，也能定位到视频时间点和资料出处

--【叁】--：

这个恐怕有些难吧？如果专业小众，感觉模型不一定能高质量发挥，但如果是图片转文字，那应该哈基米不错，识别能力还可以，知识储量很强，就是有时候莫名其妙不在状态

--【肆】--：