提问:哪个模型对视频与书籍学习的能力好一点
- 内容介绍
- 文章标签
- 相关推荐
我最近有想做一个就是把一系列专业书籍都放入一个坑中,然后对ai进行提问判断对错以及找出所在的出处,比如视频的几分几秒,书本的第几页,让学生多翻翻书算是。对于视频来说,画面内容转化为文字,会不会损失太多信息,你们觉得呢?
网友解答:--【壹】--:
AI是用截图实现的,我自己200G的视频,还是先转为文字,形成 文字信息点(原始语料) 然后让ai分析重点,再让gpt5.4调用图片分析的ai,截图分析 关键帧,
ai分析用的GPT5.4,
截图分析用的 gemma 4 31b(在aistudio 每天可以免费调用 1000多次)
--【贰】--:
书籍非常适合做这件事;视频如果只转语音成文字,肯定会损失一部分画面信息,但大部分知识点和出处追溯还是能保留下来。更稳妥的做法是:先做语音转写,再给重点片段补关键帧和OCR,这样既能问答,也能定位到视频时间点和资料出处
--【叁】--:
这个恐怕有些难吧?如果专业小众,感觉模型不一定能高质量发挥,但如果是图片转文字,那应该哈基米不错,识别能力还可以,知识储量很强,就是有时候莫名其妙不在状态
--【肆】--:
我主要还是想解决视频的问题,视频量很大,让ai自行识别画面重点可行么
我最近有想做一个就是把一系列专业书籍都放入一个坑中,然后对ai进行提问判断对错以及找出所在的出处,比如视频的几分几秒,书本的第几页,让学生多翻翻书算是。对于视频来说,画面内容转化为文字,会不会损失太多信息,你们觉得呢?
网友解答:--【壹】--:
AI是用截图实现的,我自己200G的视频,还是先转为文字,形成 文字信息点(原始语料) 然后让ai分析重点,再让gpt5.4调用图片分析的ai,截图分析 关键帧,
ai分析用的GPT5.4,
截图分析用的 gemma 4 31b(在aistudio 每天可以免费调用 1000多次)
--【贰】--:
书籍非常适合做这件事;视频如果只转语音成文字,肯定会损失一部分画面信息,但大部分知识点和出处追溯还是能保留下来。更稳妥的做法是:先做语音转写,再给重点片段补关键帧和OCR,这样既能问答,也能定位到视频时间点和资料出处
--【叁】--:
这个恐怕有些难吧?如果专业小众,感觉模型不一定能高质量发挥,但如果是图片转文字,那应该哈基米不错,识别能力还可以,知识储量很强,就是有时候莫名其妙不在状态
--【肆】--:
我主要还是想解决视频的问题,视频量很大,让ai自行识别画面重点可行么

