有没有针对音频文件的AI
- 内容介绍
- 文章标签
- 相关推荐
佬友们,有没有针对音频文件的模型(或者skill),不是转文字的那种,就是可以从音频中识别信息,比如识别出多种歌曲,能对夹杂在一起的声音进行辨别,或者是对正在发生事情的推断,或者说可以区分人声。这部分的AI是不是还挺少的。 佬友们我就是问问。
网友解答:--【壹】--:
qwen 的 asr 模型和各家的 omni 模型是可以做到的,你可以去试试
--【贰】--:
我只知道gemini可以,嘻嘻我经常用ffmpeg提取音频然后让gemini总结,基本上就能速通课程
我估计多模态这方面也就gemini做得最好了,然后就是我估计qwen omini应该也可以
--【叁】--:
Gemini 是最好的。
Gemini 3.1 Pro Preview 和 Gemini 2.5 Pro 又是其中输出时间戳最稳定的,其他 Gemini 模型都不能按精确的时间戳输出音视频中的信息,会有比较离谱的偏移量。
这两个模型都有非常恐怖的知识量,分析音乐等的能力非常强大,个人认为其音乐鉴赏能力远超普通人,甚至超越部分专业人士。它甚至可以听出来一首它不知道的歌曲中哪一部分非常“抓耳”。
佬友们,有没有针对音频文件的模型(或者skill),不是转文字的那种,就是可以从音频中识别信息,比如识别出多种歌曲,能对夹杂在一起的声音进行辨别,或者是对正在发生事情的推断,或者说可以区分人声。这部分的AI是不是还挺少的。 佬友们我就是问问。
网友解答:--【壹】--:
qwen 的 asr 模型和各家的 omni 模型是可以做到的,你可以去试试
--【贰】--:
我只知道gemini可以,嘻嘻我经常用ffmpeg提取音频然后让gemini总结,基本上就能速通课程
我估计多模态这方面也就gemini做得最好了,然后就是我估计qwen omini应该也可以
--【叁】--:
Gemini 是最好的。
Gemini 3.1 Pro Preview 和 Gemini 2.5 Pro 又是其中输出时间戳最稳定的,其他 Gemini 模型都不能按精确的时间戳输出音视频中的信息,会有比较离谱的偏移量。
这两个模型都有非常恐怖的知识量,分析音乐等的能力非常强大,个人认为其音乐鉴赏能力远超普通人,甚至超越部分专业人士。它甚至可以听出来一首它不知道的歌曲中哪一部分非常“抓耳”。

