有没有针对音频文件的AI

2026-04-13 13:070阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

佬友们，有没有针对音频文件的模型（或者skill），不是转文字的那种，就是可以从音频中识别信息，比如识别出多种歌曲，能对夹杂在一起的声音进行辨别，或者是对正在发生事情的推断，或者说可以区分人声。这部分的AI是不是还挺少的。佬友们我就是问问。

网友解答：

--【壹】--：

qwen 的 asr 模型和各家的 omni 模型是可以做到的，你可以去试试

--【贰】--：

我只知道gemini可以，嘻嘻我经常用ffmpeg提取音频然后让gemini总结，基本上就能速通课程

我估计多模态这方面也就gemini做得最好了，然后就是我估计qwen omini应该也可以

--【叁】--：

Gemini 是最好的。
Gemini 3.1 Pro Preview 和 Gemini 2.5 Pro 又是其中输出时间戳最稳定的，其他 Gemini 模型都不能按精确的时间戳输出音视频中的信息，会有比较离谱的偏移量。
这两个模型都有非常恐怖的知识量，分析音乐等的能力非常强大，个人认为其音乐鉴赏能力远超普通人，甚至超越部分专业人士。它甚至可以听出来一首它不知道的歌曲中哪一部分非常“抓耳”。

标签：人工智能快问快答

问题描述：

佬友们，有没有针对音频文件的模型（或者skill），不是转文字的那种，就是可以从音频中识别信息，比如识别出多种歌曲，能对夹杂在一起的声音进行辨别，或者是对正在发生事情的推断，或者说可以区分人声。这部分的AI是不是还挺少的。佬友们我就是问问。

网友解答：

--【壹】--：

qwen 的 asr 模型和各家的 omni 模型是可以做到的，你可以去试试

--【贰】--：

我只知道gemini可以，嘻嘻我经常用ffmpeg提取音频然后让gemini总结，基本上就能速通课程

我估计多模态这方面也就gemini做得最好了，然后就是我估计qwen omini应该也可以

--【叁】--：

Gemini 是最好的。
Gemini 3.1 Pro Preview 和 Gemini 2.5 Pro 又是其中输出时间戳最稳定的，其他 Gemini 模型都不能按精确的时间戳输出音视频中的信息，会有比较离谱的偏移量。
这两个模型都有非常恐怖的知识量，分析音乐等的能力非常强大，个人认为其音乐鉴赏能力远超普通人，甚至超越部分专业人士。它甚至可以听出来一首它不知道的歌曲中哪一部分非常“抓耳”。

标签：人工智能快问快答