是否存在能真正“理解”音乐的多模态ai?

2026-04-11 10:560阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

如题,鞭策ai写东西的时候听歌突然想到这个问题,想通过AI去学习乐理;站内搜索发现gemini 2就已经能听懂音乐了,然后照猫画虎上传了个音乐给3pro听。
image1971×879 125 KB
结果就是人声部分确实能识别出来而且识别准确率很高,但是时长对不上,尝试问乐器solo部分也回答不上来,应该是忽略或者去掉了乐器独奏的部分。
image1853×148 19.9 KB
image2007×451 65.7 KB
然后想起来qwen3.5有全模态的模型omni,也尝试着去用了一下(上传歌曲有三分钟的时长限制)
image1080×385 25.8 KB
image1097×452 36 KB
体感就是乐器部分识别明显准确了,歌词识别和gemini五五开,时间轴比较准,没有gemini那样错漏。
所以回到标题,“是否存在能真正‘理解’音乐的多模态ai”,这个问题我依旧拿不准,所以想请教一下有经验的佬友。

网友解答:
--【壹】--:

如题,鞭策ai写东西的时候听歌突然想到这个问题,想通过AI去学习乐理;站内搜索发现gemini 2就已经能听懂音乐了,然后照猫画虎上传了个音乐给3pro听。
image1971×879 125 KB
结果就是人声部分确实能识别出来而且识别准确率很高,但是时长对不上,尝试问乐器solo部分也回答不上来,应该是忽略或者去掉了乐器独奏的部分。
image1853×148 19.9 KB
image2007×451 65.7 KB
然后想起来qwen3.5有全模态的模型omni,也尝试着去用了一下(上传歌曲有三分钟的时长限制)
image1080×385 25.8 KB
image1097×452 36 KB
体感就是乐器部分识别明显准确了,歌词识别和gemini五五开,时间轴比较准,没有gemini那样错漏。
所以回到标题,“是否存在能真正‘理解’音乐的多模态ai”,这个问题我依旧拿不准,所以想请教一下有经验的佬友。

问题描述:

如题,鞭策ai写东西的时候听歌突然想到这个问题,想通过AI去学习乐理;站内搜索发现gemini 2就已经能听懂音乐了,然后照猫画虎上传了个音乐给3pro听。
image1971×879 125 KB
结果就是人声部分确实能识别出来而且识别准确率很高,但是时长对不上,尝试问乐器solo部分也回答不上来,应该是忽略或者去掉了乐器独奏的部分。
image1853×148 19.9 KB
image2007×451 65.7 KB
然后想起来qwen3.5有全模态的模型omni,也尝试着去用了一下(上传歌曲有三分钟的时长限制)
image1080×385 25.8 KB
image1097×452 36 KB
体感就是乐器部分识别明显准确了,歌词识别和gemini五五开,时间轴比较准,没有gemini那样错漏。
所以回到标题,“是否存在能真正‘理解’音乐的多模态ai”,这个问题我依旧拿不准,所以想请教一下有经验的佬友。

网友解答:
--【壹】--:

如题,鞭策ai写东西的时候听歌突然想到这个问题,想通过AI去学习乐理;站内搜索发现gemini 2就已经能听懂音乐了,然后照猫画虎上传了个音乐给3pro听。
image1971×879 125 KB
结果就是人声部分确实能识别出来而且识别准确率很高,但是时长对不上,尝试问乐器solo部分也回答不上来,应该是忽略或者去掉了乐器独奏的部分。
image1853×148 19.9 KB
image2007×451 65.7 KB
然后想起来qwen3.5有全模态的模型omni,也尝试着去用了一下(上传歌曲有三分钟的时长限制)
image1080×385 25.8 KB
image1097×452 36 KB
体感就是乐器部分识别明显准确了,歌词识别和gemini五五开,时间轴比较准,没有gemini那样错漏。
所以回到标题,“是否存在能真正‘理解’音乐的多模态ai”,这个问题我依旧拿不准,所以想请教一下有经验的佬友。