怎么感觉现在国际上只有豆包在研究语音模型

2026-04-29 08:572阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

因为我一个人在办公
所以摸鱼的时候我就在想我跟豆宝打电话聊会儿天
然后我又在想别人的语音模型怎么样了，我记得 gpt 以前搞过，后来就没有什么后续
我记得 kimi 以前也研究过
我又问问豆包儿，豆包说它的模型是四月份更新的语音的那个模型，感觉别人的语言模型都很久很久没有更新过了

网友解答：

--【壹】--：

我真的很好奇，抖音上有刷到让豆包唱歌的，但是我让它唱的时候感觉差距很明显，不像活人

--【贰】--：

ChatGPT现在还是能打电话：1-800-ChatGPT

MiniMax的语音模型现在应该是最强的，最近试了下新的 Gemini 3 Flash TTS 也还不错。

--【叁】--：

字节手里很多音视频资源，所以语音视频模型能力都挺强，我猜的

--【肆】--：

他的语言模型专家模式还不错，他画画和他生成视频感觉都挺不错的

--【伍】--：

gpt的语音模型很垃圾，垃圾到不想用，音色也难听

--【陆】--：

在我的认知和体验里，豆包的语音模型是全球第一，字节主打产品体验，没有拼模型能力，是一个聪明的决策。

--【柒】--：

好像还真是这样的那么多AI模型，除了豆包之外，感觉语音都是应付了事，就是说别人有自己也有就行了

--【捌】--：

claude的语音只能认英文，不过豆包APP端交互感觉做的很糟糕

--【玖】--：

Elevenlabs不是专门做语音模型的嘛

--【拾】--：

语音研究都没怎么停过，不过是豆包发力比较早，稍微领先了一点，集成在平台上了

--【拾壹】--：

外面都在拼编程拼一些生产力的东西，豆包这一块偏向生活体验的确实少一些

--【拾贰】--：

还有minimax吧，他们语音应该也挺强的。

--【拾叁】--：

张的野心一直是全方位领先同行如今还是在默默耕耘与各位人才一起突破加迭代拭目以待吧

--【拾肆】--：

不是还有qwen asr嘛，之前站内还火了一阵子

小米也出asr了

--【拾伍】--：

但是就豆包这个使用比较便捷呀，像小米的那个它也没有 APP，使用会麻烦一点，摸鱼的时候

--【拾陆】--：

需要进到打电话页面，选择场景，有一个灵魂歌手
才会唱
也不是任何一首歌都可以，一般只会唱部分片段

--【拾柒】--：

感觉别人家没有这么多钱来研究这个问题，自己有钱得很，他还研究什么视视频，什么这那的。他那个豆包里的功能特别多，还可以画图画图画得也很好

--【拾捌】--：

感觉字节语音发力得很早，22年公司从企业微信切换到飞书就是因为飞书的智能会议纪要功能非常好用。那个时候能做到40分钟-一个小时的视频、语音，3分钟给你转录成完整文字记录，而且能清楚区分发言人之间的区别。我们公司当年年底有一个和客户访谈的项目，当时的市场同事就是轻松用飞书完成了录音的整理。字节在这方面发力肯定比22年要早，豆包这方面的积累估计是很多很多年的事情了

--【拾玖】--：

那个唱歌的歌能我尝试了，他有些训练过的歌唱得还是挺好的

标签：树洞