怎么感觉现在国际上只有豆包在研究语音模型

2026-04-29 08:571阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

因为我一个人在办公
所以摸鱼的时候我就在想我跟豆宝打电话聊会儿天
然后我又在想别人的语音模型怎么样了，我记得 gpt 以前搞过，后来就没有什么后续
我记得 kimi 以前也研究过
我又问问豆包儿，豆包说它的模型是四月份更新的语音的那个模型，感觉别人的语言模型都很久很久没有更新过了

网友解答：

--【壹】--：

我真的很好奇，抖音上有刷到让豆包唱歌的，但是我让它唱的时候感觉差距很明显，不像活人

--【贰】--：

ChatGPT现在还是能打电话：1-800-ChatGPT

MiniMax的语音模型现在应该是最强的，最近试了下新的 Gemini 3 Flash TTS 也还不错。

--【叁】--：

字节手里很多音视频资源，所以语音视频模型能力都挺强，我猜的

--【肆】--：

他的语言模型专家模式还不错，他画画和他生成视频感觉都挺不错的

--【伍】--：

gpt的语音模型很垃圾，垃圾到不想用，音色也难听

--【陆】--：

在我的认知和体验里，豆包的语音模型是全球第一，字节主打产品体验，没有拼模型能力，是一个聪明的决策。

标签：树洞

问题描述：

因为我一个人在办公
所以摸鱼的时候我就在想我跟豆宝打电话聊会儿天
然后我又在想别人的语音模型怎么样了，我记得 gpt 以前搞过，后来就没有什么后续
我记得 kimi 以前也研究过
我又问问豆包儿，豆包说它的模型是四月份更新的语音的那个模型，感觉别人的语言模型都很久很久没有更新过了

网友解答：

--【壹】--：

我真的很好奇，抖音上有刷到让豆包唱歌的，但是我让它唱的时候感觉差距很明显，不像活人

--【贰】--：

ChatGPT现在还是能打电话：1-800-ChatGPT

MiniMax的语音模型现在应该是最强的，最近试了下新的 Gemini 3 Flash TTS 也还不错。

--【叁】--：

字节手里很多音视频资源，所以语音视频模型能力都挺强，我猜的

--【肆】--：

他的语言模型专家模式还不错，他画画和他生成视频感觉都挺不错的

--【伍】--：

gpt的语音模型很垃圾，垃圾到不想用，音色也难听

--【陆】--：

在我的认知和体验里，豆包的语音模型是全球第一，字节主打产品体验，没有拼模型能力，是一个聪明的决策。

标签：树洞