怎么感觉现在国际上只有豆包在研究语音模型

2026-04-29 08:571阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

因为我一个人在办公
所以摸鱼的时候我就在想 我跟豆宝打电话聊会儿天
然后我又在想别人的语音模型怎么样了,我记得 gpt 以前搞过,后来就没有什么后续
我记得 kimi 以前也研究过
我又问问豆包儿,豆包说它的模型是四月份更新的语音的那个模型,感觉别人的语言模型都很久很久没有更新过了

网友解答:
--【壹】--:

我真的很好奇,抖音上有刷到让豆包唱歌的 ,但是我让它唱的时候感觉差距很明显,不像活人


--【贰】--:

ChatGPT现在还是能打电话:1-800-ChatGPT

MiniMax的语音模型现在应该是最强的,最近试了下新的 Gemini 3 Flash TTS 也还不错。


--【叁】--:

字节手里很多音视频资源,所以语音视频模型能力都挺强,我猜的


--【肆】--:

他的语言模型专家模式还不错,他画画和他生成视频感觉都挺不错的


--【伍】--:

gpt的语音模型很垃圾,垃圾到不想用,音色也难听


--【陆】--:

在我的认知和体验里,豆包的语音模型是全球第一,字节主打产品体验,没有拼模型能力,是一个聪明的决策。

阅读全文
标签:树洞
问题描述:

因为我一个人在办公
所以摸鱼的时候我就在想 我跟豆宝打电话聊会儿天
然后我又在想别人的语音模型怎么样了,我记得 gpt 以前搞过,后来就没有什么后续
我记得 kimi 以前也研究过
我又问问豆包儿,豆包说它的模型是四月份更新的语音的那个模型,感觉别人的语言模型都很久很久没有更新过了

网友解答:
--【壹】--:

我真的很好奇,抖音上有刷到让豆包唱歌的 ,但是我让它唱的时候感觉差距很明显,不像活人


--【贰】--:

ChatGPT现在还是能打电话:1-800-ChatGPT

MiniMax的语音模型现在应该是最强的,最近试了下新的 Gemini 3 Flash TTS 也还不错。


--【叁】--:

字节手里很多音视频资源,所以语音视频模型能力都挺强,我猜的


--【肆】--:

他的语言模型专家模式还不错,他画画和他生成视频感觉都挺不错的


--【伍】--:

gpt的语音模型很垃圾,垃圾到不想用,音色也难听


--【陆】--:

在我的认知和体验里,豆包的语音模型是全球第一,字节主打产品体验,没有拼模型能力,是一个聪明的决策。

阅读全文
标签:树洞