支持私有化部署的 声音克隆+TTS有推荐吗?(已有解决方案)

2026-04-29 10:112阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

目前有尝试过 fishaudio的fish-speech 和 CosyVoice3

网友解答:
--【壹】--:

mark。关注一下。


--【贰】--:

最近刚出的qwentts和s2pro


--【叁】--:

thanks!


--【肆】--:

想尝试的有indextts、fishaudio S2?、FunCineForge还有几个忘了


--【伍】--: Zoidberg.Pi:

indextts2

谢谢,我看了一下确实挺不错 也是个小模型。


--【陆】--:

所以,最后解决方案选择了啥?我自己是 Indextts2和qwentts


--【柒】--:

之前看到过一个moss tts

MOSS‑TTS 家族全开源 TTS再添强者 前沿快讯
[!success] 谢谢分享

--【捌】--:

qwentts


--【玖】--:

github搜索zai-tts吧,发github地址发不出来


--【拾】--:

我跟你一样,但是我还没有跑,晚上回去跑一下 因为我是amd的显卡 所以也要看支不支持rocm,我得回去测试一下 然后对比一下才能知道具体的一个选择 目前是定了方案


--【拾壹】--:

Cy,我也康康


--【拾贰】--:

只有indexTT2,没有其他


--【拾叁】--:

12g显存跑不动


--【拾肆】--:

qwentts 还可以吧

分享一下昨天写好的SKill Qwen3-tts 开发调优
单句语音生成 直接将文本转换为语音,支持三种语音模式 custom-voice:内置音色 + 情感指令 voice-design:自然语言描述音色 voice-clone:克隆参考音频 长文稿批量配音 将文章、剧本等长文本转换为完整的有声音频 用户文稿 → [AI分析生成配音稿] → [用户审核] → [批量TTS] → 完整语音.wav 就是下面这种效果 我因为是本地跑…

--【拾伍】--:

測試過很多很多tts

只推s2pro(已驗證BF16版)


--【拾陆】--:

谢谢,我这就去看看


--【拾柒】--:

indextts2


--【拾捌】--:

之前有用过的我列出来:

1.indextts2 2.sparktts 3.cosyvoice


--【拾玖】--:

s2pro 好像要20多g显存。我觉得这个场景不应该用这么大参数的模型。

标签:人工智能
问题描述:

目前有尝试过 fishaudio的fish-speech 和 CosyVoice3

网友解答:
--【壹】--:

mark。关注一下。


--【贰】--:

最近刚出的qwentts和s2pro


--【叁】--:

thanks!


--【肆】--:

想尝试的有indextts、fishaudio S2?、FunCineForge还有几个忘了


--【伍】--: Zoidberg.Pi:

indextts2

谢谢,我看了一下确实挺不错 也是个小模型。


--【陆】--:

所以,最后解决方案选择了啥?我自己是 Indextts2和qwentts


--【柒】--:

之前看到过一个moss tts

MOSS‑TTS 家族全开源 TTS再添强者 前沿快讯
[!success] 谢谢分享

--【捌】--:

qwentts


--【玖】--:

github搜索zai-tts吧,发github地址发不出来


--【拾】--:

我跟你一样,但是我还没有跑,晚上回去跑一下 因为我是amd的显卡 所以也要看支不支持rocm,我得回去测试一下 然后对比一下才能知道具体的一个选择 目前是定了方案


--【拾壹】--:

Cy,我也康康


--【拾贰】--:

只有indexTT2,没有其他


--【拾叁】--:

12g显存跑不动


--【拾肆】--:

qwentts 还可以吧

分享一下昨天写好的SKill Qwen3-tts 开发调优
单句语音生成 直接将文本转换为语音,支持三种语音模式 custom-voice:内置音色 + 情感指令 voice-design:自然语言描述音色 voice-clone:克隆参考音频 长文稿批量配音 将文章、剧本等长文本转换为完整的有声音频 用户文稿 → [AI分析生成配音稿] → [用户审核] → [批量TTS] → 完整语音.wav 就是下面这种效果 我因为是本地跑…

--【拾伍】--:

測試過很多很多tts

只推s2pro(已驗證BF16版)


--【拾陆】--:

谢谢,我这就去看看


--【拾柒】--:

indextts2


--【拾捌】--:

之前有用过的我列出来:

1.indextts2 2.sparktts 3.cosyvoice


--【拾玖】--:

s2pro 好像要20多g显存。我觉得这个场景不应该用这么大参数的模型。

标签:人工智能