美团发布 LongCat-AudioDiT 音频生成模型:说话人相似度指标提升至 0.818,现已开源
- 内容介绍
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
image2446×331 146 KB
image2347×504 252 KB
image2264×234 81 KB
- 论文:[2603.29339v1] LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space
- GitHub:GitHub - meituan-longcat/LongCat-AudioDiT · GitHub
- HuggingFace:meituan-longcat/LongCat-AudioDiT-1B · Hugging Face
--【壹】--:
我尝试了不错
--【贰】--:
有点牛逼了 尝尝咸淡
--【叁】--:
1B参数,那就要试试了,之前都用fish audio
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
image2446×331 146 KB
image2347×504 252 KB
image2264×234 81 KB
- 论文:[2603.29339v1] LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space
- GitHub:GitHub - meituan-longcat/LongCat-AudioDiT · GitHub
- HuggingFace:meituan-longcat/LongCat-AudioDiT-1B · Hugging Face
--【壹】--:
我尝试了不错
--【贰】--:
有点牛逼了 尝尝咸淡
--【叁】--:
1B参数,那就要试试了,之前都用fish audio

