美团发布 LongCat-AudioDiT 音频生成模型:说话人相似度指标提升至 0.818,现已开源

2026-04-11 13:070阅读0评论SEO基础
  • 内容介绍
  • 相关推荐
问题描述:

image2446×331 146 KB
image2347×504 252 KB
image2264×234 81 KB

  • 论文:[2603.29339v1] LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space
  • GitHub:GitHub - meituan-longcat/LongCat-AudioDiT · GitHub
  • HuggingFace:meituan-longcat/LongCat-AudioDiT-1B · Hugging Face
网友解答:
--【壹】--:

我尝试了不错


--【贰】--:

有点牛逼了 尝尝咸淡


--【叁】--:

1B参数,那就要试试了,之前都用fish audio