美团发布 LongCat-AudioDiT 音频生成模型：说话人相似度指标提升至 0.818，现已开源

2026-04-11 13:070阅读0评论SEO基础

内容介绍
相关推荐

问题描述：

image2446×331 146 KB
image2347×504 252 KB
image2264×234 81 KB

论文：[2603.29339v1] LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space
GitHub：GitHub - meituan-longcat/LongCat-AudioDiT · GitHub
HuggingFace：meituan-longcat/LongCat-AudioDiT-1B · Hugging Face

网友解答：

--【壹】--：

我尝试了不错

--【贰】--：

有点牛逼了尝尝咸淡

--【叁】--：

1B参数，那就要试试了，之前都用fish audio

问题描述：

image2446×331 146 KB
image2347×504 252 KB
image2264×234 81 KB

论文：[2603.29339v1] LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space
GitHub：GitHub - meituan-longcat/LongCat-AudioDiT · GitHub
HuggingFace：meituan-longcat/LongCat-AudioDiT-1B · Hugging Face

网友解答：

--【壹】--：

我尝试了不错

--【贰】--：

有点牛逼了尝尝咸淡

--【叁】--：

1B参数，那就要试试了，之前都用fish audio