记录一些语音相关大模型的东西 | 语音识别(ASR), 文字转语音(TTS), 音色转换(STS)相关的项目

2026-04-11 11:231阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

语音识别部分

一、标志性的Whisper

openAI做的转录模型，开源，而且可以输出SRT。当时出来了减轻了很多字幕组的工作量。但是在今天的精度已经比不过如qwen3-asr等模型。

仓库：GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub

我之前很喜欢的一个GUI页面：GitHub - CheshireCC/faster-whisper-GUI: faster_whisper GUI with PySide6 · GitHub

我之前在用的打轴+翻译工具整合包(基于Whisper): https://www.bilibili.com/video/BV1MWhGz5Ej9

faster-whisper 模型下载：Models – Hugging Face

二、准确率大幅提高的Qwen3-ASR

Qwen3的这个ASR在当时刚出来的时候效果很惊艳，就是不支持带时间轴的SRT格式，但是也有项目使用切分功能间接支持了时间轴，就是精度不是太细。现在依然有很多人用这个作为主力。

仓库：GitHub - QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction. · GitHub

官方的一个工具箱：GitHub - QwenLM/Qwen3-ASR-Toolkit: Official Python toolkit for the Qwen3-ASR API. Parallel high‑throughput calls, robust long‑audio transcription, multi‑sample‑rate support. · GitHub

模型下载：Qwen3-ASR - a Qwen Collection

本地部署整合包的一个教程：https://www.bilibili.com/video/BV1UDffBbE2G

三、新秀vibevoice ASR——微软出品，甚至有语音输入法

[!quote] 2026-01-21: We open-sourced VibeVoice-ASR, a unified speech-to-text model designed to handle 60-minute long-form audio in a single pass, generating structured transcriptions containing Who (Speaker), When (Timestamps), and What (Content), with support for User-Customized Context. Try it in Playground.

VibeVoice-ASR is natively multilingual, supporting over 50 languages — check the supported languages for details.

The VibeVoice-ASR finetuning code is now available!

vLLM inference is now supported for faster inference; see vllm-asr for more details.

VibeVoice-ASR Technique Report is available.

比较新的模型，但是有说话人识别、时间戳、自定义上下文等功能，最长支持60分钟的录音。我在playground里试用了一下，效果确实很不错，就是暂时没看到整合包或者云端部署教程。

试用地址：https://d677a8c4456fb55738.gradio.live/

另外他们还用这个做了一个语音输入法，效果应该没豆包那个快，但是至少是开源的。

[!quote] 2026-03-29: VibeVoice-ASR is being adopted by the open-source community! Vibing, a voice-powered input method, is now built on top of VibeVoice-ASR. Download: macOS | Windows

TTS部分

这一部分的开源/闭源项目有很多了，我就只写我用过的，但是大伙可以自行修改文档。

一、GPT-SoVITS——夯中夯，极低成本就可以复刻音色

image927×285 55.3 KB

这东西当时出来我就震惊了，原来SoVITS对数据集的要求是很高的。而这个只需要大约1分钟的素材就可以有很好的效果，到现在我都还在用。~~主要是因为indextts2支持的语言比较少~~。

原作者视频：https://www.bilibili.com/video/BV12g4y1m7Uw/

Github地址：GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning) · GitHub

二、B站开源的indextts2

B这个开源的项目音色还原程度上更好，更强调情感控制。但是因为语种较少，所以我还是更喜欢前者。

整合包：https://www.bilibili.com/video/BV1znjRzLEGb/

仓库地址：index-tts · GitHub

三、新王Qwen3TTS

Qwen出的这个热度比较高，另外本地部署的要求也不是很高。虽然说还是有点小问题，但是输出的音频还是比较干净的。另外就是语种也非常丰富。但是情感表达上感觉不如前两者，未来可期吧。

效果展示：https://www.bilibili.com/video/BV1eT6BBYEZ2/

仓库地址：GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice cloning. · GitHub

变声部分(Sound to Sound)

一、标志性的So-VITS

AI翻唱的开山鼻祖，功不可没，就是调试的成本较高，对数据集的要求也较高。如果数据集较少或者处理不好，出来的效果也比较灾难。

仓库地址【已存档】：GitHub - innnky/so-vits-svc: 基于vits与softvc的歌声音色转换模型 · GitHub

[!attention] 因为仓库已存档，还是建议大家自己去B站找新一点的整合包

二、成本极低的RVC

夯中夯，我用的最久的AI翻唱项目。对显卡的要求很低，另外低延迟的特性使得很多实时变声器都是基于RVC二开而来的。同时对于数据集的要求也很低，十分钟的数据足以有很好的效果。

仓库地址：GitHub - RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Easily train a good VC model with voice data <= 10 mins! · GitHub

三、成本更低的DDSP

说实话这个项目我只是浅尝了一下，印象中对显卡和数据集的要求更低，但是在我自己测试的效果是不如RVC的。可能和个人训练的数据集也有关系

仓库地址：GitHub - yxlllc/DDSP-SVC: Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing) · GitHub

其他工具

一、MSST WebUI

音频分离工具，可分离音乐和人声，有的模型还可以分离各种乐器和人声。

我用的是这个版本：GitHub - AliceNavigator/Music-Source-Separation-Training-GUI: MSST-GUI is a Qt5-based inference GUI, designed to provide a convenient and intuitive way to inference (mainly for my own use) · GitHub

教程：https://www.bilibili.com/video/BV197njzqExb/

其他待补充^^

网友解答：

--【壹】--：

输入法我没试我昨天试着转了两个10分钟的长视频一个中文的我自己的口播一个日文的电台节目

中文口播那个对于热词识别的效果还挺不错的类似 openclaw opus CodeX 这种夹杂在中文中而且还有大小写切换的都表现的不错

日文的那个基本上也都对着设置了一两个人名其他内容也都能翻译对就是这个模型好像我自己的电脑是跑不起来的 demo又会出现重复输出一个字卡死的情况

97258fa1986ea394ad8377079b2409ef1239×499 53.5 KB

--【贰】--：

好贴，收藏收藏！！！

--【叁】--：

感谢大佬。

--【肆】--：

带speaker识别的我看微软这个vibevoice有我今天实测了一下也确实能看到准确度不知道如何

image634×152 19.7 KB

短剧这种有背景音影响的，上MSST做个提取纯人声咯？

--【伍】--：

感谢分享

--【陆】--：

按我的用量，一个月估计也就不到两块钱。

--【柒】--：

佬试过paraformer-v2这个模型吗，也是阿里百炼里有的，我看比千问 3 好像强一点

--【捌】--：

太全面了，多谢大佬

--【玖】--：

太全面了，感谢分享

--【拾】--：

太棒了！谢谢分享！

--【拾壹】--：

看了下都跑路了加了条注释

--【拾贰】--：

最近我也在自部署相关项目，想补充一点，部署了qwen3-asr，官方github给了toolkit项目，是可以直接生成srt文件的

--【拾叁】--：

感谢分享!!

--【拾肆】--：

我想找一个本地模型，可以把视频的语音转成文字，并且能区分角色。比如下载一篇短剧，把短剧喂给本地模型，模式识别语音转成文字区分角色。

有什么意见吗

--【拾伍】--：

当前在用 lazy typer 配合千问的 asr 实时显示流式传输。
还可以就是每次得改改字不知道是我麦克风的问题还是模型问题。
image512×207 41.4 KB
image1631×168 19.4 KB

--【拾陆】--：

so-vits-svc你给的那个的仓库早跑路了(

--【拾柒】--：

vibevoice这个输入法实测后处理效果比较好，虽然前置asr模型转录很糟糕没qwen3-asr强

--【拾捌】--：

有用感谢分享呀

--【拾玖】--：

哦对这个toolkit确实还不错我之前也在用刚写的时候忘记加进去了现在加了

标签：TTS ASR

问题描述：

语音识别部分

一、标志性的Whisper

openAI做的转录模型，开源，而且可以输出SRT。当时出来了减轻了很多字幕组的工作量。但是在今天的精度已经比不过如qwen3-asr等模型。

仓库：GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub

我之前很喜欢的一个GUI页面：GitHub - CheshireCC/faster-whisper-GUI: faster_whisper GUI with PySide6 · GitHub

我之前在用的打轴+翻译工具整合包(基于Whisper): https://www.bilibili.com/video/BV1MWhGz5Ej9

faster-whisper 模型下载：Models – Hugging Face

二、准确率大幅提高的Qwen3-ASR

模型下载：Qwen3-ASR - a Qwen Collection

本地部署整合包的一个教程：https://www.bilibili.com/video/BV1UDffBbE2G

三、新秀vibevoice ASR——微软出品，甚至有语音输入法

[!quote] 2026-01-21: We open-sourced VibeVoice-ASR, a unified speech-to-text model designed to handle 60-minute long-form audio in a single pass, generating structured transcriptions containing Who (Speaker), When (Timestamps), and What (Content), with support for User-Customized Context. Try it in Playground.

VibeVoice-ASR is natively multilingual, supporting over 50 languages — check the supported languages for details.

The VibeVoice-ASR finetuning code is now available!

vLLM inference is now supported for faster inference; see vllm-asr for more details.

VibeVoice-ASR Technique Report is available.

试用地址：https://d677a8c4456fb55738.gradio.live/

另外他们还用这个做了一个语音输入法，效果应该没豆包那个快，但是至少是开源的。

[!quote] 2026-03-29: VibeVoice-ASR is being adopted by the open-source community! Vibing, a voice-powered input method, is now built on top of VibeVoice-ASR. Download: macOS | Windows

TTS部分

这一部分的开源/闭源项目有很多了，我就只写我用过的，但是大伙可以自行修改文档。

一、GPT-SoVITS——夯中夯，极低成本就可以复刻音色

image927×285 55.3 KB

原作者视频：https://www.bilibili.com/video/BV12g4y1m7Uw/

Github地址：GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning) · GitHub

二、B站开源的indextts2

B这个开源的项目音色还原程度上更好，更强调情感控制。但是因为语种较少，所以我还是更喜欢前者。

整合包：https://www.bilibili.com/video/BV1znjRzLEGb/

仓库地址：index-tts · GitHub

三、新王Qwen3TTS

效果展示：https://www.bilibili.com/video/BV1eT6BBYEZ2/

变声部分(Sound to Sound)

一、标志性的So-VITS

AI翻唱的开山鼻祖，功不可没，就是调试的成本较高，对数据集的要求也较高。如果数据集较少或者处理不好，出来的效果也比较灾难。

仓库地址【已存档】：GitHub - innnky/so-vits-svc: 基于vits与softvc的歌声音色转换模型 · GitHub

[!attention] 因为仓库已存档，还是建议大家自己去B站找新一点的整合包

二、成本极低的RVC

仓库地址：GitHub - RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Easily train a good VC model with voice data <= 10 mins! · GitHub

三、成本更低的DDSP

说实话这个项目我只是浅尝了一下，印象中对显卡和数据集的要求更低，但是在我自己测试的效果是不如RVC的。可能和个人训练的数据集也有关系

仓库地址：GitHub - yxlllc/DDSP-SVC: Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing) · GitHub

其他工具

一、MSST WebUI

音频分离工具，可分离音乐和人声，有的模型还可以分离各种乐器和人声。

教程：https://www.bilibili.com/video/BV197njzqExb/

其他待补充^^

网友解答：

--【壹】--：

输入法我没试我昨天试着转了两个10分钟的长视频一个中文的我自己的口播一个日文的电台节目

中文口播那个对于热词识别的效果还挺不错的类似 openclaw opus CodeX 这种夹杂在中文中而且还有大小写切换的都表现的不错

97258fa1986ea394ad8377079b2409ef1239×499 53.5 KB

--【贰】--：

好贴，收藏收藏！！！

--【叁】--：

感谢大佬。

--【肆】--：

带speaker识别的我看微软这个vibevoice有我今天实测了一下也确实能看到准确度不知道如何

image634×152 19.7 KB

短剧这种有背景音影响的，上MSST做个提取纯人声咯？

--【伍】--：

感谢分享

--【陆】--：

按我的用量，一个月估计也就不到两块钱。

--【柒】--：

佬试过paraformer-v2这个模型吗，也是阿里百炼里有的，我看比千问 3 好像强一点

--【捌】--：

太全面了，多谢大佬

--【玖】--：

太全面了，感谢分享

--【拾】--：

太棒了！谢谢分享！

--【拾壹】--：

看了下都跑路了加了条注释

--【拾贰】--：

最近我也在自部署相关项目，想补充一点，部署了qwen3-asr，官方github给了toolkit项目，是可以直接生成srt文件的

--【拾叁】--：

感谢分享!!

--【拾肆】--：

我想找一个本地模型，可以把视频的语音转成文字，并且能区分角色。比如下载一篇短剧，把短剧喂给本地模型，模式识别语音转成文字区分角色。

有什么意见吗

--【拾伍】--：

--【拾陆】--：

so-vits-svc你给的那个的仓库早跑路了(

--【拾柒】--：

vibevoice这个输入法实测后处理效果比较好，虽然前置asr模型转录很糟糕没qwen3-asr强

--【拾捌】--：

有用感谢分享呀

--【拾玖】--：

哦对这个toolkit确实还不错我之前也在用刚写的时候忘记加进去了现在加了

标签：TTS ASR

语音识别部分

一、标志性的Whisper

二、准确率大幅提高的Qwen3-ASR

三、新秀vibevoice ASR——微软出品，甚至有语音输入法

TTS部分

一、GPT-SoVITS——夯中夯，极低成本就可以复刻音色

二、B站开源的indextts2

三、新王Qwen3TTS

变声部分(Sound to Sound)

一、标志性的So-VITS

二、成本极低的RVC

三、成本更低的DDSP

其他工具

一、MSST WebUI

相关推荐

语音识别部分

一、标志性的Whisper

二、准确率大幅提高的Qwen3-ASR

三、新秀vibevoice ASR——微软出品，甚至有语音输入法

TTS部分

一、GPT-SoVITS——夯中夯，极低成本就可以复刻音色

二、B站开源的indextts2

三、新王Qwen3TTS

变声部分(Sound to Sound)

一、标志性的So-VITS

二、成本极低的RVC

三、成本更低的DDSP

其他工具

一、MSST WebUI

相关推荐