记录一些语音相关大模型的东西 | 语音识别(ASR), 文字转语音(TTS), 音色转换(STS)相关的项目

2026-04-11 11:230阅读0评论SEO教程

问题描述：

语音识别部分

openAI做的转录模型，开源，而且可以输出SRT。当时出来了减轻了很多字幕组的工作量。但是在今天的精度已经比不过如qwen3-asr等模型。

仓库：GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub

我之前很喜欢的一个GUI页面：GitHub - CheshireCC/faster-whisper-GUI: faster_whisper GUI with PySide6 · GitHub

我之前在用的打轴+翻译工具整合包(基于Whisper): https://www.bilibili.com/video/BV1MWhGz5Ej9

faster-whisper 模型下载：Models – Hugging Face

Qwen3的这个ASR在当时刚出来的时候效果很惊艳，就是不支持带时间轴的SRT格式，但是也有项目使用切分功能间接支持了时间轴，就是精度不是太细。现在依然有很多人用这个作为主力。

标签：TTS ASR

问题描述：

openAI做的转录模型，开源，而且可以输出SRT。当时出来了减轻了很多字幕组的工作量。但是在今天的精度已经比不过如qwen3-asr等模型。

仓库：GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub

我之前很喜欢的一个GUI页面：GitHub - CheshireCC/faster-whisper-GUI: faster_whisper GUI with PySide6 · GitHub

我之前在用的打轴+翻译工具整合包(基于Whisper): https://www.bilibili.com/video/BV1MWhGz5Ej9

faster-whisper 模型下载：Models – Hugging Face

标签：TTS ASR