记录一些语音相关大模型的东西 | 语音识别(ASR), 文字转语音(TTS), 音色转换(STS)相关的项目

2026-04-11 11:230阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

语音识别部分

一、标志性的Whisper

openAI做的转录模型,开源,而且可以输出SRT。当时出来了减轻了很多字幕组的工作量。但是在今天的精度已经比不过如qwen3-asr等模型

仓库:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub

我之前很喜欢的一个GUI页面:GitHub - CheshireCC/faster-whisper-GUI: faster_whisper GUI with PySide6 · GitHub

我之前在用的打轴+翻译工具整合包(基于Whisper): https://www.bilibili.com/video/BV1MWhGz5Ej9

faster-whisper 模型下载:Models – Hugging Face

二、准确率大幅提高的Qwen3-ASR

Qwen3的这个ASR在当时刚出来的时候效果很惊艳,就是不支持带时间轴的SRT格式,但是也有项目使用切分功能间接支持了时间轴,就是精度不是太细。现在依然有很多人用这个作为主力。

阅读全文
标签:TTSASR
问题描述:

语音识别部分

一、标志性的Whisper

openAI做的转录模型,开源,而且可以输出SRT。当时出来了减轻了很多字幕组的工作量。但是在今天的精度已经比不过如qwen3-asr等模型

仓库:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub

我之前很喜欢的一个GUI页面:GitHub - CheshireCC/faster-whisper-GUI: faster_whisper GUI with PySide6 · GitHub

我之前在用的打轴+翻译工具整合包(基于Whisper): https://www.bilibili.com/video/BV1MWhGz5Ej9

faster-whisper 模型下载:Models – Hugging Face

二、准确率大幅提高的Qwen3-ASR

Qwen3的这个ASR在当时刚出来的时候效果很惊艳,就是不支持带时间轴的SRT格式,但是也有项目使用切分功能间接支持了时间轴,就是精度不是太细。现在依然有很多人用这个作为主力。

阅读全文
标签:TTSASR