【开源】ByeType — 基于OMNI多模态大模型、通过Markdown 完全定义属于你自己的AI 语音输入法，支持macOSWindowsiOS

2026-04-11 08:141阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

github.com

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

ByeType 是一个 Markdown 驱动的 AI 语音输入工具，用多模态大模型直接处理原始音频。编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略，人名、术语、口水词、数字格式一次转录到位，减少二次修改。支持 macOS、Windows 和 iOS。

语音输入法该是什么样的？

语音输入应该是说完就能用的，不需要说完再花几分钟改错别字、加标点、调格式。但现实是，试遍了豆包、微信、讯飞，还有各种Whisper驱动的输入法，没有一个能做到。人名永远打错，术语全是谐音，口水词一个不漏，说完还是得靠键盘擦屁股。

所以我做了ByeType。思路很简单：现在的多模态大模型能直接听懂音频，那我把转录规则、词汇表写成提示词喂给它，让它一步到位，不就行了？

直接看对比。假设你对着话筒说了这么一段：

豆包/微信给你的：

嗯跟你说一下这个需求啊，就是第一步先把user下划线ID字段加上，然后第二步那个就是做一个校验，规则冒号用户名不能为空，第三步把结果输出到双横杠当前目录，还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低，基本上就这样

ByeType给你的：

跟你说一下这个需求。第1步先USER_ID字段加上，第2步做一个校验，规则：用户名不能为空，第3步把结果输出到--当前目录。优先级：①最高，②中等，③最低。

AI 图像文字识别——不只是 OCR

除了语音输入，ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动（text-extract.md），可自定义识别行为。

1.日常场景下

传统 OCR 给你的

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

ByeType给你的： – 完整的一段话，不被截断

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

2.claude code等终端场景下

传统 OCR 给你的

1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }

ByeType给你的： 去除行号装饰，修复断行，自动标注语言，输出可直接使用的代码

fn main() { let items = vec!["hello", "world"]; for item in &items { println!("{}", item); } }

为什么能做到?

语音转写：

第1阶段：语音转文字。多模态大模型直接听音频，一步到位转成文字。你可以编辑3个文件来控制： - `agent.md` — 角色设定，告诉AI"你只管转文字，别自作聪明" - `rules.md` — 转录规则，数字怎么转、符号怎么转、口水词怎么清 - `vocabulary.md` — 词汇表，人名术语写进去第2阶段：文本优化（可选）。转完的文字再过一遍AI做排版： - `text-optimize.md` — 按语义分行分段，让输出好看好读两个阶段各干各的，规则互不影响，不想要第2阶段可以直接关掉。

图像文字识别：

截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板 - `text-extract.md` — 控制识别行为，定义布局理解、格式保持等规则

模型支持

上次推荐 Qwen3.5 Omni，结果好多人反馈 Key 死活申请不下来，排队排到天荒地老。所以这次直接给你铺了好几条路：

模型	特点	获取 Key
Qwen 3.5 Omni Plus	效果好，国内直连	阿里云百炼（如果你能申请到的话）
Qwen 3.5 Omni Flash	速度更快，国内直连	同上
LongCat Flash Omni	Qwen 的替代方案，国内直连，注册就能用	LongCat
MiMo v2 Omni	小米的 Omni 模型，国内直连	小米 MiMo
Gemini 3.0 Flash	速度和质量均衡，需代理	Google AI Studio
Gemini 3.1 Flash Lite	更快速，适合低延迟，需代理	同上

效果来说都不错，速度有快有慢。申请不到 Qwen 的，LongCat 和 MiMo 都是国内直连、注册就给 Key 的，直接用。实在不行还有 OpenRouter 中转 Gemini。

网友解答：

--【壹】--：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

github.com

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

语音输入法该是什么样的？

所以我做了ByeType。思路很简单：现在的多模态大模型能直接听懂音频，那我把转录规则、词汇表写成提示词喂给它，让它一步到位，不就行了？

直接看对比。假设你对着话筒说了这么一段：

豆包/微信给你的：

嗯跟你说一下这个需求啊，就是第一步先把user下划线ID字段加上，然后第二步那个就是做一个校验，规则冒号用户名不能为空，第三步把结果输出到双横杠当前目录，还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低，基本上就这样

ByeType给你的：

AI 图像文字识别——不只是 OCR

除了语音输入，ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动（text-extract.md），可自定义识别行为。

1.日常场景下

传统 OCR 给你的

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

ByeType给你的： – 完整的一段话，不被截断

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

2.claude code等终端场景下

传统 OCR 给你的

1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }

ByeType给你的： 去除行号装饰，修复断行，自动标注语言，输出可直接使用的代码

fn main() { let items = vec!["hello", "world"]; for item in &items { println!("{}", item); } }

为什么能做到?

语音转写：

图像文字识别：

截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板 - `text-extract.md` — 控制识别行为，定义布局理解、格式保持等规则

模型支持

上次推荐 Qwen3.5 Omni，结果好多人反馈 Key 死活申请不下来，排队排到天荒地老。所以这次直接给你铺了好几条路：

模型	特点	获取 Key
Qwen 3.5 Omni Plus	效果好，国内直连	阿里云百炼（如果你能申请到的话）
Qwen 3.5 Omni Flash	速度更快，国内直连	同上
LongCat Flash Omni	Qwen 的替代方案，国内直连，注册就能用	LongCat
MiMo v2 Omni	小米的 Omni 模型，国内直连	小米 MiMo
Gemini 3.0 Flash	速度和质量均衡，需代理	Google AI Studio
Gemini 3.1 Flash Lite	更快速，适合低延迟，需代理	同上

效果来说都不错，速度有快有慢。申请不到 Qwen 的，LongCat 和 MiMo 都是国内直连、注册就给 Key 的，直接用。实在不行还有 OpenRouter 中转 Gemini。

标签：人工智能软件开发开源推广

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

github.com

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

语音输入法该是什么样的？

所以我做了ByeType。思路很简单：现在的多模态大模型能直接听懂音频，那我把转录规则、词汇表写成提示词喂给它，让它一步到位，不就行了？

直接看对比。假设你对着话筒说了这么一段：

豆包/微信给你的：

嗯跟你说一下这个需求啊，就是第一步先把user下划线ID字段加上，然后第二步那个就是做一个校验，规则冒号用户名不能为空，第三步把结果输出到双横杠当前目录，还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低，基本上就这样

ByeType给你的：

AI 图像文字识别——不只是 OCR

除了语音输入，ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动（text-extract.md），可自定义识别行为。

1.日常场景下

传统 OCR 给你的

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

ByeType给你的： – 完整的一段话，不被截断

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

2.claude code等终端场景下

传统 OCR 给你的

1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }

ByeType给你的： 去除行号装饰，修复断行，自动标注语言，输出可直接使用的代码

fn main() { let items = vec!["hello", "world"]; for item in &items { println!("{}", item); } }

为什么能做到?

语音转写：

图像文字识别：

截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板 - `text-extract.md` — 控制识别行为，定义布局理解、格式保持等规则

模型支持

上次推荐 Qwen3.5 Omni，结果好多人反馈 Key 死活申请不下来，排队排到天荒地老。所以这次直接给你铺了好几条路：

模型	特点	获取 Key
Qwen 3.5 Omni Plus	效果好，国内直连	阿里云百炼（如果你能申请到的话）
Qwen 3.5 Omni Flash	速度更快，国内直连	同上
LongCat Flash Omni	Qwen 的替代方案，国内直连，注册就能用	LongCat
MiMo v2 Omni	小米的 Omni 模型，国内直连	小米 MiMo
Gemini 3.0 Flash	速度和质量均衡，需代理	Google AI Studio
Gemini 3.1 Flash Lite	更快速，适合低延迟，需代理	同上

效果来说都不错，速度有快有慢。申请不到 Qwen 的，LongCat 和 MiMo 都是国内直连、注册就给 Key 的，直接用。实在不行还有 OpenRouter 中转 Gemini。

网友解答：

--【壹】--：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

github.com

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

语音输入法该是什么样的？

所以我做了ByeType。思路很简单：现在的多模态大模型能直接听懂音频，那我把转录规则、词汇表写成提示词喂给它，让它一步到位，不就行了？

直接看对比。假设你对着话筒说了这么一段：

豆包/微信给你的：

嗯跟你说一下这个需求啊，就是第一步先把user下划线ID字段加上，然后第二步那个就是做一个校验，规则冒号用户名不能为空，第三步把结果输出到双横杠当前目录，还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低，基本上就这样

ByeType给你的：

AI 图像文字识别——不只是 OCR

除了语音输入，ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动（text-extract.md），可自定义识别行为。

1.日常场景下

传统 OCR 给你的

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

ByeType给你的： – 完整的一段话，不被截断

人工智能(AI)正在迅速发展，它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车，AI技术正在各个领域展现其潜力。

2.claude code等终端场景下

传统 OCR 给你的

1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }

ByeType给你的： 去除行号装饰，修复断行，自动标注语言，输出可直接使用的代码

fn main() { let items = vec!["hello", "world"]; for item in &items { println!("{}", item); } }

为什么能做到?

语音转写：

图像文字识别：

截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板 - `text-extract.md` — 控制识别行为，定义布局理解、格式保持等规则

模型支持

上次推荐 Qwen3.5 Omni，结果好多人反馈 Key 死活申请不下来，排队排到天荒地老。所以这次直接给你铺了好几条路：

模型	特点	获取 Key
Qwen 3.5 Omni Plus	效果好，国内直连	阿里云百炼（如果你能申请到的话）
Qwen 3.5 Omni Flash	速度更快，国内直连	同上
LongCat Flash Omni	Qwen 的替代方案，国内直连，注册就能用	LongCat
MiMo v2 Omni	小米的 Omni 模型，国内直连	小米 MiMo
Gemini 3.0 Flash	速度和质量均衡，需代理	Google AI Studio
Gemini 3.1 Flash Lite	更快速，适合低延迟，需代理	同上

效果来说都不错，速度有快有慢。申请不到 Qwen 的，LongCat 和 MiMo 都是国内直连、注册就给 Key 的，直接用。实在不行还有 OpenRouter 中转 Gemini。

标签：人工智能软件开发开源推广

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

语音输入法该是什么样的？

直接看对比。 假设你对着话筒说了这么一段：

AI 图像文字识别——不只是 OCR

1.日常场景下

2.claude code等终端场景下

为什么能做到?

模型支持

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

语音输入法该是什么样的？

直接看对比。 假设你对着话筒说了这么一段：

AI 图像文字识别——不只是 OCR

1.日常场景下

2.claude code等终端场景下

为什么能做到?

模型支持

相关推荐

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

语音输入法该是什么样的？

直接看对比。 假设你对着话筒说了这么一段：

AI 图像文字识别——不只是 OCR

1.日常场景下

2.claude code等终端场景下

为什么能做到?

模型支持

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

语音输入法该是什么样的？

直接看对比。 假设你对着话筒说了这么一段：

AI 图像文字识别——不只是 OCR

1.日常场景下

2.claude code等终端场景下

为什么能做到?

模型支持

相关推荐

直接看对比。假设你对着话筒说了这么一段：

直接看对比。假设你对着话筒说了这么一段：

直接看对比。假设你对着话筒说了这么一段：

直接看对比。假设你对着话筒说了这么一段：