【开源】ByeType — 基于OMNI多模态大模型、通过Markdown 完全定义属于你自己的AI 语音输入法,支持macOSWindowsiOS
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...
ByeType 是一个 Markdown 驱动的 AI 语音输入工具,用多模态大模型直接处理原始音频。编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略,人名、术语、口水词、数字格式一次转录到位,减少二次修改。支持 macOS、Windows 和 iOS。
语音输入法该是什么样的?
语音输入应该是说完就能用的,不需要说完再花几分钟改错别字、加标点、调格式。但现实是,试遍了豆包、微信、讯飞,还有各种Whisper驱动的输入法,没有一个能做到。人名永远打错,术语全是谐音,口水词一个不漏,说完还是得靠键盘擦屁股。
所以我做了ByeType。思路很简单:现在的多模态大模型能直接听懂音频,那我把转录规则、词汇表写成提示词喂给它,让它一步到位,不就行了?
直接看对比。 假设你对着话筒说了这么一段:
豆包/微信给你的:
嗯跟你说一下这个需求啊,就是第一步先把user下划线ID字段加上,然后第二步那个就是做一个校验,规则冒号用户名不能为空,第三步把结果输出到双横杠当前目录,还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低,基本上就这样
ByeType给你的:
跟你说一下这个需求。
第1步先USER_ID字段加上,
第2步做一个校验,规则:用户名不能为空,
第3步把结果输出到--当前目录。
优先级:①最高,②中等,③最低。
AI 图像文字识别——不只是 OCR
除了语音输入,ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动(text-extract.md),可自定义识别行为。
1.日常场景下
传统 OCR 给你的
人工智能(AI)正在迅速发展,它已经开始
改变我们的生活方式和工作方式。从智能
手机助手到自动驾驶汽车,AI技术正在
各个领域展现其潜力。
ByeType给你的: – 完整的一段话,不被截断
人工智能(AI)正在迅速发展,它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车,AI技术正在各个领域展现其潜力。
2.claude code等终端场景下
传统 OCR 给你的
1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }
ByeType给你的: 去除行号装饰,修复断行,自动标注语言,输出可直接使用的代码
fn main() {
let items = vec!["hello", "world"];
for item in &items {
println!("{}", item);
}
}
为什么能做到?
语音转写:
第1阶段:语音转文字。多模态大模型直接听音频,一步到位转成文字。你可以编辑3个文件来控制:
- `agent.md` — 角色设定,告诉AI"你只管转文字,别自作聪明"
- `rules.md` — 转录规则,数字怎么转、符号怎么转、口水词怎么清
- `vocabulary.md` — 词汇表,人名术语写进去
第2阶段:文本优化(可选)。转完的文字再过一遍AI做排版:
- `text-optimize.md` — 按语义分行分段,让输出好看好读
两个阶段各干各的,规则互不影响,不想要第2阶段可以直接关掉。
图像文字识别:
截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板
- `text-extract.md` — 控制识别行为,定义布局理解、格式保持等规则
模型支持
上次推荐 Qwen3.5 Omni,结果好多人反馈 Key 死活申请不下来,排队排到天荒地老。所以这次直接给你铺了好几条路:
| 模型 | 特点 | 获取 Key |
|---|---|---|
| Qwen 3.5 Omni Plus | 效果好,国内直连 | 阿里云百炼(如果你能申请到的话) |
| Qwen 3.5 Omni Flash | 速度更快,国内直连 | 同上 |
| LongCat Flash Omni | Qwen 的替代方案,国内直连,注册就能用 | LongCat |
| MiMo v2 Omni | 小米的 Omni 模型,国内直连 | 小米 MiMo |
| Gemini 3.0 Flash | 速度和质量均衡,需代理 | Google AI Studio |
| Gemini 3.1 Flash Lite | 更快速,适合低延迟,需代理 | 同上 |
效果来说都不错,速度有快有慢。申请不到 Qwen 的,LongCat 和 MiMo 都是国内直连、注册就给 Key 的,直接用。实在不行还有 OpenRouter 中转 Gemini。
网友解答:--【壹】--:
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...
ByeType 是一个 Markdown 驱动的 AI 语音输入工具,用多模态大模型直接处理原始音频。编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略,人名、术语、口水词、数字格式一次转录到位,减少二次修改。支持 macOS、Windows 和 iOS。
语音输入法该是什么样的?
语音输入应该是说完就能用的,不需要说完再花几分钟改错别字、加标点、调格式。但现实是,试遍了豆包、微信、讯飞,还有各种Whisper驱动的输入法,没有一个能做到。人名永远打错,术语全是谐音,口水词一个不漏,说完还是得靠键盘擦屁股。
所以我做了ByeType。思路很简单:现在的多模态大模型能直接听懂音频,那我把转录规则、词汇表写成提示词喂给它,让它一步到位,不就行了?
直接看对比。 假设你对着话筒说了这么一段:
豆包/微信给你的:
嗯跟你说一下这个需求啊,就是第一步先把user下划线ID字段加上,然后第二步那个就是做一个校验,规则冒号用户名不能为空,第三步把结果输出到双横杠当前目录,还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低,基本上就这样
ByeType给你的:
跟你说一下这个需求。
第1步先USER_ID字段加上,
第2步做一个校验,规则:用户名不能为空,
第3步把结果输出到--当前目录。
优先级:①最高,②中等,③最低。
AI 图像文字识别——不只是 OCR
除了语音输入,ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动(text-extract.md),可自定义识别行为。
1.日常场景下
传统 OCR 给你的
人工智能(AI)正在迅速发展,它已经开始
改变我们的生活方式和工作方式。从智能
手机助手到自动驾驶汽车,AI技术正在
各个领域展现其潜力。
ByeType给你的: – 完整的一段话,不被截断
人工智能(AI)正在迅速发展,它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车,AI技术正在各个领域展现其潜力。
2.claude code等终端场景下
传统 OCR 给你的
1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }
ByeType给你的: 去除行号装饰,修复断行,自动标注语言,输出可直接使用的代码
fn main() {
let items = vec!["hello", "world"];
for item in &items {
println!("{}", item);
}
}
为什么能做到?
语音转写:
第1阶段:语音转文字。多模态大模型直接听音频,一步到位转成文字。你可以编辑3个文件来控制:
- `agent.md` — 角色设定,告诉AI"你只管转文字,别自作聪明"
- `rules.md` — 转录规则,数字怎么转、符号怎么转、口水词怎么清
- `vocabulary.md` — 词汇表,人名术语写进去
第2阶段:文本优化(可选)。转完的文字再过一遍AI做排版:
- `text-optimize.md` — 按语义分行分段,让输出好看好读
两个阶段各干各的,规则互不影响,不想要第2阶段可以直接关掉。
图像文字识别:
截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板
- `text-extract.md` — 控制识别行为,定义布局理解、格式保持等规则
模型支持
上次推荐 Qwen3.5 Omni,结果好多人反馈 Key 死活申请不下来,排队排到天荒地老。所以这次直接给你铺了好几条路:
| 模型 | 特点 | 获取 Key |
|---|---|---|
| Qwen 3.5 Omni Plus | 效果好,国内直连 | 阿里云百炼(如果你能申请到的话) |
| Qwen 3.5 Omni Flash | 速度更快,国内直连 | 同上 |
| LongCat Flash Omni | Qwen 的替代方案,国内直连,注册就能用 | LongCat |
| MiMo v2 Omni | 小米的 Omni 模型,国内直连 | 小米 MiMo |
| Gemini 3.0 Flash | 速度和质量均衡,需代理 | Google AI Studio |
| Gemini 3.1 Flash Lite | 更快速,适合低延迟,需代理 | 同上 |
效果来说都不错,速度有快有慢。申请不到 Qwen 的,LongCat 和 MiMo 都是国内直连、注册就给 Key 的,直接用。实在不行还有 OpenRouter 中转 Gemini。
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...
ByeType 是一个 Markdown 驱动的 AI 语音输入工具,用多模态大模型直接处理原始音频。编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略,人名、术语、口水词、数字格式一次转录到位,减少二次修改。支持 macOS、Windows 和 iOS。
语音输入法该是什么样的?
语音输入应该是说完就能用的,不需要说完再花几分钟改错别字、加标点、调格式。但现实是,试遍了豆包、微信、讯飞,还有各种Whisper驱动的输入法,没有一个能做到。人名永远打错,术语全是谐音,口水词一个不漏,说完还是得靠键盘擦屁股。
所以我做了ByeType。思路很简单:现在的多模态大模型能直接听懂音频,那我把转录规则、词汇表写成提示词喂给它,让它一步到位,不就行了?
直接看对比。 假设你对着话筒说了这么一段:
豆包/微信给你的:
嗯跟你说一下这个需求啊,就是第一步先把user下划线ID字段加上,然后第二步那个就是做一个校验,规则冒号用户名不能为空,第三步把结果输出到双横杠当前目录,还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低,基本上就这样
ByeType给你的:
跟你说一下这个需求。
第1步先USER_ID字段加上,
第2步做一个校验,规则:用户名不能为空,
第3步把结果输出到--当前目录。
优先级:①最高,②中等,③最低。
AI 图像文字识别——不只是 OCR
除了语音输入,ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动(text-extract.md),可自定义识别行为。
1.日常场景下
传统 OCR 给你的
人工智能(AI)正在迅速发展,它已经开始
改变我们的生活方式和工作方式。从智能
手机助手到自动驾驶汽车,AI技术正在
各个领域展现其潜力。
ByeType给你的: – 完整的一段话,不被截断
人工智能(AI)正在迅速发展,它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车,AI技术正在各个领域展现其潜力。
2.claude code等终端场景下
传统 OCR 给你的
1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }
ByeType给你的: 去除行号装饰,修复断行,自动标注语言,输出可直接使用的代码
fn main() {
let items = vec!["hello", "world"];
for item in &items {
println!("{}", item);
}
}
为什么能做到?
语音转写:
第1阶段:语音转文字。多模态大模型直接听音频,一步到位转成文字。你可以编辑3个文件来控制:
- `agent.md` — 角色设定,告诉AI"你只管转文字,别自作聪明"
- `rules.md` — 转录规则,数字怎么转、符号怎么转、口水词怎么清
- `vocabulary.md` — 词汇表,人名术语写进去
第2阶段:文本优化(可选)。转完的文字再过一遍AI做排版:
- `text-optimize.md` — 按语义分行分段,让输出好看好读
两个阶段各干各的,规则互不影响,不想要第2阶段可以直接关掉。
图像文字识别:
截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板
- `text-extract.md` — 控制识别行为,定义布局理解、格式保持等规则
模型支持
上次推荐 Qwen3.5 Omni,结果好多人反馈 Key 死活申请不下来,排队排到天荒地老。所以这次直接给你铺了好几条路:
| 模型 | 特点 | 获取 Key |
|---|---|---|
| Qwen 3.5 Omni Plus | 效果好,国内直连 | 阿里云百炼(如果你能申请到的话) |
| Qwen 3.5 Omni Flash | 速度更快,国内直连 | 同上 |
| LongCat Flash Omni | Qwen 的替代方案,国内直连,注册就能用 | LongCat |
| MiMo v2 Omni | 小米的 Omni 模型,国内直连 | 小米 MiMo |
| Gemini 3.0 Flash | 速度和质量均衡,需代理 | Google AI Studio |
| Gemini 3.1 Flash Lite | 更快速,适合低延迟,需代理 | 同上 |
效果来说都不错,速度有快有慢。申请不到 Qwen 的,LongCat 和 MiMo 都是国内直连、注册就给 Key 的,直接用。实在不行还有 OpenRouter 中转 Gemini。
网友解答:--【壹】--:
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...
ByeType 是一个 Markdown 驱动的 AI 语音输入工具,用多模态大模型直接处理原始音频。编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略,人名、术语、口水词、数字格式一次转录到位,减少二次修改。支持 macOS、Windows 和 iOS。
语音输入法该是什么样的?
语音输入应该是说完就能用的,不需要说完再花几分钟改错别字、加标点、调格式。但现实是,试遍了豆包、微信、讯飞,还有各种Whisper驱动的输入法,没有一个能做到。人名永远打错,术语全是谐音,口水词一个不漏,说完还是得靠键盘擦屁股。
所以我做了ByeType。思路很简单:现在的多模态大模型能直接听懂音频,那我把转录规则、词汇表写成提示词喂给它,让它一步到位,不就行了?
直接看对比。 假设你对着话筒说了这么一段:
豆包/微信给你的:
嗯跟你说一下这个需求啊,就是第一步先把user下划线ID字段加上,然后第二步那个就是做一个校验,规则冒号用户名不能为空,第三步把结果输出到双横杠当前目录,还有就是优先级的话圆圈1最高圆圈2中等圆圈3最低,基本上就这样
ByeType给你的:
跟你说一下这个需求。
第1步先USER_ID字段加上,
第2步做一个校验,规则:用户名不能为空,
第3步把结果输出到--当前目录。
优先级:①最高,②中等,③最低。
AI 图像文字识别——不只是 OCR
除了语音输入,ByeType 还内置了图像文字识别功能。同样由 Markdown 提示词驱动(text-extract.md),可自定义识别行为。
1.日常场景下
传统 OCR 给你的
人工智能(AI)正在迅速发展,它已经开始
改变我们的生活方式和工作方式。从智能
手机助手到自动驾驶汽车,AI技术正在
各个领域展现其潜力。
ByeType给你的: – 完整的一段话,不被截断
人工智能(AI)正在迅速发展,它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车,AI技术正在各个领域展现其潜力。
2.claude code等终端场景下
传统 OCR 给你的
1 │ fn main() {
2 │ let items = vec![“hel
3 │ lo”, “world”];
4 │ for item in &items
5 │ {
6 │ println!(“{}”,
7 │ item);
8 │ }
9 │ }
ByeType给你的: 去除行号装饰,修复断行,自动标注语言,输出可直接使用的代码
fn main() {
let items = vec!["hello", "world"];
for item in &items {
println!("{}", item);
}
}
为什么能做到?
语音转写:
第1阶段:语音转文字。多模态大模型直接听音频,一步到位转成文字。你可以编辑3个文件来控制:
- `agent.md` — 角色设定,告诉AI"你只管转文字,别自作聪明"
- `rules.md` — 转录规则,数字怎么转、符号怎么转、口水词怎么清
- `vocabulary.md` — 词汇表,人名术语写进去
第2阶段:文本优化(可选)。转完的文字再过一遍AI做排版:
- `text-optimize.md` — 按语义分行分段,让输出好看好读
两个阶段各干各的,规则互不影响,不想要第2阶段可以直接关掉。
图像文字识别:
截图选区 → 多模态大模型理解视觉布局 → 输出干净文本并复制到剪贴板
- `text-extract.md` — 控制识别行为,定义布局理解、格式保持等规则
模型支持
上次推荐 Qwen3.5 Omni,结果好多人反馈 Key 死活申请不下来,排队排到天荒地老。所以这次直接给你铺了好几条路:
| 模型 | 特点 | 获取 Key |
|---|---|---|
| Qwen 3.5 Omni Plus | 效果好,国内直连 | 阿里云百炼(如果你能申请到的话) |
| Qwen 3.5 Omni Flash | 速度更快,国内直连 | 同上 |
| LongCat Flash Omni | Qwen 的替代方案,国内直连,注册就能用 | LongCat |
| MiMo v2 Omni | 小米的 Omni 模型,国内直连 | 小米 MiMo |
| Gemini 3.0 Flash | 速度和质量均衡,需代理 | Google AI Studio |
| Gemini 3.1 Flash Lite | 更快速,适合低延迟,需代理 | 同上 |
效果来说都不错,速度有快有慢。申请不到 Qwen 的,LongCat 和 MiMo 都是国内直连、注册就给 Key 的,直接用。实在不行还有 OpenRouter 中转 Gemini。

