【开源自荐】说"PostgreSQL"给我转成"泼斯特格瑞赛口"，忍不了了，自己做了个语音输入法，连标点符号都能定制，支持 macOSWindowsiOS

2026-04-11 15:021阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

github.com

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

ByeType 是一个 Markdown 驱动的 AI 语音输入工具，用多模态大模型直接处理原始音频。编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略，人名、术语、口水词、数字格式一次转录到位，减少二次修改。支持 macOS、Windows 和 iOS。

做这个工具的起因很简单：平时工作要写大量文字，试过各种语音输入，体验都很糟糕。人名永远打错，“张昱"变成"张宇”，“覃旻"变成"秦敏”；技术术语全是谐音，“PostgreSQL"变成"泼斯特格瑞赛口”，“Kubernetes"变成"库伯内提斯”；口水词一个不漏，“嗯”“那个”"就是说"全保留在里面。每次说完还得花好几分钟逐字修改，效率反而更低了。

后来想到一个思路：现在的多模态大模型已经能直接听懂音频了，为什么不把识别规则、专有词汇这些东西写成提示词，让模型在转录的时候一步到位？不需要先转成文字再用另一个模型纠错，一次就搞定。

于是做了 ByeType。核心逻辑是用 Markdown 文件来控制转录行为，你想改什么规则，直接编辑文件就行。

词汇校正上， 把同事名字、产品名、技术术语写进词汇表，模型转录的时候会自动校正。比如你口述"我们用泼斯特格瑞赛口做数据库"，输出就是"我们用PostgreSQL做数据库"；说"让于谦用cursor开发，前端用莎德恩ui"，输出就是"让于谦用Cursor开发，前端用shadcn/ui"。公司内部的人名、项目代号这些也都能准确识别。（可自定义的）

规则制定上 ，你可以自己定任何规则，比如口述的数字和符号会自动转换成书面格式。"三千五百米"直接输出3500米，"百分之八十"变成80%，“四除以三等于零点七五"变成4/3=0.75，说“下划线”，输出“_”,说”斜杠clear”，输出“/clear”，说“圆圈1”，输出"①”。口水词也会自动清掉，说完就是干净的文本，不用再二次整理。（可自定义的）

文本排版上， 一口气说一大段话，AI会按语义自动分段换行。话题切换的地方插入空行，长段落在合适的位置断开。说完直接就能用，不需要自己调格式。（可自定义的）

手机端上， iPhone和iPad通过iOS快捷指令也能用，支持自定义词汇和规则，和桌面版共用同一个API Key（gemini或者longcat）。出门在外用手机，回到电脑前用桌面版，体验基本一致。

支持macOS和Windows，ByeType本身完全免费开源，不收任何费用。你需要自己去申请AI服务商的API Key，模型调用的费用由服务商收取，但实际上基本可以忽略不计——Gemini有免费额度，DeepSeek和LongCat的价格也很低。

说一下缺点：因为依赖云端模型，必须联网才能用。效果最好的是Gemini 3 Flash，但Gemini有时会遇到配额限制或网络波动导致响应变慢，这时候切换到Gemini 3.1 Flash Lite就行，两个来回切着用基本不影响体验。如果没有代理上不了Google，可以用LongCat+DeepSeek的国内组合，不需要翻墙，效果也不错。

image859×1165 135 KB

网友解答：

--【壹】--：

这个纯api调用的优点延迟是吧

--【贰】--：

感谢分享

--【叁】--：

感谢大佬

--【肆】--：

有啊，都是markdown文档，你写进去就可以，一直保留。类似于openclaw的记忆

--【伍】--：

有点意思

--【陆】--：

那这个词汇校正，是靠 LLM 及词汇表吗？但我一直在想词汇表是不是覆盖的不够全面呢。

--【柒】--：

LLM 本身基本就都有了，只有少部分你们自己的业务黑话，或者是容易错的地方需要自己定制，比如一般语音输入法无论如何识别不了 “赛口”就是SQL，你只要在规则里加上，用户说 “涩口/赛口”，识别为“SQL” 就行

--【捌】--：

豆包的输入法不是出来了吗语音输入准确率很高

--【玖】--：

佬，咱家这个语音输入法，是基于多模态的大模型（gemini3系列）。基于markdown编辑完全可定制。比如你说“下划线”，他能给你输出“_”,你说“双斜杠”，他能给你输出 “\”.你说“圆圈1”，他能你输出“①”。你的业务黑话，可以是词，可以是规则。这个豆包做不到吧～

--【拾】--：

那你这个挺厉害的高度定制啊

--【拾壹】--：

这个很有意思哇

--【拾贰】--：

那用户说的容易错的地方，你会有地方记录吗？达到下次就可以避免了。

--【拾叁】--：

感觉很有用

标签：人工智能软件开发开源推广

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

github.com

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

于是做了 ByeType。核心逻辑是用 Markdown 文件来控制转录行为，你想改什么规则，直接编辑文件就行。

image859×1165 135 KB

网友解答：

--【壹】--：

这个纯api调用的优点延迟是吧

--【贰】--：

感谢分享

--【叁】--：

感谢大佬

--【肆】--：

有啊，都是markdown文档，你写进去就可以，一直保留。类似于openclaw的记忆

--【伍】--：

有点意思

--【陆】--：

那这个词汇校正，是靠 LLM 及词汇表吗？但我一直在想词汇表是不是覆盖的不够全面呢。

--【柒】--：

--【捌】--：

豆包的输入法不是出来了吗语音输入准确率很高

--【玖】--：

--【拾】--：

那你这个挺厉害的高度定制啊

--【拾壹】--：

这个很有意思哇

--【拾贰】--：

那用户说的容易错的地方，你会有地方记录吗？达到下次就可以避免了。

--【拾叁】--：

感觉很有用

标签：人工智能软件开发开源推广

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

相关推荐

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

相关推荐