【开源自荐】说"PostgreSQL"给我转成"泼斯特格瑞赛口",忍不了了,自己做了个语音输入法,连标点符号都能定制,支持 macOSWindowsiOS

2026-04-11 15:021阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

github.com

GitHub - lixiaojie001/byetype: ByeType 是一个 Markdown 驱动的 AI...

ByeType 是一个 Markdown 驱动的 AI 语音输入工具,用多模态大模型直接处理原始音频。编辑 Markdown 文件即可自定义专有词汇、转录规则和格式化策略,人名、术语、口水词、数字格式一次转录到位,减少二次修改。支持 macOS、Windows 和 iOS。

做这个工具的起因很简单:平时工作要写大量文字,试过各种语音输入,体验都很糟糕。人名永远打错,“张昱"变成"张宇”,“覃旻"变成"秦敏”;技术术语全是谐音,“PostgreSQL"变成"泼斯特格瑞赛口”,“Kubernetes"变成"库伯内提斯”;口水词一个不漏,“嗯”“那个”"就是说"全保留在里面。每次说完还得花好几分钟逐字修改,效率反而更低了。

后来想到一个思路:现在的多模态大模型已经能直接听懂音频了,为什么不把识别规则、专有词汇这些东西写成提示词,让模型在转录的时候一步到位?不需要先转成文字再用另一个模型纠错,一次就搞定。

于是做了 ByeType。核心逻辑是用 Markdown 文件来控制转录行为,你想改什么规则,直接编辑文件就行。


词汇校正上, 把同事名字、产品名、技术术语写进词汇表,模型转录的时候会自动校正。比如你口述"我们用泼斯特格瑞赛口做数据库",输出就是"我们用PostgreSQL做数据库";说"让于谦用cursor开发,前端用莎德恩ui",输出就是"让于谦用Cursor开发,前端用shadcn/ui"。公司内部的人名、项目代号这些也都能准确识别。(可自定义的)

规则制定上 ,你可以自己定任何规则,比如口述的数字和符号会自动转换成书面格式。"三千五百米"直接输出3500米,"百分之八十"变成80%,“四除以三等于零点七五"变成4/3=0.75,说“下划线”,输出“_”,说”斜杠clear”,输出“/clear”,说“圆圈1”,输出"①”。口水词也会自动清掉,说完就是干净的文本,不用再二次整理。 (可自定义的)

文本排版上, 一口气说一大段话,AI会按语义自动分段换行。话题切换的地方插入空行,长段落在合适的位置断开。说完直接就能用,不需要自己调格式。(可自定义的)

手机端上, iPhone和iPad通过iOS快捷指令也能用,支持自定义词汇和规则,和桌面版共用同一个API Key(gemini或者longcat)。出门在外用手机,回到电脑前用桌面版,体验基本一致。

支持macOS和Windows,ByeType本身完全免费开源,不收任何费用。你需要自己去申请AI服务商的API Key,模型调用的费用由服务商收取,但实际上基本可以忽略不计——Gemini有免费额度,DeepSeek和LongCat的价格也很低。

说一下缺点:因为依赖云端模型,必须联网才能用。效果最好的是Gemini 3 Flash,但Gemini有时会遇到配额限制或网络波动导致响应变慢,这时候切换到Gemini 3.1 Flash Lite就行,两个来回切着用基本不影响体验。如果没有代理上不了Google,可以用LongCat+DeepSeek的国内组合,不需要翻墙,效果也不错。

image859×1165 135 KB

网友解答:
--【壹】--:

这个纯api调用的优点延迟是吧


--【贰】--:

感谢分享


--【叁】--:

感谢大佬


--【肆】--:

有啊,都是markdown文档,你写进去就可以,一直保留。类似于openclaw的记忆


--【伍】--:

有点意思


--【陆】--:

那这个词汇校正,是靠 LLM 及词汇表吗?但我一直在想词汇表是不是覆盖的不够全面呢。


--【柒】--:

LLM 本身基本就都有了,只有少部分你们自己的业务黑话,或者是 容易错的地方需要自己定制,比如 一般 语音输入法 无论如何识别不了 “赛口”就是SQL,你只要在规则里加上,用户说 “涩口/赛口”,识别为“SQL” 就行


--【捌】--:

豆包的输入法不是出来了吗 语音输入准确率很高


--【玖】--:

佬,咱家这个语音输入法,是基于多模态的大模型(gemini3系列)。 基于markdown编辑完全可定制。 比如你说“下划线”,他能给你输出“_”,你说“双斜杠”,他能给你输出 “\”.你说“圆圈1”,他能你输出“①”。 你的业务黑话,可以是词,可以是规则。这个豆包做不到吧~


--【拾】--:

那你这个挺厉害的 高度定制啊


--【拾壹】--:

这个很有意思哇


--【拾贰】--:

那用户说的容易错的地方,你会有地方记录吗?达到下次就可以避免了。


--【拾叁】--:

感觉很有用