[开源] VoiceInput — Windows 全局语音输入工具,按快捷键说话直接输入到任意应用

2026-04-11 08:151阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:

  • 我的开源项目完整开源,无未开源部分:

  • 我的开源项目已链接认可 LINUX DO 社区:

  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:

  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


github账号被标记,暂时账号页面和代码仓库都打不开了。

要下载可以看这里:[开源] VoiceInput — Windows 全局语音输入工具,按快捷键说话直接输入到任意应用 - #35,来自 yuan_1 ,先临时顶一下。


做了个 Windows 上的全局语音输入工具,按快捷键说话,文字直接输入到光标处。

为什么做这个?

用 Cursor 或者 CC 写代码的时候,经常需要给 AI 描述需求。打字太慢,复杂的需求要想清楚打出来要好几分钟;所以干脆自己做了一个按快捷键就能开始说话,再按一次自动添加到剪切板或者输入到当前光标位置的项目。

用了一段时间发现不止写代码好用,日常聊天、搜资料、写文档、汇报工作全都能用上,基本上任何需要打字的地方都可以替代。因此我把它开源出来。

每一次技术的进步都让交互变得更自然,更回归以人为本。相信在未来不久,人类和机器的交互方式会越来越多样和自然。这才是本工具的根本目标——代替键盘的主要交互手段,让用户摆脱打字限制,实现无拘束、高效率的表达。

它能做什么?

  • 全局快捷键(默认 Ctrl+Shift+R),在任意应用中开始/停止录音。录音结束后自动识别,文字直接输入到光标处 + 复制到剪贴板。

  • 支持智能润色:录完后经 LLM 润色,自动修正口语、补标点、整理成清晰的需求描述。

  • 顶部悬浮指示器,录音中显示波形,长按停止按钮可作废本条。系统托盘常驻,切换模式、设备、快捷键都在右键菜单里。

基于阿里云 DashScope(通义千问 ASR),延迟低、识别准,免费额度足够日常使用。

演示

日常聊天、搜资料、写文档,说完就入框:

推荐的工作流:开启录音,一边说一边梳理项目架构,按快捷键结束后直接粘贴到对话框:

在 Cursor 里代替只支持英文的语音输入:

怎么用?

  1. 去 Releases 下载便携版 zip,解压即用

  2. 右键托盘图标 → API Key → 填入 DashScope Key(免费获取)

  3. Ctrl+Shift+R 开始录音,再按一次停止并自动输入

从源码运行:

git clone https://github.com/myuan19/voiceInput.git cd voiceInput uv venv && .venv\Scripts\activate uv pip install -r src/requirements.txt set DASHSCOPE_API_KEY=sk-xxxxxxxx python -u src\main.py

技术栈

Python 3.12 + PyQt6 + DashScope SDK + PyAudio + pynput

GitHub地址

myuan19/voiceInput: Windows AI 语音输入 — 按快捷键说话即输入,支持润色。摆脱打字限制,实现无拘束、高效率的表达。

Release直达

Releases · myuan19/voiceInput


MIT 开源,欢迎 Star 和反馈。

有问题或建议直接在帖子里回复,或者去 GitHub 提 Issue 都行。


以下为AI润色内容:

image954×327 30.1 KB

网友解答:
--【壹】--:

如果是 Mac,用微信的语音输入(长按 Fn)即可


--【贰】--:

我最近也在写这个,不过是在linux上上游有个sherpa-onnx的项目可以看看,很好用


--【叁】--:

这个好 谢谢分享!


--【肆】--:

有特色,带智能润色,star


--【伍】--:

自己蹬了三天了,几乎没怎么间断的在用,一共花了1.8元,所以成本方面应该还好。
此外,新的更新我也做了一些优化,例如针对输入设备的突然变更以及快捷键的全局拦截。同时支持不同的润色模型:flash 速度最快,Max 版本效果最强。
另外,还进行了一些预热处理。现在启动时基本无延迟,按下按键即可开始说话。此前会有零点几秒的等待感,现在仅需几毫秒即可启动。
此次更新后,功能已完善许多。现在这条消息就是用语音输入发送的。


--【陆】--:

支持本地模型吗?sensevoice、qwen3-asr-1.7B 等?


--【柒】--:

对,我刚追赶了 qwen3 的适配,还没测试呢


--【捌】--:

在公司说语音有点社死


--【玖】--:

push to talk:按下ctrl+win,可接入豆包和阿里云,有llm语言润色功能
capswriter:按下caps本地识别,延迟几乎没有


--【拾】--:

感谢佬友分享


--【拾壹】--:

谢谢佬的分享


--【拾贰】--:

6的起飞


--【拾叁】--:

感谢大佬。


--【拾肆】--:

收藏一下


--【拾伍】--:

非广告,注册两个typeless免费版够用了


--【拾陆】--:

我同事问我为何自言自语


--【拾柒】--:

我暂时在用成熟的产品,不过有新的还是愿意试一下。模型不时就会出现新的,软件更是几天冒出一个。


--【拾捌】--:

尝试了一下,真好用


--【拾玖】--:

没有支持,因为考虑到笔记本性能原因。为了兼顾效果和性能,就选择云服务了。你可以看下上面佬友发的 capswriter,那个貌似是支持的。

问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:

  • 我的开源项目完整开源,无未开源部分:

  • 我的开源项目已链接认可 LINUX DO 社区:

  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:

  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


github账号被标记,暂时账号页面和代码仓库都打不开了。

要下载可以看这里:[开源] VoiceInput — Windows 全局语音输入工具,按快捷键说话直接输入到任意应用 - #35,来自 yuan_1 ,先临时顶一下。


做了个 Windows 上的全局语音输入工具,按快捷键说话,文字直接输入到光标处。

为什么做这个?

用 Cursor 或者 CC 写代码的时候,经常需要给 AI 描述需求。打字太慢,复杂的需求要想清楚打出来要好几分钟;所以干脆自己做了一个按快捷键就能开始说话,再按一次自动添加到剪切板或者输入到当前光标位置的项目。

用了一段时间发现不止写代码好用,日常聊天、搜资料、写文档、汇报工作全都能用上,基本上任何需要打字的地方都可以替代。因此我把它开源出来。

每一次技术的进步都让交互变得更自然,更回归以人为本。相信在未来不久,人类和机器的交互方式会越来越多样和自然。这才是本工具的根本目标——代替键盘的主要交互手段,让用户摆脱打字限制,实现无拘束、高效率的表达。

它能做什么?

  • 全局快捷键(默认 Ctrl+Shift+R),在任意应用中开始/停止录音。录音结束后自动识别,文字直接输入到光标处 + 复制到剪贴板。

  • 支持智能润色:录完后经 LLM 润色,自动修正口语、补标点、整理成清晰的需求描述。

  • 顶部悬浮指示器,录音中显示波形,长按停止按钮可作废本条。系统托盘常驻,切换模式、设备、快捷键都在右键菜单里。

基于阿里云 DashScope(通义千问 ASR),延迟低、识别准,免费额度足够日常使用。

演示

日常聊天、搜资料、写文档,说完就入框:

推荐的工作流:开启录音,一边说一边梳理项目架构,按快捷键结束后直接粘贴到对话框:

在 Cursor 里代替只支持英文的语音输入:

怎么用?

  1. 去 Releases 下载便携版 zip,解压即用

  2. 右键托盘图标 → API Key → 填入 DashScope Key(免费获取)

  3. Ctrl+Shift+R 开始录音,再按一次停止并自动输入

从源码运行:

git clone https://github.com/myuan19/voiceInput.git cd voiceInput uv venv && .venv\Scripts\activate uv pip install -r src/requirements.txt set DASHSCOPE_API_KEY=sk-xxxxxxxx python -u src\main.py

技术栈

Python 3.12 + PyQt6 + DashScope SDK + PyAudio + pynput

GitHub地址

myuan19/voiceInput: Windows AI 语音输入 — 按快捷键说话即输入,支持润色。摆脱打字限制,实现无拘束、高效率的表达。

Release直达

Releases · myuan19/voiceInput


MIT 开源,欢迎 Star 和反馈。

有问题或建议直接在帖子里回复,或者去 GitHub 提 Issue 都行。


以下为AI润色内容:

image954×327 30.1 KB

网友解答:
--【壹】--:

如果是 Mac,用微信的语音输入(长按 Fn)即可


--【贰】--:

我最近也在写这个,不过是在linux上上游有个sherpa-onnx的项目可以看看,很好用


--【叁】--:

这个好 谢谢分享!


--【肆】--:

有特色,带智能润色,star


--【伍】--:

自己蹬了三天了,几乎没怎么间断的在用,一共花了1.8元,所以成本方面应该还好。
此外,新的更新我也做了一些优化,例如针对输入设备的突然变更以及快捷键的全局拦截。同时支持不同的润色模型:flash 速度最快,Max 版本效果最强。
另外,还进行了一些预热处理。现在启动时基本无延迟,按下按键即可开始说话。此前会有零点几秒的等待感,现在仅需几毫秒即可启动。
此次更新后,功能已完善许多。现在这条消息就是用语音输入发送的。


--【陆】--:

支持本地模型吗?sensevoice、qwen3-asr-1.7B 等?


--【柒】--:

对,我刚追赶了 qwen3 的适配,还没测试呢


--【捌】--:

在公司说语音有点社死


--【玖】--:

push to talk:按下ctrl+win,可接入豆包和阿里云,有llm语言润色功能
capswriter:按下caps本地识别,延迟几乎没有


--【拾】--:

感谢佬友分享


--【拾壹】--:

谢谢佬的分享


--【拾贰】--:

6的起飞


--【拾叁】--:

感谢大佬。


--【拾肆】--:

收藏一下


--【拾伍】--:

非广告,注册两个typeless免费版够用了


--【拾陆】--:

我同事问我为何自言自语


--【拾柒】--:

我暂时在用成熟的产品,不过有新的还是愿意试一下。模型不时就会出现新的,软件更是几天冒出一个。


--【拾捌】--:

尝试了一下,真好用


--【拾玖】--:

没有支持,因为考虑到笔记本性能原因。为了兼顾效果和性能,就选择云服务了。你可以看下上面佬友发的 capswriter,那个貌似是支持的。