[开源] VoiceInput — Windows 全局语音输入工具,按快捷键说话直接输入到任意应用
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
-
我的帖子已经打上 开源推广 标签: 是
-
我的开源项目完整开源,无未开源部分: 是
-
我的开源项目已链接认可 LINUX DO 社区: 是
-
我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
-
以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
github账号被标记,暂时账号页面和代码仓库都打不开了。
要下载可以看这里:[开源] VoiceInput — Windows 全局语音输入工具,按快捷键说话直接输入到任意应用 - #35,来自 yuan_1 ,先临时顶一下。
做了个 Windows 上的全局语音输入工具,按快捷键说话,文字直接输入到光标处。
为什么做这个?
用 Cursor 或者 CC 写代码的时候,经常需要给 AI 描述需求。打字太慢,复杂的需求要想清楚打出来要好几分钟;所以干脆自己做了一个按快捷键就能开始说话,再按一次自动添加到剪切板或者输入到当前光标位置的项目。
用了一段时间发现不止写代码好用,日常聊天、搜资料、写文档、汇报工作全都能用上,基本上任何需要打字的地方都可以替代。因此我把它开源出来。
每一次技术的进步都让交互变得更自然,更回归以人为本。相信在未来不久,人类和机器的交互方式会越来越多样和自然。这才是本工具的根本目标——代替键盘的主要交互手段,让用户摆脱打字限制,实现无拘束、高效率的表达。
它能做什么?
-
全局快捷键(默认
Ctrl+Shift+R),在任意应用中开始/停止录音。录音结束后自动识别,文字直接输入到光标处 + 复制到剪贴板。 -
支持智能润色:录完后经 LLM 润色,自动修正口语、补标点、整理成清晰的需求描述。
-
顶部悬浮指示器,录音中显示波形,长按停止按钮可作废本条。系统托盘常驻,切换模式、设备、快捷键都在右键菜单里。
基于阿里云 DashScope(通义千问 ASR),延迟低、识别准,免费额度足够日常使用。
演示
日常聊天、搜资料、写文档,说完就入框:
推荐的工作流:开启录音,一边说一边梳理项目架构,按快捷键结束后直接粘贴到对话框:
在 Cursor 里代替只支持英文的语音输入:
怎么用?
-
去 Releases 下载便携版 zip,解压即用
-
右键托盘图标 → API Key → 填入 DashScope Key(免费获取)
-
按
Ctrl+Shift+R开始录音,再按一次停止并自动输入
从源码运行:
git clone https://github.com/myuan19/voiceInput.git
cd voiceInput
uv venv && .venv\Scripts\activate
uv pip install -r src/requirements.txt
set DASHSCOPE_API_KEY=sk-xxxxxxxx
python -u src\main.py
技术栈
Python 3.12 + PyQt6 + DashScope SDK + PyAudio + pynput
GitHub地址
myuan19/voiceInput: Windows AI 语音输入 — 按快捷键说话即输入,支持润色。摆脱打字限制,实现无拘束、高效率的表达。
Release直达
Releases · myuan19/voiceInput
MIT 开源,欢迎 Star 和反馈。
有问题或建议直接在帖子里回复,或者去 GitHub 提 Issue 都行。
以下为AI润色内容:
image954×327 30.1 KB
网友解答:--【壹】--:
如果是 Mac,用微信的语音输入(长按 Fn)即可
--【贰】--:
我最近也在写这个,不过是在linux上上游有个sherpa-onnx的项目可以看看,很好用
--【叁】--:
这个好 谢谢分享!
--【肆】--:
有特色,带智能润色,star
--【伍】--:
自己蹬了三天了,几乎没怎么间断的在用,一共花了1.8元,所以成本方面应该还好。
此外,新的更新我也做了一些优化,例如针对输入设备的突然变更以及快捷键的全局拦截。同时支持不同的润色模型:flash 速度最快,Max 版本效果最强。
另外,还进行了一些预热处理。现在启动时基本无延迟,按下按键即可开始说话。此前会有零点几秒的等待感,现在仅需几毫秒即可启动。
此次更新后,功能已完善许多。现在这条消息就是用语音输入发送的。
--【陆】--:
支持本地模型吗?sensevoice、qwen3-asr-1.7B 等?
--【柒】--:
对,我刚追赶了 qwen3 的适配,还没测试呢
--【捌】--:
在公司说语音有点社死
--【玖】--:
push to talk:按下ctrl+win,可接入豆包和阿里云,有llm语言润色功能
capswriter:按下caps本地识别,延迟几乎没有
--【拾】--:
感谢佬友分享
--【拾壹】--:
谢谢佬的分享
--【拾贰】--:
6的起飞
--【拾叁】--:
感谢大佬。
--【拾肆】--:
收藏一下
--【拾伍】--:
非广告,注册两个typeless免费版够用了
--【拾陆】--:
我同事问我为何自言自语
--【拾柒】--:
我暂时在用成熟的产品,不过有新的还是愿意试一下。模型不时就会出现新的,软件更是几天冒出一个。
--【拾捌】--:
尝试了一下,真好用
--【拾玖】--:
没有支持,因为考虑到笔记本性能原因。为了兼顾效果和性能,就选择云服务了。你可以看下上面佬友发的 capswriter,那个貌似是支持的。
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
-
我的帖子已经打上 开源推广 标签: 是
-
我的开源项目完整开源,无未开源部分: 是
-
我的开源项目已链接认可 LINUX DO 社区: 是
-
我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
-
以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
github账号被标记,暂时账号页面和代码仓库都打不开了。
要下载可以看这里:[开源] VoiceInput — Windows 全局语音输入工具,按快捷键说话直接输入到任意应用 - #35,来自 yuan_1 ,先临时顶一下。
做了个 Windows 上的全局语音输入工具,按快捷键说话,文字直接输入到光标处。
为什么做这个?
用 Cursor 或者 CC 写代码的时候,经常需要给 AI 描述需求。打字太慢,复杂的需求要想清楚打出来要好几分钟;所以干脆自己做了一个按快捷键就能开始说话,再按一次自动添加到剪切板或者输入到当前光标位置的项目。
用了一段时间发现不止写代码好用,日常聊天、搜资料、写文档、汇报工作全都能用上,基本上任何需要打字的地方都可以替代。因此我把它开源出来。
每一次技术的进步都让交互变得更自然,更回归以人为本。相信在未来不久,人类和机器的交互方式会越来越多样和自然。这才是本工具的根本目标——代替键盘的主要交互手段,让用户摆脱打字限制,实现无拘束、高效率的表达。
它能做什么?
-
全局快捷键(默认
Ctrl+Shift+R),在任意应用中开始/停止录音。录音结束后自动识别,文字直接输入到光标处 + 复制到剪贴板。 -
支持智能润色:录完后经 LLM 润色,自动修正口语、补标点、整理成清晰的需求描述。
-
顶部悬浮指示器,录音中显示波形,长按停止按钮可作废本条。系统托盘常驻,切换模式、设备、快捷键都在右键菜单里。
基于阿里云 DashScope(通义千问 ASR),延迟低、识别准,免费额度足够日常使用。
演示
日常聊天、搜资料、写文档,说完就入框:
推荐的工作流:开启录音,一边说一边梳理项目架构,按快捷键结束后直接粘贴到对话框:
在 Cursor 里代替只支持英文的语音输入:
怎么用?
-
去 Releases 下载便携版 zip,解压即用
-
右键托盘图标 → API Key → 填入 DashScope Key(免费获取)
-
按
Ctrl+Shift+R开始录音,再按一次停止并自动输入
从源码运行:
git clone https://github.com/myuan19/voiceInput.git
cd voiceInput
uv venv && .venv\Scripts\activate
uv pip install -r src/requirements.txt
set DASHSCOPE_API_KEY=sk-xxxxxxxx
python -u src\main.py
技术栈
Python 3.12 + PyQt6 + DashScope SDK + PyAudio + pynput
GitHub地址
myuan19/voiceInput: Windows AI 语音输入 — 按快捷键说话即输入,支持润色。摆脱打字限制,实现无拘束、高效率的表达。
Release直达
Releases · myuan19/voiceInput
MIT 开源,欢迎 Star 和反馈。
有问题或建议直接在帖子里回复,或者去 GitHub 提 Issue 都行。
以下为AI润色内容:
image954×327 30.1 KB
网友解答:--【壹】--:
如果是 Mac,用微信的语音输入(长按 Fn)即可
--【贰】--:
我最近也在写这个,不过是在linux上上游有个sherpa-onnx的项目可以看看,很好用
--【叁】--:
这个好 谢谢分享!
--【肆】--:
有特色,带智能润色,star
--【伍】--:
自己蹬了三天了,几乎没怎么间断的在用,一共花了1.8元,所以成本方面应该还好。
此外,新的更新我也做了一些优化,例如针对输入设备的突然变更以及快捷键的全局拦截。同时支持不同的润色模型:flash 速度最快,Max 版本效果最强。
另外,还进行了一些预热处理。现在启动时基本无延迟,按下按键即可开始说话。此前会有零点几秒的等待感,现在仅需几毫秒即可启动。
此次更新后,功能已完善许多。现在这条消息就是用语音输入发送的。
--【陆】--:
支持本地模型吗?sensevoice、qwen3-asr-1.7B 等?
--【柒】--:
对,我刚追赶了 qwen3 的适配,还没测试呢
--【捌】--:
在公司说语音有点社死
--【玖】--:
push to talk:按下ctrl+win,可接入豆包和阿里云,有llm语言润色功能
capswriter:按下caps本地识别,延迟几乎没有
--【拾】--:
感谢佬友分享
--【拾壹】--:
谢谢佬的分享
--【拾贰】--:
6的起飞
--【拾叁】--:
感谢大佬。
--【拾肆】--:
收藏一下
--【拾伍】--:
非广告,注册两个typeless免费版够用了
--【拾陆】--:
我同事问我为何自言自语
--【拾柒】--:
我暂时在用成熟的产品,不过有新的还是愿意试一下。模型不时就会出现新的,软件更是几天冒出一个。
--【拾捌】--:
尝试了一下,真好用
--【拾玖】--:
没有支持,因为考虑到笔记本性能原因。为了兼顾效果和性能,就选择云服务了。你可以看下上面佬友发的 capswriter,那个貌似是支持的。

![[开源] VoiceInput — Windows 全局语音输入工具,按快捷键说话直接输入到任意应用](/imgrand/YUra8Y4A.webp)