测试发现豆包输入法同时使用流式和文件语音识别
- 内容介绍
- 文章标签
- 相关推荐
账号登录-火山引擎
欢迎登录火山引擎,火山引擎是字节跳动旗下的云服务平台。
从对比豆包输入法和Typeless输入法语音识别效果
继续讨论
文件识别效果,对网络热词处理比较好
image1806×903 132 KB
image1806×903 126 KB
流式识别效果
image810×441 43.6 KB
豆包输入法流式显示文字的时候,用的是流式识别
点击结束后的最终文字,就对应文件识别的效果
Screenshot_2026-02-05-20-20-31-04_40deb401b9ffe8e1df2f1cc5ba480b121240×2772 158 KB
所以调用豆包API的时候,如果要达到豆包输入法的效果,就需要用到文件语音识别API
网友解答:--【壹】--:
我记得这个模型以前是闭源的时候,我就用了很多次了。如果这个模型很强的话,我就不会改用豆包语音了
--【贰】--:
最近怎么发现佬友一直研究豆包输入法,是和它杠上了吗
--【叁】--:
豆包是真的又快又好
--【肆】--:
老一套的输入法都是可以用离线识别的,现在的AI输入法都是在线
应该是离线跟在线识别实际的模型是一样的
--【伍】--:
那就有意思了,我下载试试
--【陆】--:
试下开源的qwen asr3
--【柒】--:
我试了一下用 API 调用千问和豆包的这两种模型,效果还是差别很大
--【捌】--:
豆包输入法的语音识别很强吗,我没有使用过
平时用搜狗感觉正常的输入没问题,有同音字或者网络热词容易识别不出来
--【玖】--:
是的,只要你选对API就能复刻,要选录音文件识别API
image1920×962 244 KB
--【拾】--:
我查了一下,好像是豆包更便宜吧
image1120×342 30.1 KB
--【拾壹】--:
意思是可以用豆包API复刻出豆包输入法的语音转文字效果吗?
--【拾贰】--:
豆包输入法也有离线版本,要150兆
--【拾叁】--:
因为这个最好用,我要在我的别的项目上调用API复刻出这样的效果
--【拾肆】--:
豆包好是好,这个价格也比千问贵好多,佬有试过elevenlabs的语音识别吗
--【拾伍】--:
感觉搜狗、百度、讯飞的输入法识别率都差不多,和现在的AI输入法差距都挺大的
--【拾陆】--:
墨子佬最近很执着豆包啊
--【拾柒】--:
通过几个app上自带的英语模式学习,发现豆包的识别是最高的,我们发音很不标准,但他能识别修改,
--【拾捌】--:
好奇怪,抓包抓不到语音识别的相关请求,但是其他的请求就能抓到
比如上报输入内容,设备信息等的包都能看到
--【拾玖】--:
而且免费送20小时,如果你只是用来语音输入,这完全够用了
账号登录-火山引擎
欢迎登录火山引擎,火山引擎是字节跳动旗下的云服务平台。
从对比豆包输入法和Typeless输入法语音识别效果
继续讨论
文件识别效果,对网络热词处理比较好
image1806×903 132 KB
image1806×903 126 KB
流式识别效果
image810×441 43.6 KB
豆包输入法流式显示文字的时候,用的是流式识别
点击结束后的最终文字,就对应文件识别的效果
Screenshot_2026-02-05-20-20-31-04_40deb401b9ffe8e1df2f1cc5ba480b121240×2772 158 KB
所以调用豆包API的时候,如果要达到豆包输入法的效果,就需要用到文件语音识别API
网友解答:--【壹】--:
我记得这个模型以前是闭源的时候,我就用了很多次了。如果这个模型很强的话,我就不会改用豆包语音了
--【贰】--:
最近怎么发现佬友一直研究豆包输入法,是和它杠上了吗
--【叁】--:
豆包是真的又快又好
--【肆】--:
老一套的输入法都是可以用离线识别的,现在的AI输入法都是在线
应该是离线跟在线识别实际的模型是一样的
--【伍】--:
那就有意思了,我下载试试
--【陆】--:
试下开源的qwen asr3
--【柒】--:
我试了一下用 API 调用千问和豆包的这两种模型,效果还是差别很大
--【捌】--:
豆包输入法的语音识别很强吗,我没有使用过
平时用搜狗感觉正常的输入没问题,有同音字或者网络热词容易识别不出来
--【玖】--:
是的,只要你选对API就能复刻,要选录音文件识别API
image1920×962 244 KB
--【拾】--:
我查了一下,好像是豆包更便宜吧
image1120×342 30.1 KB
--【拾壹】--:
意思是可以用豆包API复刻出豆包输入法的语音转文字效果吗?
--【拾贰】--:
豆包输入法也有离线版本,要150兆
--【拾叁】--:
因为这个最好用,我要在我的别的项目上调用API复刻出这样的效果
--【拾肆】--:
豆包好是好,这个价格也比千问贵好多,佬有试过elevenlabs的语音识别吗
--【拾伍】--:
感觉搜狗、百度、讯飞的输入法识别率都差不多,和现在的AI输入法差距都挺大的
--【拾陆】--:
墨子佬最近很执着豆包啊
--【拾柒】--:
通过几个app上自带的英语模式学习,发现豆包的识别是最高的,我们发音很不标准,但他能识别修改,
--【拾捌】--:
好奇怪,抓包抓不到语音识别的相关请求,但是其他的请求就能抓到
比如上报输入内容,设备信息等的包都能看到
--【拾玖】--:
而且免费送20小时,如果你只是用来语音输入,这完全够用了

