豆包语音输入法直接以为我说的是日语
- 内容介绍
- 文章标签
- 相关推荐
Screenshot_20260412_0337541260×956 120 KB
Screenshot_20260412_0338111250×327 39.2 KB
有点奇怪,不知道好还是不好
但至少在APP 他说的话越少越好
因为这样避免他说这是个空耳词 然后说我说「翻译」这个说法略有不恰当 等等 一些乱七八糟的,跟主题无关的内容
网友解答:这里使用的是豆包APP的语音输入。可以理解为豆包语音输入法
--【壹】--: 欣欣|林可欣:
总之豆包语音输入法我是一辈子不会用的,除非接入搜狗生态 ()
豆包语音输入我是大概率在相当长一段时间内奉之为神的
请问佬为什么呀?豆包输入法有什么硬伤吗?
--【贰】--:
普通发不标准吧 哈哈哈
我用豆包输入法都挺正常的
--【叁】--:
哦哦,我还没把输入法用到适配词库和习惯那么深的程度,那可能可以考虑迁移一下用豆包输入法了。上面全是搜狗输入法语音输入的结果的话,看起来其他的语音输入功能也挺强大的。
--【肆】--:
是的,以上模型架构方面的技术分析应当保持怀疑的态度去阅读,豆包官方未开源过相关的技术细节。关于语音识别的差异,它在产品设计和用户体验方面的分析,还是比较专业且自洽的。
--【伍】--:
豆包App 和豆包输入法的的所使用的语音模型以及识别策略是有一定差异的。
在豆包App 中使用语音输入「红豆泥阿里嘎多」空耳日语谐音,三种模式(快速、思考和专家)均识别为日文。中文、英文和日文谐音语音(非标准发音)混合输入时仍能识别对应语种。
IMG_20260412_1109371080×1990 206 KB
豆包输入法语音输入空耳日语谐音时,会识别为中文,可以看到纠错能力还不错。中文和英文语音混合输入可以正确识别对应语种,和日文语音混合输入时,日语会被识别为中文汉字。
我也对两者的语音识别策略也很感兴趣(知识盲区 ),以下是豆包专家模式对此的解释。因图片有生成长度限制,部分内容被省略,详细对话内容可以查看分享链接。
https://www.doubao.com/thread/a0f8e41497e1d
share_image_17759640031671080×8608 1.25 MB
下载体验了一下,豆包的语音识别、纠错和意图理解确实很强大。豆包输入法语音输入虽支持离线模式,但其「输入模式 > 基础输入模式」(隐私模式)却又禁用语音输入,这一点对于在意隐私的用户来说比较遗憾 ,期待将来能开放使用。
--【陆】--:
AI的技术解析我一直保持怀疑态度,因为他总是说的有点模糊,有点含蓄,总感觉是不太知道,但只知道一点点的那样
所以还是怀疑官方是否真的有放出过像开源模型那样的详细完整的技术报告
总之豆包语音输入法我是一辈子不会用的,除非接入搜狗生态()
豆包语音输入我是大概率在相当长一段时间内奉之为神的
很多时候仍然选择日常对话,跟豆包聊天,一方面是由于现在API没什么用的了,竞技场也拉闸了
另一方面就是语音输入起码能给我一点好的体验,比搜狗输入法错误率低的多的多
再看豆包那个唐人回复,真觉得他配不上这个输入法
--【柒】--:
诶~ 是你的错觉,我大多时候用的直角引号 。
--【捌】--:
豆包输入法现在越用越傻逼。
剪切板分词又分的不咋地。
英文联想还老是自动感应全文跳来跳去,我真的服了。
--【玖】--:
这个我以前都有解释的,我是情怀党,任何东西只要用久了,我不会轻易放弃,特别是输入法这类承载我信息的 游戏删了,数据不会消失
但是输入法转移走了,想实现相同的功能(比如聊天),数据却不在了 一切从零开始,我无法接受
说接入搜狗生态有点过分了,一个简单的功能,把我的词库什么的个性化信息迁移了,那就好,我就愿意用,我愿意为了豆包的识别准确率放弃搜狗输入法,它也浪费了我很多时间
搜狗输入法就「了解我」这一点仍然牵挂着我
以上内容全部是搜狗输入法语音输入的结果
他会我的表达习惯 说出来的话就是我自己的话,豆包说出来的话,总要我后期修改 小改小闹,积少成多,浪费很多时间
--【拾】--:
感觉是有点问题,我哪天出去散步听到很奇怪的声音,想用豆包语音识别,结果没识别到文字就不管,也挺怪的
--【拾壹】--: Liberta:
输入「红豆泥阿里嘎多」空
话说你怎么也学习我使用直角引号了
要变成我的形状了
今天返工摸鱼,思考了很久
我突然意识到一个问题
你直接说红豆泥阿里嘎多,豆包是按照标准情况处理的 选择和他训练是学习到的模式最接近的一种 最通用 最全能,最可能被接受的一种
但是这里其实不能忽视语境的作用
豆包为什么能做到如此强大的准确率?我一直认为很大程度上是因为他的极致的语境结合能力,真正的让AI参与到音频理解与修订中
豆包特有的将图片也加入到上下文中,辅助语音输入,虽然目前来说上传图片,然后用语音输入并不能明显有效地触发这一点(在豆包里面也是这样 这句话好像白说,因为我刚才说了不用豆包输入法 只是怕误解w) 固然也强化了这一点
总结一句话就是你是直接说了这句话,而没有像我一样在这句话前面加上特定语境,比如「翻译」
如果我给的是一个空耳词,那我很大可能我不知道原来怎么写,我可能会说这个词是什么意思,解析一下「红豆泥…」之类的
一般不会对空耳词说「翻译」
至少我没有这个习惯,并不认同这种用法
Screenshot_20260412_0337541260×956 120 KB
Screenshot_20260412_0338111250×327 39.2 KB
有点奇怪,不知道好还是不好
但至少在APP 他说的话越少越好
因为这样避免他说这是个空耳词 然后说我说「翻译」这个说法略有不恰当 等等 一些乱七八糟的,跟主题无关的内容
网友解答:这里使用的是豆包APP的语音输入。可以理解为豆包语音输入法
--【壹】--: 欣欣|林可欣:
总之豆包语音输入法我是一辈子不会用的,除非接入搜狗生态 ()
豆包语音输入我是大概率在相当长一段时间内奉之为神的
请问佬为什么呀?豆包输入法有什么硬伤吗?
--【贰】--:
普通发不标准吧 哈哈哈
我用豆包输入法都挺正常的
--【叁】--:
哦哦,我还没把输入法用到适配词库和习惯那么深的程度,那可能可以考虑迁移一下用豆包输入法了。上面全是搜狗输入法语音输入的结果的话,看起来其他的语音输入功能也挺强大的。
--【肆】--:
是的,以上模型架构方面的技术分析应当保持怀疑的态度去阅读,豆包官方未开源过相关的技术细节。关于语音识别的差异,它在产品设计和用户体验方面的分析,还是比较专业且自洽的。
--【伍】--:
豆包App 和豆包输入法的的所使用的语音模型以及识别策略是有一定差异的。
在豆包App 中使用语音输入「红豆泥阿里嘎多」空耳日语谐音,三种模式(快速、思考和专家)均识别为日文。中文、英文和日文谐音语音(非标准发音)混合输入时仍能识别对应语种。
IMG_20260412_1109371080×1990 206 KB
豆包输入法语音输入空耳日语谐音时,会识别为中文,可以看到纠错能力还不错。中文和英文语音混合输入可以正确识别对应语种,和日文语音混合输入时,日语会被识别为中文汉字。
我也对两者的语音识别策略也很感兴趣(知识盲区 ),以下是豆包专家模式对此的解释。因图片有生成长度限制,部分内容被省略,详细对话内容可以查看分享链接。
https://www.doubao.com/thread/a0f8e41497e1d
share_image_17759640031671080×8608 1.25 MB
下载体验了一下,豆包的语音识别、纠错和意图理解确实很强大。豆包输入法语音输入虽支持离线模式,但其「输入模式 > 基础输入模式」(隐私模式)却又禁用语音输入,这一点对于在意隐私的用户来说比较遗憾 ,期待将来能开放使用。
--【陆】--:
AI的技术解析我一直保持怀疑态度,因为他总是说的有点模糊,有点含蓄,总感觉是不太知道,但只知道一点点的那样
所以还是怀疑官方是否真的有放出过像开源模型那样的详细完整的技术报告
总之豆包语音输入法我是一辈子不会用的,除非接入搜狗生态()
豆包语音输入我是大概率在相当长一段时间内奉之为神的
很多时候仍然选择日常对话,跟豆包聊天,一方面是由于现在API没什么用的了,竞技场也拉闸了
另一方面就是语音输入起码能给我一点好的体验,比搜狗输入法错误率低的多的多
再看豆包那个唐人回复,真觉得他配不上这个输入法
--【柒】--:
诶~ 是你的错觉,我大多时候用的直角引号 。
--【捌】--:
豆包输入法现在越用越傻逼。
剪切板分词又分的不咋地。
英文联想还老是自动感应全文跳来跳去,我真的服了。
--【玖】--:
这个我以前都有解释的,我是情怀党,任何东西只要用久了,我不会轻易放弃,特别是输入法这类承载我信息的 游戏删了,数据不会消失
但是输入法转移走了,想实现相同的功能(比如聊天),数据却不在了 一切从零开始,我无法接受
说接入搜狗生态有点过分了,一个简单的功能,把我的词库什么的个性化信息迁移了,那就好,我就愿意用,我愿意为了豆包的识别准确率放弃搜狗输入法,它也浪费了我很多时间
搜狗输入法就「了解我」这一点仍然牵挂着我
以上内容全部是搜狗输入法语音输入的结果
他会我的表达习惯 说出来的话就是我自己的话,豆包说出来的话,总要我后期修改 小改小闹,积少成多,浪费很多时间
--【拾】--:
感觉是有点问题,我哪天出去散步听到很奇怪的声音,想用豆包语音识别,结果没识别到文字就不管,也挺怪的
--【拾壹】--: Liberta:
输入「红豆泥阿里嘎多」空
话说你怎么也学习我使用直角引号了
要变成我的形状了
今天返工摸鱼,思考了很久
我突然意识到一个问题
你直接说红豆泥阿里嘎多,豆包是按照标准情况处理的 选择和他训练是学习到的模式最接近的一种 最通用 最全能,最可能被接受的一种
但是这里其实不能忽视语境的作用
豆包为什么能做到如此强大的准确率?我一直认为很大程度上是因为他的极致的语境结合能力,真正的让AI参与到音频理解与修订中
豆包特有的将图片也加入到上下文中,辅助语音输入,虽然目前来说上传图片,然后用语音输入并不能明显有效地触发这一点(在豆包里面也是这样 这句话好像白说,因为我刚才说了不用豆包输入法 只是怕误解w) 固然也强化了这一点
总结一句话就是你是直接说了这句话,而没有像我一样在这句话前面加上特定语境,比如「翻译」
如果我给的是一个空耳词,那我很大可能我不知道原来怎么写,我可能会说这个词是什么意思,解析一下「红豆泥…」之类的
一般不会对空耳词说「翻译」
至少我没有这个习惯,并不认同这种用法

