微信扫码
添加专属顾问
我要投稿
语音输入法正在颠覆传统键盘输入,字节跳动内测的豆包输入法或将带来全新体验。 核心内容: 1. 语音输入法的优势与未来趋势 2. Whisper Flow的创新理念与局限性 3. 字节跳动豆包输入法的内测进展与期待
说一个可能有争议的观点:
键盘已经是上个时代的产物。
用不了几年时间,语音将彻底取代键盘,成为我们主要的输入方式。
我同事并不认同这个判断。
他说,在办公室、会议室这些场景里,谁会用语音输入?那不尴尬死吗?谁能受得了这样的同事?
我理解他的想法。可问题是,当你真正深度使用了语音输入法之后,你就会明白,什么叫爽。
去年,国外有一款产品叫 Whisper Flow,在硅谷创业圈里口碑极好。它的目标很大胆,让人类彻底停止使用键盘。
乍一听像噱头,但这款产品确实有很多创新的理念和设计。我下周有空的话,准备翻译一篇他们创始人的播客,人家很有见地。
作为一款语音输入工具,Whisper Flow 不只是识别用户说了什么,而是利用 AI 技术,重点去理解用户想表达什么。
这不是车轱辘话。
在过去二十年里,几乎所有语音识别技术都在追求一个指标:Word Error Rate(词错误率)。它衡量的是产品能否把用户说的每一个字都准确转录成文字。
但 Whisper Flow 的思路完全不同,它认为除了优化词错误率这个指标外,还应该进行语义与意图重构,让语音内容直接变成自然、符合语境的书面表达。
所以,Whisper Flow 不做逐字转写,而是通过大模型理解语音的上下文、语气、意图、语言风格,输出符合场景的自然语言。
举个例子,当用户说:
“Hey just checking in if we’re good for tomorrow?”。
Whisper 会自动判断用户正在写一封正式邮件,它输出的结果是:
“Hi, just wanted to confirm if our meeting for tomorrow is still on schedule.”
用户不需要再担心语病或格式问题,几乎不需要再校对文本,就能直接发送。简而言之,传统语音系统是从声音 → 文字。
而 Whisper Flow 则是:声音 → 意图 → 语言风格 → 文字。
我很喜欢 Whisper Flow 创始人之前说过的一个观点:我们不是语音识别软件,而是一种让用户思考速度跟上打字速度的方式。
但 Whisper Flow 有个缺点:对中文的支持很差。我去年用了半个月后,也就没再继续用。直到 8 月,我又开始继续装回来使用 Whisper Flow,还有 Spokenly.....
不过,还是不尽如人意。
我一直在等国内的头部公司切入这块市场。特别是微信输入法,它是这几年国内输入法领域的后起之秀,微信团队的产品能力在国内口碑不错。
而且微信输入法也已经是我的主力输入法,它的多端同步功能做的很不错。相比百度输入法和搜狗,微信整体还是做到了简约和丰富。
但微信输入法在语音输入方面却未见什么尝试。
国庆节前,字节跳动开始内测一款全新的语音输入法:豆包输入法。果然,AI 领域还得是字节,速度非常之快。回忆了下,字节的音频模型在国内也是佼佼者。
我已经从朋友那里拿到了内测。只看界面,豆包输入法和微信输入法、搜索输入法、百度输入法还没有大的区别。
不过,从两个语音输入的按钮可以看到,豆包输入法瞄准的显然是语音输入,它肯定不是和老一代的输入法卷谁更懂拼音,卷谁的体验更好,卷谁的词库更好。这本身意义不大。
语音输入,才是新的增量机会。
目前,豆包输入法只有移动端。估计很快,他们就会上线应用商店了。现在我是通过 TestFlight 拿到的体验资格。
我现在完全笃信,语音输入会成为新一代的主要输入方式。
我们家孩子今年上小学,他的小天才手表,默认输入法就是语音。一开始我觉得那玩意儿太麻烦,还不如直接打字。
但看着他一边走一边说,几秒钟就能发出一条信息,我才意识到,也许从他们这一代开始,输入方式已经在悄悄改变。
可能在孩子眼里,键盘早就是一个多余的东西。
不知道大家有没有注意到。微信和飞书也都已经在应用内深度优化自己的语音输入了。
我日常和朋友同事聊微信,只要不在电脑前,只要方便语音,我就会用语音的方式来输入。
注意,不是直接发语音,而是用微信内置的语音输入功能,完成语音到文字的转换。
飞书也是如此。在群聊里,他会拿到聊天的 Context,然后进行优化。比如下面的例子,我说阿颖之类,它会直接帮我艾特阿颖这个 ID。相当方便。
豆包输入法还没 PC 端。我还在同步使用另外一款 PC 端的语音输入法:代体。这个名字多少不好传播,也不知道啥子意思。
它的使用很简单,只要按下 Fn 就行。代体的优点是识别准确率比较高,但缺点是没有像Whisper Flow 那样做深度的场景融入,包括呃、嗯之类的口癖有时候也没有去掉。
但即便这样,对于我而言,也省力不少。
今天的文章我主要就是使用代体,在PC端的飞书文档中写完的。因为很多时候思考的速度远大于键盘输入的速度,所以语音输入在这的优势就极为明显。
我只要脑子里头东西到了,然后文字也能跟着呈现出来。。。
记得 Whisper Flow 的创始人曾经说过,平均每人每天有 5-6 小时在打字,他们的产品能让这个时间减少一半。
这相当于为自己争回了几小时真正属于思考和创造的时间。
我知道,有人会说,打字有利于精准控制文字的表达,边敲键盘边写,有利于整理思路。是的,这些都是键盘式的输入方式给我们带来的习惯。我们在塑造工具,反过来,工具也在塑造我们。
无论如何,我真的觉得,语音输入法的时代正式开始了
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-13
2025 AI Agent 元年:你还在用 AI 聊天,别人已靠“智能体”成为“超级个体”
2025-10-13
为何底层数据湖决定了 AI Agent 的上限?
2025-10-13
从需求到运维:证券领域LLM增强型DevOps平台建设实践
2025-10-13
全网首发 OpenAI Apps SDK 使用教程
2025-10-13
Qoder + ADB Supabase :5分钟GET超火AI手办生图APP
2025-10-13
从原理到实践,一份给企业管理者的AI大模型认知指南
2025-10-13
一文带你了解模型量化、剪枝和蒸馏
2025-10-13
AI测试工具的“三重奏”:从数据到Agent的工程化路径
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-13
2025-10-09
2025-10-09
2025-10-07
2025-10-04
2025-09-30
2025-09-29
2025-09-28