免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


字节正在内测一款全新的语音输入法

发布日期:2025-10-13 16:09:15 浏览次数: 1553
作者:AI产品阿颖

微信搜一搜,关注“AI产品阿颖”

推荐语

语音输入法正在颠覆传统键盘输入,字节跳动内测的豆包输入法或将带来全新体验。

核心内容:
1. 语音输入法的优势与未来趋势
2. Whisper Flow的创新理念与局限性
3. 字节跳动豆包输入法的内测进展与期待

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

说一个可能有争议的观点:

键盘已经是上个时代的产物。

用不了几年时间,语音将彻底取代键盘,成为我们主要的输入方式。

我同事并不认同这个判断。

他说,在办公室、会议室这些场景里,谁会用语音输入?那不尴尬死吗?谁能受得了这样的同事?

我理解他的想法。可问题是,当你真正深度使用了语音输入法之后,你就会明白,什么叫爽。

去年,国外有一款产品叫 Whisper Flow,在硅谷创业圈里口碑极好。它的目标很大胆,让人类彻底停止使用键盘。

乍一听像噱头,但这款产品确实有很多创新的理念和设计。我下周有空的话,准备翻译一篇他们创始人的播客,人家很有见地。

作为一款语音输入工具,Whisper Flow 不只是识别用户说了什么,而是利用 AI 技术,重点去理解用户想表达什么。

这不是车轱辘话。

在过去二十年里,几乎所有语音识别技术都在追求一个指标:Word Error Rate(词错误率)。它衡量的是产品能否把用户说的每一个字都准确转录成文字。

但 Whisper Flow 的思路完全不同,它认为除了优化词错误率这个指标外,还应该进行语义与意图重构,让语音内容直接变成自然、符合语境的书面表达。

所以,Whisper Flow 不做逐字转写,而是通过大模型理解语音的上下文、语气、意图、语言风格,输出符合场景的自然语言。

举个例子,当用户说:

“Hey just checking in if we’re good for tomorrow?”。

Whisper 会自动判断用户正在写一封正式邮件,它输出的结果是:

“Hi, just wanted to confirm if our meeting for tomorrow is still on schedule.”

用户不需要再担心语病或格式问题,几乎不需要再校对文本,就能直接发送。简而言之,传统语音系统是从声音 → 文字。

而 Whisper Flow 则是:声音 → 意图 → 语言风格 → 文字。

我很喜欢 Whisper Flow 创始人之前说过的一个观点:我们不是语音识别软件,而是一种让用户思考速度跟上打字速度的方式。

但 Whisper Flow 有个缺点:对中文的支持很差。我去年用了半个月后,也就没再继续用。直到 8 月,我又开始继续装回来使用 Whisper Flow,还有 Spokenly.....

不过,还是不尽如人意。

我一直在等国内的头部公司切入这块市场。特别是微信输入法,它是这几年国内输入法领域的后起之秀,微信团队的产品能力在国内口碑不错。

而且微信输入法也已经是我的主力输入法,它的多端同步功能做的很不错。相比百度输入法和搜狗,微信整体还是做到了简约和丰富。

但微信输入法在语音输入方面却未见什么尝试。

国庆节前,字节跳动开始内测一款全新的语音输入法:豆包输入法。果然,AI 领域还得是字节,速度非常之快。回忆了下,字节的音频模型在国内也是佼佼者。

我已经从朋友那里拿到了内测。只看界面,豆包输入法和微信输入法、搜索输入法、百度输入法还没有大的区别。

不过,从两个语音输入的按钮可以看到,豆包输入法瞄准的显然是语音输入,它肯定不是和老一代的输入法卷谁更懂拼音,卷谁的体验更好,卷谁的词库更好。这本身意义不大。

语音输入,才是新的增量机会。

目前,豆包输入法只有移动端。估计很快,他们就会上线应用商店了。现在我是通过 TestFlight 拿到的体验资格。

我现在完全笃信,语音输入会成为新一代的主要输入方式。

我们家孩子今年上小学,他的小天才手表,默认输入法就是语音。一开始我觉得那玩意儿太麻烦,还不如直接打字。

但看着他一边走一边说,几秒钟就能发出一条信息,我才意识到,也许从他们这一代开始,输入方式已经在悄悄改变。

可能在孩子眼里,键盘早就是一个多余的东西。

不知道大家有没有注意到。微信和飞书也都已经在应用内深度优化自己的语音输入了。

我日常和朋友同事聊微信,只要不在电脑前,只要方便语音,我就会用语音的方式来输入。

注意,不是直接发语音,而是用微信内置的语音输入功能,完成语音到文字的转换。

飞书也是如此。在群聊里,他会拿到聊天的 Context,然后进行优化。比如下面的例子,我说阿颖之类,它会直接帮我艾特阿颖这个 ID。相当方便。

豆包输入法还没 PC 端。我还在同步使用另外一款 PC 端的语音输入法:代体。这个名字多少不好传播,也不知道啥子意思。

它的使用很简单,只要按下 Fn 就行。代体的优点是识别准确率比较高,但缺点是没有像Whisper Flow 那样做深度的场景融入,包括呃、嗯之类的口癖有时候也没有去掉。

但即便这样,对于我而言,也省力不少。

今天的文章我主要就是使用代体,在PC端的飞书文档中写完的。因为很多时候思考的速度远大于键盘输入的速度,所以语音输入在这的优势就极为明显。

我只要脑子里头东西到了,然后文字也能跟着呈现出来。。。

记得 Whisper Flow 的创始人曾经说过,平均每人每天有 5-6 小时在打字,他们的产品能让这个时间减少一半。

这相当于为自己争回了几小时真正属于思考和创造的时间。

我知道,有人会说,打字有利于精准控制文字的表达,边敲键盘边写,有利于整理思路。是的,这些都是键盘式的输入方式给我们带来的习惯。我们在塑造工具,反过来,工具也在塑造我们。

无论如何,我真的觉得,语音输入法的时代正式开始了

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询