我要投稿

字节正在内测一款全新的语音输入法

发布日期：2025-10-13 16:09:15 浏览次数： 2334

作者：AI产品阿颖

微信搜一搜，关注“AI产品阿颖”

说一个可能有争议的观点：

键盘已经是上个时代的产物。

用不了几年时间，语音将彻底取代键盘，成为我们主要的输入方式。

我同事并不认同这个判断。

他说，在办公室、会议室这些场景里，谁会用语音输入？那不尴尬死吗？谁能受得了这样的同事？

我理解他的想法。可问题是，当你真正深度使用了语音输入法之后，你就会明白，什么叫爽。

去年，国外有一款产品叫 Whisper Flow，在硅谷创业圈里口碑极好。它的目标很大胆，让人类彻底停止使用键盘。

乍一听像噱头，但这款产品确实有很多创新的理念和设计。我下周有空的话，准备翻译一篇他们创始人的播客，人家很有见地。

作为一款语音输入工具，Whisper Flow 不只是识别用户说了什么，而是利用 AI 技术，重点去理解用户想表达什么。

这不是车轱辘话。

在过去二十年里，几乎所有语音识别技术都在追求一个指标：Word Error Rate（词错误率）。它衡量的是产品能否把用户说的每一个字都准确转录成文字。

但 Whisper Flow 的思路完全不同，它认为除了优化词错误率这个指标外，还应该进行语义与意图重构，让语音内容直接变成自然、符合语境的书面表达。

所以，Whisper Flow 不做逐字转写，而是通过大模型理解语音的上下文、语气、意图、语言风格，输出符合场景的自然语言。

举个例子，当用户说：

“Hey just checking in if we’re good for tomorrow?”。

Whisper 会自动判断用户正在写一封正式邮件，它输出的结果是：

“Hi, just wanted to confirm if our meeting for tomorrow is still on schedule.”

用户不需要再担心语病或格式问题，几乎不需要再校对文本，就能直接发送。简而言之，传统语音系统是从声音 → 文字。

而 Whisper Flow 则是：声音 → 意图 → 语言风格 → 文字。

我很喜欢 Whisper Flow 创始人之前说过的一个观点：我们不是语音识别软件，而是一种让用户思考速度跟上打字速度的方式。

但 Whisper Flow 有个缺点：对中文的支持很差。我去年用了半个月后，也就没再继续用。直到 8 月，我又开始继续装回来使用 Whisper Flow，还有 Spokenly.....

不过，还是不尽如人意。

我一直在等国内的头部公司切入这块市场。特别是微信输入法，它是这几年国内输入法领域的后起之秀，微信团队的产品能力在国内口碑不错。

而且微信输入法也已经是我的主力输入法，它的多端同步功能做的很不错。相比百度输入法和搜狗，微信整体还是做到了简约和丰富。

但微信输入法在语音输入方面却未见什么尝试。

国庆节前，字节跳动开始内测一款全新的语音输入法：豆包输入法。果然，AI 领域还得是字节，速度非常之快。回忆了下，字节的音频模型在国内也是佼佼者。

我已经从朋友那里拿到了内测。只看界面，豆包输入法和微信输入法、搜索输入法、百度输入法还没有大的区别。

不过，从两个语音输入的按钮可以看到，豆包输入法瞄准的显然是语音输入，它肯定不是和老一代的输入法卷谁更懂拼音，卷谁的体验更好，卷谁的词库更好。这本身意义不大。

语音输入，才是新的增量机会。

目前，豆包输入法只有移动端。估计很快，他们就会上线应用商店了。现在我是通过 TestFlight 拿到的体验资格。

我现在完全笃信，语音输入会成为新一代的主要输入方式。

我们家孩子今年上小学，他的小天才手表，默认输入法就是语音。一开始我觉得那玩意儿太麻烦，还不如直接打字。

但看着他一边走一边说，几秒钟就能发出一条信息，我才意识到，也许从他们这一代开始，输入方式已经在悄悄改变。

可能在孩子眼里，键盘早就是一个多余的东西。

不知道大家有没有注意到。微信和飞书也都已经在应用内深度优化自己的语音输入了。

我日常和朋友同事聊微信，只要不在电脑前，只要方便语音，我就会用语音的方式来输入。

注意，不是直接发语音，而是用微信内置的语音输入功能，完成语音到文字的转换。

飞书也是如此。在群聊里，他会拿到聊天的 Context，然后进行优化。比如下面的例子，我说阿颖之类，它会直接帮我艾特阿颖这个 ID。相当方便。

豆包输入法还没 PC 端。我还在同步使用另外一款 PC 端的语音输入法：代体。这个名字多少不好传播，也不知道啥子意思。

它的使用很简单，只要按下 Fn 就行。代体的优点是识别准确率比较高，但缺点是没有像Whisper Flow 那样做深度的场景融入，包括呃、嗯之类的口癖有时候也没有去掉。

但即便这样，对于我而言，也省力不少。

今天的文章我主要就是使用代体，在PC端的飞书文档中写完的。因为很多时候思考的速度远大于键盘输入的速度，所以语音输入在这的优势就极为明显。

我只要脑子里头东西到了，然后文字也能跟着呈现出来。。。

记得 Whisper Flow 的创始人曾经说过，平均每人每天有 5-6 小时在打字，他们的产品能让这个时间减少一半。

这相当于为自己争回了几小时真正属于思考和创造的时间。

我知道，有人会说，打字有利于精准控制文字的表达，边敲键盘边写，有利于整理思路。是的，这些都是键盘式的输入方式给我们带来的习惯。我们在塑造工具，反过来，工具也在塑造我们。

无论如何，我真的觉得，语音输入法的时代正式开始了

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-11-30

麦肯锡重磅报告：关于未来的生存指南，当57%的工作被自动化，我们如何与AI结成利益共同体

2025-11-30

Token到底是个啥?看完这篇终于懂了

2025-11-29

Claude Opus 4.5 重磅登场：这哪里是小更，分明是重构大模型搞复杂活儿的底层逻辑

2025-11-29

Perplexity 团队深度解析｜组织协作、AI原生产品体验与品牌美学

2025-11-29

ChatGPT 全球上线群聊功能

2025-11-28

如何规划一个「有节奏感」的AI产品路线图？

2025-11-28

用一个关键词总结Palantir AIP：面向对象编程

2025-11-28

基于大模型增强的少样本学习在用户投诉意图感知中的应用

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

从需求场景出发的AI应用项目落地方法论

2025-09-19

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

Qwen3-Coder与Claude Code深度对比：谁是你的AI编程助手？

2025-09-14

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

大家都在问

如何规划一个「有节奏感」的AI产品路线图？

2025-11-28

AI Agent是「未来应用入口」，还是又一轮「技术泡沫」？

2025-11-27

200 美元，一天干完半年活：这个新出的AI科学家，是来砸博士生饭碗的吗？

2025-11-27

如何通俗的理解AI Agent的工作流？

2025-11-27

为什么大模型在企业落地那么难？

2025-11-25

Palantir牵手Snowflake，我们能学到什么？

2025-11-25

仅凭几张图片，我们是如何让 AI 自动生成 70% 可用前端代码的？

2025-11-25

彻底搞懂 A2A 是什么、和 MCP 的区别、前身和与未来趋势、对打造 Agent 产品的影响？

2025-11-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB