推荐语
智谱AI输入法重新定义「输入」体验,AI超级助理让打字和创作效率倍增。
核心内容:
1. 智谱AI输入法的核心功能与场景化设计
2. 语音转文字、专业术语识别等复合能力的实测表现
3. 与传统输入法的对比及用户实际体验提升
杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
在输出一侧,各类产品的效果越来越好;但在输入上,超级入口仍在遵循着旧的范式。每天盯着屏幕敲字、写代码朋友,应该跟我一样有个强烈的感觉:人打字的速度实在太慢了。经常是脑子闪过一个灵感,手还没跟上,想法就跑没了。而且现在做研究、写文案,谁不用AI改改语气、调调风格、查个错别字?但每次都要切不同平台,开一堆对话框和软件,来回切换的时候,时间全耗在这上面了。就今天,AutoGLM团队推出的智谱AI输入法,把定位直接放在了「AI超级助理」上——语音转文字、文本+AI都屡见不鲜,但是智谱AI输入法却想把输入这件事重新做一遍。https://autoglm.zhipuai.cn/autotyper
01. 是语音转文字”,也是场景化AI助手
平时用输入法,总觉得就是敲字的工具,但试了智谱AI输入法后,我感觉它从根上就不一样——它没有只盯着文本输入这件事,是带着很明确的场景化思路来做的。它背后是智谱的AI技术,还有AutoGLM团队的技术积累,这点我认为是它的核心底气。基础功能就是语音实时转文字,但不只是转文字这么简单,还能做人设切换、识别专业术语,甚至一次执行多个任务,这些复合能力挺实用的。按Fn键激活,按住说话,文字就实时出来了,松开手内容直接落到光标位置,不用再复制粘贴。日常聊天用着方便,写工作文档也省时间,最让我意外的是专业场景——像医疗、IT这种满是术语的领域,它也能精准识别,这点确实比普通输入法省心多了。使用智谱AI输入法之前我们需要先注册一个账号,进入软件,我们会发现它还有个名字叫做“小凹”。它像我们的贴身会议助理帮我们记录,语音输入的内容,时长,生成的文本,节省的时间等。像普通的输入法一样,小凹可以快速的在任何平台输入文字。它这个功能非常方便,非常适合说话快,打字慢,或者打字不方便的朋友。这一点在实测中表现尤为突出——即使是夹杂英文的“混合输入”(如“请把AutoGLM的项目文档同步到飞书”),也能避免常见的空耳错误。做AI内容这么久,我一直觉得,不管是啥AI工具,吹再多技术名词都没用,最后还得看用着爽不爽。拿智谱AI输入法,专门挑了大家平时用输入法最在意的场景测了测。先说说最基础的「识别准不准」,这可是输入法的立身之本。官方给的竞品数据我看了,智谱AI输入法的字符错误率(CER)是0.0717,跟行业里公认的顶尖产品Typeless(0.0700)几乎没差,比另一款Wispr Flow(0.1277)强不少。用户主观评分也能说明问题,满分3分它拿了2.72,73%的人直接给了满分,还有38.6%的内容是零错误识别。但光看数据不够,我特意加了个“个性化测试”——毕竟咱们每个人都有自己的“专属词”。我把自己的网名“AI异类弗兰克”、常提的项目代号“AutoGLM”,还有那种平时打都费劲的生僻地名“嵊泗列岛”,都加到输入法的“词典”里。后来语音说这些词,识别率直接100%,再也不用说完还要手动改半天。我感觉这点对职场人太友好了,比如经常说行业术语、项目名的,这简直是痛点杀手。比如咱们平时聊天说“酱紫”(其实是“这样子”的口语连读),以前用别的输入法,要么识别成乱七八糟的拆分,要么直接转成“这样子”,少了点口语那味儿。但智谱AI输入法可以自己加——在词典里点“新增热词”,把“酱紫”存进去,下次语音说这个词,它就能准确认出来。再就是全场景适用,它可以实现从微信聊天到代码编辑器,无缝衔接别的语音输入法常受应用限制,而智谱AI输入法支持微信、飞书、Word、代码编辑器等几乎所有输入框,真正实现全平台可用比如在工作场景:在编写Python代码时,口述“定义一个函数calculate_sum,参数为a和b,返回a加b的值”,系统能准确识别代码语法,甚至自动补全括号。比如在pycharm中:
在生活场景,用“自动翻译人设”与海外客户沟通,跟它讲“请确认本周五是否能完成样品寄送”,它就能实时转换为英文并保持语气正式,不用二次校对;比如人设切换:我可以轻松实现菜单栏切换“面对老板”(语气正式、逻辑清晰)、“面对伴侣”(温柔俏皮)、“自动翻译”(中英互译)等模式,适配不同沟通场景;想要给智谱ai一些简单任务,按住Fn键把“小凹”叫出来,接着直接跟它说 “生成北京3天旅游攻略”,不用跳到别的工具,就这么输入了马上就能解决问题。我把智谱AI输入法跟两款主流竞品(Typeless和Wispr Flow)在核心指标上做个对比,它的优势主要体现在“场景适配”和“用户体验”这两方面:评估指标 | 智谱AI输入法 | Typeless | Wispr Flow |
主观接受度(FMS,满分3) | 2.72 | 2.70 | 2.32 |
字符错误率(CER,越低越好) | 0.0717 | 0.0700 | 0.1277 |
零错误占比 | 38.6% | 39.8% | 20.4% |
中英混合场景表现 | 优秀 | 良好 | 一般 |
行业术语识别 | 良好 | 一般 | 较差 |
长句处理能力 | 良好 | 一般 | 较差 |
附加功能(人设/指令) | 丰富 | 基础 | 缺失 |
所以你看,智谱AI输入法在“基础准确率”这块,和那些超厉害的竞品水平差不多。不过,在“复杂场景处理”还有“附加价值”这些方面,有显著优势。像职场人士还有经常用多种语言的人,就会发现,这种「精准+智能」的搭配,简直就是效率神器。直接对话,随时唤醒,像是我在电脑上装了一个宠物小精灵,非常轻盈而且可爱。前面说的一堆用法和优势,在小凹身上还能解锁更多隐藏玩法。已经同时开源的GLM-ASR-Nano-2512,对比下来也很牛。
这是一个1.5B参数的端侧模型,却取得了当前开源语音识别方向的SOTA表现,并在部分测试中优于若干闭源模型。
它将识别能力压缩到本地运行,在保证高精度的同时,实现更强的隐私保护与更低的交互延迟。
03. 谁适合用智谱AI输入法?
先说说关注AI的朋友(比如咱们常琢磨prompt的),我认为这工具最贴心的就是省了写prompt的麻烦。以前想让AI干活,得半天琢磨怎么描述需求,现在直接语音说出来,它能自动把碎片灵感整理成能用的优质prompt,还能一键唤起AI,不用再开一堆页面切换,链路短了不少。如果是每天敲键盘很多的效率党,我发现它能解决两个大问题:一是久打字手腕容易累,二是中途切软件找工具会打断工作流。现在不管在微信、文档还是代码软件里,都能直接用它输入;更方便的是,内置的Agent能帮着算数、生成代码,不用再单独开计算器或AI工具,省了不少来回切换的时间。内容创作者应该会喜欢它不丢灵感的设计。我感觉咱们写东西最怕的就是刚有想法,一打字就忘了,或者写着写着思路断了。用这个输入法,直接口述就能出初稿,不用停下来打字;写完还能一键换风格,比如想把口语化的内容改成正式的,或者反过来,都不用自己大改。做翻译的朋友也能省不少事。以前听内容、翻译、再打字记录,一套流程下来挺费时间,现在口述就能实时转成译稿,不用再“听一句记一句”;而且它有热词库,专业术语不容易错,不用反复核对,“听-译-打”的流程直接简化了。还有经常开会的人,我觉得它的记录功能特别实用。以前记会议要点,要么光顾着写漏了听,要么会后整理纪要要花半天……现在直接口述记录,实时就能把要点记下来,会后还能快速生成工作文档,不用再对着零散的笔记琢磨。目前不用邀请码也能注册用3天,有邀请码能多用到7天,分享邀请码还能换更多使用时长,感兴趣的直接去官网(https://autoglm.zhipuai.cn/autotyper/)就能下。整体看下来,智谱 AI 输入法的突破,远不止语音转文字,更是对输入本质的重构——它将 AI 能力融入创作、工作、沟通等场景,让 “想法到文字” 更加顺畅。这恰是 AI 工具的进化方向,当技术从 参数比拼 转向 场景落地,能解决真实痛点的产品才具生命力。它懂自媒体人怕灵感流失、程序员怕工作流中断、会议人群怕记录分心,用 「语音唤起 + 智能适配」化解这些难题,让输入从负担变成增效引擎。现在Mac和Windows系统都已经支持了,这种以用户场景为核心的思路,似乎开启了一个新赛道「AI输入」。未来,真正的 AI 助手,必然是能贴近人、赋能人的伙伴,一定不是冰冷的工具。