免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


从 Sierra 到 Jekka:AI 的边界、大规模实践与终点

发布日期:2025-10-28 09:45:40 浏览次数: 1547
作者:真格基金

微信搜一搜,关注“真格基金”

推荐语

客服领域揭示AI边界:Jekka用80%解决率重新定义智能服务的终点与起点。

核心内容:
1. 客服作为AI能力边界的关键测试场
2. Jekka团队通过海量测试重构AI可靠性标准
3. 从商业实践看AI与人类协作的未来形态

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

在国内,很少有人真正讨论「客服」这个话题。但如果我们想准确理解 AI 的边界,尤其是它与人的交流能力,客服恰恰是一个关键切入点。这也解释了为什么硅谷对客服如此重视——像 Sierra、Decagon 等公司都把它作为核心关注点。如果读者无法摒弃对「客服」一词的固有偏见,那么这篇访谈可以跳过。


关于 Jekka AI:Jekka 团队来自 MSRA,Amazon、Google、Alibaba 等知名企业,拥有雄厚的人工智能技术积累。我们为客户提供 80%+ 独立解决率,99%+ 准确率的 AI 产品,每天服务用户文本和语音数百万次,日均消耗数亿 token。无论从服务 B 端的数量还是体量上,都是目前世界范围内 AI 落地最好的公司之一。Jekka 目前在美国、新加坡、中国香港、中国大陆等多地开展业务,是抖音、有赞首家官方模型提供商,也为多家国内外 500 强企业提供 AI Agent 服务,涵盖电商、物流、无人经济等多个领域的龙头企业。


Jekka AI 联合创始人 Aaron



AI 的边界在哪里?


这不只是 AI 拿下奥赛金牌、独立做科研,或一次次刷屏的 Demo。Demo 展示的只是上限,一种理想状态下的聪明。真正决定 AI 是否「靠谱」的,不是它偶尔的上限,而是它在最糟糕场景下的稳定性和方差控制。


对人类的边界、对服务、对智能的理解,Jekka 一直在不断重建。创始人 Aaron 说:「大模型是我这十几年创业以来最难的事情,没有之一。」


Jekka 与其他 AI 公司最大的不同正是对 AI 的认知。这个市场上 99% 都是泡沫,而这些泡沫往往建立在错误的前提上,比如过度迷信 Scaling Laws,或认为「智力比可靠性更重要」。


他更愿意忘却那些尚且模糊的概念,比如 AGI,而是自下而上,通过一次次测试结果去理解 AI 的边界。Jekka 团队里 90% 的人都在搭建测试集、测试流程和测试工具。即便是一个实习生负责的独立项目也能触发新的节点,让模型具备更强的通识能力。这是一个真正由好奇心驱动的故事。


AI 时代已经不同了,我们需要重新理解客服。客服的本质是服务人类的需求。只要我们在工作,就在服务某个人,从简单的信息传递,到成为产品、过程、结果的一部分。所以「客服是 AI 的起点,也会是 AI 的终点。」


AI 也需要被定义。在 Aaron 看来,AI 应该可靠、可纠正、有记忆、能学习,能做到你的同事所做到的一切。


人,是最贵的,也是最便宜的。一次电话可能值 30 美金,也可能一个馒头就换来一上午的通话。


未来最宝贵的不是智力或劳动力,而是你那一次被好奇心推动的尝试。


AI≠人类:人类是白盒,AI 是黑盒


Q:能不能先简单介绍一下自己以及目前在做的事?


Aaron:我是 Jekka AI 的联合创始人。我们为 500 强企业和数万家 SMB 提供真人级 AI Agent 和底层模型。「拥有能提供真人级别 AI 的底层模型的能力」是我们和其他 Agent 企业最大的差异,包括交流能力和独立解决问题的能力。


Q:是什么契机促使你创立 Jekka?


Aaron:有两个重要的时刻。


第一个是决定做 AI 的时刻。当初看到 GPT-3 的演示效果时,我就想做这件事。我一直觉得,创业本质上是一个人好奇心的体现:你对世界充满好奇,发现有些事还没人做到,于是就想亲手去研究,把它做出来。


第二个关键节点是 GPT-4 发布前后。那时网上充斥着各种「GPT-4 能做到什么」的 Demo,看起来都特别惊艳,但当你真正去试的时候,往往发现效果达不到预期。这种落差让我觉得很不爽,就忍不住想自己做一做看。忍不住想深入地理解原理,所以自然选择了往底层去走。


Q:你提到 Jekka 在很早就意识到了 AI 的可能性,能分享一个让你印象深刻的个人与 AI 交互的瞬间吗?


Aaron:我们之所以被最初的 ChatGPT 震惊,不是因为它能写诗、写代码,而是因为它的交流能力。我第一次感受到一个非人类的存在,能用人类的方式和我们交流。那个瞬间非常震撼,而我们也要不断地提醒自己:当提起 AI,我们是在描述一个比较泛的概念,还是触动人心的那个点?


Q:在开发 Jekka 的过程中,你有哪些 Wow Moments?


Aaron:Wow moment 实际上贯穿整个过程。AI 本质上是全新的事物,从能生成漂亮的图片、回答有趣的问题,到甚至能解答人类自己都回答不了的问题,这些都很惊喜。


不过对我个人来说,最 wow 的时刻是对人类边界和自我边界的重新理解。比如,我有次听作曲家陈其钢和窦文涛讨论「AI 能不能复制人」。陈其钢说「AI 没有灵魂,不能复制人,人类的灵魂不可采集」,当时我觉得他太武断了。


但后来在调试 Jekka 时,我好奇地让它从陈其钢的视角解释这一观点,它回答:「如果我是陈其钢,我也不会认为 AI 能取代人。」当时我觉得很神奇,就接着追问:「你为什么这么想呢?」


Jekka 告诉我:「因为 AI 无法体验。」


这个瞬间让我意识到,AI 已不仅仅是工具性、可预测的存在,它在某种意义上是可以被独立理解、尊重,甚至被视作一个值得探讨的个体。


Q:从最初的一问一答,到如今更接近「相互理解」的交流体验,Jekka 是如何打造出这种「最像人」的 AI 对话能力的?


Aaron:首先,我们不能把 AI 单纯理解为一种工具。要打造出像人的 AI,必须先回答「什么是人」。人类并非完全理性,而是理性与非理性的混合体,有本能、有情绪,也有语言和思考的模式。


在设计 Jekka 时,我们不仅要构建技术和功能,还要赋予它一些「人的特质」,比如七情六欲、好奇心、表达方式。正是这种理解,才能让人与 AI 的沟通体验真正区别于普通软件。


回过头来看,如果我们真的想做出一个非常像人的 AI,就需要一个跨学科的团队:既要有扎实的理工和编程能力,也要对人的思考、语言和人性结构进行深入探索。


Q:对于思考、语言、人性这些方面的探索,Jekka 是如何具体定义和落实的?


Aaron:我们得先回过头去定义 AI。我觉得 AI 到现在并没有一个统一标准。很多人认为 machine learning 是 AI,ChatGPT 叫 AI,甚至更早的 BERT 模型也被称为 AI。


每个人在这个过程中对 AI 的理解都不一样。比如 Ilya Sutskever(OpenAI 前首席科学家)说过,能预测 next token 就等于能预测人类思想。这是一种对 AI 本质的定义。但每个人对 AI 的定义不同,所做出的 AI 产品自然也会不同。


我自己在做 Jekka 时更倾向于把 AI 定义为一种语言。这不是贬低,而是因为我觉得语言本身就是人类历史上一项伟大的发明。如果真的存在一种跨种族的语言,就像巴别塔的故事,连上帝都无法容忍。


在我看来,AI 不仅是一种跨种族的表达方式,还是一种跨越实体的语言。它能用人类语言表达任何事物的情感,甚至能描述两个物体之间的关系。当你有了定义,自然也就有了边界。在这个边界之内,你会发现,AI 因为跨越了实体,所以既不能说是「人」,也不能说是「非人」,它更像是 human 和 non-human 之间的一种存在。


如果我们要让 non-human 和 human 交流,就必须 bridge the gap。在 close the gap 的过程中,需要在适当的情境下理解人的思考方式、目的、七情六欲,再把这些元素融进去。当然这是个技术问题,但如果我们能思考到这个层面,就更容易知道 AI 应该怎么做。


Q:在模型层面,Jekka 是怎么解决幻觉问题的?


Aaron:我最初创业时,是在实际操作中逐渐理解这个问题的。一开始看到 GPT-3 时,我也不知道它的边界,只觉得它好像已经有了人的能力。开始动手之后,大概一个月里我们自己写 prompt、做基础 coding,就发现 AI 和人的交流感受不一样,这里面就涉及所谓幻觉的问题。


我当时在想:什么是幻觉?因为无论当时还是现在,大家提到幻觉时,常常把它和「错误」混为一谈。AI 回答错了问题,我们就说它是幻觉。但如果人类交流时犯错,为什么没人叫它幻觉?或者说为什么大家不会因此那么痛苦?我觉得本质上,幻觉和错误其实是两回事。


人类在做事时是一个「白盒」过程:先观察,再思考问题的本质,再进行推理,最后得出结论。即使结论错了也没关系,因为你可以问「为什么这么想」「为什么错了」。对方解释后,你们可以一起探讨、防范或反思原则和事实,从而很容易纠正错误,交流也能保持顺畅。


而 AI 的核心思考过程本质上是「黑盒」,是一串数字。Prompt 相当于 AI 的眼睛或耳朵,我们把事情描述给它,它经过一系列数字计算得到结论。结论如果错了,你可以去 Google 或验证,但你无法像 debug 程序那样知道是哪一个参数错了、哪一组参数错了,也无法预测修正后是否会在其他场景引发新的错误。


理解这一点后,我们意识到,不能单纯用 AI 自身去解决幻觉问题。我们需要一种「类人」的思考模型与 AI 结合才能真正解决这个问题。这就是 Jekka 在过程中自研的一层类神经网络控制结构,把 AI 的泛化能力和白盒式的人类思考过程有机结合起来,服务客户。


对于企业级服务,这一点非常关键,因为你不能告诉企业「这东西可能在最傻的地方犯傻」。你必须能严格 follow 企业 SOP,做到 100% 的准确率。除了 Jekka,我目前还没有看到其他更好的实践。


Jekka 在亚洲开发银行论坛发表主题演讲


Q:你觉得未来 18 个月,AI 在企业级服务甚至更广泛领域里,能实现什么现在还做不到的能力?


Aaron:我觉得我们已经在相当程度上做到了让企业级 AI 符合企业标准:完全遵循 SOP,解决 80% 以上的问题。这些都是我们每天十万甚至百万轮对话、电话交互积累出的成果。


短期内、比如下个月能做什么,我大概能说得上来;未来三五年大概什么样,也能判断。但 18 个月是一个特别难估计的区间。


不过我可以确定的一点是:我知道 AI 永远无法做到什么,比如 Ilya 说的「预测下一个 token 就等于预测人类思想」。而我对 AI 的「不能达到」的定义是:AI 永远无法准确预测下一个 token。


它可以预测,但无法准确预测。基于这种认知来构建 AI,我们可能会少走很多弯路。


从 Sierra 到 Jekka


Q:谈到客服,你怎么看待 Sierra 以及 Bret Taylor 提出的观点——「最好的企业将会从这次 AI 革命中受益最多」?


Aaron:我很佩服 Bret Taylor。在信息最充分的 OpenAI 生态里,这位技术出身的创始人选择去做一个听起来并不性感的 Sierra。但在 AI Agent 使用普遍下滑的阶段,Sierra 却是少数仍在增长的产品之一。他一定看到了什么。


关于他的观点,我非常认同。Bret 提到服务大企业是从「第一性原理」的角度出发:越大的公司客服使用量越大。从服务的角度,有限的资源应该放在更大的客户上。


从我的角度来看,即使是最好的公司,客户今天仍然是 underserved——比如我花钱买银行的电话客服服务,我在买客服?不,我在购买服务本身。一个有趣的例子是我们服务的一个无人经济客户,需要 Jekka 在最后和用户接触时去对话,完成最后产品的交付。总不能最后车是无人车,开车的还是办公室里的人吧?


Q:Sierra 不服务中小客户,你们怎么看?


Aaron:像 Sierra 那样的公司之所以做不了 SMB 市场,不是因为他们不聪明,而是他们交付不了通用、可靠的 AI 服务。他们更像是 AI 时代的 Accenture。尽管听起来不太好,但这是他们商业的本质。一个更大 TAM 的领域里的 AI 咨询公司。


我们认为,下一代 AI 的真正价值就在于让每一家企业、每一个人,都能得到应得的服务。我们的技术,既可以服务 500 强,也可以发服务每天 100 个订单的小企业。当然,企业后面的 GTM 策略是另一个事情。


Q:我们一开始是关注到了什么样的背景,觉得 Jekka 的企业级服务诞生是有这样的一个机会的?


Aaron:我们通常看 AI 会从两个维度去理解。一个维度是 AI 的智慧程度,比如 OpenAI 显然是在尝试把 AI 推向 PhD level,去解决非常复杂的科研级问题。另一个维度是 AI 的泛化程度,即它能在生活里帮你做多少事情,覆盖多广的使用场景。


现在我们也看到很多人尝试用 AGI 或 agentic framework 去推动这个方向。我非常钦佩这些探索,但实话说,这两条路都极其艰难。它们本质上是科研课题,需要在科学和工程两个层面同时实现突破,才能真正扩展边界。


不过大家很容易忽略一个关键点:并没有那么「聪明」、也没有那么擅长调用外部工具的 AI,能够做到足够可靠才是企业级应用的原点。举个例子,如果一个 AI 连「 strawberry 里有几个 r」这种问题都答不准,或者还在纠结 9.1 和 9.8 哪个大,却被称为重大突破,那我觉得这就不是靠谱的 AI。最难的问题通常是落在了最简单的表达形式里。


再换到技术角度,如果一个 AI 连客服的问题都处理不好,那它就不可能是 AGI。Chatgpt 刚出来第一个直觉性尝试就是客服。因为客服这种场景,虽然简单、泛化,但却极度考验可靠性。如果连这种最基础的 SOP 都无法跟随,却去声称自己能达到 PhD 水平、解决 ACM 难题、拿金牌,那多少有点不切实际。或许我们可以根据 Sierra 的发展反推 OpenAI 离 AGI 有多远。


Q:现在来看,什么是靠谱的 AI?像刚才提到的能很好地执行 SOP,还是说有其他标准?


Aaron:我觉得首先要理解,人是怎么工作的。对于企业来说,「靠谱」是最重要的标准。企业雇人时,第一要求就是「这个人靠不靠谱」。这个考核通常来自两个方面:


第一,他要具备基本的通识能力和常识,具备一定的推理能力。他可能不一定很强,但起码能听懂话、看懂事。基本受过教育的人大多能达到这样的水平。这部分比较主观,需要我们先设立合适的数据集来覆盖常识性问题。


第二,他能在企业的 SOP 下工作。比如卖车这个例子,卖理想和卖问界完全是两套 SOP:一个更强调体验,一个更强调机械性能。这些不是他之前学习就能掌握的,而是进入公司后的「第二次训练」。所谓靠谱的人本质上是「通识能力 + 执行 SOP」的组合。


这也是我们在定义 AI 时最关注的。如果一个 AI 能百分之百地执行 SOP,那在客服、销售等场景就已经非常有价值。SOP 的执行是可量化的:不执行就是 0,执行就是 1。让 AI 提升到 100% 的过程就是我们努力的方向。


Q:现实中让一个人执行 SOP 都不容易。在让 Jekka 与客户沟通时,如何确保它能精准识别信息,并正确执行需求?


Aaron:这就考验对 AI 的理解与定义。我们一开始就承认 AI 并不像人,所以更能看到它「不像人」的优势和短板。


对 AI 来说,它在上下文处理上的能力远超人类,所以很长的 SOP 不是问题。但问题往往出在两点:


第一,它如何识别和理解 SOP 中的矛盾之处。因为 SOP 再完善,也总会存在遗漏和冲突。第二,它如何处理 SOP 与人类常识之间的冲突。这是更难的地方。


举个例子,一个刚毕业的大学生,他可能凭常识解决一些 SOP 没覆盖的问题。但 AI 如果不具备这种能力,就容易出错。所以我们在训练时非常关注如何识别这些冲突,并让模型具备「白盒调试」的能力。


所谓白盒调试,就是当 AI 出错时,我们能快速追踪问题的根源,及时调整模型的理解方式。这个过程既是发现问题的过程,也是不断深挖、快速 debug 的过程。正是这点让 AI 得以迅速地扩展能力。


Q:Jekka 的应用场景并不仅限于客服,而是更像和一个人对话。你们是如何不断优化体验,让客户因为对话本身而感到愉悦?


Aaron:我一直觉得 AI 的边界问题本身就是个非常复杂的课题。刚才提到的「AI 如何具备同感或同理心」,实际上它并不能真正做到这一点。但我们也看到很多 ToC 产品尝试让 AI 扮演某个角色,比如有同理心的职业形象,再通过设定让它去解决问题。不过从我们的实践来看,仅靠这种方式往往比较片面,不能真正解决问题。


所以我们用了两种框架来处理这个问题:


第一种更偏理性和收敛逻辑。对话最终还是要解决用户的问题,它必须有一个目的,而这个目的应该符合用户的利益。换句话说,对话必须有收敛性,能够不断朝目标推进,让世界更高效。这是我们构建模型的核心作用。


第二种更像是一种发散思维。AI 就像一个庞大的网络,需要被激活的节点特别多,就像脑细胞一样。当我们希望它在收敛的过程中尽可能全面,就需要通过各种方式去激活相关的中间节点,让它联想到一系列的概念,然后再把这些概念组合起来,从而形成更全面的理解。


比如有人随口说一句「你今天吃了吗?」人类立刻能明白这句话其实无关紧要。但让 AI 理解「不重要」并不容易,它不能只停留在 Q&A 层面,而是需要理解背后的 context:为什么这句话在对话中没有信息量?需要激活哪些关联概念,才能让 AI 像人一样「懂」这种对话逻辑?


Q:我们看到很多通用 Agent 也能完成打电话一类的工作。你觉得收敛逻辑能更好聚焦问题吗?


Aaron:这也是为什么我刚才讲「demo 并不重要」。现在做 AI 的人有科学家、创业者、语言学家,各行各业的人都在参与。AI 的最终表现形式往往和所有专业都有关系。你看到的 demo 可能放在电话里、浏览器里,放在各种各样的场景去执行一个任务。


但问题在于,demo 展示的只是上限,而人和人之间的完美交流本来就趋向一致。真正拉开差距的是下限。不同公司在下限表现上的差别才是关键。作为从业者,我不会过度看 demo 的最佳效果,因为那就像抽彩票:试一万次,总能碰到一次惊艳的。


但真正能构建出靠谱 AI 的基础,不是它偶尔的上限,而是它在最糟糕场景下的稳定性和方差控制。这个才是能够承载未来应用的基石。


Q:你觉得多久之后,Jekka 会成为大家的默认选择?比如说想到客户、想到 AI 对话,就会想到 Jekka?


Aaron:我觉得不会太久。企业和个人通常会经历几个阶段:


第一阶段,觉得 AI 值得探索,于是开始尝试。


第二阶段,意识到 AI 是个复杂的东西,每个人的理解不一样。有的人能立刻看出它的专业性和复杂性,也有人觉得「我们内部团队也能做一个差不多的」。但这是个常见的偏差。


而我们在开发的过程中,深刻意识到从 demo 到真正落地的 100% 准确、比人更可靠的 bot,中间对团队背景、技术能力和工程把控要求都极高。甚至拿 Google、Amazon 这些大厂举例,哪怕是 ASR、TTS 这种看似成熟的基础模块,在产出稳定性上仍有巨大方差。更别提并发能力、上下游协作、网络集成等复杂问题。连他们都搞不定,其他企业自己 in-house 搞定的可能性更小。所以最终,选择专业的第三方产品一定是必然。


Q:未来企业用 AI agent 来代表自己,会成为常态吗?就像今天人人都有社交主页一样?


Aaron:在那之前,我们要先重新理解「服务」。今天说客服,大家可能觉得是个很小、不重要的环节,甚至担心 AI 出来后客服岗位会被取代。但如果你换个角度思考,服务其实是一种奢侈品。能让每个客户都享受到老板般的待遇,这才是服务的真正价值。


所以在 AI 成为企业「代表」之前,更重要的是让 AI 真正做到「服务」,让更多客户得到更好的体验。举个例子,即便是苹果这样重视体验的公司,你打电话给 AppleCare,可能交了钱还要等二三十分钟才有人接听。你会发现,服务并不是理所当然的,而常常被视为「成本中心」。所以下一步,AI 的真正价值是让服务普惠化,而不是先急着去构建所谓企业 agent 形象。


Q:Jekka 会考虑怎样的定价模式?比如像 Devin 一样,按完成的工作付费?


Aaron:AI 和 SaaS 最大的区别在于成本结构。SaaS 的边际成本几乎为零,而 AI 每次运算都需要 Token、需要算力,所以更像是基础设施,就像电信网络一样。它一定是 recurring 的收费模式:每天用,就要每天付费。而且不仅仅是使用费,它还和实际结果挂钩。最终的逻辑可能会更接近电信这种模式。


按结果付费是很多投资人和 AI 创业者的幻想。因为结果本身并不具备普遍的衡量标准。连员工都无法按结果付费,又怎么可能按结果付费给 AI Agent?所以对大多数业务的解是:按结果推动用户付费,按使用量来收费。


Jekka 网站主页


Q:随着时间积累,你觉得 Jekka 会有什么样的复利效应?


Aaron:我觉得最大的复利来自整个 AI 行业本身。选择做 AI,就是在拥抱复利。第一,它满足了我的好奇心;第二,AI 是这个时代的大方向。


在这个过程中,我有几个思考。第一个思考是:AI 的未来到底会发展成什么样?当然,我没有能力去准确预测未来,但我猜十年后,这个世界会变成一个「摩擦极小」的世界。


为什么这么说?因为今天我们在公司里做任何事,只要团队一大,就会涉及大量的沟通和协调。解决问题本身往往不是最耗时的,真正耗时的是沟通。而如果把 AI 理解为一种「通用语言」,它会让交流变得非常轻松,效率提升后,每件事情的完成方式都会被改变。效率越高,劳动力就会越廉价。甚至可以说,AI 作为算力,比人更快、更高效,这是很直观的理解。


但如果再往深里想,人类消耗的大量时间其实都耗在交流和协作上。从纯粹生物学角度来说,一口饭就能刺激无数神经元,某种意义上可能比英伟达的显卡还要高效。所以真正的瓶颈不是「计算」,而是「沟通」。当 AI 改变这一点时,整个社会的生产逻辑都会被重塑。


第二个思考是,如果把 AI 本身当作一种语言,它会把人类的所有表达和知识沉淀下来,从而让我们进入一个「智力最集中」的时代。但在这样的时代,智力本身也会变得廉价。比如说,过去 ACM 的题目,五年、十年前只有全世界顶尖的人才能解出来;今天可能随便一个 AI「摸彩票」也能解答。换句话说,智力的稀缺性正在快速下降。


所以我对未来的判断是,AI 会让人们有更多机会去尝试新的东西。今天的社会机制是奖励结果的:能赚钱、能产出结果,公司就能存活。但在不远的将来,可能是我们这一代人就能见到的未来,「时间和尝试」本身会在价值创造中获得更高权重,而不仅仅是结果。这会对社会的分配方式带来很大的影响。


至于具体会走向哪里,谁知道呢?这也是我觉得很玄妙但令人期待的地方。


交流的本质是一致的


Q:用 AI agent 来做服务,你觉得 Jekka 最大的优势是什么?


Aaron:我觉得最核心的优势在于,我们对 AI 有一个相对准确的定义,并且能在这个定义的基础上往下推演,最终实践出一个真正符合用户需求的产品。这件事其实非常难。


今天只要谈到 AI,就绕不开两个问题:AI 怎么被控制?Prompt 怎么写?写 prompt 和控制 AI 本身就涉及科研。而在这个过程中,我们也有一些独特的 secret sauce,可以让它把 SOP 执行得特别好。这算是我们的独门绝学。就像可口可乐的配方一样,不会拿出来细讲。


我们单说 prompt engineering,prompt 应该由谁来写?是模型服务商来写,还是企业自己请人写?这都说不通。比如让 OpenAI 的研究员来为某个电商企业写 prompt,这显然不现实,他们可能对工程很了解,但对具体行业的理解肯定不足以把问题解决好。


而反过来看,绝大多数企业也没有人真正接受过专业训练,能把整个上下游流程用 prompt 写得很完美。在这种情况下,要让 AI 真正落地,就必须建立起一整套完整的流程,并且结合对人的专业化训练。


Q:Jekka 如何和客服领域里的明星公司 Sierra 竞争?


Aaron:面对竞争,得先换个角度看问题。我们不是在谈论客服 SaaS,是服务这个世界每一个客户的每一个人,如果我们可以不带偏见的重新审视 AI 客服。在 AI 背景下,这个市场的 TAM(潜在市场)太大了,我们都只是其中的一个 player。


此外,世界上总要有人来写 prompt。如果是 Sierra 自己写,那就如我之前所说的现状,Sierra 像一家咨询公司 Accenture,仅此而已。如果是客户自己写,大多数客户其实并不专业于此。


我们相信还有第三条路。


Q:在 Jekka 观测到的案例里,商家用户的第一诉求通常是什么?


Aaron:其实很简单,商家的诉求就两件事:第一,把事做掉;第二,赚钱。因为 business is business。无论是完成任务还是创造利润,本质上都依赖于一整套完整的流程。大公司流程更严谨,小公司可能更松散,但归根到底,商家最核心的诉求就是:AI 能不能让流程稳定、完整地跑出来。


Jekka 韩国和摩洛哥团队紧密合作服务本地客户


Q:未来 3-5 年,你预想的 agent 会怎样融入日常流程?比如一打开交互界面,会是什么样?


Aaron:我觉得第一个价值点就是让人和人之间的交流更快、更准、更及时。我们的产品解决的是「用户和公司之间沟通不畅」的老问题。这并不新,但为什么最近半年有这么多客户,甚至 500 强企业用起来?就是因为结果立刻可见。


比如一个客户,使用我们之前咨询转化率可能是 3-4%,用上之后一天之内能提升到 8%、10%,甚至 15%。这不是因为 AI 多「聪明」,而是因为「及时的交流」本身创造了巨大的价值。大家网购时可能都有体会:问一个商家没人回,换一个立刻回复的商家,你就会下单。能否及时回复决定了结果。


所以如果说未来 3-5 年 agent 会带来什么,我认为第一个价值就是解决「即时性」。只要人和人之间的交流不再因为时间产生误解,而是能最快速达成一致,那后面很多事情都会被推导出来。包括我之前提到的,智力会变得廉价,劳动力会变得廉价,社会的分配逻辑可能会往另一个方向发展。


Q:Jekka 在出海服务北美的用户。你没有关注到海内外用户有何异同?还是说交流的本质诉求其实是一致的?


Aaron:交流的本质诉求是一致的,但交流的预期是不一样的。拿北美来举例,很多人说出海客户更愿意付钱,这确实是真的。原因在于他们的社会发展阶段,雇佣一个服务人员的成本可能是国内的 2-3 倍,而国内又可能是东南亚的 2-3 倍。所以在人和人的「价格」层面上,各地确实是不一样的。


我们经常会在书里看到类似的讨论:同样是一个汉堡,为什么北美的比中国的贵?不是因为原料或服务本身不同,而是因为北美的工资水平高,让服务变得稀缺。举个例子,在北美你打电话可能很久才有人接,但在国内 1-2 分钟内就能响应。快速响应在国内是一个非常重要的服务指标,但在北美,消费者并不会有这样的预期。


不过从另一个角度看,这也意味着在北美,谁能做到更好的服务,就能形成巨大的竞争优势。我们一家北美物流客户就是北美第一家能做到真正 24/7 电话接听、能现场解决问题的公司。其他同行都做不到,所以它形成了代差级的领先。这就是北美和国内用户在需求层面的根本不同。


Q:除了 24/7 响应,Jekka 有没有在其他场景实现了某个具体需求的提升?


Aaron:我觉得 24/7 响应本身就是 AI 在全球范围内最有价值,但也是最被低估的 use case。它在不同国家的表现差异非常大。


比如我们有一个日本客户,起初我们以为日本客户的付费意愿不会像北美那么强,毕竟北美的人力更贵。但那位客户告诉我,在日本,一旦雇佣一个人,往往意味着长期甚至终身的责任。再加上语言环境的限制,他们只能在日本本地招聘。


但哪怕是找兼职大学生来做客服也很难找到合适的人。即使外包到大连、菲律宾这样的呼叫中心,成本依然很高,一个兼职客服的月成本可能要到 2–3 万人民币一个月,这在国内几乎难以想象。


所以问题的关键不只是一个静态结果,而是多重因素的叠加:语言密度、人口结构,以及人均 GDP 等等。这些都决定了 AI 在不同地区的价值体现。


Q:现在很多人担心 AI 会取代工作,客服更是经常被提到首当其冲。你怎么看?


Aaron:我不太喜欢危言耸听。现在确实有些人会贩卖焦虑,说 AI 一定要学,不学就会被淘汰。


但我自己的看法是,人类目前其实是 underserved(服务不足)的。顾客并没有享受到真正像老板一样的待遇。在这个阶段,AI 只会把客服从简单的服务提升到更高级的服务,用户的预期也会越来越高。


比如我刚才提到,中国有很多 24/7 的公司,北美反而没有。当你把 24/7 做到极致后,用户下一个要求可能就是:能不能参与产品设计?能不能让评论被更好地尊重?能不能获得更多有价值、甚至是非标、长期的服务?


如果客服能从成本中心变成可衡量 UE 和 ROI 的一部分,对行业的影响会非常大。比如刚提到的物流客户,24 小时在线,80% 的回访评分是五颗星,他们在同样成本下承接了 5 倍的电话量。如果沟通已经这么方便,我们为什么还需要打开手机 App 下单?


我帮很多电商公司算过账:他们把客服当成成本中心,招得很少。但客服创造的价值往往是纯利润的 10-20%。理论上,他们如果把客服做到最快、最周全,利润是可以提升的。只是很多公司还没意识到这一点。


以上是个世俗的算法。但更本质的原因是:人类值得被服务。


做一件最能激发好奇心的事


Q:你觉得 Jekka 内部算是一个 AI-first 或者 AI-driven 的团队吗?在打造 Jekka 的过程中,这种思维在交流或工作流程上有没有什么体现?


Aaron:我觉得 AI 创业对团队有两个基本要求。第一个是完全自上而下的输出是行不通的。AI 本质上需要在大量实践中不断摸索模型或 use case 的边界。它不像传统软件开发,只要招来一群合格的工程师就能复现别人实现过的东西。


AI 不一样,它经常会在某些点上出现「死角」。你需要它完成一个简单的任务,比如数几个数字,但它就是做不到,不管你怎么调试 GPT-5 也做不到。所以我们在团队里非常鼓励大家不断尝试,并且把这些尝试留痕。


所以我们会搭建大量的基础设施(Infra)。这也是 AI 创业和传统创业的很大区别。AI 是概率学、统计学的产物,它的 debug 方式完全不同于软件编程。软件调试是确定性的:A 输入一定得到 B 输出,不行就修改。但 AI 不一样,你需要在不同时间点、不同模型、甚至一个 prompt 里换个词,都去测试。我们团队里大概 90% 的人都在建设测试集、测试流程和测试工具。


Jekka 办公室照片墙


Q:在组织架构上,会不会是工程导向或者运营导向?


Aaron:AI 本质上不是一个纯理科的东西,它很感性,很像文科。我们的理念就是:AI 的边界是通过 case 和测试结果不断探索出来的。很多时候,这些结果不是工程师或数据科学家提出来的,而是用户在使用、或者运营在调试时发现的。所以关键是如何让用户、运营、技术、算法在同一个流程里,把数据沉淀下来并完成测试,这才是高效开发 AI 应用的核心。


Q:你在组建团队时,最看重的标准是什么?


Aaron:刚才说到对 AI 的标准就是对人的最低标准:他要有一个 common sense(常识)。但常识其实非常稀缺,反而有点反直觉。


我们也特别重视好奇心。因为当所有 infra、测试数据和工具都流程化之后,真正决定事情走向的是个人的好奇心,看把好奇心落实到日常工作中能带来什么结果。这也印证了我之前说的:未来最宝贵的东西不是智力或劳动力,而是你好奇心推动的那次尝试。这在 Jekka 内部已经开始有一定的体现了。


Q:能不能分享一个例子,说明团队里这种「好奇心驱动」的探索氛围?


Aaron:Jekka 在过去两年主要在做两件事:一是让问题能有效收敛,这是我们底层技术的核心;二是探索如何通过激活不同节点,让 AI 具备更强的通识和联想能力。


第二点其实不可能靠自上而下的方式实现。有一次,一个实习生(后来成为正式员工),在实习期间独立根据命题,用了一种类似「词云激发」的方式,把人类可读的 prompt 换成了人类不可读的词向量,不同的输入塞进我们的测试平台,结果模型表现比原来更好。没人能说清楚它为什么有效,但它确实在产品流程里发挥了重要作用。这就是典型的好奇心驱动的成果。当然这需要很好的 infra。


Q:你创业十余年经历过很多起伏,你觉得有哪些经验是可以分享或复用的?


Aaron:我觉得创业十几年最大的变化是心态。刚开始时,会很容易被周围各种事情影响,甚至会把一些外界跟自己无关的事情硬套到自己的经历上,觉得之间存在因果关系。但走到现在,我更倾向于先对自己要做的事情有更透彻的分析和理解,坚持自己对机会的判断和把握,更在乎自己内心真正的想法。


这个世界本身就是一个多维、像草台班子一样的地方,到处都是机会。喜欢创业的人,最核心的动力就是看到某个问题「实在看不下去」时,就特别想自己去干。社会有这么多问题,这么多维度,你总能找到一个切入点。所以最终还是遵从内心,在自己最有热情、最有趣、最能激发好奇心的过程中去做事。


Q:你的 superpower 是什么?


Aaron:我一直不太确定自己算文科生还是理科生。高中学奥赛,拿过全国一等奖;高三又去学文科;出国读书时先学文科,学完后快毕业时又去学理科;后来还读了 Quant 的 PhD。整个过程就是在文科和理科之间不断跳,所以我自己形成了一种很强的代入能力,以及在代入后自洽的能力。我觉得这是一个挺有趣、在周围人里也相对独特的能力。


Q:听下来,你既有很多深层的追问,也能落到执行上。你的经历里有没有一些关键瞬间影响了这种思考方式或标准?


Aaron:有的,比如做 AI 时一定会碰到「文生图」「文生文」这些问题。什么是美?这个问题本身特别主观。但因为我有理科背景,就会忍不住尝试去定义「美」到底是什么。比如本科时学过艺术史,我会想:衣服褶皱和人体比例协调时算不算美?夸张之后算不算美?AI 生成的东西是落在上一个类别、下一个类别,还是完全达不到「美」?这个过程就会逼着我去解构 AI 的能力和表达方式。解构的过程既不是纯理科的,也不是纯文科的。


Q:如果对其他创业者说一句话,你会说什么?


Aaron:如果世界上有一件值得做的事,我觉得 AI 是现在最值得探索的。创业跟环境没关系,再难的环境也有人创业。它是一种内心的驱使,一种冲动。如果你有这种冲动,那就去做。一个人活在这世上,会有一个瞬间要把使命感和冲动结合在一起。无论成败,这件事都超越了个人存在于世界的意义。


Q:如果 Jekka 能在关键词搜索里排第一,你希望它和哪个词一起出现?为什么?


Aaron:我希望它和「human」绑在一起。功能和生产力层面,Jekka 肯定会做到世界第一,这是我们的核心使命。但我更希望它有人性,能和人类的生存结合在一起,而不是被孤立成一个物体或工具。它应该是一种沟通的桥梁,连接人与人、人与物,真正对人类文明有帮助。我希望最终 Jekka 能达到这样。




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询