微信扫码
添加专属顾问
我要投稿
在2B领域应用大模型产品时,我们常忽视哪些关键挑战?核心内容:1. 2B场景大模型应用被忽视的能力鸿沟2. GenAI技术在2B领域的落地难点3. 基础大模型与2C应用的火爆对比,2B应用的困境
也和一些期望合作的朋友们说声抱歉。本公众号是关于大模型技术和应用的一些个人思考,所有观点仅代表个人,不代表公司观点(也代表不了)。公众号核心定位就是一个普通的科技博主,不考虑任何商业合作、公开访谈或者广告,非常抱歉。
言归正传。我发现每次写关于VC宏大叙事的文章关注度极高,但个人觉得VC的叙事都是在尝试以几十年的周期去“想象”或“勾画”未来。我们普通人,尤其是从业者,更应该多关注眼下直接相关的技术应用影响。
GenAI的浪潮之下,每天起床就能看到各种夸张的标题又有什么技术或者公司怎么怎么样了,过度的媒体喧嚣很大程度上也掩盖了如何构建可落地的高价值AI应用的关键挑战。尤其在高度复杂的2B行业细分场景,大部分漂亮的PPT和Demo后最后都没有了“然后”。
今天这个文章仍然回归到“接地气”的土博主定位,一起来讨论一下2B场景大模型应用普遍存在但地经常被战略性忽视的能力鸿沟。
背景 - 被高估的“智能”与被低估的“落地”
以ChatGPT为代表的生成式人工智能(GenAI)技术被誉为人工智能的“iPhone时刻”,这个观点最早由Nvidia的黄教主(Jensen Huang)在23年初明确提出:“This is the iPhone moment of artificial intelligence”。如果说2年前大家对这一轮GenAI引发的科技革命还有所怀疑的话,现在各家都在争先恐后地抓紧一切机会想上这趟车。
过去两年多,以OpenAI为代表的国内外各家通用大模型(Foundation Model)真的是“大模型一周,人间一年”的感觉。LLM技术路线从”Pre-training”到”Test-time Compute”,从”predicting next token”到”take more time to think/reason”,智能能力越来越强的同时智能成本却在急速下降,单从这一趋势就符合新技术革命的早期特征。
source: latent.space(as of Jan. 2025)
然而,与基础大模型(如OpenAI GPT、Anthropic Claude、Google Gemini、DeepSeek、Alibaba Qwen等)和2C应用(如ChatGPT、Gemini App、我最爱的NotebookLM、Cursor、Devin、Manus、Midjourney、Runway、Sono、Monica.im等)的火爆相比,很多2B行业场景GenAI应用的步履维艰形成了鲜明对比。
尽管各种实验性项目层出不穷,但企业在将GenAI从PoC阶段推向实际生产环境的比例可能不超过20%。哈佛大学Jen Stave关于AI生产力的“Jagged Frontier”理论在专业性高的2B领域尤其突出,即AI在某些任务上表现卓越,却可能使另一些任务复杂化,大白话讲就是人工专家觉得很简单的事情AI都做不好,但在一些复杂任务上的表现却令人惊叹。让我不禁想起前几天看到的一个有趣的视频,一个1米9几的13岁孩子放学回家很举丧地跟他妈妈抱怨忘带“小天才”手表了。
那问题来了:
为何2B场景众多被寄予厚望的GenAI项目,在投入巨大资源后却难以创造出规模化的且可持续的价值呢?
本文尝试从技术、模型、产品和组织视角分析构建2B大模型产品“容易被忽视”的拦路虎们,以及这些问题的可能解法。由于本人水平有限,难免有一些不准确甚至错误的观点,兼听则明。
一、数据烂路虎 - 被忽视的“数据炼金术”
“大规模、高质量的数据是AI的燃料”这一观点从传统AI时代到最近几年的大模型时代已经成为“正确的废话”。被普遍忽视的一点是:
在数据质量参差不齐、结构复杂、充满隐性知识且各种数据孤岛的2B场景,将“原始领域数据”提炼为GenAI可用的“高质量燃料”的过程,是一项投入巨大、周期漫长、技术含量极高却又极度缺乏“性感叙事”的“数据炼金术”。
我见过和听过很多企业和团队恰恰死在了这容易被忽视的“第一公里”。几乎所有大型组织都面临一个共同难题:数据高度分散和混乱,且非常难以集成。企业数据分散在不同的系统(如ERP、CRM、SCM、MES、传感器网络等)中,格式各异,质量各异,难以整合形成统一、可信的高质量领域数据为AI应用提供基础的“数据燃料”。
许多组织将GenAI的数据准备工作视为一次性的“数据清理”(简单的ETL或数据湖构建),而非一项持续的、高度复杂的“炼金术”。
殊不知,高质量领域数据优势的建立是AI能够真正落地的前提,也是不可跳过的关键一步。但领域数据优势的构建需要持续的战略性投入,这些工作往往也是企业数字化和智能化的“脏活累活”,高层看不到或者看不上,实施者能不能做好又高度依赖于对业务的深刻理解、跨部门的协作以及有效的管理机制,但一旦成功则对企业的长期价值巨大。用我们之前经常提的一句土话就是“坐在数据的金山上要饭”。
“第一公里”的挑战不仅仅在于数据接入,更在于实现语义层面的统一和业务逻辑的对齐,这是一个持续且成本高昂的过程,比如我认为Palantir的Foundry和Ontology就是这家公司的隐形“护城河”。
对“数据炼金术”的战略性低估,导致2B场景大模型应用项目本身就建立在不稳固的基础之上,浪费了钱和人的投资,也未能释放真正的商业价值。
那有什么解法呢?尽管每家公司有自己的行业和公司特点,但Palantir的Foundry和Ontology的做法绝对是非常值得去借鉴的。Palantir的Foundry和Ontology之所以被认为是“隐形的护城河“,正是因为其直面了企业数据混乱的原罪,投入十数年进行“数据治理的脏活累活”。在GenAI时代,这种“慢功夫”是否是构建2B竞争壁垒的一个重要方向呢?个人认为仍然是。
对于很多盲目的大模型技术乐观派而言,可能会寄望于GenAI能够提供一种“微波炉式”的快捷方案,自动理解和处理混乱的企业数据。理解很美好,现实非常骨感。
试图绕过数据治理的“慢炖”阶段,直接期望GenAI解决其数据混乱问题,其构建的应用很可能流于表面且缺乏可靠性。GenAI或许能够加速“慢炖”的过程,但无法完全跳过它。
二、模型拦路虎 - 被高估的“通用智能”与被低估的“领域智能”
追逐更大、更通用的大模型似乎已成为一种“技术信仰”。但被忽视的是:
在需要专业行业知识、领域逻辑推理和高可靠性决策的2B场景,通用大模型的能力边界暴露无遗。其“什么都懂一点,但什么都不精通”的特性,使其难以直接胜任核心业务。如何补齐 “通用智能”与 “领域智能”之间的巨大鸿沟,是当前GenAI在2B落地中被普遍低估且最具挑战性的一环。
相信大家都或多或少地感受得到,通用大模型(Generic Foundation Model)在垂直行业领域对行业深度、行业专业性及行业特定知识的缺乏使得这些通用大模型用起来总感受差些意思。企业很容易陷入“大模型能力陷阱”,即过度高估通用模型在特定复杂行业场景中的实际效用,这也是前面提到的“Jagged Frontier”困境。
这种对通用大模型能力的盲目乐观,会导致企业认为只需直接调用LLM(比如最常见的Prompt Engineering提示词工程)即可解决复杂的行业问题。然而,通用大模型在特定领域知识的深度、遵循复杂业务逻辑的能力以及关键细节的精确性上,往往与人类专家存在数量级的差距。通用大模型“什么都懂一点,但什么都不精通”的特性,使其难以直接胜任核心业务。
从技术挑战具体来看, 核心挑战在于如何将隐性的、非结构化的、高度上下文依赖的“行业智慧”(Domain Expertise)有效地“注入”或“对齐”到大模型中。这远非简单的SFT Fine-tuning或RAG所能完全解决的,它需要对模型内部机理、领域知识表征、以及人机协同推理进行系统性创新。Harvey.ai、OpenEvidence等公司的探索,本质上是在尝试构建一种新型的“认知架构”,LLM只是其中的一个重要构成。
法律行业AI应用的明星公司Harvey AI,正在尝试构建针对法律领域的专业AI应用,它集成了多种基础模型(来自OpenAI、Anthropic、Google),并针对特定的法律任务和业务工作流进行了深度优化,这更像是在构建一种特定行业的新型“认知架构” 。
医疗行业AI应用的明星公司OpenEvidence,正在尝试通过整合海量的同行评审医学研究为临床决策提供循证支持,这也体现了对特定领域知识的深度处理能力。虽然RAG通过检索外部数据来提升事实性,fine-tuning能够更深层次地嵌入领域知识,但更前沿的混合方法如RAFT(检索增强微调)可能也是一个值得尝试的技术路线,可以结合两者的优势。
另外从规模化视角看,一个容易被战略性低估的事情是:为每个细分行业(甚至每个大型企业客户)构建、验证和持续维护一个“真正懂行”的行业领域模型需要长期、巨大的技术投入和人才投入。大部分企业高层Leader,尤其是业务相关的leader们很难真正下这个决心,除非创业公司就只能靠这个在激烈的竞争中生存下去。
如何解决呢?这里仅提出一些可能的解决思路。
我们是否应该重新审视“大模型+大数据(领域领域)”、 “大模型(生成式) + 小模型(专业模型)”或者长期构建自己的领域大模型呢?这几种技术路线可能在不同阶段、不同场景下都有自己的可行性,技术leader们需要在“模型规模-领域深度-成本效益”之间找到最优平衡点。千万要注意的就是,不要拿着锤子(大模型)就到处去锤钉子(行业场景)。
三、产品拦路虎 - 被忽视的“业务流程重塑”与“用户心智再教育”
2B场景最常见的一个误区是:
把大模型技术当成一个银弹,尝试完全推翻和颠覆之前的业务系统和流程。觉得通过一些数据Embedding+RAG, 基于一些开源Agent产品/框架以及一些prompt模板就可以快速重建一个“全新”的业务系统。
这个误区可能的最大坏处是,借着构建大模型应用的理由,去胡乱搞一通改造,更可怕的是还打着“提升客户体验”的名义用简单的”chat即一切”交互掩盖了业务系统和用户需求的复杂性。 某种程度上,用错人的伤害远大于不用人的影响。
在2B行业,GenAI如果深度融到既有的、复杂的、根深蒂固的核心业务流程里,仅仅提供一个“外挂式”的聊天机器人或文本生成器,其价值将大打折扣,甚至会被视为“效率干扰器”。我一直坚持的观点是:无论什么技术和产品形态,只要无法真正实客户和业务价值转换都是”耍流氓“。
2B场景的许多GenAI应用在POC的demo后即成为“闪亮的玩具”,但并未从根本上改变业务流程和工作方式。个人认为,AI技术在2B领域的真正变革性价值,在于让GenAI成为“全流程嵌入式引擎”,无缝集成到核心业务流程并对其进行重塑,而这也需要深刻的业务流程理解、利益相关方认同,以及智能组织管理。与表面上的单点自动化相比,根本性的智能流程再造能带来更深远的影响。
战略性地忽视深度业务流程集成和业务价值转换,会导致GenAI技术仅在非关键业务路径上提供”可有可无“的边际效用,反而成为“效率干扰器”。
1. 产品定位视角:从“LLM通用能力API”到“业务操作系统OS”是构建护城河的关键
许多GenAI产品仅仅停留在用AI“赋能”现有流程的某个环节,而未能从根本上思考GenAI是否能催生全新的、更高效、更智能的业务流程。真正的变革往往来自于对整个价值链的重构,而非局部优化。
那如何将GenAI的能力“隐形”地嵌入到用户每日依赖的核心业务系统(ERP、CRM、SCM、PLM、行业专用软件等)中,使其成为用户完成任务的“默认选项”和“智能底座”,而不是一个需要额外学习和适应的“新工具”呢?
还有一个常见的误区是:
战略性低估了与企业客户庞大而异构的IT系统进行深度集成所需的技术投入、时间成本和组织协调难度,这往往是GenAI应用在2B规模化推广中“最重”的一环,而这些事情在早期看都是”things that don’t scale”。
2B GenAI产品的终极形态,是否会趋向于一种“行业操作系统”或“智能业务平台”,它不仅提供AI能力,更定义了新的行业标准、数据接口和协作范式?这样的平台如何构建?谁能主导?
构建这样的“行业操作系统”需要深厚的行业洞察、强大的数据本体建模能力(如Palantir的Ontology)以及培育整个生态系统的能力,这些事情如果仅仅把大模型作为黑盒简单使用显然是战略上的误判。
2. 用户体验视角:”chat即一切“的体验绝对不是最好的体验
被忽视的“交互效率陷阱”
最初对“chat即一切”交互方式的过度乐观,在2B复杂任务场景下会发现迅速碰壁。试图用一套通用的“Chatbot思维”去设计所有2B GenAI产品的交互界面,而忽视了不同行业、不同岗位专业用户对信息密度、操作精度和决策效率的独特要求。
我自认为算是深度使用各种GenAI应用了,但对于我这样还算懂点大模型技术和半吊子业余“产品经理”的用户而言,我感觉复杂场景、精准表达需求的门槛还是极高的,同样也会发现对于一些垂直场景的instruction following离预期还是很远的。对于需要精确输入、多步操作、结构化输出的专业任务,纯粹的开放式聊天往往效率低下、易出错、且难以标准化。
纯粹的开放式聊天交互形态,看似降低了使用门槛,但往往导致效率低下、易于出错,并且难以实现标准化,纯对话式UI带来的认知负荷以及在功能可用性方面的不足非常明显。
产品交互形态挑战
如何在GenAI CUI的灵活性与传统GUI的结构化控制交互之间找到最佳平衡点?我认为2B场景更现实有效的交互一定是“混合式交互”,比如“自然语言发起+结构化参数调整+可视化结果校验”或“上下文感知的主动式交互”,即AI根据当前业务流程和用户画像,主动提供相关建议或操作入口。
“DigitalMe“的设想
在2B场景,GenAI的理想交互是否应该追求“越用越懂你”,通过持续学习用户的操作习惯、偏好和领域知识,实现高度个性化和自适应的“智能工作流伴侣”?如果要这样做,需要怎样的技术和产品设计支撑?
被忽视的“用户信任的脆弱性”
在2B场景,一次关键的AI决策失误或交互障碍,就可能永久性地摧毁用户(尤其是保守的行业专家)对新技术的信任。2B场景用户信任的建立是一个缓慢而艰难的过程,但其崩溃却可能在瞬间发生。一次关键的AI决策失误,或者一次糟糕的交互体验,尤其对于那些本身对新技术持保守态度的行业专家而言,都可能永久性地摧毁他们对GenAI产品的信任。这种信任的脆弱性,是初创企业在产品设计和迭代过程中必须时刻警惕的。
3. 创业者视角:“不能带来真金白银的产品都是耍流氓”
被忽视的“Customer Success(客户成功)”
在2B GenAI领域,“客户成功”远不止于产品交付,更在于深度参与客户的业务流程变革,不能带来真金白银的收益和用户体验的质变,都是耍流氓。 对2B场景成功的GenAI产品而言,“客户成功”的内涵是不是会演变成一种Business Evolution as a Service(变革管理即服务?)
智能组织文化的拥抱
对于试图用GenAI改造传统行业的初创公司,最大的挑战可能并非来自技术本身,而是来自改变用户(尤其是大型企业客户)根深蒂固的工作习惯和组织文化的巨大阻力。这种“软性壁垒”如何攻克? 这种“软性壁垒”的攻克,需要初创企业具备极强的战略耐心、卓越的沟通能力和专业的变革管理知识,仅仅依靠技术领先是远远不够的。
价值证明的艰巨性
向2B客户清晰、可信且量化地证明GenAI所带来的真实业务回报(ROI),其难度往往超过技术实现本身。尤其当GenAI的价值是间接的(例如提升员工满意度)、长期的(例如积累知识资产)或难以用传统财务指标(如短期利润增长)衡量时,这一挑战尤为突出。
2B GenAI的商业模式
个人认为未来的GenAI产品一定是基于成果来定价的(outcome-based pricing),即根据GenAI应用为客户节省的成本或提升的业务指标(如销售转化率、客户保留率)的比例来收费。 这种商业模式的可行性在于它能更紧密地将创业公司的利益与客户的成功绑定,激励创业公司提供真正能创造价值的解决方案。
例如Intercom的Fin按AI解决的对话数量收费,Saleforce Agentforce在客户服务场景按照问题解决量来收费,这些都是向成果付费模式迈进的尝试 。尽管这种模式在如何清晰、公正地定义和衡量“成果”本身就存在挑战,但向价值驱动的商业模式发展一定是2B场景GenAI产品实现可持续盈利的关键。
被忽视的“盈利时间窗口”
GenAI技术仍在高速演进,基础大模型的成本和能力也在快速变化。经常会出现基础大模型公司往上做应用和业务的部分,而一些垂直场景GenAI应用想往下做大模型,2B GenAI创业公司需要在技术红利消失或竞争白热化之前,快速找到可持续的盈利模式并建立壁垒,否则利润空间将被严重挤压。
四、组织拦路虎 - 被忽视的“文化惯性”与“能力断层”
GenAI对组织的冲击远不止于只是一个新技术层面,它要求企业进行一次深刻的“基因重组”。从僵化的层级结构到过度细化的专业化分工,从经验驱动决策到数据与智能协同决策,从固守传统技能到拥抱“Collapsing the Talen Stack(人才堆栈压缩)”和终身学习。
这其中最大的障碍往往不是技术,而是根深蒂固的“组织文化惯性”和由此产生的“能力断层”:
被忽视的“协作摩擦成本”
GenAI产品天然需要算法、工程、数据、产品、设计、领域专家等多元背景人才的深度耦合,但不同专业之间的“语言体系”、“思维范式”、“工作节奏”甚至“价值排序”都可能存在巨大差异,导致大量的隐性“协作摩擦成本”。这个问题的一个可能解法就是”Collapsing the Talent Stack“,我在之前的文章《一点思考(2) - "Collapsing the Talent Stack"》有详细讨论过。
被忽视的“AI产品经理的超能力要求”
在GenAI时代,AI产品经理不仅要懂用户、懂市场、懂设计,还需要对AI的技术原理、能力边界、数据需求、伦理风险有相当程度的理解,并能有效“翻译”和“粘合”不同背景的团队成员。这种“超级连接器”角色极其稀缺,其实这种角色并不一定局限于产品经理。
比如最近全球性金融科技公司Revolut产品负责人在一次访谈中提出了一个”Local CEO”的模式,大白话讲就是有一个人端到端地为一个产品或者项目负责,我觉得未来的智能时代不管之前什么角色都有可能成为这个“Local CEO”。这种能够驾驭多重复杂性的“超级连接器”型人才,在当前市场上是极其稀缺的(我还没有见过非常好的)。
智能组织的未来
前段时间曾鸣教授在其最新的《智能经济和组织》演讲中有分享过2个最重要的观点:
1. “公司的业务有多大比例是AI独立经营的?”
2. “公司内部员工多大比例是硅基员工?”
当AI能够自动化许多重复性脑力劳动后,未来组织对人才的核心需求会是什么?是更强的批判性思维、创造力、情感智能,还是与AI深度协同、共同进化的能力?企业的人才战略应如何提前布局?
总结:Key Takeaways
构建2B大模型产品不认是在企业内部,还是创业公司都不是一件容易的事情,在高举高打之前,建议还是要认真思考一下那些“容易被忽视”的拦路虎们:
1. 从数据层面看,将原始领域数据转化为高质量“AI燃料”的“数据炼金术”的艰巨性被普遍低估。B2B行业特有的数据异构性、孤立性以及业务-模型语义鸿沟,对“领域数据优势”的构建提出了极高要求。忽视这一点,GenAI产品便如同建立在流沙之上。
2. 从模型层面看,对通用大模型能力的盲目乐观导致了“能力陷阱”。如何补齐通用智能与领域智能之间的鸿沟,确保模型在特定2B场景下的适用性、可控性、稳定性和安全性,远比想象的复杂。对“黑盒”大模型的过度依赖与2B业务和客户对确定性和可解释性的需求之间始终会存在很大的矛盾,需要认真去解决。
3. 从产品层面看,“最后一公里”的挑战在于如何将GenAI无形地融入并重塑核心业务流程,而非简单提供一个“外挂式”工具。这需要深刻的业务流程再造和用户心智再教育,以及对交互效率陷阱的警惕和对用户信任的精心构建。价值量化的艰巨性和可持续商业模式的探索,更是2B GenAI产品能否存活的关键。
4. 从组织与人才层面看,GenAI的冲击远超工具层面,它要求企业进行“基因重组”。”Collapsing the Talent Stack”,打破组织竖井、培养具备“AI思维”的跨界人才、以及自上而下推动文化变革,是克服“文化惯性”和“能力断层”的必由之路。
这些挑战并非孤立存在,而是相互交织,共同构成了B2B GenAI落地的系统性困境。任何单一环节的“被忽视”,都可能引发多米诺骨牌效应,导致整个GenAI产品或项目的失败。
Enjoy!
Note - 之前我还零散写过一些关于“大模型落地”的思考,供参考:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-21
一文读懂:2025 Google I/O 开发者大会
2025-05-21
超越Cursor?最强编辑器重大更新!带你动手体验VSCode MCP Streamable HTTP传输!
2025-05-21
深度解析:AI Agent 应用开发中 MCP 入门要点
2025-05-21
首款无限Agent Neo深度实测,出道两年半的AI转正了
2025-05-21
浅析军事大模型的构建逻辑与赋能路径
2025-05-21
Google I/O 先是卧槽,然后哦
2025-05-21
黄仁勋最新专访:50%的AI开发者都是中国人,《AI扩散规则》或反噬美国
2025-05-21
让 AI 做 AI 擅长的事,让人更像人
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-18
2025-05-18
2025-05-17
2025-05-13
2025-05-13
2025-05-12
2025-05-11
2025-05-09