微信扫码
添加专属顾问
过去一年,大模型应用以前所未有之势从出现到繁荣。LLM应用从原型展示向生产落地演进。近日,Oreilly刊发了由 Eugene Yan, Bryan Bischof等人撰写的大模型总结性文章《What We Learned from a Year of Building with LLMs?》,由于作者们背景各不相同,有独立咨询顾问(Hamel Husain,Jason Liu),有研究人员(Shreya Shankar),还有科技公司AI团队领袖(Eugene Yan,Bryan Bischof),以及AI领域布道师(Charles Frye),这使得文章内容更为全面深入。他们从战术、运营和战略三个部分展开解读了自己过去一年有关LLM应用开发与运营的全方位经验。
过去一年有关大模型应用构建的干货经验之战术篇
过去一年有关大模型应用构建的干货经验之运营篇
要想成为伟大的产品,你的产品就不能仅仅是对别人的API的简单包装。但反其道而行之,代价可能会更高。在过去的一年里,有大量的风险投资,包括令人瞠目的 60 亿美元 A 轮融资,都花在了没有明确产品愿景或目标市场的培训和定制模型上。在本节中,我们将解释为什么立即培训自己的模型是一个错误,并考虑自托管的作用。
对于大多数组织而言,从头开始预训练LLM是不切实际的,会分散对产品开发的注意力。
虽然这很令人兴奋,而且似乎其他人都在这么做,但开发和维护机器学习基础架构需要大量资源。这包括收集数据、训练和评估模型以及部署模型。如果你还在验证产品与市场的契合度,这些工作就会占用开发核心产品的资源。即使您拥有计算、数据和技术能力,预训练的 LLM 也可能在几个月后就会过时。
以 BloombergGPT 为例,这是一个专门为金融任务而训练的 LLM。该模型在 363B 个token上进行了预训练,需要九名全职员工(其中四名来自AI工程部,五名来自 ML 产品与研究部)的不懈努力。尽管如此,该模型在一年内还是在这些金融任务上被 gpt-3.5-turbo 和 gpt-4 所超越。
这个故事和其他类似故事表明,对于大多数实际应用来说,从头开始预训练 LLM(即使是特定领域的数据)并不是资源的最佳利用方式。相反,团队最好根据自己的特定需求,对现有的最强开源模型进行微调。
当然也有例外。Replit 的代码模型就是一个典型的例子,它是专门为代码生成和理解而训练的。通过预训练,Replit 能够超越 CodeLlama7b 等其他大型模型。但是,随着其他功能越来越强大的模型的发布,要保持其实用性就需要持续的投资。
对于没有构建模型的团队来说,快速的创新步伐是他们的福音,因为他们可以从一个 SOTA 模型迁移到下一个模型,追逐情境规模、推理能力和性价比的提升,以建立越来越好的产品。
这种进步既令人兴奋,又是可以预见的。综上所述,这意味着模型很可能是系统中最不耐用的组件。
相反,应将精力集中在能够提供持久价值的方面,例如:
数据飞轮:为上述所有功能的迭代改进提供动力
与原始模型能力相比,这些组成部分为产品质量提供了更厚实的护城河。
但这并不意味着在应用层构建就没有风险。如果 OpenAI 或其他模型提供商想要提供可行的企业软件,就不要把你的剪子对准他们需要剪掉的牦牛。
例如,一些团队投资构建定制工具,以验证专有模型的结构化输出;在此方面进行最小程度的投资固然重要,但过深的投资并不能很好地利用时间。OpenAI 需要确保当你要求调用函数时,你得到的是有效的函数调用--因为他们的所有客户都希望如此。在此采用一些 "策略性拖延",构建你绝对需要的功能,等待供应商对功能的明显扩展。
从小事做起,建立信任
从根本上说,DevOps 与可复制的工作流程、左移或授权两个披萨规模的团队无关,也绝对与编写 YAML 文件无关。
DevOps 是要缩短工作与成果之间的反馈周期,从而不断改进,而不是不断出错。其根源可以追溯到精益创业运动、精益生产和丰田生产方式,后者强调 "一分钟换模和改善(Single Minute Exchange of Die and Kaizen)"。
MLOps 将 DevOps 的形式应用于 ML。我们有可重现的实验,我们有一体式套件,让模型构建者能够进行交付。我们还有 YAML 文件。
但作为一个行业,MLOps 并没有适应 DevOps 的功能。它没有缩短模型与生产中的推论和交互之间的反馈差距。
令人欣慰的是,LLMOps 领域已经从思考诸如及时管理之类的小麻烦,转向了解决阻碍迭代的难题:生产监控和持续改进,并通过评估进行关联。
现在,我们已经有了对聊天和编码模式进行中立、众包评估的互动平台--一个集体迭代改进的外循环。LangSmith、Log10、LangFuse、W&B Weave、HoneyHive 等工具不仅可以收集和整理生产过程中的系统结果数据,还可以通过与开发的深度整合,利用这些数据来改进这些系统。
大多数成功的企业都不是终身学习企业。与此同时,大多数企业都有机会通过本地化管理加以改进。
这两点往往会误导领导者匆忙地在系统中加装 LLM,从而增加成本、降低质量,并将其作为虚有其表的 "人工智能 "功能发布,同时附上令人生厌的闪光图标。有一种更好的方法:专注于真正符合产品目标并能增强核心运营的 LLM 应用。
考虑一些浪费团队时间的误导性投资:
将公司的知识库与客户支持聊天机器人整合在一起
虽然以上是常见入门级的 LLM 应用,但几乎所有产品公司都不应该自己构建这些应用程序。这些都是许多企业面临的普遍问题,在有前景的演示和可靠的组件之间存在巨大差距,而这正是软件公司的惯常做法。将宝贵的研发资源投入到当前 Y Combinator 批量解决的一般问题上是一种浪费。
如果这听起来像是老生常谈的商业建议,那是因为在当前的炒作浪潮中,人们很容易把任何 "LLM "都误认为是前沿的增量差异化,而忽略了哪些已经过时的应用。
"总的来说,开发人员告诉我们,他们感到更有信心了,因为使用 GitHub Copilot 和 GitHub Copilot Chat 比不使用时编码更容易、更无差错、更可读、更可重用、更简洁、更可维护、更有弹性"。
马里奥-罗德里格斯(Mario Rodriguez),GitHub
前面的章节提供了大量的技巧和建议。这需要吸收很多东西。让我们考虑一下最起码有用的建议:如果一个团队想要构建一个 LLM 产品,他们应该从哪里开始?
在过去的一年中,我们已经看到了足够多的例子,开始确信成功的 LLM 应用都遵循着一致的轨迹。在本节中,我们将介绍这本基本的 "入门 "手册。核心理念是从简单开始,只在需要时增加复杂性。一个合理的经验法则是,每提高一个复杂程度,通常都需要比前一个复杂程度多付出至少一个数量级的努力。考虑到这一点...
从提示工程开始。使用我们之前在战术部分讨论过的所有技巧。思维链、n-shot 示例以及结构化输入和输出几乎总是一个好主意。在尝试从性能较弱的模型中榨出性能之前,先用性能最高的模型做原型。
只有在提示工程设计无法达到所需的性能水平时,才应考虑微调。如果有一些非功能性要求(如数据隐私、完全控制和成本)阻碍了专有模型的使用,从而要求您自行托管,那么这种情况就会更多。只要确保同样的隐私要求不会阻止你使用用户数据进行微调即可!
例如,在审核 LLM 生成的摘要是否存在缺陷时,我们可能会给每个句子贴上细粒度的反馈标签,以确定事实不一致、不相关或风格不佳。然后,我们可以使用这些事实不一致注释来训练一个幻觉分类器,或者使用相关性注释来训练一个奖励模型,以便对相关性进行评分。作为另一个例子,LinkedIn 在其撰写的文章中分享了其使用基于模型的评价器来估计幻觉、负责任的人工智能违规行为、一致性等方面的成功经验。
通过创建资产,使其价值随着时间的推移不断复合,我们将建立评估从纯粹的运营支出升级为战略投资,并在此过程中建立我们的数据飞轮。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
可信仿真评估:工业 Physical AI 后训练落地的关键基础设施
2026-07-02
让 AI 真正接入 CAD:一次 Onshape + LLM 的云台工作流实践
2026-06-21
Text-To-CAD: AI Agent自主CAD设计工程实践
2026-06-10
“工业+AI”的旧世界与新世界 智能制造的华为范式与愿景
2026-05-21
范厚华:制造业AI转型需要关注的10个问题
2026-05-14
西门子的真正底牌
2026-03-08
一起奔跑,奔赴下一站:构建AI时代的工业数据基座
2026-01-13
为什么说Ontology才是工业智能的"操作系统"?一个从救火到预防的真实案例
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。