免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

刷新 Google AlphaEvolve 进化结果,百度开源 Agent 开发框架 LoongFlow

发布日期:2026-01-21 18:38:40 浏览次数: 1545
作者:百度Geek说

微信搜一搜,关注“百度Geek说”

推荐语

百度开源LoongFlow框架,让AI学会专家级思考,在数学和机器学习领域刷新多项SOTA记录。

核心内容:
1. LoongFlow框架的设计理念与核心优势
2. 在数学和机器学习领域的突破性表现
3. 智能体技术从单步执行到持续进化的演进路径

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

点击蓝字,关注我们

LoongFlow 是百度百舸团队发布的一个开源的、旨在让 AI 学会「专家级思考」的智能体开发框架。我们相信,设计一个能解决复杂问题的专家级 Agent,关键在于其思考模式——它决定了 Agent 能解决问题的复杂度和效果上限。
基于 LoongFlow 框架,我们开发了「通用算法发现」和「机器学习」两个开箱即用的 Agent,它们已在多项顶尖挑战中证明实力:
  • 在数学领域 11 个问题上超越人类数学家已知最佳结果,在 7 个问题刷新了 Google AlphaEvolve 的进化结果,刷新 SOTA。
  • 模拟 Kaggle 数据科学竞赛的 MLE-bench 评测中独立斩获 23 块金牌
  • 在相同任务下,与 OpenEvolve、ShinkaEvolve 等进化智能体对比:进化效率提升超 60%,迭代成功率 100%。

今天,AI 要攻克更复杂的现实难题,不仅需要知识,更迫切需要一套能驾驭复杂性的系统化行动方法。
爱迪生发明灯泡的故事常被用以诠释坚持 —— 他进行了超过 6000 多次的实验,最终找到了可用的碳化竹丝。但换一个角度思考:如果他只是盲目、随机地尝试每一种材料,面临的可能是上万次失败,甚至终其一生也无法完成发明。
幸运的是,爱迪生并非完全随机尝试。他会观察每次失败,碳化竹丝为何比铂丝更耐用?这种从失败中提炼规律、指导下一步实验的能力,才是他成功的真正关键。
1.    智商与方法的距离:当聪明遇到了复杂
我们常将解决难题归功于「智慧」或「灵光一现」。但面对真正复杂的挑战,系统性的「解题方法」往往比瞬间的「智力火花」更具决定性。
爱迪生需要找到一种材料,能在通电后持续发光而不立即烧毁。他面对的,是一个典型的 「长程复杂推理任务」:
  • 可能性空间巨大:成千上万种材料、不同的处理工艺、多种形状尺寸。
  • 需要多轮迭代:不能一次性得出答案,必须「尝试 - 观察 - 调整」循环。
  • 结果反馈延迟:只有完整实施后,才能知道效果如何。
  • 需要积累智慧:每一次失败都应让下一次尝试更聪明。
这些任务的共同点是:光有知识和计算能力不够,还需要一套能引导探索、积累经验、避免重复错误的思考框架。
在商业世界中,这样的任务无处不在:新药研发中从上万种化合物筛选有效成分;芯片设计中在数十亿种可能布局中探索最优电路;城市规划中构建动态模型以平衡交通流量与生活便利。
其复杂程度已远超单凭人力进行「试错」的范畴,这些任务的解空间犹如宇宙般浩瀚,我们需要的,是将人类顶尖的思维框架与机器无限的执行算力相结合的全新范式。
2.    Agent 演进:从「单步执行」到「持续进化」
为了让 AI 从「博学的参谋」成长为能自主解决复杂问题的「专家」,智能体(Agent)技术应运而生,并沿着解决日益复杂问题的方向演进。
阶段一:让 Agent 一步步想 —— 解决单任务的推理智能体
以 ReAct 范式为代表,这类智能体让 AI 学会了在单个任务中进行 「推理 - 行动 - 观察」 的逐步思考。例如,要回答「今天北京天气如何并推荐一家餐厅」,它会先推理「我需要调用天气 API」,执行查询后,再根据结果推理「现在需要搜索餐厅排行榜」。
其本质是针对单任务的序列决策。它善于解决有明确步骤的线型问题,像一个可靠的「单任务执行者」。
阶段二:让 Agent 一代代进化 —— 挑战长程任务的进化智能体
当目标变为「发现一个超越现有水平的新算法」或「优化一个机器学习 pipeline」时,单次推理就不够了。这需要在多轮迭代中保持方向、积累智慧。以 AlphaEvolve、OpenEvolve 为代表的进化智能体框架引入了新思路:它们维护一个「解决方案种群」,通过评估、选择、优化调整(由 LLM 驱动)来一代代进化,追求持续改进。
本质是面向长期目标的种群优化器。它具备了解决长程复杂任务的潜力框架。
然而,早期进化智能体常把 LLM 当作一个随机调整器 ,导致进化过程类似蒙眼随机漫步,效率低下。它们虽然引入了「进化」概念,但在 「如何智能地进化」 这一关键方法上,仍有巨大提升空间。
至此,需求明确:我们需要一个真正会思考、会学习的智能体,既能具备进化智能体的长期迭代和种群优化能力,又能拥有推理智能体的深度思考和因果分析能力,并将二者深度融合。
3. LoongFlow:开源的「专家级思考」框架
LoongFlow(龙流)正是为满足这一需求而生的开发框架。它提供了完整的架构与方法论,让开发者能够基于先进的大模型,构建出具备「科学家思维」的专家级智能体(Agent)。
LoongFlow 是一个开源的、旨在让 AI 学会「专家级思考」的智能体开发框架。我们相信,设计一个能解决复杂问题的专家级 Agent,关键在于其思考模式——它决定了 Agent 能解决问题的复杂度和效果上限。LoongFlow 的命名,致敬了王阳明「龙场悟道」所揭示的「知行合一」真谛 —— 真知必在于行,而行必有真知指导。这正契合框架的抱负:打破 AI 认知与行动间的隔阂,让专业的经验与方法,能在持续的智能实践中转化为可进化、可复用的生产力。
因此,LoongFlow 的核心目标,是帮助开发者将自身的专业经验,快速转化为具备长程复杂推理能力的 AI 智能体。通过开源,我们期待与全球开发者和领域专家共同构建一个生态,让每个人都能基于 LoongFlow,创造自己领域的专家级 AI 生产力。
图片
LoongFlow的核心创新在于两套相互咬合的设计,即 PES(Plan-Execute-Summarize)和混合进化记忆系统(Hybrid Evolutionary Memory),系统化地实现了 「如何智能地进化」:
  • PES 范式:为进化注入「科学家思维」
    LoongFlow 没有将进化交给随机性,而是为每一次迭代设计了结构化的认知阶段:规划、执行、总结。这确保了每次尝试都是目的明确、过程可控、结果可学的,从根本上将「随机漫步」转变为「定向探索」。
  • 混合进化记忆系统:构建专属的「战略智库」
    框架为智能体配备了一套精密的经验管理系统。它不仅仅是存储过去的解决方案,更是按照策略与特征对其进行分类、索引与动态调取,确保历史智慧能被高效复用,防止探索陷入重复或僵局。
图片
二者结合,LoongFlow 实现了从 「随机演化」到「定向认知进化」 的范式升维。智能体的探索不再是蒙眼狂奔,而是在历史智慧照亮下的、有策略的远征。
4.    实战验证:顶尖竞技场上的性能标杆
任何方法的价值,最终由实践检验。基于 LoongFlow 框架,百度百舸团队开发了「通用算法发现」和「机器学习」两个开箱即用的 Agent,它们在高难度测试集上的表现,验证了该框架的普适性与领先性。(详见技术报告,文末有报告链接)
数学成就:全面刷新人类与 AI 的纪录
在陶哲轩和 AlphaEvolve 发布的数学挑战中,LoongFlow 取得了令人瞩目的成绩:
  • 在 11 个问题上超越了人类数学家已知最佳结果。
  • 在 7 个问题上超越谷歌 AlphaEvolve 的进化结果,刷新 SOTA。
例如,在 「圆填充」 问题中,如何在给定形状内排列多个圆,使它们互不重叠且尽可能填满空间?LoongFlow 找到比数学家多年探索和 AlphaEvolve 进化结果更优的排列方式
图片
备注:上图来自于技术报告中的截图,未能包含从技术报告完成到本文发布时间差内新增的成就
工程成就:在 23 项真实挑战中夺得金牌
在 OpenAI 发布的模拟 Kaggle 数据科学竞赛的 MLE-bench 评测中,由 LoongFlow 驱动的机器学习智能体, 已独立斩获了 23 枚金牌。
任务涵盖从 「病理切片癌症检测」 到 「预测火山喷发」 等高度专业且数据复杂的现实场景。这证明 LoongFlow 不仅能解决抽象数学问题,更具备构建、优化端到端工业级解决方案的工程能力。
图片
备注:上图来自于技术报告中的截图,未能包含从技术报告完成到本文发布时间差内的新增金牌
效率成就:以 60% 的效率优势稳定胜出
在相同任务下,与 OpenEvolve、ShinkaEvolve 等进化智能体框架对比
  • 进化效率提升超 60%:用最少的生成评估次数,发现最好的结果。
  • 迭代成功率 100%:在多次重复实验中稳定达成目标,而基线方法常因陷入局部最优或进化太慢而失败。
图片
图片
这意味着,使用 LoongFlow,研究者与企业能以显著更低的计算成本与时间成本,获得更可靠、更优质的解决方案。
5.    专家级思考机制解构:智慧如何从系统中涌现
LoongFlow 的高效源于其精妙的架构设计,它通过微观的认知循环与宏观的经验管理紧密协同,催生出系统的智慧。
PES 范式:高质量的定向认知循环
PES(Plan-Execute-Summarize)是驱动每一次迭代的核心引擎,它确保进化过程中的每一步都是深思熟虑的。
  • Plan 规划:在生成新一代方案前,智能体会扮演「战略分析师」的角色。它首先深度分析当前采样方案,然后检索「战略智库」(混合进化记忆系统)中所有的历史经验与失败教训,最终制定出一份目标清晰、规避已知陷阱的「进化蓝图」。这从根本上杜绝了盲目尝试。
  • Execute 执行:「执行」阶段如同一个配备了全系专业工具包的智能施工队。其关键在于 「因题施策」 的动态适配能力:面对数学证明,它是严谨的「逻辑验证器」;编写代码时,它是即写即测的「交互解释器」;进行数据分析时,它又化身为高效的「智能查询生成器」。这种灵活性,结合「快速本地验证」机制,确保了高质量输出,从源头节省了计算资源。
  • Summarize 总结:行动之后,「总结」模块承担起「复盘官」的职责。它不满足于简单的得分,而是深入剖析「规划蓝图」与「执行结果」之间的差距,提炼出「为何成功或失败」的因果洞察。这些结构化的经验被转化为下一代规划时可检索的宝贵知识。
混合进化记忆系统:体系化的经验治理
如果说 PES 是单次探索的「优质生产线」,那么混合进化记忆系统(Hybrid Evolutionary Memory)就是确保整个探索事业可持续发展的「智慧管理体系」。
  • 多岛模型:它在内部建立多个独立的「探索特区」,允许不同的技术路线并行发展,相互隔离又定期交流,有效维持了探索的多样性,避免思维过早趋同。
  • MAP-Elites:它如同一个多维的「杰出方案陈列馆」。系统不仅按成绩,更按行为特征(如算法复杂度、计算效率)对解决方案进行归档。这意味着,一个在某项特性上表现极佳但总分并非最高的方案,同样会被珍藏,为未来的跨界创新保留火种。
  • 自适应玻尔兹曼选择:这个模块是智能的「资源调度官」。它根据种群探索的实时状态(如多样性熵值),动态调节关键参数,智能切换策略:是在全局鼓励冒险开拓新边疆,还是在局部集中力量深耕最优领地。
系统的协同魔力:1 + 1 > 2
PES 范式与混合进化记忆系统并非独立运作,它们的深度耦合是效能的倍增器。
规划时,分析师(即规划模块 Planner) 从「战略智库」(混合进化记忆系统)中获取精选、多样化的历史方案作为蓝图依据,直接站在巨人肩膀上。
执行时,施工队(即执行模块 Executor) 利用其动态适配的工具进行快速自我质检,确保只将高潜力方案提交给耗时的最终评估。
总结时,复盘官(即总结模块 Summarizer) 产出的因果洞察又被系统化地反馈回「战略智库」,持续丰富集体智慧。
正是这种微观认知与宏观管理在每一个迭代周期内的紧密配合,使得 LoongFlow 的整个探索过程呈现出强大的方向性、累积性和加速性,从而能够高效攻克那些令传统方法望而却步的长程复杂任务。
6.    从千次试错到百次探索:AI 解题的范式转变
回到那个经典的问题:爱迪生寻找灯丝实验了上千次,如果 AI 来做,几次能成?
基于 LoongFlow 在实际复杂任务中的表现,我们看到了一个根本性的转变。在类似规模的探索空间中,传统随机搜索可能需要成千上万次尝试,而 LoongFlow 的定向认知进化方法,能够减少约 60% 以上的无效探索,并将迭代成功率提升至接近 100%。
这意味着,如果爱迪生当时拥有这样的系统,寻找合适灯丝的过程可能从「上千次盲目试错」压缩为「数百次智能探索」——每一次尝试都建立在前一次的经验总结之上,每一次失败都直接指引着下一次的方向。
但这不仅仅是数字上的缩减。LoongFlow 带来的真正价值在于范式的变革:它将人类「假设 - 检验 - 学习」的科学精神,以软件架构的形式固化、增强并规模化。它让智能体不再是单纯消耗算力进行蛮力搜索,而是能够像最严谨的科学家那样,有策略地规划、有工具地执行、有深度地反思。
从 「随机试错」 到 「定向思考」 ,这标志着 AI 解决问题方式的质变——答案不再依赖于尝试的次数,而是源于思考的深度与系统性。
7.    开源共建:让专业经验转化为 AI 生产力
我们相信,未来的 AI 生产力,既需要强大的基础模型,更需要千行百业沉淀的专业经验与之结合。 LoongFlow 的开源发布,正是为了搭建这样一座桥梁——让领域专家无需成为 AI 技术专家,也能将自己的专业知识转化为高效的智能体。
我们诚邀全球开发者、研究人员和行业专家加入这一开源旅程,共同塑造 AI 解决复杂问题的新范式:
参与共建
贡献实际任务案例:为您感兴趣的领域(如生物信息、材料科学、金融分析等)设计挑战,丰富测试集,推动框架的泛化能力。
开发领域专家智能体:基于 LoongFlow 框架,封装您所在领域的专业知识与工作流,创造可直接应用的专家级 AI 助手。
完善框架生态:贡献新的工具组件、可视化界面或性能监控模块,让 LoongFlow 更易用、更强大。
立即行动
访问 GitHub:详细代码、文档与示例 https://github.com/baidu-baige/LoongFlow。
阅读技术报告:深入了解设计原理 https://arxiv.org/abs/2512.24077。
加入社区:通过 GitHub Discussions 分享您的想法与案例,与全球开发者交流。
在通往更通用人工智能的道路上,让机器学会如何 「系统地思考」 复杂问题,与让它变得更「聪明」同样重要。LoongFlow 在这个方向上迈出了坚实而开放的一步——这不仅仅是一个框架的发布,更是一次关于如何让 AI 真正理解并解决现实世界复杂问题的集体探索的开端。
现在,轮到您来定义下一个需要被攻克的「灯丝难题」了。

 END

  推荐阅读

了解你的 AI 编码伙伴:Coding Agent核心机制解析


百度流式计算开发平台的降本增效之路


百度智能云网络智能化运维系统设计和实践


百度一站式全业务智能结算中台


播放器视频后处理实践(二)氛围模式


图片
一键三连,好运连连,bug不见👇

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询