微信扫码
添加专属顾问
我要投稿
探索Agent工作流编排能力的新突破,WorkflowLLM框架和WorkflowBench数据集的开源为大模型带来革命性进展。 核心内容: 1. 大模型在工作流编排领域的挑战与局限性 2. WorkflowLLM框架的创新设计及其三个关键阶段 3. WorkflowBench数据集的构建与微调模型WorkflowLlama的性能表现
Manus 爆火出圈,引发 Agent 热潮!从自行理解任务、拆解步骤到选择工具并执行,这需要 Agent 具备强大的复杂工作流编排和任务处理能力,而工作流也是智能体的核心技术之一。
尽管大语言模型在多个领域已展现出巨大的潜力,但在工作流编排领域,尤其是在复杂工作流的编排上,仍面临显著挑战。现有大多数模型仅局限于处理节点较少、结构简单的线性工作流,难以满足实际应用中对复杂工作流编排的需求。
为此,清华大学 THUNLP 团队联合人民大学、曼彻斯特大学及武汉大学团队提出了一个全新的、以数据为中心的框架 —— WorkflowLLM,并设计了首个专为提升工作流编排能力而设计的大规模数据集 WorkflowBench,旨在提升LLM在工作流自动化中的复杂工作流编排能力。基于 WorkflowBench 数据集,我们对 Llama-3.1-8B 模型进行了微调,获得了 WorkflowLlama,在各项测评集中, 始终表现优于 GPT-4o 等强基线模型。
如上图所示,WorkflowLLM 主要包含三个阶段:
3. 工作流生成:最后,基于收集到的真实世界数据,训练一个工作流标注模型。利用训练好的标注模型为扩展后的任务查询生成工作流。对标注模型生成的工作流进行质量确认,确保数据集的完整性。将经过质量确认的合成样本与收集的样本合并,形成最终的 WorkflowBench 数据集。
WorkflowBench 数据集包含 106,763 个样本,涵盖 83 个应用程序中的 1,503 个 API。与现有工作相比,WorkflowBench 不仅包含更多节点的工作流实例,还具备更为复杂的逻辑结构,尤其注重支持多步骤、分支、循环等高级功能的工作流生成。作为首个专注于提升工作流编排能力的数据集,WorkflowBench 为大语言模型(LLM)提供了丰富且复杂多样的训练数据,使其能够更好地应对现实世界中对自动化工作的需求。
如图所示,该数据集覆盖了包括 iOS 内置应用、ChatGPT 在内的 83 个应用,涉及 Utility、Games、Music 等 28 个领域。相关数据说明及统计结果如下:
实验结果表明,使用 WorkflowBench 训练可以提升 OOD 数据集 T-Eval 的性能。为了进一步评估 WorkflowLlama 的泛化能力,我们在 OOD 基准测试 T-Eval 上进行了实验,该测试广泛用于评估 LLM 利用 API 进行多步决策的能力。如图 6 所示。尽管 WorkflowLlama 在不同的领域和任务上使用不同的 API 进行训练,但在 T-Eval 基准测试中仍然展现出强大的 OOD 泛化性能。且 WorkflowLlama 显著优于未经微调的 Llama3.1-8B 以及更大的开源模型如 Llama-2-70B 和 Qwen-72B。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
速报!DeepSeek-Prover-V2-671B 悄然上线,或为 R2 铺路?
2025-04-30
“Qwen3之后,我才真正敢投AI应用”
2025-04-30
真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
2025-04-30
n8n:免费+开源的自动化神器,比dify更简单,比Make更强大!
2025-04-30
宝藏发现:Sim Studio,一款让AI工作流搭建变简单的开源利器
2025-04-29
我们有必要使用 Qwen3 吗?
2025-04-29
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
2025-04-29
阿里 Qwen3 技术详解: 4B 参数媲美 72B,MoE 架构的开源突破
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-08-13
2024-12-26
2025-04-30
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-21
2025-04-19
2025-04-17