我要投稿

昆仑万维正式发布并开源Skywork-SWE-32B，揭示LLM软件工程能力的数据缩放定律

发布日期：2025-06-20 11:02:57 浏览次数： 2132

作者：昆仑万维集团

微信搜一搜，关注“昆仑万维集团”

6月20日，昆仑万维发布软件工程（Software Engineering, SWE）自主代码智能体基座模型Skywork-SWE，在开源32B模型规模下实现了业界最强的仓库级代码修复能力。昆仑万维团队通过构建超过1万个可验证的GitHub仓库任务实例，打造出目前最大规模的可验证GitHub仓库级代码修复的数据集，并系统性验证了大模型在软件工程任务上的数据缩放定律（Scaling Law）。

Skywork-SWE-32B模型在SWE-bench Verified基准上取得38.0% pass@1准确率，刷新Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最佳成绩。进一步引入测试时扩展技术后，模型表现提升至47.0%的准确率，不仅超越了现有参数规模在32B以下的开源模型，也显著效缩小了与闭源模型之间的性能差距。

Skywork-SWE-32B直通车：

技术报告🔗

https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

博客地址🔗

https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

HuggingFace地址🔗

https://huggingface.co/Skywork/Skywork-SWE-32B

2025年被广泛认为是智能体（Agent）模型的元年，其核心特征包括“超多轮交互”和“超长上下文处理”。在众多应用方向中，软件工程SWE任务正成为大语言模型智能体的关键应用场景之一。

相比传统的代码生成任务（如代码编程题解答），SWE任务更加贴近真实的软件开发流程，涵盖了从定位BUG、修改源代码，到验证修复效果的完整闭环。这类任务通常源自GitHub仓库中的实际代码工程问题，具备高度的真实性、复杂性和挑战性，是评估智能体模型能力的一个重要基准。

SWE任务的独特之处在于，它对模型提出了更高要求：不仅需要支持多轮交互和长上下文推理，还需具备处理跨文件依赖、调用工具链，以及在复杂环境中持续修复代码问题的能力。这些能力全面考验了智能体模型的工程实践水平与系统性思维能力。

三阶段自动化流程，构建大规模、高质量SWE任务训练数据集

尽管当前市面上已有不少工作聚焦于SWE任务并收集了相关的数据集，但当前的主流（训练）数据集仍存在三大核心问题：

缺乏可执行环境与验证机制：已有开源数据（如SWE-bench-extra、SWE-Fixer）通常缺乏环境或单元测试来验证数据正确性，导致生成的修复难以验证。
高质量训练数据稀缺：尽管某些数据集规模较大（如 SWE-Dev、SWE-Gym），但缺乏经过严格验证的训练样本，公开可用的高质量数据极为有限，导致开源模型在 SWE 任务上长期落后于闭源模型。
数据规模法则适用性不明确：相较于自然语言领域中的任务，SWE任务现有的公开训练数据体量较小，尚无法有效验证数据扩展是否能带来模型能力的持续增长。

为打破上述瓶颈，并且打造出具备工程实用性的SWE代码智能体模型，昆仑万维团队首先在训练阶段自行构建了一套自动化、结构化、可复现的SWE数据收集与验证流程，共分为三个阶段、九个步骤（如下图所示）。最终团队构建出超1万条高质量任务实例、8千条多轮交互的轨迹，为模型训练提供坚实基础。

图丨Skywork-SWE完整数据收集与验证流程

阶段A：数据采集与预筛选

步骤A.1 GitHub元数据抓取：通过GitHub API 抓取超过15万个开源仓库的元信息，优先保留高Star仓库，为了防止数据泄漏，在排除SWE-bench Verified（测试数据集）已包含仓库，最终获得8,472个有效仓库的元信息，为后续数据构建打下基础。

步骤A.2 PR 收集与任务初筛：从上述仓库中提取已合并且明确关联issue的Pull Requests (PRs)，仅保留修改测试相关文件的 PRs，构建出初始的146,568 个任务样本。

步骤A.3 安装验证：回滚到每个 PR 的起始版本，运行统一的安装脚本完成环境部署，对样本执行自动化安装验证，保留23,389个任务样本。

阶段B：基于执行的验证机制

步骤B.1 统一命令生成：定义统一的默认配置，涵盖环境初始化、依赖安装与测试执行，高效适配多样化开源项目。

步骤B.2 Docker环境构建：基于默认配置，采用分层容器构建机制，为每个任务样本生成隔离的三个级别的Docker 镜像（基础镜像；仓库镜像；Issue镜像）。

步骤B.3 单元测试验证：在镜像环境中对每个任务应用补丁并执行测试，并保留全部测试通过的样本，共计10,169条，确保问题修复有效并构建高质量验证数据。

阶段C：智能体轨迹生成

步骤C.1 智能体轨迹生成：基于开源的OpenHands代码智能体框架，选用代码能力突出的商用大模型（如 Claude，DeepSeek等）作为智能体基座，对每个任务执行最多100轮交互，完整记录智能体在问题求解过程中的交互轨迹，覆盖从理解任务到输出修复方案的全流程。

步骤C.2 Patch级验证：针对每条轨迹中生成的最终补丁，在运行环境镜像中进行严格的自动化测试。仅保留所有测试用例均通过的补丁及其对应轨迹，确保智能体行为严格对齐仓库级代码修复目标。

步骤C.3 构建训练样本库：累计收集8,209条高质量、长上下文、多轮交互的验证通过轨迹，构建结构化训练样本，用于Skywork-SWE-32B智能体模型的微调训练。

Skywork-SWE作为万级高质量可验证数据集，驱动智能体模型能力跃迁

在上述三个阶段过程中，团队实施了严格的数据筛选与构建流程。如下图所示，团队从最初超过15万条候选代码仓库元数据中，最终筛选出约1万条高质量实例，构建出当前规模最大、质量最高的可验证SWE任务（训练）数据集——Skywork-SWE。

图丨数据构建过程中各个阶段数据样本量变化示意

Skywork-SWE数据集在任务数量与代码覆盖广度方面，远超现有同类数据集（如SWE-Gym Lite与SWE-bench Verified），为大模型提供了丰富、多样且贴近实际的软件工程任务样本，持续推动智能体模型的能力进化。此外，Skywork-SWE数据集不仅涵盖如Pydantic、SQLGlot、DVC等主流开源项目，还包含大量中小型仓库，呈现出高度贴近真实开发生态的任务分布特征。这种贴近真实开发生态的数据构成，有助于提升模型在复杂多样场景下的问题解决能力。

图丨Skywork-SWE数据集的GitHub仓库词云

Skywork-SWE登顶32B开源SOTA

“Less artifact, more intelligence”（更少的人工约束，更多智能发挥）是团队开发软件工程自主代码智能体模型的核心理念。我们主张赋予AI更大自主权，由其决定工具使用与任务执行方式，而非人为预先设定规则流程。基于这一理念，最终选用目前最具自主性的开源OpenHands框架。

基于Skywork-SWE数据集的高质量智能体轨迹，昆仑万维团队微调得到Skywork-SWE-32B模型，该模型在SWE-bench Verified测评中取得优异成绩。截至目前，Skywork-SWE-32B在SWE-Bench榜单中成为当前性能最强的32B开源代码智能体大模型，刷新SWE-bench Verified基准上同等规模模型的最佳成绩，充分展示了其工程实用价值：

1. Skywork-SWE-32B测评结果超越相同参数规模的模型。Skywork-SWE-32B基于开源OpenHands代码Agent框架，实现了38.0% pass@1的准确率，达到了Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最优水平。更为关键的是，实验结果进一步表明：随着训练数据规模的持续扩展，模型性能持续提升，充分验证了“数据规模扩展带来的性能增益”在软件工程任务中的有效性与适用性。

2. 应用测试时扩展技术之后，Skywork-SWE-32B取得了最优性能。在引入测试时扩展技术（Test-Time Scaling，TTS）后，Skywork-SWE-32B (+ TTS) 的pass@1准确率进一步提升至47.0%，刷新了32B参数规模以下开源模型的SOTA。更值得关注的是，Skywork-SWE-32B在与参数量高达671B的DeepSeek-V3-0324模型对比中仍展现出明显优势，领先8.2个百分点。

3. Skywork-SWE-32B (+ TTS) 的表现接近甚至超越多数主流闭源大模型。Skywork-SWE-32B (+ TTS) 的pass@1准确率显著超越了GPT-4.1-mini（23.86%）、 Claude 3.5 HaiKu（40.6%）和 OpenAI-o1-preview (41.3%)，并且领先于Claude v3.5（46.0%）。

案例展示

开发者需要解决如下目标Astropy代码仓库中#14309代码合并请求：

图丨Astropy仓库issue

即可在Skywork-SWE-32B模型中输入上述Astropy仓库issue和相应的代码仓库，模型即能精准定位问题源文件与具体缺陷，生成patch修复方案（如下图所示）。

图丨生成patch修复方案

经过验证，Skywork-SWE-32B通过全部测试样例，实现Github代码仓库从问题理解到解决的一站式代码修复功能。

图丨单元测试结果

持续探索更多Agent任务场景

过去半年多时间，昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列SOTA级别模型，如今又在Agent（SWE任务）方向再下一城。继5月天工超级智能体（Skywork Super Agents）面向全球发布后，今天我们又发布并开源了自主代码智能体模型Skywork-SWE-32B模型，这不仅是公司坚定开源策略的重要实践，更代表了我们对Agent在办公任务、SWE任务场景中的重要探索。

通过Skywork-SWE数据集的构建，以及自主代码智能体模型Skywork-SWE-32B模型的发布，团队研究表明高质量且可执行验证的数据是提升代码智能体模型性能的关键瓶颈，系统化的数据扩展策略将在推动开源模型性能突破中发挥关键作用。基于此，我们期望Skywork-SWE-32B的开源，能够助力社区在大语言模型驱动的软件工程研究中持续演进。

未来，Skywork-SWE-32B模型将进一步拓展多编程语言支持以覆盖更广泛的开发场景，并探索融合运行时测试反馈的强化学习机制，为构建真正具备智能软件开发能力的大语言模型奠定坚实基础。同时，昆仑万维也将积极探索更多Agent任务场景。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业