免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

快手:万人组织AI研发范式跃迁之路

发布日期:2026-02-11 21:06:57 浏览次数: 1513
作者:快手技术

微信搜一搜,关注“快手技术”

推荐语

快手如何用AI实现研发效能的跃迁?从个人提效到组织提效的突破性实践。

核心内容:
1. 快手AI研发三阶段演进路径:平台化、数字化到智能化
2. 突破性发现:个人编码效率≠组织效能提升的关键矛盾
3. 系统性解决方案:L1到L3的AI研发范式升级路线

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
图片
从2023年到2025年,快手在研发效能领域持续探索和积累,找到了借助AI平滑通往「研发智能化」的路径。一路走来,积累了大量的洞察和经验,本文系统性地做了深度总结。核心内容:

  • 三阶段演进路径:
    • 平台化、数字化、精益化(2023-2024年):
      • 建设一站式研发平台,并标准化需求和工程流程,工具渗透率>95%,流程自动化>94%
      • 通过建立效能模型,识别交付瓶颈,需求交付效率、人均需求吞吐量均大幅提升
    • 智能化1.0(2024年6月-2025年6月):聚焦用AI提升个人开发效率
      • 建设并推广AI编码/测试/CR等能力,AI代码生成率超过30%
      • 但发现矛盾——个人主观编码效率提升显著,但组织需求交付效率却基本不变
    • 智能化2.0(2025年7月以后):聚焦用AI提升组织整体效能
      • 找到了AI研发范式升级路线:L1 AI 辅助(Copilot)→ L2 AI 协同(Agent)→ L3 AI 自主(Agentic)
      • 探索出了支撑路线达成的系统性实践:AI x 效能实践、AI x 研发平台、AI x 效能度量

  • 关键洞察与经验:
    • AI研发提效陷阱: 用AI开发工具 ≠ 个人提效 ≠ 组织提效
    • 本质问题:如何将个人提效传导到组织提效
    • 解决方案:研发范式升级,而非单纯推广AI工具

AI研发提效陷阱:用AI开发工具 ≠ 个人提效 ≠ 组织提效

图片


早在2024年,快手就建设了AI编程工具Kwaipilot,并发布给公司内10000+研发人员使用。经过持续的深度优化和推广,快手整体的AI代码生成率,在严格度量口径下(AI生成并入库的代码行/ 新增代码行)从 1% 达到了 30%+,甚至部分业务线达到了40%+。同时,在非编码环节,也衍生出了很多AI提效工具,比如智能CR(CodeReview)、智能测试用例生成、智能单元测试等等,但经过大量的调研和数据分析,我们发现了这个不等式:

“用AI开发工具 ≠ 个人提效 ≠ 组织提效”

如果以企业的研发效能提升为目标,我们发现:
  • 对研发工程师而言:深度使用AI开发工具,代码生成率很高,个人主观体感上编码效率提升了20-40%,但并不代表真正的“个人提效”,因为在现实中,大部分工程师并没有接纳更多的需求,个人需求的交付数没有显著提升。
  • 对大型组织而言:我们发现部分AI用的好的工程师,确实可以更快更多的完成开发任务,但组织整体的需求吞吐量没有明显提升,需求交付周期也没有明显缩短。

从《2025年DORA报告:人工智能辅助软件开发现状调查报告》中能看到,这也是业界普遍存在的问题。如报告中所述(如下图所示),在对AI提效的结果的预估上,各企业普遍对个人效能的提升有信心,而对团队效能的提升预估非常小。


在快手,我们发现仅推广研发各阶段的AI提效工具,已经偏离了企业研发效能提升的核心目标,最终必然会导致2个问题:
  • 投入很大,但企业整体的研发效率提升不明显:虽然通过调研很容易能收到大量的个人效率提升反馈,但个人提效无法传导到组织提效。
  • 效能平台开始割裂:传统DevOps平台仍承担研发主流程,每天被高频的使用,却无法演进到下一代AI研发平台(顶多扩展一些单点的AI功能)。新生的AI编程工具,只取代了传统IDE,又无法与老平台协同演进。

为了解决上述2个问题,我们从2025年开始进行了更激进的探索和变革,我们称之为“AI研发范式升级”,最终,通过一系列的实践,找到了一条能借助AI能力平滑通往研发智能化的路径。

正逢2025年年末,我们把镜头拉远,将时间回溯到3年前,对快手研发效能的演进做一个系统性总结,有踩过的坑,也有做出的突破,希望为更多企业提供经验和参考。

总览:快手研发效能演进路线

图片





如图所示:快手有10000+研发、8+业务线,研发效能的演进可以分为3个大阶段。

阶段1:平台化、数字化、精益化(2023-2024年):通过建设三端一站式研发平台、需求流&工程流标准化,解决了研发交付流程散乱,既无标准也无数据的问题。再通过建立效能模型,识别交付瓶颈,提升需求交付效率。

阶段2:智能化1.0(2024年6月-2025年6月):在研发全流程中开始建设AI能力,包括AI编码、AI单元测试、AI CR、AI手工用例生成、AI OnCall等等,并进行全员推广。经过1年多的实践,基本上完成了全员普及,在主观调研中,开发人员主观体感上效率提升20-40%,在客观数据上,AI代码生成率也在持续增长。但同时也发现了矛盾点:需求交付效率基本不变,即个人效率提升未能有效传导到组织效率提升。

阶段3:智能化2.0(2025年7月至今):从“推广AI工具,让开发者使用”回归到了更本质的元问题:如何用AI提升需求端到端交付效率?经过半年多的探索,终于找到了新的路径,并得到了充分的数据验证。我们称这套解决方案为“AI研发范式”,主要解决了3个问题:

AI x 效能实践:如何用AI提升工程师的生产力,并将个人提效传导到组织提效。
AI x 研发平台:支撑需求交付全流程(从分析到编码再到发布)的研发工具链,如何整体演进到智能化?即下一代的智能研发平台,应该是什么样的?而不仅仅是只推广AI编程工具或在原有工具链上增加一些散点的AI提效功能。
AI x 效能度量:如何在效能度量指标的基础上,构建AI提效的指标体系,能清晰的量化过程和结果,为组织级的AI研发范式升级提供有效指引。


阶段1:平台化、数字化、精益化(2023-2024年)

图片



这个阶段的解决方案,业界相关的分享已经非常多了,但从实际情况看,在千人规模的技术团队中,能做好、做深、做透的实践非常稀有。

因此,我们直接分享1个具体的案例,以便能更好的看清快手的研发效能从基础建设到效能提升的全过程,这也是我们之所以能更快跃迁到AI研发范式的重要基石。案例来源是快手最核心的技术团队之一——主站技术部,是快手APP的研发团队,开发人员规模千人以上。

背景:了解快手的研发效能基建


首先,主站技术部的实践依托一套公司级的研发效能基建,由横向团队「研发效能中心」提供,如下图所示,这是在2023年快手当时的研效基建,主要分为:
  • 效能平台:项目管理平台(Team)、三端一站式研发平台(KDev(服务端)、KFC(前端)、Keep(客户端))、琅琊阁(效能度量)、质量平台(KTest等)
  • 效能实施:效能BP专家(Business Partner),负责深入各业务线,提供专业支持。


了解快手的研效基建后,下面开始重点介绍主站技术部的实践过程。


Step1:依托工具推广,实现流程标准化



解决的问题
需求流和工程流均不标准,开发人员的工作分散在各处,日常开发体验差、学习成本高,又无法实施有效的质量防护措施,还不能沉淀准确的研发过程数据持续度量与改进。

达成的效果
通过推广三端一站式研发平台,定义需求、研发的标准流程,将研发全流程标准化。核心度量指标与结果如下:



实践过程


主要难点

  • 用一套产品设计尽量满足多样化的研发场景:工具一边建设一边落地,且需兼容之前散乱各种不同的研发模式和习惯。
    • 服务端(KDev平台):需要支持一些特殊的研发模式(比如Master模式、窗口模式)。
    • 客户端(Keep平台):移动端研发场景多样化,包括APP、动态化、SDK。
    • 前端(KFC平台):前端应用类型多(Web、Node、低码、KRN(动态化)、小程序),研发流程和习惯散乱。
    • 研发流程规范差异大:不同团队间,不同的技术栈的研发流程上存在一定差异,包括研发流程配置、流程各阶段信息字段、单点环节所需的工具能力不同等。
  • 用户迁移成本大:迁移过程中,需持续关注和解决用户问题,包括用户体验变化、用户学习成本、用户情绪。
  • 落地时间紧迫:一般互联网大厂类似的工作基本会持续6个月以上,快手主站只用了1个多月。

实施要点
1. 精准的解决方案设计:
  • 服务端(KDev平台):精准的打造了4套标准研发模式,适配了主站实际研发情况。
  • 客户端(Keep平台):一套平台底层能力,支撑3种移动研发场景;通过可配置与定制化能力,满足不同团队流程规范与管理诉求(自动翻转配置、流程与质量卡点配置、团队定制化模板)。
  • 前端(KFC平台):支持80%以上前端应用类型,并通过8个流程模板、适配5个内部自建的插件,兼顾了前端差异化研发流程和用户习惯。

2. 以用户满意为导向:提供完整的迁移配套服务,降低用户迁移成本。主要包括:
  • 产品质量专项:用户BUG日结。
  • 用户体验专项:持续深度用户访谈,识别体验问题,并优化。5周内,交付了73个功能&体验需求。
  • 用户培训与激励:通过12次培训,50+线下访谈,7x24小时OnCall、200+人次的用户激励,提升用户对产品的接受度。

3. 数据驱动团队级推广:每周度量进度,驱动各部门接口人推广。


经验总结
可能大家会有疑惑,为什么三端分别是3个平台,而不是一套平台。因为从实际情况看,服务端、前端、客户端的底层模式、流程都有比较大的差异,强行整合,不仅对产品用户收益不大,反而牺牲了要兼容不同端的流程、习惯差异化的灵活性,给标准化的推进增加难度。因此,我们在用户层面上,还是三套平台,分别解决各自领域的问题,但在底层的基础能力用的是一套,比如流水线、权限等。

Step2:建设效能度量体系


主站的研发效能早在2022年就开始启动了,当时在探索北极星指标阶段,缺少度量体系,更多是根据一线开发者的开发痛点反馈,进行偏工具流程等的优化,没有核心指标的牵引,项目都无法推进,更谈不上论证给业务带来的价值。在2023年3月再次重启效能项目时,北极星指标初步定义为 “有效需求吞吐量”,但是当时需求有效性的衡量难度太大,内部无法达成共识,项目推进困难,而且也无法看清业务堆积和开发人效情况。

随着流程标准化的落地,研发数据的置信度大幅提升,为效能度量提供了土壤。因此,我们定义了以“人均交付产品需求数” 为北极星目标来看清业务开发交付能力,同时观测需求颗粒度(避免单一指标跑偏:度量什么得到什么,种瓜得瓜种豆得豆)来保障交付提升的良性发展,逐步建立了一套更全面的指标体系(多指标互相佐证约束,hack成本极高)来体现业务交付产能和交付效率,以及组织和个人效率情况。

快手的效能度量体系如下图所示:
注明:SP:Story Point,快手用于度量需求工作量的单位。

借助这套全面完备的指标体系,我们不仅避免了依赖单一指标可能导致的偏差,还有效防范了效能数据被hack的风险,确保了效能数据的准确性和可靠性。

Step3:效能问题分析与改进


有效能度量体系,首先我们可以为任何一个业务线做系统性的体检,如下图所示,依托数据和经验,可以逐一拆解出核心的优化专项,并以效能项目的形式实施。


其次,在研发流程和管理上,也能洞察出更多平时看不见的Case,深入改进,下面是2个具体的洞察与改进案例:

Case1:通过「研发活动在线化率」分析,深挖出架构不合理问题

上图是主站技术部下级各团队的研发活动在线化率,其中有一个团队出现了数据异常,分析之后可以发现存在不少问题:
  • 横向来看,这个团队的研发活动在线化率处于中上水平,但产品需求投入占比只有59%,处于末尾水平。而且产品需求中体验优化占比11.44%,又是各团队中最高的。那么问题来了,“时间都去哪儿了?”
  • 再下钻一层,这个团队的缺陷占比14%,也是各团队中最高的,且Oncall&排障占比6%也不低。

因此,数据表明,此团队可能存在的问题:在缺陷问题、体验问题、Oncall&排障消耗了团队大量的投入,以至于无法消化更多产品需求。所以,通过对团队核心成员的调研和访谈,基本可以找到根因:和客户端的架构劣化有关,比如:
  • 反馈1:新需求开发时,上手门槛特别高,很多需求会涉及到多个模块开发,这会涉及到自己不熟悉的模块,因为架构分层结构不合理,模块耦合度太高,往往需要花大量的时间去熟悉其他模块的代码,最近做了一个新需求,评估是3天的工作量,2天都在看代码,实际的开发联调只有1天。
  • 反馈2:模块边界不清晰,代码杂糅一起,新需求的代码,可能会影响到已有功能,导致旧功能的BUG,而且这些BUG在回测时,不容易被发现,导致问题漏测逃逸到线上。

通过效能的客观数据再结合主观调研,就可以看清“架构劣化”这种深层次问题,也可以对症下药了。解法是这个团队实施了2个技术专项:
1. 客户端的架构升级:从根本上解决因为架构问题带来的交付效率低和交付质量差的问题。
2. 体验优化:集中优化重点场景的体验问题。
随着这两个专项的落地上线,这个团队的效能数据已经有所改善,产品需求投入占比已经提升到64%,体验优化占比下降到6%。


Case2:通过「需求积压率」分析,驱动业务优化需求评审流程和节奏


上图是主站技术部下级各团队的需求积压率数据,有些团队的需求积压率持续保持在80%以上,意味着需要近一个月的时间才能消化这些积压的需求。这种情况可能存在的问题:
  • 这些被积压的需求,一个月之后,会不会进入排期开发?如果之后会排期开发,说明需求本身的价值还可以,当下是否可以协调资源加快交付?能否可以停掉某些技术需求优先业务交付?是否可以短期加班临时突击?
  • 如果后面不会进入排期,是不是这些需求本身的重要性没那么高?在预评审的时候,是不是可以控制需求的优先级?当前的需求评审流程是否可以优化?


结果


经过一年时间的系统化提效,主站提效方面进展显著,人均交付产品需求数24年7月份同比增长超过80%。总结下来,主要有效的措施有:
  • 升级研发模式:通过动态化、配置化等研发模式,让部分需求可以更快速交付。
  • 研发过程提效:通过API在线化管理,测试环境稳定性治理、流水线优化、发布优化等措施,降低研发协作成本以及低价值工作占比。
  • 管理与协同提效:通过效能洞察,持续识别团队协作瓶颈,并通过排期优化、测试无人值守、人力调配等措施,支撑需求可顺畅流动。

阶段2:智能化1.0(2024年6月-2025年6月)

图片



从2023年6月开始,我们开始探索大模型在研效领域的应用,主要有2个方向:
  • 编码场景:如何用AI辅助编码,提升代码生成效率。
  • 非编码场景:在研发全流程里,哪些环节可以通过AI能力提升单点工作的效率。

其中,最重要的决策是我们决定自己研发一款AI Coding工具:Kwaipilot。它包含了大家见过的所有产品形态:
  • IDE插件 / AI IDE / CLI:最符合开发人员习惯的几种形态,插件、IDE可以做续写、问答、智能体代码生成,CLI则可更灵活的开启代码生成任务。
  • 智能问答引擎:有独立的Web页面,也会嵌入到上面的产品形态里,为开发人员提供灵活的问答能力。


业界有很多优秀的AI Coding产品,比如Cursor、Claude Code、Krio、Windsurf、Antigravity,快手为什么不选择采购,而是自建呢?其实一年来,我们也一直带着这个疑问在探索,相当于一场大型的公司内部AB实验:

从用户体验的角度,我们希望大家“用脚投票”,选择好用的工具:
  • 一方面,我们允许开发同学使用任何AI Coding产品,可以团队级采购也可以个人购买。
  • 另一方面,我们研发了Kwaipilot,对内推广。

从实际效果的角度,我们以“AI代码生成率”为核心观测指标,持续收集用户/团队的反馈,识别不符合预期的代码生成Case,研究解决方案,再投放实验。最终,经过1年的探索,实践结果让我们坚定了继续走自研Kwaipilot的路线。
注明:2025年12月开始,在Kwaipilot已规模应用后,由于安全原因,探索按代码分级封禁三方AI Coding工具,仅涉及到部分开发人员。

下面简单分享一下我们的实践过程,相信大家会更容易理解我们的选择。整个AI Coding的推广过程分为3个阶段:导入、优化、固化。

Step1,导入:推广工具,让开发人员用起来


这个阶段很好理解,我们鼓励开发人员在日常工作中默认使用AI编程工具,主要目的是让大家拥抱AI,在意识和行为上先有一个转变。

当然,各种各样奇怪的使用姿势也会出现:
1. 一些同学,尤其是校招入职的同学,在我们的培训和引导下,会深度使用Kwaipilot。
2. 一些同学会多种IDE混开配合使用。其中,有“团购客”,哪家这个月免费就用谁,也有“付费用户”,主要以个人购买Cursor为主。

这里最大的副作用,就是个人编码效率不一定全员获得了提升,通过调研看,出现了明显的两级分化的情况。腾讯研究院出品的《AICoding⾮共识报告》中也揭示了类似的情况:


Step2,优化:推广实践,提升编码效率


我们通过用户数据和技术Leader推荐找到了一批公司里的“AI开发高手”,那些用AI辅助编码切实提升了效率的开发人员。

一边重点收集他们在使用过程中的问题,集中想办法解决,一边把他们的优秀开发技巧淬炼出来,提炼共性,形成最佳实践。

这个阶段,我们发现,有别于那些网上随处可见的所谓的Vibe编程场景(用对话的形式直接做一些独立应用或小游戏等),在真实的业务需求开发场景里,想用好AI编程工具提升效率,有2个非常大的门槛:
  • AI编程工具不“懂”业务和系统:我们发现一个规律,无论用多好的代码大模型和AI编程工具,“通用的工具只能达到通用的效果”。因为它们不理解公司内大量的业务概念、存量系统、编程规范等这些知识,所以,只能做一些普通的代码续写、函数级的代码生成,但很快就会到瓶颈。如果想进一步提升AI代码生成的效果,必须想办法让AI编程工具从一个“擅长编程但不懂快手开发场景的临时工”进化为一个“熟悉快手业务的开发工程师”。
  • 人和AI协同需要掌握新的开发方法:相比传统编程方法,目前已经发展出了一套AI辅助编程的新方法。如果开发工程师仅使用AI编程工具,却未掌握对应的技巧,不仅不能提效,还可能会降效,比如出现很多“AI乱改业务代码”、“AI生成后还要自己删除”等各种不符合预期的情况。

为了降低门槛,在这个阶段我们做了2项工作:
1. 升级AI编程工具

上图是优化后的Kwaipilot的产品矩阵,都解决了哪些问题呢?一张表可以概览出来:

遇到的核心问题

解决前

【生成效果】AI不懂快手的系统和代码,生成代码效果不好。

解决前:用户本地保存大量的Prompt或持续把规则配置到编程工具中,但效果均不理想。

解决后:让模型懂快手的系统

自研了代码大模型KAT-Coder,定期注入快手真实的代码和研发过程数据,内置在Kwaipilot中,提升内部场景效果。

【生成效果】AI不懂快手的业务语义、开发规则等知识,生成代码效果不好。

解决前:用户本地保存了大量的解释说明,作为补充说明补充到输入中。

解决后:让Kwaipilot更懂快手的业务和编程模式

建立业务&研发知识库,Kwaipilot支持读取和应用。

【用户体验】后端、客户端研发习惯和体验还在原有IDE上,无法直接用原生AI IDE。

解决前:后端、客户端主要研发工具还是JETBrains、Android Studio、XCode,因此会同时开着Cursor或ClaudeCode混用。

解决后:让Kwaipilot用一套能力多场景情况,覆盖各种研发场景

  • 产品层:用Kwaipilot支持各主流IDE插件,兼顾前端、客户端、后端主流研发IDE。

  • 能力层:统一一套Agent架构,对不同产品形态提供同等质量的服务。

【开发场景】除了业务需求外,还有一些做Demo、设计稿转码等场景,主流AI IDE未覆盖。

解决前:多个工具混用,比如用Cursor或ClaudeCode生成代码,用内部自建工具画原型或设计稿生成代码。

解决后:让Kwaipilot同时具备类似loveable和Manus的能力

  • 支持Web开发场景全闭环能力,包括Figma设计稿转代码、实时预览和调试、指定元素优化等。

  • 支持操作浏览器,可以独立完成一些非编码类的“杂活”,比如写文档、写总结、做调研,也能帮大家提效。


2. 沉淀并推广「AI辅助编码」最佳实践
我们将大量“AI开发标杆”个人的共性实践沉淀成了一份标准的指南和实战课程,让所有开发工程师,通过学习指南和课程,可以完整的掌握所有关键技巧。



Step3,固化:将AI编码能力变为组织机制


既然已经验证了AI编码对效率提升的有效性,且已经有了固定的工具、方法、实战课程,接下来就是如何把这些习惯固化在组织的日常工作中,让所有研发人员大范围的升级开发技能。我们主要用了3个措施:


1. 增量人员强化入职培训,从源头培养AI-Native开发者。


2. 存量人员牵引AI在团队、研发流程、个人工作中渗透。


3. 文化影响过活动运营、奖励机制激发更多同学拥抱AI。主要是一些自下而上能让更多一线研发被看见

通过挑战赛,让一线研发同学感受AI编程的高效和快乐


通过数据自动识别AI开发高手



结果


持续的推广,在编码场景上,80%+的开发人员都开始用AI辅助编码,如下图所示,可以看到AI代码生成率每月线上增长。


同时,在非编码场景中,我们在研发流程中建设的单点Agent能力也开始在研发平台中陆续透出,用AI能力辅助部分研发活动提效。

最终,我们对研发各阶段的AI提效情况,做个一个完整的评估:


最后顺便提一下,目前大家在业界看到的“代码生成率”指标,包括各大厂披露的、AI编程工具自己度量,基本都是不置信的,要么只统计了编程工具里的生成的代码和提交的代码作为分子分母,要么是在分母上做了一些限定(比如某些场景下不纳入分母统计)。但因为我们会用这个指标作为公司级AI编码推广的目标,因此对度量的精度和置信度要求非常高,一路“踩坑”过来后,最终使用了最严格的度量方法:

  • 分母:新增代码行,统计公司内所有最终入库的Commit中的代码行。

  • 分子:将分母的每一行代码,和AI生成的代码进行比对,如果编辑距离<50%(相似度高),则纳入统计。


这套实现无法在AI编程工具端实现,需要由公司内部的代码平台、AI编程工具一起提供数据,并在离线数据层进行精确的计算,计算分母中每一行新增的代码和分子中AI生成代码的编辑距离,符合要求才能被统计为分子。


问题


经过1年多的努力,从数据上看,研发各环节效率都在提升,尤其是编码环节提升很大。在AI热潮下,我们也看到很多开发人员、团队Leader都在分享自己效率提升数据和案例,按道理来说,公司整体的研发效能应该提升了吧?我们从全局视角,分析了一个核心业务线的客观研发数据,结果发现了非常反直觉、令人困惑的情况:AI代码生成率持续在增长,但需求交付效率基本不变。


为什么呢?我们做了深入的调研,排除了少量个例,观察总结了大多数普遍使用“AI辅助编码”的开发人员的用法和客观研发数据,发现在真实业务交付场景中,只用“AI辅助编码”这种开发方法,对需求的开发周期影响非常有限。主要原因如下:


开发方法:AI 辅助编码

实际情况

  • AI辅助梳理历史代码

  • AI技术问答,提供技术建议

  • AI生成基础类代码(框架类、工具类、CURD等)

  • AI辅助函数级生码,人明确输入编写要求,AI生成代码

编码效率提升10%-20%,主要提升点:

  • 梳理代码/给出技术建议:AI快速完成信息搜集与结构化整理,人工专注于决策,代码梳理环节提效50%。

  • 编码效率:50%+的基础代码已经通过智能体生成(AI生成的代码比较规范)、AI生成后人Review。 


但不足以影响开发周期缩短,主要原因:

  • 编码时间碎片化节省:空余时间不足以做更多任务。

  • 联调&测试时间不变:仍按排期节奏与其他端联调及提测,这部分时间不变。

  • 需求工作量评估不变:因不能确定AI输出的稳定性,仍按原工作量评估逻辑排期。


洞察



不过调研中也有额外收获,我们发现在真实的业务需求开发中,已经存在着3种不同的开发方法,对效率提升的程度有着根本性的差异。如上图所示。我们把三种开发方法总结出来做了一个定义:

1. AI辅助编码:在标准开发流程的基础上,在编码环节,依托AI编码工具,使用各种AI生成代码的技巧,提升编码效率。如果熟练掌握,可以缩短一部分编码时间,但如上文中的调研归因,由于只是节省了碎片化的编码时间,联通、测试、需求评估等不变,因此对整体的开发任务缩短帮助不大。

2. AI辅助开发:在研发全流程的各环节均使用AI辅助的方式,提升整体开发效率。需要由人把需求拆分为多个开发任务,不同开发任务调用不能的AI能力来完成,再由人来审核和优化产出物。由于从技术设计到编码到测试等各环节都可以节省时间,因此加总起来后,可以将研发任务的开发周期缩短30%左右。

3. AI协同开发:在某些需求开发中,通过完全用自然语言和AI交互的方式(类似业界比较流程的说法Spec/Vibe开发)完成需求交付,提升需求端到端交付效率,需求整体的开发周期可以缩短40%左右。


举个例子说明,会更容易理解三种开发方法对效能提升程度的影响。例如1个需求分解出2个开发任务,1个前端、1个后端,其中前端工程师接到开发任务,正常评估从设计、开发、测试、合入主干需要5天,其中编码1天:

  • 如果用「AI辅助编码」,他自己的评估还是5天,只不过相比以前,可以节约一部分时间做一些杂事,但到不了可以接更多开发任务的程度。

  • 如果用「AI辅助开发」,他可以整体节约1.5天,只用3.5天就可以完成。但需求整体能不能快,还需要看另一个接任务的同学,以及对应的联调、集成测试、发布的周期。

  • 如果用「AI协同开发」,首先必须改变协同模式,比如2个人均使用这种模式开发或者1个人全栈的做,假设1个人全栈独立做要10天,且不需要和别人集成&验证,开发周期可以缩短到6天左右。


有了3种开发方法的定义,我们就能很容易的评估出理想和现实间的差距,我们取了1个业务线3个月所有已交付的需求进行分析,发现50%-70%的需求,在不改变原有开发流程、规范、人员协同模式的情况下,可以使用提效幅度更大的「AI辅助开发」模式。此外,还有2%-10%的需求,可以更激进的使用「AI协同开发」。但实际情况上,团队里只有不到10%的人在使用「AI辅助开发」或「AI协同开发」开发方法,有对AI开发特别感兴趣的校招生,也有积极拥抱AI喜欢自己探索的资深开发者,但由于人数过少,对团队整体研发模式的变化无法起到带动的作用。


阶段3:智能化2.0(2025年7月至今)

图片



上面一个阶段,我们称之为“智能化1.0”阶段,即以编码场景的AICoding为中心提效,并逐步辐射非编码场景的AI提效。但主要瓶颈就在于开篇提到的AI研发提效陷阱:用AI开发工具 ≠ 个人提效 ≠ 组织提效。

在智能化1.0阶段最大的收益是什么呢?大部分研发人员都开始主动使用AI开发工具了,同时,找到了个人提效的最佳实践。但接下来才是深水区,我们需要回归效能提升的元问题:“如何用AI提升需求端到端交付效率?”

经过充分的复盘、洞察和验证,我们找到了新的可行的路径,并重新设计了解决方案,我们称之为“AI研发范式”,它的实践体系框架,如下图所示:

我们根据需求交付中AI的参与程度,定义了“需求AI研发成熟度”,将需求划分为3个等级L1、L2、L3,不同等级的需求,需要使用对应的开发方法。不同开发方法,对底层研发工具的AI能力也有不同程度的依赖。用一张表对上图做一下解读:


具体实施上整体有3步:

Step1,AI x 效能平台:建设能同时支持多种研发模式、可自进化的智能研发平台


解决的问题:
  • 能支持多种研发模式:不同AI研发成熟度的需求,它们的交付流程都是一样的,差异点在于开发方法。因此我们无法为不同的需求、不同的开发方法匹配不同的平台,而是要思考如何用一套平台,来支撑多种开发方法:完全不使用AI的标准开发流程、只用AI辅助编码的开发流程、更激进的使用AI辅助开发或协同开发的开发流程,都应该在同一个平台上完成。这样,我们的需求交付效率,才可以随着人的能力的提升、AI能力的提升,持续变快。
  • 产品形态可进化:产品形态随主要研发模式的变化持续演化,从人主导最终变为由AI主导;能与传统平台协同进化。
  • AI 效果可进化:能随大模型的升级、Agent技术的升级、企业/个人知识的丰富,持续提升AI效果。

解决方案:建设下一代智能研发平台


如上图所示,有4个关键点:


下面重点介绍下为了支撑组织级研发范式跃迁,Flow这种子产品形态的独特优势。

1. 从需求交付视角看:同一个需求,开发者可以结合自身对AI的理解和开发技能的掌握,在同一种产品形态上选择不同开发方法。

    • 标准开发 / AI辅助编码:工作流中所有节点,完全由人工来完成和推进。其中“编码”节点会跳转到IDE中,可以用AI辅助编码。对用户而言,收益相对来说最小,和原来相比,由于Flow的每个节点内嵌或自动兼容了各工具平台的功能,因此仅节约了用户平台跳转的切换与学习成本。用这种模式交付的需求,会被度量为L0/L1级需求(AI辅助(Copilot))。

    • AI辅助开发/AI协同开发:工作流中多个关键节点均有AI完成,人进行结果审查。多个节点之间的上下文可以有效传递,比如AI完成需求分析、技术设计后,产出的AI友好结构化文档可以自动传递到AI编码节点,以提升代码生成的准确性。有些节点暂时无法由AI完成的,比如“提测”节点,仍然由人来操作。用这种模式交付的需求,会被度量为L2级需求(AI协同(Agent))。

    • AI自主开发:部分需求可以实现全流程AI完成,人只需要在需求上线前或上线后进行审核。这种模式下,整个Flow是全自动运行的不需要人工参与。用这种模式交付的需求,会被度量为L3级需求(AI自主(Agentic))。


2. 从开发者视角看:整个过程依然非常丝滑和简洁,下图是一个需求交付中Flow的整个工作过程,大家可以感受一下:


Step2,AI x 效能实践:以需求为中心,导入「AI研发模式」,实现需求端到端提效


支撑「AI研发模式」的方法和平台都有了,这个阶段的关键是如何把这些作用在团队日常交付的需求上。我们分3个层面落地:


  • 个人级实践:导入「AI辅助开发 / AI协同开发」开发方法,并树立标杆

    首先人的开发方法要变化。我们重复了第一阶段“优化”与“固化”的实践,让大部分研发人员从“AI辅助编码”的方法升级成“AI辅助开发”,让小部分专业能力更强的人员,选修“AI协同开发”方法。我们同样通过实战课程、典型案例、人员培训等手段,对人的开发方法进行升级。

    当然,即使这样,从数据上看,个人用AI提效的效果还是存在两极分化的情况。我们对2025年6月-12月的数据进行了分析得到如下结论:


  • 团队级实践:导入「AI研发模式」,重塑流程、分工,提升所有需求的交付效率

    通过管理导向、各种活动的形式,鼓励团队Leader主动带领团队进行探索,最终沉淀出了一套适合团队的核心实践:

    经过大量的验证,我们的标杆团队(<50人规模)无论在AI转型后的业务感知上,还是客观数据上,均能达到比较优秀的水平,见下表:


  • 业务线级实践:大规模研发团队,系统性升级AI研发范式,带来效能提升

    主站技术部为例,从2023年到2025年,从平台化到数字化再到精益化,2025年开始步入深水区,2个新挑战浮出水面:

    1. 传统的流程、工具优化手段带来的提效收益,边际效应持续减小。

    2. 业务的规模与复杂度持续提升。


    因此开始探索能否把握AI爆发的机遇,把传统研发流程升级到“AI研发范式”,进而打开组织级效能跃升的新空间。核心实践:

  • 实践1:Top-Down,战略驱动

    • 明确战略导向:主站技术部提出了“AI First”的战略思想,鼓励全体员工开展工作之初,优先将AI作为核心驱动力,加速技术创新、优化业务流程、深度融合AI技术,为产品与服务注入新活力和新可能性。

    • 发布白皮书:将战略导向具象化为思考、方法与规划,为全员提供明确指引。

    • 成立重点项目:在研发领域,成立了AI DevOps项目,统一设计解决方案并推广实施。


      kim image

  • 实践2:AI x 效能实践

    • Step1:将需求分级,按需求AI研发成熟度定义:

      • L1 AI 辅助(Copilot):人主导,AI主要在编码环节提供辅助。

      • L2 AI 协同(Agent):人和AI更深度的协同完成需求开发,在研发全过程中,更深度分解任务给AI完成,人进行修改、调整、确认。

      • L3 AI 自主(Agentic):人类似产品经理,把需求澄清清楚并交给AI来完成,并进行最后的验收。

    • Step2:分级实施

      • 让所有需求达到L1级(AI 辅助,Copilot)推广个人级实践,依托Kwaipilot工具实现全员掌握,最终覆盖所有需求。

      • 让大部分需求能持续升级到L2级(AI 协同,Agent):开展团队级实践,从试点到推全,重塑流程、分工。

      • 小部分需求探索能达到L3级(AI 自主,Agentic):圈选出颗粒度小且独立的需求,构建全技术栈/职能端到端交付链路,通过全栈、跨栈,减少协作节点,进而形成效率跃迁,最终达成AI自主交付。

    • Step3:项目化推进

      • 成立组织级重点项目,Top-Down实施。


  • 实践3:AI x 效能平台。基于需求全流程构建AI能力,逐一“点亮”能力并规模推广落地:

    • 构建AIDevOps能力矩阵与建设路线图:基于研发效能白盒化,分析交付流程中各原子环节的人力投入比重、AI能力建设ROI,形成决策建设哪些AI原子能力。

    • AI原子能力建设:与研发线共建交付流程环节内的AI原子能力 20+,研发流程环节覆盖超过 60%,从需求准备到发布运维各环节。


  • 实践4:AI x 效能度量:建设AI研发成熟度模型,可将需求分级度量(L1、L2、L3级需求占比),牵引各级实践落地。


    经过1年多的项目实施,最终探索出了一条组织级的AI研发范式升级路线,从数据上也能看出明显的变化:


Step3,AI x 效能度量:建设「AI研发成熟度模型」,接入原有效能度量体系,驱动需求持续转变为“AI研发模式”


最后在效能度量上一样也需要升级,基于效能实践的探索,我们配套建立了「需求 AI研发成熟度」模型(如下图所示),用于度量一个需求在研发过程中的AI使用程度,这样我们就可以按L2&L3级需求的比例,来牵引实践过程,也可以专门度量L2&L3级需求的交付周期的变化,来印证提效结果。



结果


再回到全局视角,从数据上看,如果只看“AI代码生成率”指标,可以明显看到2025年6-11月出现了一个大幅提升。实际上,在智能化1.0阶段,这个指标达到24%+基本已经是极限了,当我们开始实施智能化2.0后,才开始进一步拉升。



当然,我们在内部的数据观测上,其实已经不再看“AI代码生成率”指标了,它只是一个单点的过程指标,片面且孤立。我们现在有了更直接的度量指标。从过程上,我们观测多少需求被采用全流程AI研发模式交付,从结果上,我们直接观察需求的交付效率变化。


L1、L2、L3级需求占比:有多少需求的AI研发程度可以达到L1、L2、L3的阶段。



下图是最先完成 AI 范式转型团队的数据变化,可以看到 L2&L3 级需求占比达到 20.34%,需求交付周期下降 58%,2 个指标呈现明显的正相关性。



总结

图片








最后也总结下我们一年来的实践心得,目前看完全印证了《2025年DORA报告:人工智能辅助软件开发现状调查报告》中的洞察:


从 DevOps 到 AI 辅助开发:AI是“透视镜”与“放大器

1. AI是“透视镜”
在协同良好的组织中(如流程清晰、数据打通的团队),AI 能使 DevOps 效能再提升 25%。
在架构松散的组织中,AI 会暴露流程断点、数据孤岛等隐性痛点。
2. AI 是 “放大器”
如同亚马逊通过微服务转型释放 DevOps 价值,AI 辅助开发也需重新设计工作流程(如 “AI 提案 — 人类决策” 闭环)、角色分工(如专职提示工程师)与治理机制(如 AI 代码审查标准),否则无法释放真正价值。


对于大型组织的研发效能提升,AI不是万能药,而是透视镜放大器,它不会自动修复组织问题,而是先把组织历史积累的长板和短板一并透视出来,再全部放大。幸运的是快手的研发效能实践一直保持客观、务实的风格,先把地基打稳(平台化 / 数字化 / 精益化),再通过在研发各环节建立AI提效能力,先一边落地一边充分验证对个体的提效情况,再体系化的推进组织级AI研发范式升级。最终发现,AI在传统研发效能基建的基础上,像放大器一样增幅了每个环节,为组织带来研发范式级的跃迁。


如下图所示,我们基于张乐老师的“研发效能黄金三角”框架之上做了升级,能更清晰的表达出快手的实践框架:



最后,再把镜头拉远,回到宏观视角看——2025年我们所做的种种努力,不过是这场AI变革的开端。由AI驱动的生产力跃升和生产关系重塑,正在重新定义软件开发的每一个环节。这不是一场短跑,而是一场马拉松,不是一次技术升级,而是一次范式革命。

快手已经在这条路上积累了宝贵的经验,但真正的挑战和机遇还在前方。未来已来,一起共同探索AI x 研发效能的无限可能吧!



了解更多

图片







本文作者


快手研发效能中心:秦巍(研发效能解决方案 & 智能工具产品负责人)

快手主站技术部:胡伟(主站AIDevOps项目负责人)、马坤(主站研发效能项目负责人)

写在最后


快手向来崇尚“行胜于言”的实干精神,也因此我们往往专注于行动,而疏于对外分享。然而,过去一年间 AI 技术的迅猛发展,正深刻改变着研发效能领域的格局。在与行业同行的交流中,我们既看到层出不穷的创新探索,也注意到在实践、方法与工具建设方面仍存在不少共性问题。这些问题若不及早重视,很可能导致未来大量返工与资源浪费,甚至偏离客观规律,影响企业研发效能提升的既定路径。

为此,我们决定把我们的探索与实践经验分享出来——无论是曾经踏过的“坑”,还是有幸跨过的“河”,都希望能为企业与同行们在“AI × 研发效能”的探索中,降低试错成本,注入更多成功可能。

当然,快手的AI研发范式升级仍在沿着这条路径演进中:L1 AI 辅助(Copilot)→ L2 AI 协同(Agent)→ L3 AI 自主(Agentic)。目前,我们的研发效能体系已经初步完成AI化升级,全景图如下图所示:


2026年正在探索L2 → L3的跃迁路径,我们将定期梳理实践经验,持续向业界输出更多有价值的内容,主要包括:
  • 实践与技术:欢迎关注「快手技术」公众号。我们将持续分享具体实操方法与技术解析,例如:个人、团队乃至业务线如何借助 AI 提升效能?有哪些落地案例?研发各环节 Agent 的核心技术及调优方法有哪些?等等。
  • 平台与工具:我们将智能化1.0阶段沉淀的产品 Kwaipilot 进行了全面升级与开放,它在快手内部历经数千名研发同学的反馈与打磨,已完成三代演进:Code Copilot → Code Agent → Multi-Agent & Agentic Coding,目前已在海外发布,产品名为 CodeFlicker,希望服务全球开发者,也欢迎国内同行下载体验(https://www.codeflicker.ai/)。后续,我们还会持续把快手在智能化2.0阶段的探索成果融入CodeFlicker,希望让更多企业级开发者受益。

最后,如果你也希望一起探索「AI x 研发效能」最前沿的技术、产品、实践,一起以业界最高标准做有挑战的事,欢迎加入我们!


【推荐阅读】



点击【阅读原文】,加入我们!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询