此外,文章还探讨了AI研发工具未来的发展趋势,包括云端协同、全链路覆盖、多模态能力等方向,并指出当前AI出码的主要瓶颈在于长文本理解、图像识别及模型调用成本。尽管目前部分工具仍存在不足,但正如工业革命中蒸汽机取代手工锻打一样,AI研发工具正逐步改变传统开发流程,推动行业迈向更高效率的时代。
微信扫码
添加专属顾问
我要投稿
2025年AI研发工具的全面对比分析,为开发者选择合适工具提供参考。 核心内容: 1. AI研发工具的四大类别及其特点 2. 产品功能、使用体验、优劣势的横向对比 3. AI研发工具的未来发展趋势及主要瓶颈
此外,文章还探讨了AI研发工具未来的发展趋势,包括云端协同、全链路覆盖、多模态能力等方向,并指出当前AI出码的主要瓶颈在于长文本理解、图像识别及模型调用成本。尽管目前部分工具仍存在不足,但正如工业革命中蒸汽机取代手工锻打一样,AI研发工具正逐步改变传统开发流程,推动行业迈向更高效率的时代。
2024 年,AI领域的发展超出了我们的预期,突破了我们认为可能的界限,给各行各业都带来的许多全新的机会。到了 2025 年,AI已不再是开发人员手中的一个简单工具,而是成为编程过程中不可或缺的一部分。许多开发人员如今都依赖 AI 工具进行编码,copilot已经成为了不可或缺的一部分。其实除了copilot以外,今年出现了大量的优秀AI研发工具,部分甚至已经打破了我们对传统研发流程的认知,目前主流AI研发工具的三种产品形态,分别是:
本文主要从产品功能的介绍,实际使用的体感,和竞品相比的优劣,收费定价和是否开源这几个维度分别取三种形态的3个主流产品进行横向的对比,旨在帮助大家快速跟上版本,对于目前主流的工具和一些名词能有大体的概念和理解。下篇从具体研发场景落地的视角介绍如何结合AI出码的能力进行业务实践。
云端开发工具
这一类的产品AI驱动的全栈Web开发工具,主要是将大模型与浏览器内开发环境集成,适合新手或喜欢简洁界面的用户,提供直观易懂的操作界面,有的产品专注于UI设计实现,便于快速完成产品原型设计,非常适合前端开发者和设计师。也有的产品通过Web Contrainer技术支持在浏览器中完成全栈开发,核心优势是"降低开发门槛"和"快速部署",特别适合验证想法阶段或小规模应用场景。
官网:https://v0.dev/
是否开源:否
v0 是由 Vercel 提供的一款基于云端的AI驱动前端开发工具,专注于高效的 UI 原型设计。它通过集成设计工具和 AI 自动化功能,最初作为一个前端页面生成器,但最近更新后已经扩展到全栈开发领域。
v0.dev在快速 UI 原型设计方面表现出色,多家公司使用它来维护组件库并补充其设计系统。它与 Tailwind 或 Material-UI 等流行的 UI 框架配合良好。 v0 现在不仅支持生成 UI 组件,还支持生成后端服务,包括与数据库和 API 路由的集成,虽然还处于早期阶段,但它的全栈支持在未来可能具有竞争力。
主要特色:
官网:https://bolt.new/
是否开源:是
开源地址: https://github.com/stackblitz/bolt.new
Bolt.new 是由 StackBlitz 提供的一款云端全栈开发工具,通过WebContainers技术将整个开发堆栈带入浏览器中,旨在通过简化开发流程,使开发者无需配置本地环境即可进行全栈开发。Bolt.new 提供即时预览、自动化部署等功能,专为云端全栈开发而设计,方便开发者进行快速开发和部署,非常适合将想法从零变为 MVP。
StackBlitz 的Bolt.new专为前端和全栈开发而设计,允许前端和后端原型设计,而无需设置本地环境。它因其速度(非常适合快速 MVP)、灵活性和定制部署流程的能力而受到称赞。 Bolt支持各种框架并提供实时调试,非常适合需要快速原型设计和部署应用程序的开发人员。其基于浏览器的环境简化了工作流程,尽管它可能面临非常复杂的项目的限制。
主要特色:
官网:https://lovable.dev/
是否开源:否
Lovable 可能没有 bolt.new 有名,Lovable AI 的核心是其先进的自然语言处理 (NLP)技术,无论用户技术专业知识如何,简化全栈 Web 应用程序的创建,使用户能够专注于他们的想法,而不是复杂的编码。
主要特色:
其实上述的三款产品因为定位比较接近,功能同质化还是比较严重的,不过好在这些工具的迭代速度都非常快,基本每个月都会带来一些新的功能和惊喜,当你不知道怎么选型的时候可以参考一下观点:
这类的产品主要存在的问题也是比较类似的:复杂的token消费系统,代码上传到云端存在泄露风险。
大部分的场景最终需要导出代码:这类工具的需求非常适合更快地获得MVP,但是一旦项目的复杂度达到一个阈值后,仍需要在本地转移到编辑代码,比如Cursor,WindSurf,VSCode等。
随着Cursor在2024下半年的爆火,越来越多的创业公司开始挤进这个赛道:AI原生的代码编辑器。
对比传统的编辑器和IDE,我认为 AI 驱动的编辑器至少具备以下核心功能:
Windsurf ,Cursor和 Trae 都是基于 VS Code 架构开发的,这意味着它们可以无缝访问 VS Code 的扩展市场,享受丰富的第三方插件支持。
目前主流的AI编辑器使用 Claude 3.5 Sonnet 作为底层的编码大模型。生成的代码质量在核心模型层面没有太大差异,都能提供高效的代码完成和更新功能。区别主要体现在UI 设计和用户体验上。
官网:https://www.cursor.com/
是否开源:否
Cursor 是由Anysphere打造的代码编辑器.目前已从 Thrive、Andreessen Horowitz、Benchmark 和现有投资者那里筹集了 1.05 亿美元的 B 轮融资。 现在已被数百万工程师用作他们的首选编辑器,目前知名度最大的AI编辑器,据他们的开发者宣称,目前Cursor定制的模型生成的代码比几乎任何模型都多LLMs在世界上。
主要特色:
cursorrules可为Cursor提供特定说明。将视为指导AI如何生成,编辑和与代码交互。通过定义这些规则,可以量身定制光标AI的行为,以满足项目的标准,简化协作并提高生产力。比如:编码团队的最佳实践,首选的设计模式以及样式指南。也可以.cursorrules中提供关键的项目信息(例如经常使用的库,特定的体系结构模式或通常称为方法),使AI能够生成更智能的,更多的上下文感知建议。
收费定价:
Cursor 有次数有限的免费级别、每月 20 美元/月的专业级别和每月 40 美元/月的企业级别。
官网:https://codeium.com/windsurf
是否开源:否
Codeium 推出全新 IDE 编辑器 Windsurf 是目前最有实力挑战 Cursor 的编辑器之一。同样基于 VSCode。支持自动写入多文件,与 Cursor 不相上下,强大的Agentic功能,这块体验甚至优于 Cursor,可引入工具,可运行 Shell(需用户批准)。Windsurf 的设计理念是简洁、高效和用户友好。它特别注重流程的简化和直观的用户体验,使得开发者能够快速上手并轻松完成任务。
主要特色:
收费定价:
很多用户反馈 windsurf 就算是付费了, 额度仍然会经常存在不够用的情况。对于自有模型的接入这方面不如cursor, 不能自定义 model, 而cursor 就可以手动添加(仅限制于chat模式)。
trae官网:https://www.trae.ai/
是否开源:否
最后介绍一下由字节节旗下新加坡公司SPRING(SG)PTE.LTD.提供Trae的服务。为编程新手和开发者设计。它基于Claude 3.5和GPT-4o模型,提供智能代码生成、实时补全、优化和自动调试等功能,同时支持中文界面和代码注释,特别适合中文开发者使用。
基于中文使用环境进行了大量的深度定制,不管是界面还是交互,还是里面的内容,完全的中文化。使用和上手毫无难度,同样支持直接从VScode 或者 Cursor 中导入配置。
Chat和Builder 对比 Cursor Chat和Composer。
目前支持两大模型分别是Claude和 GPT-4o ,暂时不支持自定义配置API。
个人认为最大的优势是完全免费,即使调用最新的claude sonet模型也不需要单独收费。
Windsurf 似乎确实致力于成为一款非常简单、易于使用的产品,对初学者友好,并推动与代码进行高级、简单的交互,用户界面很干净,总体感觉对新手用户十分友好。
Cursor 更加注重功能的全面性和定制性。它面向更高级的开发者,强调控制和自定义,适合那些需要高度自定义并希望在开发过程中拥有更多控制权的用户,尤其适合经验丰富的开发者和那些进行大型项目管理的团队。
几个编辑器在实际使用体感:
但是,如果是编写可用于生产的代码,例如包含复杂的上下文业务逻辑或者是和后端有深度绑定的场景,在预算充足的情况下,目前还是更加推荐Cursor, Cursor在更细粒度的控制能产出更高质量的代码。
这一类的产品以github copilot为代表都属于IDE插件,需要结合JetBrains或VS Code使用。相信绝大部分的开发者接触的第一款AI研发工具都是copilot,在第一次使用时候带来的那种震撼的感觉,但是随着时间的发展,copilot似乎没有很好的维持自己的先发优势,开源的竞品在产品力和出码效果上都紧追不舍。
IDE插件的优势在于不改变原来的用户开发习惯,在现有的研发工具上进行扩展,通过代码补全(Next Edit Suggestions)和agent模式对话(Agent Mode Chat)增强用户的编码能力。
劣势在于受制于IDE本身提供的开放能力,无法建立更底层的本地代码索引(Codebase Index)导致在代码变更的时候,需要依赖更多的代码上下文作为输入语料,不仅在效果上弱于AI原生的IDE,在token的消费上也会更高。
官网:https://github.com/features/copilot
是否开源:否
GitHub Copilot是一款 AI 编码助手,可帮助更快、更省力地编写代码。也是大部分人第一次接触AI出码时候所使用的产品,它由 GitHub 与 OpenAI 合作开发,使用机器学习生成代码建议并直接在代码编辑器(Visual Studio Code、Visual Studio、Vim/Neovim、JetBrains IDE)中完成任务。
当 OpenAI 于 2020 年 6 月发布 GPT-3 时,GitHub 知道开发人员将从一款专门利用该模型进行编码的产品中受益构建了 Codex,它是 GPT-3 和 LLM 的后代,将为 GitHub Copilot 提供支持Copilot于 2021 年 6 月作为技术预览版推出,并于 2022 年 6 月作为世界上第一个大规模生成式 AI 编码工具全面上市。
GitHub Copilot 理解代码并进行补全的完整流程:
近期 GitHub 和Microsoft 日前联合宣布推出 GitHub Copilot 免费计划,所有开发者只需一个 GitHub 账号即可在 VS Code 中免费使用这款 AI 编程助手,无需信用卡,无需订阅。
这一免费计划为用户每月提供 2000 次代码补全和 50 次聊天请求额度。用户可以使用 GPT-4o 和Claude 3.5 Sonnet 两种 AI 模型,基本满足日常开发需求。如需更多功能,可升级至无限制的 Pro 计划,该计划还将在明年支持 o1 和Gemini 等更多模型。
是否开源:是
开源地址:
https://github.com/cline/cline/https://github.com/RooVetGit/Roo-Code
Cline 是一款结合了 AI 助手与 VS Code 的智能工具,旨在通过其深度集成的能力协助开发者完成复杂的软件开发任务。从创建与编辑文件到执行终端命令,Cline 借助 Claude 3.5 Sonnet 的代理编程能力,将开发者从繁琐的手动任务中解放出来。同时,它通过 Model Context Protocol (MCP) 支持扩展能力,可以为用户创建新的工具,进一步提升开发效率。Cline 还注重安全性,提供“人类审核”的交互模式,确保每一次更改和命令都获得用户批准。
RooCline和Cline的关系:RooCline 是 Cline fork出来的一个分支,现在已经改名为Roo-Code,有更激进的更新周期,RooCline 本身也被 Fork 出其他分支,比如 Cool cline、Bao cline。
主要特色:
官网:https://lingma.aliyun.com/
是否开源:否
通义灵码是基于通义大模型的智能编程辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力,并针对阿里云的云服务使用场景调优,助力开发者高效、流畅地编码。
具备多文件代码修改(Multi-file Edit)和工具使用(Tool-use)的能力,可以与开发者协同完成编码任务,如需求实现、问题解决、单元测试用例生成、批量代码修改等。
主要特色:
定价:目前处于公测阶段免费使用,性价比非常高。
官网:claude.ai/
是否开源:否
Claude 3.5 Sonnet 是 Anthropic 的 Claude 3.5 系列中的关键模型,旨在充当高速响应性和深度智能之间的黄金中庸之道。 Claude 3.5 Sonnet 专为企业工作负载量身定制,将性能、可扩展性和成本效益完美结合,为大规模 AI 部署树立了新基准。
Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 设定了新的行业基准。它在理解细微差别、幽默和复杂指令方面表现出显著的进步,并且擅长以自然、亲切的语气撰写高质量的内容。
研究生水平的推理长期以来一直被认为是人类智能的标志,这是人工智能历来难以跟上的前沿领域。虽然还有很多工作要做,但 Claude Sonnet 3.5 已显示出重大进展。
更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显著的进步。在编码方面,它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。
Claude 3.5 Sonnet 不仅在多项基准测试中击败了 GPT-4o 和 Gemini 1.5 Pro,而且还引入了一项名为Artifacts的新功能。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时,这些工件会出现在他们的对话旁边的专用窗口中。这创建了一个动态工作空间,他们可以在其中实时查看、编辑和构建 Claude 的创作,将人工智能生成的内容无缝集成到他们的项目和工作流程中。
官网:https://www.deepseek.com/
是否开源:是
开源地址:https://github.com/deepseek-ai/DeepSeek-V3
DeepSeek 是由中国人工智能公司深度求索(DeepSeek)独立开发的大语言模型系列。深度求索是一家专注于人工智能(AI)大模型研发的创新科技公司,成立于2023年7月17日,总部位于中国浙江省杭州市,由知名量化资管巨头幻方量化创立,并依托其强大的技术团队和硬件资源,迅速在AI领域崭露头角。
性能测试上超过一众开源模型。
在 API 设计上,DeepSeek 与 OpenAI 保持兼容,可以充分利用 OpenAI 的强大生态和海量资源。
DeepSeek 取得显著成绩的关键在低成本训练的方法。采用混合专家架构(MoE) :
DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。
从发布的效果来看,这个开源模型在多个数据集上的效果都能够赶上最前沿的几个大模型。
官网提供的评测数据对比:
Deepseek R1性能与o1相当,还采用MIT开源协议,可以商用。现在能在Deepseek chat平台用,也提供API。R1是671B参数的大模型,激活参数37B,基于Deepseek V3训练。强化了思维链和推理能力。
官网提供的评测数据对比:
实际使用的一些体感的对比:
当下制约AI出码的主要瓶颈在于完整代码上下文长文本的理解能力,多模态图像的识别理解能力 和 模型调用成本,但从目前的发展趋势来看,随着基础大模型的迭代和对应的RAG方案的完善,2025年内这些问题非常可能有突破性的进展。
如果仅从当下来看:Deepseek和Cline是低成本绝配,但是和Cursor/Windsurf+Claude还要有差距。
个人对未来AI研发工具的一些趋势判断:
最后分享一个在X上看到一个段子,很生动形象,而当下可能就是在技术革命的浪潮来临的前夕。
现在 cursor这类工具感觉不好用, 这只是暂时的. 就好像瓦特蒸汽机时代, 村口的老铁匠认为蒸汽锻压机不如他的手工锻打. 他打的刀, 刃口和刀背都有不同的硬度和韧性, 刀的形状和花纹巧夺天工。 后来, 全套金工车间的车铣刨磨诞生. 人们可以加工细微到精度几丝的零件, 庞大到几十上百吨的船用螺旋桨时, 就没村口铁匠什么事了
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-27
2025-04-27
2025-04-23
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16