微信扫码
添加专属顾问
我要投稿
Anthropic推出的Claude 4系列模型,为AI编码、推理和代理功能带来革命性突破。核心内容:1. Claude 4模型的并行工具使用能力和记忆提升2. Claude Opus 4在编码领域的领先性能和长期任务处理能力3. Anthropic API的增强功能,包括代码执行工具和项目管理AI代理的应用
Claude Opus 4 和 Claude Sonnet 4 ,为编码、高级推理和 AI 代理设定新的标准。
两种模型都可以并行使用工具,更精确地遵循指令,并且当开发人员授予其访问本地文件的权限时,
可以显著提高记忆能力,提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。
Claude Opus 4 是Anthropic迄今为止最强大的模型,也是全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均领先。
它在需要专注投入和数千个步骤的长时间运行任务中表现出色,能够连续工作数小时——其性能远超所有 Sonnet 模型,并显著扩展了 AI 代理的功能。
Claude Opus 4 在内存能力方面也显著超越了所有前代型号。
当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。
这能够提升代理在长期任务中的感知能力、连贯性和执行性能——
例如,Opus 4 在玩宝可梦时能够创建“导航指南”。
当克劳德·奥普斯4号获得本地文件访问权限时,它会记录关键信息,以帮助改进游戏体验。
Claude 4 模型引入了思维摘要功能,该功能使用较小的模型来压缩冗长的思维过程。这种摘要功能仅在约 5% 的情况下才需要使用——大多数思维过程都足够短,可以完整显示。
Anthropic API 的四项新功能:
代码执行工具、MCP 连接器、文件 API 以及将提示缓存长达一小时的能力
项目管理 AI 代理可以使用 MCP 连接器和 Asana 来引用任务和分配工作,通过文件 API 上传相关报告,使用代码执行工具分析进度和风险,并始终保持完整的上下文 - 同时通过扩展提示缓存来降低成本。
开发人员能够构建代理,执行用于高级数据分析的代码,通过 MCP 服务器连接到外部系统,
跨会话高效存储和访问文件,并使用经济高效的缓存维持长达 60 分钟的上下文 - 无需构建自定义基础设施。
这些功能与现有的网页搜索和引文等功能相结合,构成了构建 AI 代理的综合工具包的一部分。
Anthropic API 上引入了一个代码执行工具 ,使 Claude 能够在沙盒环境中运行 Python 代码,从而生成计算结果和数据可视化。
这将使 Claude 从代码编写助手转变为数据分析师,能够迭代可视化结果、清理数据集,并直接在 API 调用中获得洞察。
借助代码执行工具,Claude 可以加载数据集、生成探索性图表、识别模式,并根据执行结果迭代优化输出——所有这些都在一次交互中完成。
这意味着 Claude 可以端到端地处理复杂的分析任务,而不仅仅是单独运行代码。
Anthropic API 可以自动处理所有连接管理、工具发现和错误处理。
只需在API 请求中添加远程 MCP 服务器 URL,即可立即访问强大的第三方工具,从而显著降低构建支持工具的代理的复杂性。
当 Claude 收到配置了 MCP 服务器的请求时,它会自动:
Files API 简化了开发者使用 Claude 构建时存储和访问文档的方式。
现在无需在每个请求中都管理文件上传,只需上传一次文档,即可在对话中反复引用它们。
这简化了开发工作流程,特别是对于需要处理大型文档集(例如知识库、技术文档或数据集)的应用程序。
Files API 将与代码执行工具集成,使 Claude 能够在代码执行期间直接访问和处理已上传的文件,并在响应中生成图表和图形等文件。
这意味着开发人员只需通过 Files API 上传一次数据集,即可让 Claude 在多个会话中对其进行分析,而无需重新上传。
开发者现在可以选择标准的 5 分钟生存时间 (TTL) 来缓存提示 ,也可以选择额外付费的 1 小时延长生存时间 ——这项改进提升了 12 倍,可以降低长时间运行的代理工作流程的费用。
借助延长缓存,客户可以向 Claude 提供丰富的背景知识和示例,同时将成本降低高达 90%,并将长时间提示的延迟降低高达 85%。
这使得构建能够长期维护上下文的代理变得切实可行,无论它们是处理多步骤工作流程、分析复杂文档,还是与其他系统协作。
Claude Code 将 Claude Opus 4嵌入到用户自己的终端中。
它具有深度代码库感知能力,能够直接在环境中编辑文件和运行命令。
具体亮点:
使用示例:
主要包括两个功能:Research 和Google Workspace
Research功能基本上是为了追齐其他大厂已有能力。看来 Google 为了狙击 OpenAI,居然同意 Claude 生态接入他们的应用,有点意思,估计是被太多次抢头条了,压力来到了 OpenAI 这边。
Research
Claude 以Agent方式运作,进行多次相互关联的搜索,同时确定下一步的调查目标。它会自动探索问题的不同角度,并系统地解答开放式问题。
这种方法能够提供详尽的答案,并附带易于查阅的引文。
Research功能可在几分钟内提供高质量、全面的答案。
Google Workspace
Claude 现在除了与 Google 文档集成外,还与 Gmail 和日历集成。
通过连接 Google Workspace,Claude 可以安全地搜索电子邮件、查看文档并查看日历安排,无需手动上传文件或反复提供有关您的工作和日程安排的信息。
Claude 能够通过 Web 和桌面应用与远程 MCP 服务器无缝协作。
开发者可以构建和托管服务器以增强 Claude 的功能,而用户可以发现任意数量的服务器并将其连接到 Claude。
当工具连接到 Claude 时,它会深入了解项目历史、任务状态和组织知识——并能够全面采取行动。
举例说明
通过访问 Atlassian 的 Jira 和 Confluence,Claude 可以协作构建新产品、更有效地管理任务,并通过同时总结和创建多个 Confluence 页面和 Jira 工作项来扩展工作。
总体来说,模型层面更大的上下文,记忆能力优化是亮点,不过可能跟 Gemini2.5 pro 还有一定差距(个人观点,待验证)
Coding 能力,集成工具能力,Code SDK,集成谷歌应用生态是亮点。
Coding 还是 Claude 看家本领,后面有机会给大家秀一下 Cursor + Claude4。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-23
Claude 4发布:最强AI编程模型+最强AI Agent基建!
2025-05-23
Agent大革命!Claude 4连续自动编程7小时,刷新世界记录
2025-05-23
昆仑万维面向全球发布天工超级智能体:基于deep research的“AI版office”
2025-05-23
Claude4来了。。。太卷了,已超越Gemini2.5Pro
2025-05-23
重磅!开发者利好,编码王者Claude 4来了!
2025-05-23
【震撼来袭】Claude 4 双雄 Opus 4 & Sonnet 4 强势登场,引爆 AI 编码新时代!
2025-05-23
Claude4深夜上线,重回巅峰
2025-05-23
Claude 4发布!世界最强编程模型来了
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-18
2025-05-18
2025-05-17
2025-05-13
2025-05-13
2025-05-12
2025-05-11
2025-05-09