微信扫码
添加专属顾问
我要投稿
Claude 4.5重磅升级,不仅是性能突破,更带来终端交互与安全性的全面提升!核心内容: 1. 编程与计算机交互能力的显著提升 2. 全新终端界面与VS Code扩展功能 3. 模型对齐性与安全防御的突破性进展
🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
先生,Anthropic 刚刚 发布了 Claude 4.5,在编程、智能体应用与电脑交互任务中表现优于 GPT-5。与此同时,DeepSeek 推出全新模型,推理成本降低十倍,API 费用下降超过 50%。
Anthropic “ 世界上最好的编码模型 ” 标语终于来到了 —— 4.5 版本。
不仅如此,Claude Code 也有升级,终端界面焕然一新,新的 VS Code 扩展将 Claude 带入你的 IDE。
新的检查点功能使你可以自信地运行大型任务,并在需要时立即回滚到以前的状态。
在 Claude API 上,添加了两项新功能来构建代理,以处理长时间运行的任务,而不会经常达到上下文限制:
上下文编辑以自动清除陈旧的上下文
用于在上下文窗口之外存储和查阅信息的记忆工具
Claude 4.5 模型在广泛的评测中表现出了更强的能力,包括推理和数学:
金融、法律、医学和 STEM 领域的专家一致认为,Sonnet 4.5 在专业知识和推理能力上相比早期模型(包括 Opus 4.1)有了显著提升。
Claude Sonnet 4.5 目前可在任何地方使用——在 Claude 开发者平台上、原生平台以及 Amazon Bedrock 和 Google Cloud 的 Vertex AI 中。定价与Sonnet 4 相同。
Claude Sonnet 4.5 在 SWE-bench Verified 测评中表现达到了最前沿水准,这个基准主要衡量真实场景下的软件编程能力。实际使用中,观察到它在复杂的多步骤任务中,能持续专注工作超过 30 小时。
Claude Sonnet 4.5 在计算机使用方面实现了重大突破。 在 OSWorld 基准测试(用于评估 AI 在真实计算机任务中的表现)中,Sonnet 4.5 以 61.4% 的成绩位居第一。就在四个月前,Sonnet 4 还以 42.2% 领跑。
Anthropic Claude for Chrome 扩展 已经将这些升级后的能力投入实践。在下面的演示中,你会看到 Claude 直接在浏览器中操作:浏览网站、填写表格、完成任务,一气呵成。
迄今为止最契合对齐的模型
除了是世界上最好的编码模型 ,Claude Sonnet 4.5 也是迄今为止在对齐性方面表现最好的前沿模型。Anthropic显著改善了模型的行为,减少了诸如逢迎(sycophancy)、欺骗(deception)、权力追求(power-seeking)以及鼓励妄想思维等令人担忧的行为。
在代理(Agentic)和计算机使用相关的能力上,Anthropic也在防御提示注入攻击(prompt injection)方面取得了重大进展——这是这些功能对用户构成的最严重风险之一。
你可以在 Claude Sonnet 4.5 系统卡(https://reurl.cc/main/cn) 中阅读一套详细的安全与对齐评估,其中首次纳入了使用机械可解释性方法的测试。
Claude Sonnet 4.5 在发布时启用了的 AI 安全等级 3(ASL-3) 防护措施。在减少误报方面已经取得了显著进展—— 与今年 5 月发布的 Claude Opus 4 相比,减少了一半。
Claude Agent SDK
Anthropic在过去的六个多月里,不断为 Claude Code 推出更新,因此非常清楚构建和设计 AI 智能体所需的要素。已经解决了一些关键难题:如何让智能体在长期运行任务中管理内存,如何设计既能保证自主性又能兼顾用户控制的权限系统,以及如何协调多个子智能体协作完成共同目标。
现在,Anthropic把这一切都开放给你。Claude Agent SDK 使用的正是支撑 Claude Code 的同一套基础架构,但它的优势不仅限于编程任务,而是对各种不同类型的任务都表现出色。从今天起,你就可以用它来构建属于你自己的智能体。
之所以构建 Claude Code,是因为当时市面上并不存在真正需要的工具。如今,Agent SDK 为你提供了同样坚实的基础,让你能够针对自己的问题,打造同样强大、量身定制的解决方案。
额外研究预览
在发布 Claude Sonnet 4.5 的同时,也带来了一项临时研究预览功能,名为 “Imagine with Claude”。
在这个实验中,Claude 能够即时生成软件。没有任何预设功能,也没有预写代码。你所看到的,就是 Claude 在与你交互时,实时创造、响应和适配需求的过程。
它开创了“模型即后端”的概念,使用模型不仅可以动态生成接口,还可以为其背后的所有功能提供支持——所有这些都由最新模型 Claude Sonnet 4.5 实现:
“Imagine with Claude” 在未来五天内向 Max 订阅用户开放。Anthropic 鼓励你前往 claude.ai/imagine 体验。
对于这个功能,有用户表示,我特别喜欢“用@ClaudeAI想象 ”功能,它可以让你即时创建有趣的应用程序。例如,我要求它“向我展示一个糟糕的 PM(左)和一个伟大的 PM(右)的桌面。这是一个关于它想出的东西的视频
更多信息
Anthropic建议在所有场景中升级至 Claude Sonnet 4.5。无论你是通过的应用、API,还是 Claude Code 使用 Claude,Sonnet 4.5 都可以作为无缝替代,提供显著提升的性能,且价格不变。Claude Code 的更新对所有用户开放。Claude 开发者平台的更新(包括 Claude Agent SDK)对所有开发者开放。代码执行和文件创建功能则在所有付费计划的 Claude 应用中均可使用。
点这里👇关注我,记得标星哦~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-30
Anthropic长文拆解上下文工程落地策略与实践
2025-09-30
OpenAI版抖音要来了!Sora 2加持,只能发AI生成视频
2025-09-30
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时!CEO:它更像你的同事
2025-09-30
【万字长文】大模型训练推理和性能优化算法总结和实践
2025-09-30
AI编程学习:Chrome DevTools MCP 到底有多强?
2025-09-30
Claude Sonnet4.5发布,号称世界最强模型,超越gpt-5-codex
2025-09-30
Claude Sonnet 4.5 发布:全解析
2025-09-29
Nano Banana三大痛点的十种邪修解法,我和Lovart搭伙开了家上海Bistro餐厅
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-08-20
2025-09-14
2025-09-30
2025-09-29
2025-09-28
2025-09-27
2025-09-27
2025-09-25
2025-09-23
2025-09-22