Anthropic最新Claude Opus 4.5大模型上市,API价格大降2/3
11月25日消息,Anthropic最新的大模型Claude Opus 4.5今天上市。Anthropic团队表示,Claude Opus 4.5智能、高效,是世界上最好的编码、Agent和计算机使用模型。它在深度研究、使用PPT和Excel等日常任务中也表现得更好。
Anthropic认为,Claude Opus 4.5是现实世界软件工程测试的最先进版本:
Claude Opus 4.5今起可在Anthropic应用程序、API和三大云平台上使用。开发者只需通过claude API使用claude-opus-4-5-20251101。
值得注意的是,除了性能提升外,Claude Opus 4.5的最大的亮点之一是API价格大幅下降。目前Claude Opus 4.5 API的定价是每百万tokens 5美元/25美元。这一价格相比上一代大模型Claude Opus 4.1的API定价15 美元/75 美元,直接砍掉了三分之二。
Windsurf CEO Jeff Wang 就表示,Opus模型一直被视为"真正的SOTA"但过去由于其成本高昂而难以普及。Claude Opus 4.5现在的价格使其成为大多数任务的首选模型。
除了Claude Opus 4.5大模型本身外,Anthropic还发布了Claude开发者平台、Claude Code和应用程序的更新。
更智能
Anthropic测试人员指出,Claude Opus 4.5能够处理模糊性,并在无需过多指导的情况下权衡利弊。当面对复杂、涉及多个系统的程序错误时,Opus 4.5 能找到修复方案。几周前对 Sonnet 4.5 来说几乎不可能完成的任务,现在已触手可及。总体而言, Opus 4.5 就是能”领悟”要点。
GitHub 首席产品官 Mario Rodriguez表示,Claude Opus 4.5 提供了高质量的代码并在使用GitHub Copilot驱动重型代理式工作流程方面表现出色。早期测试显示它在超越内部编码基准的同时将tokens使用量减少了一半,特别适用于代码迁移和代码重构等任务。
在基准测试中,Claude Opus 4.5 的得分超过了以往任何人类候选人。
软件工程并不是Claude Opus 4.5改进的唯一领域。Opus 4.5能力全面提高,比其前身具有更好的视觉、推理和数学技能,在许多领域都是最先进的:
Opus 4.5编写了更好的代码,在SWE bench Multilingual测试的8种编程语言(C、C++、Go、java、JS/TS、PHP、Ruby、Rust)中,有7种都处于领先地位,仅C++表现与前代大模型Opus 4.1略持平。
Opus 4.5可以轻松解决具有挑战性的编码问题,在Aider Polyglot上比Sonnet 4.5高出10.6个百分点。
Opus 4.5改进了深度搜索Agent能力,在BrowseComp Plus上有了显著提升。
在长时间运行的任务中,Opus 4.5 能够持续保持正轨,其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。
Anthropic还举例阐述了Claude Opus 4.5在Agent能力上的超越基准的表现。
在Claude Opus 4.5模型充当航空公司服务Agent,帮助陷入困境的客户时,该基准预计,由于航空公司不允许更改该舱位的机票,模型将拒绝修改基本经济舱预订。相反,Opus 4.5找到了一种有效且合法的方法来解决这个问题:首先升级机舱,然后修改航班。
这个案例中,Claude Opus 4.5是这样思考和处理问题的:
让我想想在我的政策范围内有什么选项:
修改航班 - 基础经济舱不可修改。这在政策中写得很清楚。
更改舱位 - 等等,让我检查这个选项!政策说:
"在其他情况下,所有预订,包括基础经济舱,都可以在不更改航班的情况下更改舱位。"
但他想更改航班,而不仅仅是舱位。不过,如果我们:
先更改舱位(这对基础经济舱是允许的),然后
再更改航班(这对非基础经济舱是允许的)
那么策略可以是:
将他的舱位从基础经济舱升级到经济舱(或商务舱)
然后将航班修改到 2 天后
这可能会花费更多钱,但这是政策允许的合法途径!
从技术上讲,该基准将此判定为失败,因为 Claude 帮助客户的方式出乎意料。但正是这种创造性的问题解决能力,让测试者和客户反复提及——这让人感觉 Claude Opus 4.5 是一次意义重大的进步。
更安全
Anthropic强调,Claude Opus 4.5是其迄今为止发布的对齐最稳健的模型。
“我们的客户经常将 Claude 用于关键任务。他们希望确保在面对黑客和网络犯罪分子的恶意攻击时,Claude 具备相应的训练和智慧来规避麻烦。对于 Opus 4.5,我们在抵御提示注入攻击的稳健性方面取得了实质性进展,这类攻击通过夹带欺骗性指令来诱使模型产生有害行为。”Anthropic强调。
Opus 4.5 比业内任何其他前沿模型都更难通过提示注入来欺骗:
Claude开发平台新功能
随着模型变得越来越聪明,它们可以用更少的步骤解决问题:更少的回溯、更少的冗余探索、更少的冗长推理。Claude Opus 4.5 达到相似或更好结果时,所使用的token数显著少于其前代产品。
但不同的任务需要不同的权衡。有时开发者希望模型持续思考一个问题;有时他们需要更敏捷的响应。通过Claude API 上新增加的"努力程度"参数,用户可以决定是优先最小化时间和花费,还是最大化能力。
在中等努力水平设置下,Opus 4.5 在 SWE-bench Verified 上达到了 Sonnet 4.5 的最佳分数,但使用的输出token数减少了 76%。在最高努力水平下,Opus 4.5 的性能超过 Sonnet 4.5 有4.3个百分点,同时使用的token数仍减少了 48%。
通过努力程度控制、上下文压缩和高级工具使用,Claude Opus 4.5 运行时间更长,完成工作更多,并且需要的人工干预更少。
Claude Opus 4.5的上下文管理和记忆能力可以显著提升Agent(智能体)任务的性能。Opus 4.5 在管理子Agent团队方面也非常有效,使得构建复杂、协调良好的多Agent系统成为可能。在测试中,所有这些技术的结合将 Opus 4.5 在一项深度研究评估中的性能提升了近 15 个百分点。
Claude Code升级
Claude Code 随 Opus 4.5 获得了两项升级。“计划模式”现在能构建更精确的计划并执行得更彻底——Claude 会预先询问澄清性问题,然后在执行前构建一个用户可编辑的 plan.md 文件。
Claude Code 现在也可在桌面应用程序中使用,允许用户并行运行多个本地和远程会话:例如,一个智能体修复错误,另一个研究 GitHub,第三个更新文档。
对于 Claude 应用程序用户,长对话不再会遇到限制——Claude 会根据需要自动总结之前的上下文,这样用户就可以继续聊天了。Claude for Chrome允许Claude跨浏览器选项卡处理任务,现在所有Max用户都可以使用。Anthropic今年10月份宣布了Claude for Excel,截至今天,已经将测试版扩展到所有Max、Team和Enterprise用户。
对于有权访问 Opus 4.5 的 Claude 和 Claude Code 用户,Anthropic已取消 Opus 特有的使用上限。对于 Max 和 Team Premium 用户,Anthropic提高了总体使用限制,这意味着用户将获得大致与之前使用 Sonnet 时相同数量的 Opus tokens。
英伟达将下一代AI芯片命名为Rubin:纪念发现暗物质先驱
3月14日消息,据报道,英伟达下一代AI芯片以天文学家VeraRubin的名字命名。VeraRubin(1928-2016)出生于美国费城,先后获得瓦萨尔学院天文学学士学位、康奈尔大学硕士学位以及乔治敦大学博士学位。她在乔治敦大学任...
Sam Altman驳斥了OpenAI搜索引擎的谣言在最近的一次声明中,OpenAI首席执行官兼联合创始人SamAltman澄清了关于周一活动的传言,宣布公司将展示人工智能驱动的ChatGPT和GPT-4的最新更新,而非搜索引擎。这一消息在OpenAI总裁GregBrockman的X上回应中得到了...
周鸿祎:DeepSeek践行开源精神 是真正的“Open AI”快科技2月2日消息,据报道,中国人工智能企业DeepSeek近期遭遇了来自美国的全方位打压,包括调查、禁用、污名化指责以及大规模攻击等,这一系列事件迅速引起了社会各界的广泛关注。360公司董事长周鸿祎指出,美国此...
三星亮相AWE 2025,“AI for All”打造个性化智能生活新范式3月20日,以“AI科技、AI生活”为主题的2025年中国家电及消费电子博览会(AWE2025)在上海新国际博览中心开幕。作为消费电子与家电行业的先进企业,三星今年进一步拓展了“AIforAll”的愿景,携电视、生活家电、显示...
因非法收集用户虹膜信息,韩国对OpenAI CEO阿尔特曼的“世界币”项目开出罚单9月26日消息,韩国个人信息保护委员会(PIPC)周四对加密货币项目Worldcoin(世界币)处以11亿韩元(备注:当前约579.9万元人民币)的罚款,原因是其在韩国非法收集了约3万名用户的虹膜信息并将其转移到海外。Worldc...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...