2026年4月16日,Anthropic正式发布了旗舰模型Claude Opus 4.7。模型ID为 claude-opus-4-7,输入/输出价格仍为$5 / $25 per MTok,与4.6持平。但它内部的变化,从高分辨率图像支持、新xhigh努力等级、任务预算(Beta)到新分词器,足以重塑旗舰模型的使用体验

另一方面,扩展思考API废止、temperature/top_p/top_k等采样参数废止、prefill废止等破坏性变更也随之而来,现有代码必须迁移。

本文将从工程师视角深入解读:4.7到底新在哪里、比4.6变了什么、什么时候该用它。

Claude Opus 4.7发布——新功能全景

1. 发布概览——时间、内容、价格、可用平台

项目内容
发布日期2026年4月16日
模型IDclaude-opus-4-7
价格(输入)$5 / 100万tokens(与4.6相同)
价格(输出)$25 / 100万tokens(与4.6相同)
上下文窗口1,000,000 tokens(标准API价,长上下文不额外收费)
最大输出128,000 tokens
提供平台claude.ai、Anthropic API、AWS Bedrock、Google Vertex AI、Microsoft Foundry

最值得关注的是 "价格不变,1M上下文窗口按标准价"。以往模型中,长上下文(超过200K等)常常要额外付费,而4.7的1M tokens都按常规价计费。

Opus 4.7在claude.ai的Web与移动端对付费用户立即开放,在API中只要指定模型ID即可切换。AWS Bedrock、Google Vertex AI、Microsoft Foundry同步上线,企业的多云环境也可以直接使用。

2. 新功能概览

Opus 4.7中新增或调整的主要功能如下。

Opus 4.7新功能——高分辨率图像、xhigh努力、任务预算、新分词器
  • 高分辨率图像支持(Claude首次)——最大2576px / 3.75MP(以往1568px / 1.15MP的约3倍)
  • 低层视觉感知改进——指点、测量、计数、边界框检测的精度提升
  • 新xhigh努力等级——位于high与max之间,最适合编码与智能体场景
  • 任务预算(Beta)——事先预估整个智能体循环的token消耗
  • 新分词器——比原版多消耗1.0~1.35倍token(按内容最多增加35%)
  • 自适应思考——默认改为OFF(需要显式开启)
  • 基于文件系统的内存增强——跨会话的草稿本和笔记利用更顺
  • 知识工作(.docx、.pptx)改善——带修订历史的编辑、幻灯片版式、图表/图解解析精度提升
  • Claude Code联动——新增斜杠命令 /ultrareview,Max方案的默认effort升级为xhigh,Auto mode扩展到Max用户
  • 实时网络安全防护——针对高风险话题的新拒绝行为
  • 行为变化——更忠实地按指令行事、语气更直接、工具调用更少

其中 高分辨率图像支持xhigh努力等级 对文档分析、Computer Use、编码智能体带来的实际价值最显著。以下逐项解读。

3. 高分辨率图像支持——Claude系列首次

Opus 4.7是 Claude系列首个能直接处理高分辨率图像的模型

分辨率的变化

项目Opus 4.6以前Opus 4.7
最大分辨率(长边)1568px2576px
最大像素数1.15MP3.75MP
单张全分辨率图像的token约1,600 tokens约4,784 tokens(约3倍)
坐标系缩放后分辨率的像素坐标与实际像素1:1(无需换算)

好处在哪里

  • 文档分析——A4扫描图里的小字、表格的细线、图表的刻度都能看清
  • Computer Use——Full HD及以上的截图可以直接理解
  • UI截图理解——4K屏幕、高DPI显示器的截图可不经降采样直接解析
  • 坐标1:1对应——让模型返回点击坐标时,不再需要尺度换算逻辑,实现更简洁

但要注意,单张全分辨率图像消耗约4,784 tokens。大量传递截图的智能体,图像token会快速飙升并直接体现在账单上。不需要高分辨率时,请考虑预先压缩尺寸。

4. 努力等级——新增xhigh

Claude用来控制extended thinking / 思考深度的"努力等级(effort level)",新增了 xhigh

努力等级——low/medium/high/xhigh/max

5级使用指南

等级特点适合场景
low最少思考,追求即时短问题、分类、简单摘要、聊天回应
medium中等推理常规问答、信息抽取、轻量生成任务
high深度推理设计判断、复杂分析、长文生成
xhigh(新增)介于high与max之间,针对编码与智能体优化代码实现、多步骤智能体、重构
max最大思考深度最难的推理问题、研究级分析

在4.6时代,"high不够用,但max又太重"的缺口在编码与智能体用例中相当常见。xhigh 正是为填补这一中间档位而设,Anthropic也明确表示它最适合编码与智能体用例。

如何选择努力等级

4.7中 努力校准(effort calibration)被进一步收紧,尤其low与medium更会"严格守住边界"。也就是说,如果4.6时期你用medium运行的任务感到"被削得太干净",可以考虑调到high或xhigh。

5. 任务预算(Beta)

Opus 4.7引入了新的Beta功能——任务预算(Task Budgets)。它用于事先提供整个智能体循环(agent loop)将消耗的token粗略估计。

任务预算规格

  • Beta headertask-budgets-2026-03-13
  • 最小值:20,000 tokens
  • 覆盖范围:包含思考 + 工具调用 + 输出在内的整个智能体循环
  • 行为仅为建议上限(advisory),并非硬上限——超额不会强制停止

为什么需要它

过去的 max_tokens 只能控制 单次响应的输出上限。然而实际的智能体执行中,思考token、工具调用的往返、多步骤输出交织在一起,"这整个任务到底消耗多少token"很难看清。

指定任务预算后,模型会 以该预算为参考安排工作计划,调整思考的深度与节奏。你可以从成本角度下达"别太深入、尽快收尾"或"慢慢思考也没关系"这样的指令。

但由于是建议性,若要确保在预算内停止,还需在应用侧实现另一套计数器。

6. 新分词器的影响

Opus 4.7采用了 新分词器,相同文本相较旧版模型会消耗 1.0~1.35倍的tokens,视内容最高可能增加35%。

对成本与上下文预算的影响

  • 相同提示词的计费可能上升——即便单价不变,总token数上升,总额也会上涨
  • 1M上下文可容纳的信息量实际减少——1M tokens不变,但同一份文档要吃更多token
  • 估算与告警需要重新校准——以旧分词器为前提的预算与速率限制需要重新计算

实务上的应对

把现有Claude应用切到4.7时,请重新评估以下几点。

  1. 月度成本预测——假设相同流量下最多多出35%
  2. 上下文窗口占用率——历史日志中"刚好接近1M"的处理要特别注意
  3. 速率限制与每分钟token上限——再次确认是否仍有余量
  4. 缓存策略——提示词缓存的命中率可能发生变化

4.6到4.7的具体迁移步骤,请参看后续的迁移指南文章。

7. 行为变化——相比4.6有什么不同

Opus 4.7不只是加功能,连 回答风格本身都和4.6不一样

主要行为变化

  • 更忠实地按指令行事——尤其是low~medium努力等级,不做多余补充,按指示执行
  • 语气更直接——校验式语句("真是个好问题"之类)、过度礼貌表达和表情符号减少
  • 回答长度随任务自适应——简单问题简短,复杂任务拉长——统一的冗长感消失
  • 默认工具调用次数减少——能靠推理解决就不调用工具,避免不必要的工具使用
  • 子智能体启动数减少——不急着并行展开,优先自己思考
  • 努力校准收紧——low / medium时会严守范围,减少自作主张

对现有提示词的影响

如果你的提示词是按"4.6会礼貌补充"设计的,或者你的智能体依赖"多多调用工具验证",在4.7下 行为可能发生变化

  • 想要补充信息,就加"请说明理由和备选方案"
  • 想多用工具,就明确写"为了核实事实请务必调用WebSearch"
  • 想要长一点的回答,就写"至少写500字"

整体是朝"模型不再画蛇添足"的方向演进,只要写明指令就会照做,行为更可预期。

网络安全防护与安全性

Opus 4.7引入了 实时网络安全防护(cybersecurity safeguards),即便是渗透测试、漏洞研究、红队演练等 合法安全工作,也会因上下文而被拒绝。如果你在生产环境使用安全用途,请考虑申请Anthropic的 Cyber Verification Program

同时官方公布了下列安全性提升。

  • 诚实性(honesty)提升——不知道的事会说"不知道",少做没有依据的断言
  • 抗提示注入(prompt injection)增强——对第三方恶意注入指令的防御更强
  • Mythos Preview是目前最好的对齐——Opus 4.7能力更广,但对齐精度上Mythos Preview更强

另一方面,官方也指出涉及管控药品(controlled substances)的减害建议变得略显冗长。医药、医疗类聊天机器人上线时,加一层输出过滤会更稳。

8. 破坏性变更

Opus 4.7相较4.6带来了若干破坏性变更。如果你的代码针对4.6编写,直接切换可能会触发400错误。

已废止的参数与功能

功能4.6以前4.7
扩展思考thinking: {type: "enabled", budget_tokens: N} 开启同样负载会返回 400错误,改为自适应思考
自适应思考默认ON默认OFF,通过 thinking: {type: "adaptive"} 显式开启
思考内容展示默认返回默认 omitted(省略),想展示需指定 display: "summarized"
temperature0.0~1.0可调非默认值会返回 400错误
top_p / top_k可做采样控制非默认值会返回 400错误
Assistant Prefill在message数组开头放assistant消息以续写400错误(从4.6延续)

需要修改什么

  1. 使用扩展思考的代码:把 thinking.type 改为 "adaptive",必要时加上 display 指定
  2. 调过temperature等的代码:删除这些参数。需要确定性时改由提示词约束
  3. 使用Assistant Prefill的代码:把prefill部分融进用户消息,或以输出格式指令替代
  4. UI展示思考内容:没有指定 display: "summarized" 就拿不到思考内容,注意这一点

具体迁移方式请参考 迁移指南文章

9. 基准测试

官方发布时公开的详细数据有限,但Anthropic表示在 编码、智能体处理、视觉任务 上都有显著提升。

已公开改进的领域

官方公布的基准结果

Anthropic官方发布中的主要改进数据如下。

基准Opus 4.6Opus 4.7领域
CursorBench58%70%编码
CursorBench(视觉精度)54.5%98.5%UI截图理解
Rakuten-SWE-Bench基准值解决任务数3倍生产代码变更
CyberGym73.8—(未公开)安全
Finance Agentstate-of-the-art金融智能体
GDPval-AAtop-tier高经济价值的知识工作

第三方与用户报告的改进

  • 93任务编码基准:较Opus 4.6约提升13%
  • OfficeQA Pro(文档推理):错误率约减少21%
  • Factory Droids(真实生产任务):成功率提升10~15%

实测补充

上述数据来自官方与合作伙伴。但 在自己的业务负载上实测 才是最可靠的评估。由于新分词器会改变相同文本的token数,成本与延迟的预先基准测试不可缺。

评估要点:

  1. 把相同输入分别发给4.6和4.7,比较输出质量、耗时、token消耗
  2. 编码任务以"一次是否跑通"、"测试是否通过"客观评估
  3. 智能体任务以"任务完成率"与"工具调用次数"双轴评估(4.7工具调用减少,若完成率上升就是净提升)
  4. 视觉任务用高分辨率图像在实际业务场景(UI截图、文档扫描)上比较

与Mythos Preview的关系

官方发布中提到,未公开模型"Mythos Preview"在对齐精度上最高、误动作率最低。Opus 4.7能力范围更广,但在网络安全能力方面不及Mythos Preview(方针是先在更强模型上测试安全策略再逐步推广)。现阶段公开发布的旗舰是 Opus 4.7。

10. Opus 4.6 / 4.5 / 4.1对比表

项目Opus 4.1Opus 4.5Opus 4.6Opus 4.7
价格(输入)$15$5$5$5
价格(输出)$75$25$25$25
最大上下文200K200K1M1M
最大输出32K64K128K128K
图像最大分辨率1568px1568px1568px2576px
努力等级low/medium/highlow/medium/high/maxlow/medium/high/maxlow/medium/high/xhigh/max
扩展思考自适应思考自适应思考(默认OFF)
任务预算有(Beta)
temperature等可用可用可用废止
Prefill可用可用废止废止
分词器新(1.0~1.35倍)

以上数据基于2026年4月16日的官方信息。4.6→4.7最大亮点是 价格不变但功能强化

11. 何时使用

Opus 4.7是旗舰,但并非所有场景都适合用Opus。

Opus 4.7最合适的场景

  • 复杂编码任务——大规模重构、设计决策、多文件修改
  • 长时间智能体循环——多步骤自动化,与任务预算搭配更佳
  • 包含高分辨率图像的视觉任务——Computer Use、UI截图分析、文档OCR
  • 1M tokens的长上下文处理——理解大型代码库、长文档分析
  • 最难的推理——数学、研究级分析、战略制定

可以考虑Sonnet的场景

  • 定型化QA、分类、信息抽取
  • 既想控制成本又要"相当聪明"的大量批处理
  • 对实时用户体验延迟敏感的场景

可以考虑Haiku的场景

  • 以最低成本大规模处理的简单分类、翻译、过滤
  • IoT、边缘等对响应速度要求最高的场景

实战里,直接面向用户的部分(代码生成、复杂推理、智能体中枢)用Opus 4.7后端大批量处理(日志分类、数据抽取、初筛)用Sonnet或Haiku 的组合,性价比最高。

12. Claude Code新功能——/ultrareview

Claude Code(Anthropic官方CLI)也随Opus 4.7发布一同更新,新增斜杠命令 /ultrareview

/ultrareview的特点

  • 对变更的代码以 xhigh等级深度 进行评审
  • 比常规代码评审更深——覆盖可复用性、错误处理、并发坑、安全风险
  • 不仅指出实现错误,也会指出"设计上欠佳的决策"

如果说现有的 /review 相当于"PR评审",那么 /ultrareview 就是 资深工程师做设计评审的深度。适合大功能上线前后、发版前的终审。

另外,/ultrareview 使用xhigh级别的思考,相比常规评审会消耗更多时间与token。日常轻度PR审查用 /review、节点性检查用 /ultrareview,这样搭配更合理。

Max方案的默认effort上调

Claude Code Max方案用户在使用Opus 4.7时,默认effort已上调为 xhigh。以往相当于high的日常任务,将自动以更深的推理执行。可以在token上限内获得更高质量的结果,但消耗也会增加,建议监控。

Auto mode扩展至Max用户

原本仅限部分方案的 Auto mode,现在也扩展到Claude Code Max用户。它会根据任务种类自动切换Opus/Sonnet/Haiku,兼顾成本优化与速度提升。

常见问题

Q. Opus 4.6正在跑的应用能直接切到4.7吗?

大多数应用 只改模型ID就能跑,但出现以下任一情况时必须调整:(1) 在用 thinking: {type: "enabled"} 做扩展思考;(2) temperature/top_p/top_k 设置了非默认值;(3) 使用Assistant Prefill;(4) 在UI中展示思考内容。这些会触发400错误或行为变化。详情请参考 迁移指南文章

Q. 新分词器真的会让成本上升吗?

对相同文本会消耗1.0~1.35倍的token,最坏情况约增加35%成本。不过4.7在"默认减少工具调用"、"回答更简洁"等方向也有变化,综合起来每个应用的涨跌情况不同。流量大的应用建议先让4.6与4.7并行运行一段时间、实测月度成本后再正式切换。

Q. xhigh和max怎么区分使用?

Anthropic官方说明 xhigh最适合编码与智能体用例。max则面向"最难的推理"。实现任务、重构、补测试、智能体的多步骤规划都选xhigh,是性价比最高的甜蜜点。数学难题、研究级分析、战略制定则用max。拿不准就从xhigh开始,不够再升max。

Q. 任务预算为什么不是硬上限?

智能体循环中,工具调用的往返会让 token消耗难以精确预测。如果设成硬上限,经常在任务快完成时被切断,所以Anthropic设计为 建议性(advisory)。模型会参考预算来安排计划,必要时会略微超出。若一定要强制停止,请在应用侧另行实现计数器。

Q. 高分辨率图像支持会自动启用吗?

是的,只要指定4.7模型ID,发送的图像就会按最多2576px的分辨率处理,无需特别的opt-in。但 单张全分辨率图像约消耗4,784 tokens,图像密集的智能体成本会急剧上升。不需要高分辨率时请预先压缩。

Q. 不能用temperature就没法保证确定性输出了吗?

4.7中 temperature/top_p/top_k 非默认值会400错误。想要确定性时,可以通过提示词 严格指定输出格式(例如"用JSON按如下schema严格返回")来提升实际稳定性。配合 response_format 这样的结构化输出指定会更稳。

Q. 为什么思考内容默认看不见?

4.7将思考内容默认设为 omitted(省略)。想展示需要指定 display: "summarized"。这是基于"思考内容属于模型的内部处理,最终响应才是面向用户的主要交付"的策略调整。如果继续想给用户看"思考过程"或用于调试,请显式指定summarized。

Q. Claude Code的/ultrareview和/review有什么区别?

/review 相当于常规PR评审,关注代码质量、bug、风格。/ultrareviewxhigh等级的深度 指出设计缺陷、并发坑、安全风险、可复用性、错误处理的合理性。耗时与token更多,但合并前的终审非常有效。日常用 /review,节点性检查用 /ultrareview,这样搭配更合理。

Q. 基准测试到底提升了多少?

综合Anthropic官方与合作伙伴的报告,主要数字如下。CursorBench: 58%→70%(编码)、CursorBench视觉精度: 54.5%→98.5%(UI截图理解)、Rakuten-SWE-Bench: 生产任务解决数3倍。此外第三方报告显示93任务编码基准提升约13%、OfficeQA Pro错误率减少约21%、Factory Droids成功率提升10~15%。Finance Agent与GDPval-AA被评为state-of-the-art / top-tier。

Q. Mythos Preview是什么?比Opus 4.7更强吗?

Mythos Preview是Anthropic内部尚未公开的模型。官方在发布中表示"Mythos Preview目前对齐精度最高、误动作率最低",但 其网络安全能力被有意压低,属于分阶段发布。在通用能力上,Opus 4.7仍是现阶段最强的一般公开模型。Mythos的能力基准在部分维度超过4.7,但公开范围有限,方针是先在安全可控范围内分阶段放量。

Q. 做安全工作(渗透测试等)现在被拒了,怎么办?

4.7引入 实时网络安全防护 后,渗透测试、漏洞研究、红队演练等合法业务也可能因上下文被拒绝。要在生产环境继续使用安全类用途,请申请Anthropic的 Cyber Verification Program 获取访问权限。获批后可在更宽松的设置下使用。

Q. 想看4.7的基准评分,哪里能查?

官方发布时公开的详细分数有限,Anthropic表示 编码、智能体、视觉任务显著提升。SWE-bench等行业标准基准等,可关注Anthropic官方博客、模型卡、第三方评估的后续发布。不过在自己的业务负载上实测仍然最可靠,上线前强烈建议做A/B对比。

本文基于2026年4月16日的官方信息。规格、价格、提供范围可能变动,正式使用前请在Anthropic官方文档确认最新信息。具体迁移步骤请参考 迁移指南文章