Claude Opus 4.7发布详解——高分辨率图像、xhigh努力、任务预算

Q: Opus 4.6正在跑的应用能直接切到4.7吗？

大多数应用 只改模型ID就能跑，但出现以下任一情况时必须调整：(1) 在用 thinking: {type: &quot;enabled&quot;} 做扩展思考；(2) temperature/top_p/top_k 设置了非默认值；(3) 使用Assistant Prefill；(4) 在UI中展示思考内容。这些会触发400错误或行为变化。详情请参考 迁移指南文章。

Q: 新分词器真的会让成本上升吗？

对相同文本会消耗1.0~1.35倍的token，最坏情况约增加35%成本。不过4.7在&quot;默认减少工具调用&quot;、&quot;回答更简洁&quot;等方向也有变化，综合起来每个应用的涨跌情况不同。流量大的应用建议先让4.6与4.7并行运行一段时间、实测月度成本后再正式切换。

Q: xhigh和max怎么区分使用？

Anthropic官方说明 xhigh最适合编码与智能体用例。max则面向&quot;最难的推理&quot;。实现任务、重构、补测试、智能体的多步骤规划都选xhigh，是性价比最高的甜蜜点。数学难题、研究级分析、战略制定则用max。拿不准就从xhigh开始，不够再升max。

Q: 任务预算为什么不是硬上限？

智能体循环中，工具调用的往返会让 token消耗难以精确预测。如果设成硬上限，经常在任务快完成时被切断，所以Anthropic设计为 建议性（advisory）。模型会参考预算来安排计划，必要时会略微超出。若一定要强制停止，请在应用侧另行实现计数器。

Q: 高分辨率图像支持会自动启用吗？

是的，只要指定4.7模型ID，发送的图像就会按最多2576px的分辨率处理，无需特别的opt-in。但 单张全分辨率图像约消耗4,784 tokens，图像密集的智能体成本会急剧上升。不需要高分辨率时请预先压缩。

Q: 不能用temperature就没法保证确定性输出了吗？

4.7中 temperature/top_p/top_k 非默认值会400错误。想要确定性时，可以通过提示词 严格指定输出格式（例如&quot;用JSON按如下schema严格返回&quot;）来提升实际稳定性。配合 response_format 这样的结构化输出指定会更稳。

Q: 为什么思考内容默认看不见？

4.7将思考内容默认设为 omitted（省略）。想展示需要指定 display: &quot;summarized&quot;。这是基于&quot;思考内容属于模型的内部处理，最终响应才是面向用户的主要交付&quot;的策略调整。如果继续想给用户看&quot;思考过程&quot;或用于调试，请显式指定summarized。

Q: Claude Code的/ultrareview和/review有什么区别？

/review 相当于常规PR评审，关注代码质量、bug、风格。/ultrareview 以 xhigh等级的深度 指出设计缺陷、并发坑、安全风险、可复用性、错误处理的合理性。耗时与token更多，但合并前的终审非常有效。日常用 /review，节点性检查用 /ultrareview，这样搭配更合理。

Q: 基准测试到底提升了多少？

综合Anthropic官方与合作伙伴的报告，主要数字如下。CursorBench: 58%→70%（编码）、CursorBench视觉精度: 54.5%→98.5%（UI截图理解）、Rakuten-SWE-Bench: 生产任务解决数3倍。此外第三方报告显示93任务编码基准提升约13%、OfficeQA Pro错误率减少约21%、Factory Droids成功率提升10~15%。Finance Agent与GDPval-AA被评为state-of-the-art / top-tier。

Q: Mythos Preview是什么？比Opus 4.7更强吗？

Mythos Preview是Anthropic内部尚未公开的模型。官方在发布中表示&quot;Mythos Preview目前对齐精度最高、误动作率最低&quot;，但 其网络安全能力被有意压低，属于分阶段发布。在通用能力上，Opus 4.7仍是现阶段最强的一般公开模型。Mythos的能力基准在部分维度超过4.7，但公开范围有限，方针是先在安全可控范围内分阶段放量。

1. 发布概览——时间、内容、价格、可用平台
2. 新功能概览
3. 高分辨率图像支持——Claude系列首次
4. 努力等级——新增xhigh
5. 任务预算（Beta）
6. 新分词器的影响
7. 行为变化——相比4.6有什么不同
8. 破坏性变更
9. 基准测试
10. Opus 4.6 / 4.5 / 4.1对比表
11. 何时使用
12. Claude Code新功能——/ultrareview 与 Max方案扩展
常见问题

2026年4月16日，Anthropic正式发布了旗舰模型Claude Opus 4.7。模型ID为 claude-opus-4-7，输入/输出价格仍为$5 / $25 per MTok，与4.6持平。但它内部的变化，从高分辨率图像支持、新xhigh努力等级、任务预算（Beta）到新分词器，足以重塑旗舰模型的使用体验。

另一方面，扩展思考API废止、temperature/top_p/top_k等采样参数废止、prefill废止等破坏性变更也随之而来，现有代码必须迁移。

本文将从工程师视角深入解读：4.7到底新在哪里、比4.6变了什么、什么时候该用它。

1. 发布概览——时间、内容、价格、可用平台

项目	内容
发布日期	2026年4月16日
模型ID	`claude-opus-4-7`
价格（输入）	$5 / 100万tokens（与4.6相同）
价格（输出）	$25 / 100万tokens（与4.6相同）
上下文窗口	1,000,000 tokens（标准API价，长上下文不额外收费）
最大输出	128,000 tokens
提供平台	claude.ai、Anthropic API、AWS Bedrock、Google Vertex AI、Microsoft Foundry

最值得关注的是 "价格不变，1M上下文窗口按标准价"。以往模型中，长上下文（超过200K等）常常要额外付费，而4.7的1M tokens都按常规价计费。

Opus 4.7在claude.ai的Web与移动端对付费用户立即开放，在API中只要指定模型ID即可切换。AWS Bedrock、Google Vertex AI、Microsoft Foundry同步上线，企业的多云环境也可以直接使用。

2. 新功能概览

Opus 4.7中新增或调整的主要功能如下。

高分辨率图像支持（Claude首次）——最大2576px / 3.75MP（以往1568px / 1.15MP的约3倍）
低层视觉感知改进——指点、测量、计数、边界框检测的精度提升
新xhigh努力等级——位于high与max之间，最适合编码与智能体场景
任务预算（Beta）——事先预估整个智能体循环的token消耗
新分词器——比原版多消耗1.0~1.35倍token（按内容最多增加35%）
自适应思考——默认改为OFF（需要显式开启）
基于文件系统的内存增强——跨会话的草稿本和笔记利用更顺
知识工作（.docx、.pptx）改善——带修订历史的编辑、幻灯片版式、图表/图解解析精度提升
Claude Code联动——新增斜杠命令 /ultrareview，Max方案的默认effort升级为xhigh，Auto mode扩展到Max用户
实时网络安全防护——针对高风险话题的新拒绝行为
行为变化——更忠实地按指令行事、语气更直接、工具调用更少

其中 高分辨率图像支持 与 xhigh努力等级 对文档分析、Computer Use、编码智能体带来的实际价值最显著。以下逐项解读。

3. 高分辨率图像支持——Claude系列首次

Opus 4.7是 Claude系列首个能直接处理高分辨率图像的模型。

分辨率的变化

项目	Opus 4.6以前	Opus 4.7
最大分辨率（长边）	1568px	2576px
最大像素数	1.15MP	3.75MP
单张全分辨率图像的token	约1,600 tokens	约4,784 tokens（约3倍）
坐标系	缩放后分辨率的像素坐标	与实际像素1:1（无需换算）

好处在哪里

文档分析——A4扫描图里的小字、表格的细线、图表的刻度都能看清
Computer Use——Full HD及以上的截图可以直接理解
UI截图理解——4K屏幕、高DPI显示器的截图可不经降采样直接解析
坐标1:1对应——让模型返回点击坐标时，不再需要尺度换算逻辑，实现更简洁

但要注意，单张全分辨率图像消耗约4,784 tokens。大量传递截图的智能体，图像token会快速飙升并直接体现在账单上。不需要高分辨率时，请考虑预先压缩尺寸。

4. 努力等级——新增xhigh

Claude用来控制extended thinking / 思考深度的"努力等级（effort level）"，新增了 xhigh。

5级使用指南

等级	特点	适合场景
low	最少思考，追求即时	短问题、分类、简单摘要、聊天回应
medium	中等推理	常规问答、信息抽取、轻量生成任务
high	深度推理	设计判断、复杂分析、长文生成
xhigh（新增）	介于high与max之间，针对编码与智能体优化	代码实现、多步骤智能体、重构
max	最大思考深度	最难的推理问题、研究级分析

在4.6时代，"high不够用，但max又太重"的缺口在编码与智能体用例中相当常见。xhigh 正是为填补这一中间档位而设，Anthropic也明确表示它最适合编码与智能体用例。

如何选择努力等级

4.7中 努力校准（effort calibration）被进一步收紧，尤其low与medium更会"严格守住边界"。也就是说，如果4.6时期你用medium运行的任务感到"被削得太干净"，可以考虑调到high或xhigh。

5. 任务预算（Beta）

Opus 4.7引入了新的Beta功能——任务预算（Task Budgets）。它用于事先提供整个智能体循环（agent loop）将消耗的token粗略估计。

任务预算规格

Beta header：task-budgets-2026-03-13
最小值：20,000 tokens
覆盖范围：包含思考 + 工具调用 + 输出在内的整个智能体循环
行为：仅为建议上限（advisory），并非硬上限——超额不会强制停止

为什么需要它

过去的 max_tokens 只能控制 单次响应的输出上限。然而实际的智能体执行中，思考token、工具调用的往返、多步骤输出交织在一起，"这整个任务到底消耗多少token"很难看清。

指定任务预算后，模型会 以该预算为参考安排工作计划，调整思考的深度与节奏。你可以从成本角度下达"别太深入、尽快收尾"或"慢慢思考也没关系"这样的指令。

但由于是建议性，若要确保在预算内停止，还需在应用侧实现另一套计数器。

6. 新分词器的影响

Opus 4.7采用了 新分词器，相同文本相较旧版模型会消耗 1.0~1.35倍的tokens，视内容最高可能增加35%。

对成本与上下文预算的影响

相同提示词的计费可能上升——即便单价不变，总token数上升，总额也会上涨
1M上下文可容纳的信息量实际减少——1M tokens不变，但同一份文档要吃更多token
估算与告警需要重新校准——以旧分词器为前提的预算与速率限制需要重新计算

实务上的应对

把现有Claude应用切到4.7时，请重新评估以下几点。

月度成本预测——假设相同流量下最多多出35%
上下文窗口占用率——历史日志中"刚好接近1M"的处理要特别注意
速率限制与每分钟token上限——再次确认是否仍有余量
缓存策略——提示词缓存的命中率可能发生变化

4.6到4.7的具体迁移步骤，请参看后续的迁移指南文章。

7. 行为变化——相比4.6有什么不同

Opus 4.7不只是加功能，连 回答风格本身都和4.6不一样。

主要行为变化

更忠实地按指令行事——尤其是low~medium努力等级，不做多余补充，按指示执行
语气更直接——校验式语句（"真是个好问题"之类）、过度礼貌表达和表情符号减少
回答长度随任务自适应——简单问题简短，复杂任务拉长——统一的冗长感消失
默认工具调用次数减少——能靠推理解决就不调用工具，避免不必要的工具使用
子智能体启动数减少——不急着并行展开，优先自己思考
努力校准收紧——low / medium时会严守范围，减少自作主张

对现有提示词的影响

如果你的提示词是按"4.6会礼貌补充"设计的，或者你的智能体依赖"多多调用工具验证"，在4.7下 行为可能发生变化。

想要补充信息，就加"请说明理由和备选方案"
想多用工具，就明确写"为了核实事实请务必调用WebSearch"
想要长一点的回答，就写"至少写500字"

整体是朝"模型不再画蛇添足"的方向演进，只要写明指令就会照做，行为更可预期。

网络安全防护与安全性

Opus 4.7引入了 实时网络安全防护（cybersecurity safeguards），即便是渗透测试、漏洞研究、红队演练等 合法安全工作，也会因上下文而被拒绝。如果你在生产环境使用安全用途，请考虑申请Anthropic的 Cyber Verification Program。

同时官方公布了下列安全性提升。

诚实性（honesty）提升——不知道的事会说"不知道"，少做没有依据的断言
抗提示注入（prompt injection）增强——对第三方恶意注入指令的防御更强
Mythos Preview是目前最好的对齐——Opus 4.7能力更广，但对齐精度上Mythos Preview更强

另一方面，官方也指出涉及管控药品（controlled substances）的减害建议变得略显冗长。医药、医疗类聊天机器人上线时，加一层输出过滤会更稳。

8. 破坏性变更

Opus 4.7相较4.6带来了若干破坏性变更。如果你的代码针对4.6编写，直接切换可能会触发400错误。

已废止的参数与功能

功能	4.6以前	4.7
扩展思考	用 `thinking: {type: "enabled", budget_tokens: N}` 开启	同样负载会返回 400错误，改为自适应思考
自适应思考	默认ON	默认OFF，通过 `thinking: {type: "adaptive"}` 显式开启
思考内容展示	默认返回	默认 omitted（省略），想展示需指定 `display: "summarized"`
temperature	0.0~1.0可调	非默认值会返回 400错误
top_p / top_k	可做采样控制	非默认值会返回 400错误
Assistant Prefill	在message数组开头放assistant消息以续写	400错误（从4.6延续）

需要修改什么

使用扩展思考的代码：把 thinking.type 改为 "adaptive"，必要时加上 display 指定
调过temperature等的代码：删除这些参数。需要确定性时改由提示词约束
使用Assistant Prefill的代码：把prefill部分融进用户消息，或以输出格式指令替代
UI展示思考内容：没有指定 display: "summarized" 就拿不到思考内容，注意这一点

具体迁移方式请参考迁移指南文章。

9. 基准测试

官方发布时公开的详细数据有限，但Anthropic表示在 编码、智能体处理、视觉任务 上都有显著提升。

已公开改进的领域

官方公布的基准结果

Anthropic官方发布中的主要改进数据如下。

基准	Opus 4.6	Opus 4.7	领域
CursorBench	58%	70%	编码
CursorBench（视觉精度）	54.5%	98.5%	UI截图理解
Rakuten-SWE-Bench	基准值	解决任务数3倍	生产代码变更
CyberGym	73.8	—（未公开）	安全
Finance Agent	—	state-of-the-art	金融智能体
GDPval-AA	—	top-tier	高经济价值的知识工作

第三方与用户报告的改进

93任务编码基准：较Opus 4.6约提升13%
OfficeQA Pro（文档推理）：错误率约减少21%
Factory Droids（真实生产任务）：成功率提升10~15%

实测补充

上述数据来自官方与合作伙伴。但 在自己的业务负载上实测 才是最可靠的评估。由于新分词器会改变相同文本的token数，成本与延迟的预先基准测试不可缺。

评估要点：

把相同输入分别发给4.6和4.7，比较输出质量、耗时、token消耗
编码任务以"一次是否跑通"、"测试是否通过"客观评估
智能体任务以"任务完成率"与"工具调用次数"双轴评估（4.7工具调用减少，若完成率上升就是净提升）
视觉任务用高分辨率图像在实际业务场景（UI截图、文档扫描）上比较

与Mythos Preview的关系

官方发布中提到，未公开模型"Mythos Preview"在对齐精度上最高、误动作率最低。Opus 4.7能力范围更广，但在网络安全能力方面不及Mythos Preview（方针是先在更强模型上测试安全策略再逐步推广）。现阶段公开发布的旗舰是 Opus 4.7。

10. Opus 4.6 / 4.5 / 4.1对比表

项目	Opus 4.1	Opus 4.5	Opus 4.6	Opus 4.7
价格（输入）	$15	$5	$5	$5
价格（输出）	$75	$25	$25	$25
最大上下文	200K	200K	1M	1M
最大输出	32K	64K	128K	128K
图像最大分辨率	1568px	1568px	1568px	2576px
努力等级	low/medium/high	low/medium/high/max	low/medium/high/max	low/medium/high/xhigh/max
扩展思考	有	有	自适应思考	自适应思考（默认OFF）
任务预算	无	无	无	有（Beta）
temperature等	可用	可用	可用	废止
Prefill	可用	可用	废止	废止
分词器	旧	旧	旧	新（1.0~1.35倍）

以上数据基于2026年4月16日的官方信息。4.6→4.7最大亮点是 价格不变但功能强化。

11. 何时使用

Opus 4.7是旗舰，但并非所有场景都适合用Opus。

Opus 4.7最合适的场景

复杂编码任务——大规模重构、设计决策、多文件修改
长时间智能体循环——多步骤自动化，与任务预算搭配更佳
包含高分辨率图像的视觉任务——Computer Use、UI截图分析、文档OCR
1M tokens的长上下文处理——理解大型代码库、长文档分析
最难的推理——数学、研究级分析、战略制定

可以考虑Sonnet的场景

定型化QA、分类、信息抽取
既想控制成本又要"相当聪明"的大量批处理
对实时用户体验延迟敏感的场景

可以考虑Haiku的场景

以最低成本大规模处理的简单分类、翻译、过滤
IoT、边缘等对响应速度要求最高的场景

实战里，直接面向用户的部分（代码生成、复杂推理、智能体中枢）用Opus 4.7，后端大批量处理（日志分类、数据抽取、初筛）用Sonnet或Haiku 的组合，性价比最高。

12. Claude Code新功能——/ultrareview

Claude Code（Anthropic官方CLI）也随Opus 4.7发布一同更新，新增斜杠命令 /ultrareview。

/ultrareview的特点

对变更的代码以 xhigh等级深度 进行评审
比常规代码评审更深——覆盖可复用性、错误处理、并发坑、安全风险
不仅指出实现错误，也会指出"设计上欠佳的决策"

如果说现有的 /review 相当于"PR评审"，那么 /ultrareview 就是 资深工程师做设计评审的深度。适合大功能上线前后、发版前的终审。

另外，/ultrareview 使用xhigh级别的思考，相比常规评审会消耗更多时间与token。日常轻度PR审查用 /review、节点性检查用 /ultrareview，这样搭配更合理。

Max方案的默认effort上调

Claude Code Max方案用户在使用Opus 4.7时，默认effort已上调为 xhigh。以往相当于high的日常任务，将自动以更深的推理执行。可以在token上限内获得更高质量的结果，但消耗也会增加，建议监控。

Auto mode扩展至Max用户

原本仅限部分方案的 Auto mode，现在也扩展到Claude Code Max用户。它会根据任务种类自动切换Opus/Sonnet/Haiku，兼顾成本优化与速度提升。

常见问题

Q. Opus 4.6正在跑的应用能直接切到4.7吗？

大多数应用 只改模型ID就能跑，但出现以下任一情况时必须调整：(1) 在用 thinking: {type: "enabled"} 做扩展思考；(2) temperature/top_p/top_k 设置了非默认值；(3) 使用Assistant Prefill；(4) 在UI中展示思考内容。这些会触发400错误或行为变化。详情请参考迁移指南文章。

Q. 新分词器真的会让成本上升吗？

对相同文本会消耗1.0~1.35倍的token，最坏情况约增加35%成本。不过4.7在"默认减少工具调用"、"回答更简洁"等方向也有变化，综合起来每个应用的涨跌情况不同。流量大的应用建议先让4.6与4.7并行运行一段时间、实测月度成本后再正式切换。

Q. xhigh和max怎么区分使用？

Anthropic官方说明 xhigh最适合编码与智能体用例。max则面向"最难的推理"。实现任务、重构、补测试、智能体的多步骤规划都选xhigh，是性价比最高的甜蜜点。数学难题、研究级分析、战略制定则用max。拿不准就从xhigh开始，不够再升max。

Q. 任务预算为什么不是硬上限？

智能体循环中，工具调用的往返会让 token消耗难以精确预测。如果设成硬上限，经常在任务快完成时被切断，所以Anthropic设计为 建议性（advisory）。模型会参考预算来安排计划，必要时会略微超出。若一定要强制停止，请在应用侧另行实现计数器。

Q. 高分辨率图像支持会自动启用吗？

是的，只要指定4.7模型ID，发送的图像就会按最多2576px的分辨率处理，无需特别的opt-in。但 单张全分辨率图像约消耗4,784 tokens，图像密集的智能体成本会急剧上升。不需要高分辨率时请预先压缩。

Q. 不能用temperature就没法保证确定性输出了吗？

4.7中 temperature/top_p/top_k 非默认值会400错误。想要确定性时，可以通过提示词 严格指定输出格式（例如"用JSON按如下schema严格返回"）来提升实际稳定性。配合 response_format 这样的结构化输出指定会更稳。

Q. 为什么思考内容默认看不见？

4.7将思考内容默认设为 omitted（省略）。想展示需要指定 display: "summarized"。这是基于"思考内容属于模型的内部处理，最终响应才是面向用户的主要交付"的策略调整。如果继续想给用户看"思考过程"或用于调试，请显式指定summarized。

Q. Claude Code的/ultrareview和/review有什么区别？

/review 相当于常规PR评审，关注代码质量、bug、风格。/ultrareview 以 xhigh等级的深度 指出设计缺陷、并发坑、安全风险、可复用性、错误处理的合理性。耗时与token更多，但合并前的终审非常有效。日常用 /review，节点性检查用 /ultrareview，这样搭配更合理。

Q. 基准测试到底提升了多少？

综合Anthropic官方与合作伙伴的报告，主要数字如下。CursorBench: 58%→70%（编码）、CursorBench视觉精度: 54.5%→98.5%（UI截图理解）、Rakuten-SWE-Bench: 生产任务解决数3倍。此外第三方报告显示93任务编码基准提升约13%、OfficeQA Pro错误率减少约21%、Factory Droids成功率提升10~15%。Finance Agent与GDPval-AA被评为state-of-the-art / top-tier。

Q. Mythos Preview是什么？比Opus 4.7更强吗？

Mythos Preview是Anthropic内部尚未公开的模型。官方在发布中表示"Mythos Preview目前对齐精度最高、误动作率最低"，但 其网络安全能力被有意压低，属于分阶段发布。在通用能力上，Opus 4.7仍是现阶段最强的一般公开模型。Mythos的能力基准在部分维度超过4.7，但公开范围有限，方针是先在安全可控范围内分阶段放量。

Q. 做安全工作（渗透测试等）现在被拒了，怎么办？

4.7引入 实时网络安全防护 后，渗透测试、漏洞研究、红队演练等合法业务也可能因上下文被拒绝。要在生产环境继续使用安全类用途，请申请Anthropic的 Cyber Verification Program 获取访问权限。获批后可在更宽松的设置下使用。

Q. 想看4.7的基准评分，哪里能查？

官方发布时公开的详细分数有限，Anthropic表示 编码、智能体、视觉任务显著提升。SWE-bench等行业标准基准等，可关注Anthropic官方博客、模型卡、第三方评估的后续发布。不过在自己的业务负载上实测仍然最可靠，上线前强烈建议做A/B对比。

本文基于2026年4月16日的官方信息。规格、价格、提供范围可能变动，正式使用前请在Anthropic官方文档确认最新信息。具体迁移步骤请参考迁移指南文章。

Claude Opus 4.7发布——新功能、基准测试与价格深度解读