目录
2026年4月16日,Anthropic正式发布了旗舰模型Claude Opus 4.7。模型ID为 claude-opus-4-7,输入/输出价格仍为$5 / $25 per MTok,与4.6持平。但它内部的变化,从高分辨率图像支持、新xhigh努力等级、任务预算(Beta)到新分词器,足以重塑旗舰模型的使用体验。
另一方面,扩展思考API废止、temperature/top_p/top_k等采样参数废止、prefill废止等破坏性变更也随之而来,现有代码必须迁移。
本文将从工程师视角深入解读:4.7到底新在哪里、比4.6变了什么、什么时候该用它。
1. 发布概览——时间、内容、价格、可用平台
| 项目 | 内容 |
|---|---|
| 发布日期 | 2026年4月16日 |
| 模型ID | claude-opus-4-7 |
| 价格(输入) | $5 / 100万tokens(与4.6相同) |
| 价格(输出) | $25 / 100万tokens(与4.6相同) |
| 上下文窗口 | 1,000,000 tokens(标准API价,长上下文不额外收费) |
| 最大输出 | 128,000 tokens |
| 提供平台 | claude.ai、Anthropic API、AWS Bedrock、Google Vertex AI、Microsoft Foundry |
最值得关注的是 "价格不变,1M上下文窗口按标准价"。以往模型中,长上下文(超过200K等)常常要额外付费,而4.7的1M tokens都按常规价计费。
Opus 4.7在claude.ai的Web与移动端对付费用户立即开放,在API中只要指定模型ID即可切换。AWS Bedrock、Google Vertex AI、Microsoft Foundry同步上线,企业的多云环境也可以直接使用。
2. 新功能概览
Opus 4.7中新增或调整的主要功能如下。
- 高分辨率图像支持(Claude首次)——最大2576px / 3.75MP(以往1568px / 1.15MP的约3倍)
- 低层视觉感知改进——指点、测量、计数、边界框检测的精度提升
- 新xhigh努力等级——位于high与max之间,最适合编码与智能体场景
- 任务预算(Beta)——事先预估整个智能体循环的token消耗
- 新分词器——比原版多消耗1.0~1.35倍token(按内容最多增加35%)
- 自适应思考——默认改为OFF(需要显式开启)
- 基于文件系统的内存增强——跨会话的草稿本和笔记利用更顺
- 知识工作(.docx、.pptx)改善——带修订历史的编辑、幻灯片版式、图表/图解解析精度提升
- Claude Code联动——新增斜杠命令
/ultrareview,Max方案的默认effort升级为xhigh,Auto mode扩展到Max用户 - 实时网络安全防护——针对高风险话题的新拒绝行为
- 行为变化——更忠实地按指令行事、语气更直接、工具调用更少
其中 高分辨率图像支持 与 xhigh努力等级 对文档分析、Computer Use、编码智能体带来的实际价值最显著。以下逐项解读。
3. 高分辨率图像支持——Claude系列首次
Opus 4.7是 Claude系列首个能直接处理高分辨率图像的模型。
分辨率的变化
| 项目 | Opus 4.6以前 | Opus 4.7 |
|---|---|---|
| 最大分辨率(长边) | 1568px | 2576px |
| 最大像素数 | 1.15MP | 3.75MP |
| 单张全分辨率图像的token | 约1,600 tokens | 约4,784 tokens(约3倍) |
| 坐标系 | 缩放后分辨率的像素坐标 | 与实际像素1:1(无需换算) |
好处在哪里
- 文档分析——A4扫描图里的小字、表格的细线、图表的刻度都能看清
- Computer Use——Full HD及以上的截图可以直接理解
- UI截图理解——4K屏幕、高DPI显示器的截图可不经降采样直接解析
- 坐标1:1对应——让模型返回点击坐标时,不再需要尺度换算逻辑,实现更简洁
但要注意,单张全分辨率图像消耗约4,784 tokens。大量传递截图的智能体,图像token会快速飙升并直接体现在账单上。不需要高分辨率时,请考虑预先压缩尺寸。
4. 努力等级——新增xhigh
Claude用来控制extended thinking / 思考深度的"努力等级(effort level)",新增了 xhigh。
5级使用指南
| 等级 | 特点 | 适合场景 |
|---|---|---|
| low | 最少思考,追求即时 | 短问题、分类、简单摘要、聊天回应 |
| medium | 中等推理 | 常规问答、信息抽取、轻量生成任务 |
| high | 深度推理 | 设计判断、复杂分析、长文生成 |
| xhigh(新增) | 介于high与max之间,针对编码与智能体优化 | 代码实现、多步骤智能体、重构 |
| max | 最大思考深度 | 最难的推理问题、研究级分析 |
在4.6时代,"high不够用,但max又太重"的缺口在编码与智能体用例中相当常见。xhigh 正是为填补这一中间档位而设,Anthropic也明确表示它最适合编码与智能体用例。
如何选择努力等级
4.7中 努力校准(effort calibration)被进一步收紧,尤其low与medium更会"严格守住边界"。也就是说,如果4.6时期你用medium运行的任务感到"被削得太干净",可以考虑调到high或xhigh。
5. 任务预算(Beta)
Opus 4.7引入了新的Beta功能——任务预算(Task Budgets)。它用于事先提供整个智能体循环(agent loop)将消耗的token粗略估计。
任务预算规格
- Beta header:
task-budgets-2026-03-13 - 最小值:20,000 tokens
- 覆盖范围:包含思考 + 工具调用 + 输出在内的整个智能体循环
- 行为:仅为建议上限(advisory),并非硬上限——超额不会强制停止
为什么需要它
过去的 max_tokens 只能控制 单次响应的输出上限。然而实际的智能体执行中,思考token、工具调用的往返、多步骤输出交织在一起,"这整个任务到底消耗多少token"很难看清。
指定任务预算后,模型会 以该预算为参考安排工作计划,调整思考的深度与节奏。你可以从成本角度下达"别太深入、尽快收尾"或"慢慢思考也没关系"这样的指令。
但由于是建议性,若要确保在预算内停止,还需在应用侧实现另一套计数器。
6. 新分词器的影响
Opus 4.7采用了 新分词器,相同文本相较旧版模型会消耗 1.0~1.35倍的tokens,视内容最高可能增加35%。
对成本与上下文预算的影响
- 相同提示词的计费可能上升——即便单价不变,总token数上升,总额也会上涨
- 1M上下文可容纳的信息量实际减少——1M tokens不变,但同一份文档要吃更多token
- 估算与告警需要重新校准——以旧分词器为前提的预算与速率限制需要重新计算
实务上的应对
把现有Claude应用切到4.7时,请重新评估以下几点。
- 月度成本预测——假设相同流量下最多多出35%
- 上下文窗口占用率——历史日志中"刚好接近1M"的处理要特别注意
- 速率限制与每分钟token上限——再次确认是否仍有余量
- 缓存策略——提示词缓存的命中率可能发生变化
4.6到4.7的具体迁移步骤,请参看后续的迁移指南文章。
7. 行为变化——相比4.6有什么不同
Opus 4.7不只是加功能,连 回答风格本身都和4.6不一样。
主要行为变化
- 更忠实地按指令行事——尤其是low~medium努力等级,不做多余补充,按指示执行
- 语气更直接——校验式语句("真是个好问题"之类)、过度礼貌表达和表情符号减少
- 回答长度随任务自适应——简单问题简短,复杂任务拉长——统一的冗长感消失
- 默认工具调用次数减少——能靠推理解决就不调用工具,避免不必要的工具使用
- 子智能体启动数减少——不急着并行展开,优先自己思考
- 努力校准收紧——low / medium时会严守范围,减少自作主张
对现有提示词的影响
如果你的提示词是按"4.6会礼貌补充"设计的,或者你的智能体依赖"多多调用工具验证",在4.7下 行为可能发生变化。
- 想要补充信息,就加"请说明理由和备选方案"
- 想多用工具,就明确写"为了核实事实请务必调用WebSearch"
- 想要长一点的回答,就写"至少写500字"
整体是朝"模型不再画蛇添足"的方向演进,只要写明指令就会照做,行为更可预期。
网络安全防护与安全性
Opus 4.7引入了 实时网络安全防护(cybersecurity safeguards),即便是渗透测试、漏洞研究、红队演练等 合法安全工作,也会因上下文而被拒绝。如果你在生产环境使用安全用途,请考虑申请Anthropic的 Cyber Verification Program。
同时官方公布了下列安全性提升。
- 诚实性(honesty)提升——不知道的事会说"不知道",少做没有依据的断言
- 抗提示注入(prompt injection)增强——对第三方恶意注入指令的防御更强
- Mythos Preview是目前最好的对齐——Opus 4.7能力更广,但对齐精度上Mythos Preview更强
另一方面,官方也指出涉及管控药品(controlled substances)的减害建议变得略显冗长。医药、医疗类聊天机器人上线时,加一层输出过滤会更稳。
8. 破坏性变更
Opus 4.7相较4.6带来了若干破坏性变更。如果你的代码针对4.6编写,直接切换可能会触发400错误。
已废止的参数与功能
| 功能 | 4.6以前 | 4.7 |
|---|---|---|
| 扩展思考 | 用 thinking: {type: "enabled", budget_tokens: N} 开启 | 同样负载会返回 400错误,改为自适应思考 |
| 自适应思考 | 默认ON | 默认OFF,通过 thinking: {type: "adaptive"} 显式开启 |
| 思考内容展示 | 默认返回 | 默认 omitted(省略),想展示需指定 display: "summarized" |
| temperature | 0.0~1.0可调 | 非默认值会返回 400错误 |
| top_p / top_k | 可做采样控制 | 非默认值会返回 400错误 |
| Assistant Prefill | 在message数组开头放assistant消息以续写 | 400错误(从4.6延续) |
需要修改什么
- 使用扩展思考的代码:把
thinking.type改为"adaptive",必要时加上display指定 - 调过temperature等的代码:删除这些参数。需要确定性时改由提示词约束
- 使用Assistant Prefill的代码:把prefill部分融进用户消息,或以输出格式指令替代
- UI展示思考内容:没有指定
display: "summarized"就拿不到思考内容,注意这一点
具体迁移方式请参考 迁移指南文章。
9. 基准测试
官方发布时公开的详细数据有限,但Anthropic表示在 编码、智能体处理、视觉任务 上都有显著提升。
已公开改进的领域
官方公布的基准结果
Anthropic官方发布中的主要改进数据如下。
| 基准 | Opus 4.6 | Opus 4.7 | 领域 |
|---|---|---|---|
| CursorBench | 58% | 70% | 编码 |
| CursorBench(视觉精度) | 54.5% | 98.5% | UI截图理解 |
| Rakuten-SWE-Bench | 基准值 | 解决任务数3倍 | 生产代码变更 |
| CyberGym | 73.8 | —(未公开) | 安全 |
| Finance Agent | — | state-of-the-art | 金融智能体 |
| GDPval-AA | — | top-tier | 高经济价值的知识工作 |
第三方与用户报告的改进
- 93任务编码基准:较Opus 4.6约提升13%
- OfficeQA Pro(文档推理):错误率约减少21%
- Factory Droids(真实生产任务):成功率提升10~15%
实测补充
上述数据来自官方与合作伙伴。但 在自己的业务负载上实测 才是最可靠的评估。由于新分词器会改变相同文本的token数,成本与延迟的预先基准测试不可缺。
评估要点:
- 把相同输入分别发给4.6和4.7,比较输出质量、耗时、token消耗
- 编码任务以"一次是否跑通"、"测试是否通过"客观评估
- 智能体任务以"任务完成率"与"工具调用次数"双轴评估(4.7工具调用减少,若完成率上升就是净提升)
- 视觉任务用高分辨率图像在实际业务场景(UI截图、文档扫描)上比较
与Mythos Preview的关系
官方发布中提到,未公开模型"Mythos Preview"在对齐精度上最高、误动作率最低。Opus 4.7能力范围更广,但在网络安全能力方面不及Mythos Preview(方针是先在更强模型上测试安全策略再逐步推广)。现阶段公开发布的旗舰是 Opus 4.7。
10. Opus 4.6 / 4.5 / 4.1对比表
| 项目 | Opus 4.1 | Opus 4.5 | Opus 4.6 | Opus 4.7 |
|---|---|---|---|---|
| 价格(输入) | $15 | $5 | $5 | $5 |
| 价格(输出) | $75 | $25 | $25 | $25 |
| 最大上下文 | 200K | 200K | 1M | 1M |
| 最大输出 | 32K | 64K | 128K | 128K |
| 图像最大分辨率 | 1568px | 1568px | 1568px | 2576px |
| 努力等级 | low/medium/high | low/medium/high/max | low/medium/high/max | low/medium/high/xhigh/max |
| 扩展思考 | 有 | 有 | 自适应思考 | 自适应思考(默认OFF) |
| 任务预算 | 无 | 无 | 无 | 有(Beta) |
| temperature等 | 可用 | 可用 | 可用 | 废止 |
| Prefill | 可用 | 可用 | 废止 | 废止 |
| 分词器 | 旧 | 旧 | 旧 | 新(1.0~1.35倍) |
以上数据基于2026年4月16日的官方信息。4.6→4.7最大亮点是 价格不变但功能强化。
11. 何时使用
Opus 4.7是旗舰,但并非所有场景都适合用Opus。
Opus 4.7最合适的场景
- 复杂编码任务——大规模重构、设计决策、多文件修改
- 长时间智能体循环——多步骤自动化,与任务预算搭配更佳
- 包含高分辨率图像的视觉任务——Computer Use、UI截图分析、文档OCR
- 1M tokens的长上下文处理——理解大型代码库、长文档分析
- 最难的推理——数学、研究级分析、战略制定
可以考虑Sonnet的场景
- 定型化QA、分类、信息抽取
- 既想控制成本又要"相当聪明"的大量批处理
- 对实时用户体验延迟敏感的场景
可以考虑Haiku的场景
- 以最低成本大规模处理的简单分类、翻译、过滤
- IoT、边缘等对响应速度要求最高的场景
实战里,直接面向用户的部分(代码生成、复杂推理、智能体中枢)用Opus 4.7,后端大批量处理(日志分类、数据抽取、初筛)用Sonnet或Haiku 的组合,性价比最高。
12. Claude Code新功能——/ultrareview
Claude Code(Anthropic官方CLI)也随Opus 4.7发布一同更新,新增斜杠命令 /ultrareview。
/ultrareview的特点
- 对变更的代码以 xhigh等级深度 进行评审
- 比常规代码评审更深——覆盖可复用性、错误处理、并发坑、安全风险
- 不仅指出实现错误,也会指出"设计上欠佳的决策"
如果说现有的 /review 相当于"PR评审",那么 /ultrareview 就是 资深工程师做设计评审的深度。适合大功能上线前后、发版前的终审。
另外,/ultrareview 使用xhigh级别的思考,相比常规评审会消耗更多时间与token。日常轻度PR审查用 /review、节点性检查用 /ultrareview,这样搭配更合理。
Max方案的默认effort上调
Claude Code Max方案用户在使用Opus 4.7时,默认effort已上调为 xhigh。以往相当于high的日常任务,将自动以更深的推理执行。可以在token上限内获得更高质量的结果,但消耗也会增加,建议监控。
Auto mode扩展至Max用户
原本仅限部分方案的 Auto mode,现在也扩展到Claude Code Max用户。它会根据任务种类自动切换Opus/Sonnet/Haiku,兼顾成本优化与速度提升。
常见问题
Q. Opus 4.6正在跑的应用能直接切到4.7吗?
大多数应用 只改模型ID就能跑,但出现以下任一情况时必须调整:(1) 在用 thinking: {type: "enabled"} 做扩展思考;(2) temperature/top_p/top_k 设置了非默认值;(3) 使用Assistant Prefill;(4) 在UI中展示思考内容。这些会触发400错误或行为变化。详情请参考 迁移指南文章。
Q. 新分词器真的会让成本上升吗?
对相同文本会消耗1.0~1.35倍的token,最坏情况约增加35%成本。不过4.7在"默认减少工具调用"、"回答更简洁"等方向也有变化,综合起来每个应用的涨跌情况不同。流量大的应用建议先让4.6与4.7并行运行一段时间、实测月度成本后再正式切换。
Q. xhigh和max怎么区分使用?
Anthropic官方说明 xhigh最适合编码与智能体用例。max则面向"最难的推理"。实现任务、重构、补测试、智能体的多步骤规划都选xhigh,是性价比最高的甜蜜点。数学难题、研究级分析、战略制定则用max。拿不准就从xhigh开始,不够再升max。
Q. 任务预算为什么不是硬上限?
智能体循环中,工具调用的往返会让 token消耗难以精确预测。如果设成硬上限,经常在任务快完成时被切断,所以Anthropic设计为 建议性(advisory)。模型会参考预算来安排计划,必要时会略微超出。若一定要强制停止,请在应用侧另行实现计数器。
Q. 高分辨率图像支持会自动启用吗?
是的,只要指定4.7模型ID,发送的图像就会按最多2576px的分辨率处理,无需特别的opt-in。但 单张全分辨率图像约消耗4,784 tokens,图像密集的智能体成本会急剧上升。不需要高分辨率时请预先压缩。
Q. 不能用temperature就没法保证确定性输出了吗?
4.7中 temperature/top_p/top_k 非默认值会400错误。想要确定性时,可以通过提示词 严格指定输出格式(例如"用JSON按如下schema严格返回")来提升实际稳定性。配合 response_format 这样的结构化输出指定会更稳。
Q. 为什么思考内容默认看不见?
4.7将思考内容默认设为 omitted(省略)。想展示需要指定 display: "summarized"。这是基于"思考内容属于模型的内部处理,最终响应才是面向用户的主要交付"的策略调整。如果继续想给用户看"思考过程"或用于调试,请显式指定summarized。
Q. Claude Code的/ultrareview和/review有什么区别?
/review 相当于常规PR评审,关注代码质量、bug、风格。/ultrareview 以 xhigh等级的深度 指出设计缺陷、并发坑、安全风险、可复用性、错误处理的合理性。耗时与token更多,但合并前的终审非常有效。日常用 /review,节点性检查用 /ultrareview,这样搭配更合理。
Q. 基准测试到底提升了多少?
综合Anthropic官方与合作伙伴的报告,主要数字如下。CursorBench: 58%→70%(编码)、CursorBench视觉精度: 54.5%→98.5%(UI截图理解)、Rakuten-SWE-Bench: 生产任务解决数3倍。此外第三方报告显示93任务编码基准提升约13%、OfficeQA Pro错误率减少约21%、Factory Droids成功率提升10~15%。Finance Agent与GDPval-AA被评为state-of-the-art / top-tier。
Q. Mythos Preview是什么?比Opus 4.7更强吗?
Mythos Preview是Anthropic内部尚未公开的模型。官方在发布中表示"Mythos Preview目前对齐精度最高、误动作率最低",但 其网络安全能力被有意压低,属于分阶段发布。在通用能力上,Opus 4.7仍是现阶段最强的一般公开模型。Mythos的能力基准在部分维度超过4.7,但公开范围有限,方针是先在安全可控范围内分阶段放量。
Q. 做安全工作(渗透测试等)现在被拒了,怎么办?
4.7引入 实时网络安全防护 后,渗透测试、漏洞研究、红队演练等合法业务也可能因上下文被拒绝。要在生产环境继续使用安全类用途,请申请Anthropic的 Cyber Verification Program 获取访问权限。获批后可在更宽松的设置下使用。
Q. 想看4.7的基准评分,哪里能查?
官方发布时公开的详细分数有限,Anthropic表示 编码、智能体、视觉任务显著提升。SWE-bench等行业标准基准等,可关注Anthropic官方博客、模型卡、第三方评估的后续发布。不过在自己的业务负载上实测仍然最可靠,上线前强烈建议做A/B对比。
本文基于2026年4月16日的官方信息。规格、价格、提供范围可能变动,正式使用前请在Anthropic官方文档确认最新信息。具体迁移步骤请参考 迁移指南文章。