Claude Opus 4.7リリース解説——高解像度画像・xhigh努力・タスク予算

Q: Opus 4.6で動いているアプリは4.7にそのまま切り替えられる？

多くのアプリはモデルID変更のみで動きますが、以下のいずれかに該当する場合は修正が必要です。(1) thinking: {type: &quot;enabled&quot;}で拡張思考を使っている、(2) temperature/top_p/top_kをデフォルト以外に設定している、(3) アシスタントプリフィルを使っている、(4) 思考コンテンツをUIに表示している。これらは400エラーまたは挙動変化を招きます。詳しい移行方法は移行ガイド記事を参照してください。

Q: 新トークナイザーで本当にコストが上がる？

同じ文章に対して1.0〜1.35倍のトークンを消費するため、最悪ケースで約35%のコスト増が発生し得ます。ただし、4.7は「デフォルトでツール呼び出しが減る」「応答が簡潔になる」といった方向の挙動変化もあるため、総合的にはアプリによって増減まちまちです。トラフィックの多いアプリは、4.6と4.7の並行稼働期間を設けて月次コストを実測してから本番切り替えを推奨します。

Q: xhighとmaxはどう使い分ければいい？

Anthropicはxhighをコーディング・エージェントユースケースに最適と説明しています。一方maxは「最難関の推論」向け。実装タスク、リファクタリング、テスト追加、エージェントのマルチステップ計画ならxhighが費用対効果のスイートスポット。数理的に難しい問題、研究レベルの分析、戦略立案ならmaxを選ぶと良いです。迷ったらxhighから始めて、足りなければmaxに上げる運用が無難です。

Q: タスク予算はなぜハード上限ではないのか？

エージェントループはツール呼び出しの往復でトークン消費が予測不能に増減します。ハード上限にするとタスク完遂寸前で打ち切られる事故が頻発するため、Anthropicはアドバイザリ（目安）として設計しました。モデルは予算を意識して計画を調整しますが、必要なら少し超過します。確実に停止させたい場合はアプリ側で別途カウンタを実装してください。

Q: temperatureが使えないと決定性を出せない？

4.7ではtemperature/top_p/top_kのデフォルト以外の値が400エラーになります。決定性が欲しい場合は、プロンプト側で出力フォーマットを厳密指定（例：「JSON形式で、以下のスキーマに厳密に従って返してください」）することで実用上の安定性を確保できます。response_formatのような構造化出力指定も併用すると安定度がさらに上がります。

Q: 思考コンテンツがデフォルトで見えないのはなぜ？

4.7では思考コンテンツがデフォルトでomitted（省略）になりました。表示したい場合はdisplay: &quot;summarized&quot;を指定します。これは「思考内容はモデルの内部処理の一部であり、最終応答がユーザー向けの主要な成果物」という方針の変更です。デバッグ用途やユーザー向けの「考えている様子」表示を続けたい場合は、明示的にsummarizedを指定してください。

Q: Claude Codeの/ultrareviewは/reviewと何が違う？

/reviewは通常のPRレビュー相当で、コード品質・バグ・スタイルを指摘します。/ultrareviewはxhigh相当の深度で、設計上の問題・並行処理の落とし穴・セキュリティリスク・再利用性・エラーハンドリングの妥当性まで踏み込んで指摘します。時間とトークンは多めに使いますが、重要なマージ前の最終チェックには非常に有効です。日常は/review、節目は/ultrareviewの使い分けがおすすめです。

Q: ベンチマークでどのくらい改善した？

Anthropic公式とパートナー企業の報告から、主な数値は次の通り。CursorBench: 58%→70%（コーディング）、CursorBench視覚精度: 54.5%→98.5%（UIスクショ理解）、Rakuten-SWE-Bench: 本番タスク解決数3倍。さらに第三者報告として、93タスクのコーディングベンチで約13%向上、OfficeQA Proで約21%エラー減、Factory Droidsで10〜15%成功率改善が報告されています。Finance AgentとGDPval-AAではstate-of-the-art / top-tierと評価されています。

1. リリース概要——いつ・何・価格・どこで使える
2. 新機能まとめ
3. 高解像度画像サポート——初のClaudeモデル
4. 努力レベル——新xhigh追加
5. タスク予算（ベータ）
6. 新トークナイザーの影響
7. 動作の変化——4.6から何が変わったか
8. 破壊的変更
9. ベンチマーク
10. Opus 4.6 / 4.5 / 4.1との比較表
11. いつ使うべきか
12. Claude Codeでの新機能——/ultrareview と Maxプラン拡張
FAQ

2026年4月16日、AnthropicがフラッグシップモデルClaude Opus 4.7を正式リリースしました。モデルID claude-opus-4-7、入出力価格は$5 / $25 per MTokで4.6と据え置き。しかしその中身は、高解像度画像サポート、新しいxhigh努力レベル、タスク予算（ベータ）、新トークナイザーなど、フロンティアモデルとしての体験を大きく書き換える変更で埋め尽くされています。

一方で、拡張思考APIの廃止、temperature/top_p/top_k等サンプリングパラメータの廃止、プリフィル廃止といった破壊的変更もあり、既存コードの移行が必須です。

この記事では、4.7で何が新しくなったのか、4.6と比べて何が変わったのか、いつ使うべきかを、エンジニア視点で徹底解説します。

1. リリース概要——いつ・何・価格・どこで使える

項目	内容
リリース日	2026年4月16日
モデルID	`claude-opus-4-7`
価格（入力）	$5 / 100万トークン（4.6と同一）
価格（出力）	$25 / 100万トークン（4.6と同一）
コンテキスト窓	1,000,000トークン（標準API料金、長コンテキスト追加料金なし）
最大出力	128,000トークン
提供プラットフォーム	claude.ai、Anthropic API、AWS Bedrock、Google Vertex AI、Microsoft Foundry

注目すべきは「価格据え置きのまま1Mコンテキスト窓が標準料金」で利用できる点です。以前のモデルでは長コンテキスト（200K超など）に追加料金がかかるケースがありましたが、4.7は1Mトークンでも通常料金で動きます。

Opus 4.7は、claude.aiのWeb/モバイルアプリで有料プランユーザーがすぐに使える他、APIでモデルIDを指定するだけで切り替えられます。AWS Bedrock・Google Vertex AI・Microsoft Foundryでも同時提供されており、企業のマルチクラウド環境でもそのまま利用可能です。

2. 新機能まとめ

Opus 4.7で追加・変更された主要な機能は以下の通りです。

Opus 4.7の新機能——高解像度画像・xhigh努力・タスク予算・新トークナイザー

高解像度画像サポート（Claudeで初）——最大2576px / 3.75メガピクセル（従来1568px / 1.15MPの約3倍）
低レベル知覚の改善——ポインティング、計測、カウント、バウンディングボックス検出の精度向上
新しいxhigh努力レベル——highとmaxの中間。コーディング・エージェントユースケースに最適
タスク予算（ベータ）——エージェントループ全体のトークン数を事前に見積もる新機能
新トークナイザー——従来より1.0〜1.35倍のトークンを使用（内容により最大35%増）
アダプティブ思考——デフォルトOFFに変更（明示的にオプトイン要）
ファイルシステムベースメモリの強化——マルチセッション横断のスクラッチパッド・ノート活用が改善
知識作業（.docx・.pptx）の改善——変更履歴付き編集、スライドレイアウト、チャート/図の解析精度向上
Claude Code連携——新スラッシュコマンド /ultrareview、Maxプランは既定effortが xhigh に引き上げ、Auto modeをMaxユーザーへ拡張
リアルタイムのサイバーセキュリティ保護——高リスクトピックに対する新しい拒否動作
動作の変化——より指示に忠実、より直接的なトーン、ツール呼び出し削減

特に高解像度画像サポートとxhigh努力レベルは、ドキュメント分析・コンピュータ使用（Computer Use）・コーディングエージェントにとって実戦的な価値が大きい変更です。以下、順に見ていきます。

3. 高解像度画像サポート——初のClaudeモデル

Opus 4.7はClaudeシリーズで初めて高解像度画像を直接扱えるモデルです。

解像度の変化

項目	Opus 4.6以前	Opus 4.7
最大解像度（長辺）	1568px	2576px
最大ピクセル数	1.15メガピクセル	3.75メガピクセル
フル解像度1画像あたり画像トークン	約1,600トークン	約4,784トークン（約3倍）
座標スケール	縮小後解像度のピクセル座標	実ピクセルと1:1（変換不要）

何が嬉しいのか

ドキュメント分析——A4スキャン画像の細かい文字、表の罫線、グラフの目盛りが鮮明に読める
コンピュータ使用（Computer Use）——フルHD以上のスクリーンショットをそのまま理解可能
UIスクリーンショット理解——4K画面や高DPIディスプレイのキャプチャをダウンサンプリングなしで解析
座標の1:1対応——クリック座標などをモデルに返させる場合、スケール変換ロジックが不要になり実装が簡潔に

ただし、フル解像度画像1枚で約4,784トークンを消費する点には注意が必要です。スクリーンショットを大量にやりとりするエージェントは、画像トークンが急増してコストに直結します。低解像度で十分な場合は事前にリサイズする判断も重要です。

4. 努力レベル——新xhigh追加

Claudeのextended thinking / 思考深度を制御する「努力レベル（effort level）」に、xhighが新しく追加されました。

5段階の使い分け

レベル	特徴	向いているユースケース
low	最小限の思考。即応性重視	短い質問、分類、単純な要約、チャット応答
medium	中程度の推論	通常の質問応答、情報抽出、軽い生成タスク
high	深い推論	設計判断、複雑な分析、長文生成
xhigh（新規）	highとmaxの中間。コーディング・エージェント向けに最適化	コード実装、マルチステップエージェント、リファクタリング
max	最大の思考深度	最難関の推論問題、研究レベルの分析

4.6までは「highだと足りないがmaxまではいらない」というギャップがあり、コーディングやエージェント用途で過不足を感じるケースがありました。xhighはまさにその中間を埋めるために追加されたレベルで、Anthropicはコーディング・エージェントユースケースで最適と説明しています。

努力レベル選びのコツ

4.7では効率校正（effort calibration）が厳格化され、特にlowとmediumは「スコープをきっちり守る」方向に挙動が変化しています。つまり、以前mediumで動いていたタスクが「削りすぎ」と感じるなら、highまたはxhighへの引き上げを検討してください。

5. タスク予算（ベータ）

Opus 4.7では新たにタスク予算（Task Budgets）というベータ機能が導入されました。これは、エージェントループ全体で消費するトークン数の大まかな見積もりを事前に提示するための機能です。

タスク予算の仕様

ベータヘッダ：task-budgets-2026-03-13
最小値：20,000トークン
対象範囲：思考 + ツール呼び出し + 出力を含むエージェントループ全体
挙動：アドバイザリ上限（目安）であり、ハード上限ではない——超過時に強制停止はしない

なぜ必要か

従来のmax_tokensは単一レスポンスの出力上限しか制御できませんでした。しかし現実のエージェント実行では、思考トークン・ツール呼び出しの往復・複数ステップの出力が絡み合って、「このタスク全体でどれくらいトークンを使うか」が読みにくい問題がありました。

タスク予算を指定すると、モデルはその予算を目安に作業計画を立て、適切な深さと速度で作業を進めようとします。「あまり深掘りしないで早めに終わらせてほしい」「逆にじっくり考えてほしい」といった方針をコスト面から指示できるイメージです。

ただしアドバイザリのため、予算超過で確実に停止させたい場合は、アプリケーション側で別途カウンタを設ける必要があります。

6. 新トークナイザーの影響

Opus 4.7では新しいトークナイザーが採用されており、従来モデルと比較して同じ文字列に対して1.0〜1.35倍のトークンを消費します。内容によっては最大35%増加します。

コスト・コンテキスト予算への影響

同じプロンプトでも課金額が増える可能性——価格が据え置きでも、トークン数が増えれば総額は上がる
1Mコンテキストに収まる情報量が実質的に減る——1Mトークンは1Mトークンだが、同じドキュメントは従来より多くのトークンを食う
見積もり・アラートの再調整が必要——従来のトークンカウント前提で予算・レート制限を組んでいる場合は再計算が必須

実務での対応

既存のClaudeアプリを4.7に切り替える際は、以下を再評価してください。

月次コスト予測——同じトラフィックで最大35%増を想定
コンテキスト窓の使用率——過去のログで「ギリギリ1M以下」だった処理は要注意
レート制限とトークン/分上限——組織のTPM上限に対する余裕度を再確認
キャッシュ戦略——プロンプトキャッシュの再ヒット率が変化する可能性

4.6から4.7への移行手順は、後述の移行ガイド記事で詳しく解説します。

7. 動作の変化——4.6から何が変わったか

Opus 4.7は単に機能追加されただけでなく、回答スタイルそのものが4.6から変化しています。

主要な挙動の変化

指示により忠実——特に低〜中程度の努力レベルで、余計な補足を加えず指示をそのまま実行する傾向が強まった
より直接的なトーン——validation phrase（「素晴らしい質問ですね」等）や過剰な丁寧表現、絵文字が減少
応答長がタスクに適応——単純な質問には短く、複雑なタスクには長く——ワンサイズの冗長さがなくなった
デフォルトでツール呼び出し回数が減少——推論で済むところは推論で済ませ、不要なツール使用を避ける
サブエージェント起動数が減少——並列作業を自動で展開するより、まず自分で考える方向
努力レベル校正の厳格化——low / mediumではスコープをタイトに守り、拡張解釈を控える

既存プロンプトへの影響

4.6で「丁寧に補足してくれる」前提で設計されたプロンプトや、「ツールをたくさん使って検証してほしい」前提のエージェントは、4.7で動作が変わる可能性があります。

補足が欲しければ「理由と代替案も説明して」と明示する
多めにツールを使ってほしければ「事実確認のため必ずWebSearchを使って」等、具体的に指示する
長めの応答が欲しければ「最低500字で」のように明示する

全体としては「モデルが余計なことをしない」方向への進化であり、明示的な指示を書けばその通り動くという、より予測可能な挙動になっています。

サイバーセキュリティ・セーフガードと安全性

Opus 4.7では新たにリアルタイムのサイバーセキュリティ・セーフガードが導入され、ペネトレーションテスト・脆弱性研究・レッドチーミングなどの正当なセキュリティ業務でも、文脈次第で拒否されるケースが出てきました。本番でセキュリティ用途に使う場合は、Anthropicのサイバー検証プログラムへの申請を検討してください。

一方、安全性の改善点として公式は次を挙げています。

正直性（honesty）の向上——わからないことを「わからない」と言う、根拠の薄い断定を避ける傾向が強まった
プロンプトインジェクション耐性の向上——悪意ある第三者からの注入指示に対する防御が強化
Mythos Previewが現時点最良のアラインメント——Opus 4.7はそれより広範な能力を持つが、アラインメント精度は Mythos Preview が上

逆に、controlled substances（規制薬物）に関する害減策アドバイスがやや冗長になる傾向が報告されています（公式が公表）。製薬・医療系のチャットボット運用では、出力フィルタリングを入れておくと安全です。

8. 破壊的変更

Opus 4.7は4.6と比べていくつかの破壊的変更を含んでいます。4.6向けにコードを書いていた場合、そのままでは400エラーになるケースがあります。

廃止されたパラメータ・機能

機能	4.6までの動作	4.7での動作
Extended thinking	`thinking: {type: "enabled", budget_tokens: N}`で拡張思考	同ペイロード送信で400エラー。アダプティブ思考に移行
アダプティブ思考	デフォルトON	デフォルトOFF。`thinking: {type: "adaptive"}`で明示オプトイン
思考コンテンツ表示	デフォルトで返却	デフォルトでomitted（省略）。表示したい場合は`display: "summarized"`を指定
temperature	0.0〜1.0で調整可能	デフォルト以外の値で400エラー
top_p / top_k	サンプリング制御可能	デフォルト以外の値で400エラー
アシスタントプリフィル	message配列先頭にassistantメッセージを入れて続きを生成	400エラー（4.6から引き継ぎ）

何を直す必要があるか

拡張思考を使っているコード：thinking.typeを"adaptive"に変更し、必要ならdisplay指定を追加
temperature等をチューニングしているコード：これらパラメータを削除。決定性が必要な場合はプロンプト側で対応
アシスタントプリフィルを使っているコード：プリフィル部分をユーザーメッセージに組み込むか、出力フォーマット指示で代替
思考内容を表示していたUI：display: "summarized"を指定しないと思考コンテンツが返らない点に注意

詳しい移行方法は移行ガイド記事を参照してください。

9. ベンチマーク

公式発表時点で詳細なスコア数値は限定的に開示されていますが、Anthropicはコーディング・エージェント処理・ビジョンタスクで大幅な改善があると公表しています。

改善が公表されている領域

公式発表ベンチマーク

Anthropicの公式発表で示された主な改善数値は以下の通りです。

ベンチマーク	Opus 4.6	Opus 4.7	領域
CursorBench	58%	70%	コーディング
CursorBench（視覚精度）	54.5%	98.5%	UIスクショ理解
Rakuten-SWE-Bench	基準値	3倍のタスク解決	本番コード変更
CyberGym	73.8	—（公開データなし）	セキュリティ
Finance Agent	—	state-of-the-art	金融エージェント
GDPval-AA	—	top-tier	経済価値の高い知識作業

第三者・ユーザー報告の改善

93タスクのコーディングベンチマーク：Opus 4.6 比で約 13%向上
OfficeQA Pro（書類推論）：エラー約 21%減少
Factory Droids（実本番タスク）：成功率 10〜15%改善

実地評価の補足

上記は公式およびパートナー企業によるベンチマーク結果です。ただし、自社ワークロードで実測することが最も信頼できる評価指標になります。新トークナイザーで同じ文章のトークン数が変わるため、コスト・レイテンシは事前ベンチマークが必須です。

評価の勘所は次の通り。

同じ入力を4.6と4.7に投げて、出力品質・所要時間・トークン消費を比較
コーディングタスクは「1発で動いたか」「テストが通るか」で客観評価
エージェントタスクは「タスク完遂率」と「ツール呼び出し回数」の両軸で評価（4.7はツール呼び出しが減るため、完遂率が上がっていれば純粋な改善）
ビジョンタスクは高解像度画像での実務ユースケース（UIスクショ、書類スキャン）で比較

Mythosプレビューとの位置付け

公式発表内でAnthropicは、未公開モデル「Mythos Preview」が現時点で最もアラインメント精度が高く、誤動作率が最も低いモデルであると述べています。Opus 4.7はそれより広範な能力を持つ位置付けですが、サイバー能力面ではMythos Previewほどではありません（より能力の高いモデルでサイバー安全策をテストしてから順次展開する方針）。一般ユーザーが現時点で使えるフラッグシップは Opus 4.7 です。

10. Opus 4.6 / 4.5 / 4.1との比較表

項目	Opus 4.1	Opus 4.5	Opus 4.6	Opus 4.7
価格（入力）	$15	$5	$5	$5
価格（出力）	$75	$25	$25	$25
最大コンテキスト	200K	200K	1M	1M
最大出力	32K	64K	128K	128K
画像最大解像度	1568px	1568px	1568px	2576px
努力レベル	low/medium/high	low/medium/high/max	low/medium/high/max	low/medium/high/xhigh/max
拡張思考	あり	あり	アダプティブ思考	アダプティブ思考（デフォルトOFF）
タスク予算	なし	なし	なし	あり（ベータ）
temperature等	使用可	使用可	使用可	廃止
プリフィル	使用可	使用可	廃止	廃止
トークナイザー	従来	従来	従来	新（1.0〜1.35倍）

数値は2026年4月16日時点の公式情報に基づきます。4.6→4.7では価格据え置きのまま機能強化という点が最大のポイントです。

11. いつ使うべきか

Opus 4.7はフラッグシップですが、すべての用途でOpusを使うのがベストとは限りません。

Opus 4.7が最適なケース

複雑なコーディングタスク——大規模リファクタリング、設計判断、マルチファイル変更
長時間のエージェントループ——マルチステップの自動化、タスク予算との組み合わせ
高解像度画像を含むビジョンタスク——Computer Use、UIスクショ解析、書類OCR
1Mトークンの長コンテキスト処理——大規模コードベースの理解、長文ドキュメント分析
最難関の推論——数理、研究レベルの分析、戦略立案

Sonnetを検討すべきケース

定型的なQA応答、分類、情報抽出
コストを抑えつつ「そこそこ賢い」応答が必要な大量バッチ処理
遅延をより短く保ちたいリアルタイムユーザー体験

Haikuを検討すべきケース

最小コストで大量にさばきたい単純分類・翻訳・フィルタリング
IoT・エッジ等、レスポンスの速さが最優先

実務的には、ユーザーに見える部分（コード生成、複雑な推論、エージェントの中枢）はOpus 4.7、裏側の大量処理（ログ分類、データ抽出、一次フィルタ）はSonnetかHaikuという組み合わせが費用対効果が高い構成です。

12. Claude Codeでの新機能——/ultrareview

Claude Code（Anthropicの公式CLI）もOpus 4.7リリースに合わせて更新され、新しいスラッシュコマンド/ultrareviewが追加されました。

/ultrareviewの特徴

変更されたコードに対してxhigh相当の深さでレビューを実行
通常のコードレビューより踏み込んだ指摘——再利用性・エラーハンドリング・並行処理の落とし穴・セキュリティリスクまで網羅
実装ミスだけでなく「設計上望ましくない決定」も指摘対象

既存の/reviewが「PRレビュー相当」だとすれば、/ultrareviewはシニアエンジニアによる設計レビュー相当の深度という位置付けです。大きな機能追加の前後、リリース前のファイナルチェックなどに適しています。

なお、/ultrareviewはxhigh相当の思考を使うため、通常のレビューよりも時間とトークンを多めに消費します。日常的な軽いPR確認には/review、節目のチェックには/ultrareview、という使い分けがおすすめです。

Maxプランでの既定effort引き上げ

Claude Code Maxプランの利用者は、Opus 4.7利用時の既定effortが xhigh に引き上げられました。これまでhigh相当だった日常タスクが、自動的により深い推論で実行されるようになります。トークン上限内でより質の高い結果を得られる一方、消費は増えるためモニタリング推奨です。

Auto modeのMaxユーザーへの拡張

これまで一部のプランに限定されていたAuto modeが、Claude Code Maxユーザーにも拡張されました。タスクの種類に応じてOpus/Sonnet/Haikuを自動で切り替える機能で、コスト最適化と速度改善を両立します。

FAQ

Q. Opus 4.6で動いているアプリは4.7にそのまま切り替えられる？

多くのアプリはモデルID変更のみで動きますが、以下のいずれかに該当する場合は修正が必要です。(1) thinking: {type: "enabled"}で拡張思考を使っている、(2) temperature/top_p/top_kをデフォルト以外に設定している、(3) アシスタントプリフィルを使っている、(4) 思考コンテンツをUIに表示している。これらは400エラーまたは挙動変化を招きます。詳しい移行方法は移行ガイド記事を参照してください。

Q. 新トークナイザーで本当にコストが上がる？

同じ文章に対して1.0〜1.35倍のトークンを消費するため、最悪ケースで約35%のコスト増が発生し得ます。ただし、4.7は「デフォルトでツール呼び出しが減る」「応答が簡潔になる」といった方向の挙動変化もあるため、総合的にはアプリによって増減まちまちです。トラフィックの多いアプリは、4.6と4.7の並行稼働期間を設けて月次コストを実測してから本番切り替えを推奨します。

Q. xhighとmaxはどう使い分ければいい？

Anthropicはxhighをコーディング・エージェントユースケースに最適と説明しています。一方maxは「最難関の推論」向け。実装タスク、リファクタリング、テスト追加、エージェントのマルチステップ計画ならxhighが費用対効果のスイートスポット。数理的に難しい問題、研究レベルの分析、戦略立案ならmaxを選ぶと良いです。迷ったらxhighから始めて、足りなければmaxに上げる運用が無難です。

Q. タスク予算はなぜハード上限ではないのか？

エージェントループはツール呼び出しの往復でトークン消費が予測不能に増減します。ハード上限にするとタスク完遂寸前で打ち切られる事故が頻発するため、Anthropicはアドバイザリ（目安）として設計しました。モデルは予算を意識して計画を調整しますが、必要なら少し超過します。確実に停止させたい場合はアプリ側で別途カウンタを実装してください。

Q. 高解像度画像サポートは自動で有効になる？

4.7のモデルIDを指定するだけで、送信した画像は最大2576pxまで解像度を維持して処理されます。特別なオプトイン不要。ただし、フル解像度1画像あたり約4,784トークン消費するため、画像を大量に渡すエージェントはコストが跳ね上がる可能性があります。不要に高い解像度は事前リサイズを検討してください。

Q. temperatureが使えないと決定性を出せない？

4.7ではtemperature/top_p/top_kのデフォルト以外の値が400エラーになります。決定性が欲しい場合は、プロンプト側で出力フォーマットを厳密指定（例：「JSON形式で、以下のスキーマに厳密に従って返してください」）することで実用上の安定性を確保できます。response_formatのような構造化出力指定も併用すると安定度がさらに上がります。

Q. 思考コンテンツがデフォルトで見えないのはなぜ？

4.7では思考コンテンツがデフォルトでomitted（省略）になりました。表示したい場合はdisplay: "summarized"を指定します。これは「思考内容はモデルの内部処理の一部であり、最終応答がユーザー向けの主要な成果物」という方針の変更です。デバッグ用途やユーザー向けの「考えている様子」表示を続けたい場合は、明示的にsummarizedを指定してください。

Q. Claude Codeの/ultrareviewは/reviewと何が違う？

/reviewは通常のPRレビュー相当で、コード品質・バグ・スタイルを指摘します。/ultrareviewはxhigh相当の深度で、設計上の問題・並行処理の落とし穴・セキュリティリスク・再利用性・エラーハンドリングの妥当性まで踏み込んで指摘します。時間とトークンは多めに使いますが、重要なマージ前の最終チェックには非常に有効です。日常は/review、節目は/ultrareviewの使い分けがおすすめです。

Q. ベンチマークでどのくらい改善した？

Anthropic公式とパートナー企業の報告から、主な数値は次の通り。CursorBench: 58%→70%（コーディング）、CursorBench視覚精度: 54.5%→98.5%（UIスクショ理解）、Rakuten-SWE-Bench: 本番タスク解決数3倍。さらに第三者報告として、93タスクのコーディングベンチで約13%向上、OfficeQA Proで約21%エラー減、Factory Droidsで10〜15%成功率改善が報告されています。Finance AgentとGDPval-AAではstate-of-the-art / top-tierと評価されています。

Q. Mythos Previewって何？Opus 4.7より強いの？

Mythos PreviewはAnthropic内部での未公開モデルです。Anthropicは公式発表で「Mythos Previewが現時点で最もアラインメント精度が高く、誤動作率が最も低い」と述べていますが、サイバー能力は意図的に抑えられた段階リリースであり、汎用能力では Opus 4.7 が現時点最強の一般提供モデルです。Mythos の能力ベンチマーク全体は4.7より上回る部分もあるとされていますが、一般提供は限定的で、まずは安全性が確認できた範囲から段階展開という方針です。

Q. セキュリティ業務（ペンテスト等）で拒否されるようになった、どうすれば？

4.7ではリアルタイムのサイバーセキュリティ・セーフガードが導入され、ペネトレーションテスト・脆弱性研究・レッドチーミングなどの正当な業務でも文脈次第で拒否されることがあります。本番でセキュリティ用途を継続したい場合は、Anthropicのサイバー検証プログラム（Cyber Verification Program）に申請してアクセスを取得してください。承認されれば、より制限の緩い設定で利用できるようになります。

Q. 4.7のベンチマークスコアが知りたい。どこで確認できる？

公式発表時点で詳細スコアは限定的に開示されており、Anthropicはコーディング・エージェント処理・ビジョンタスクで大幅改善と公表しています。SWE-bench等の業界標準ベンチについては、Anthropic公式ブログ・モデルカード・第三者評価の公開を待つのが正攻法です。ただし自社ワークロードでの実測が最も信頼できるため、本番投入前のA/B比較を強く推奨します。

この記事は2026年4月16日時点の公式情報に基づきます。仕様・価格・提供範囲は変更される可能性があるため、本番利用前にAnthropic公式ドキュメントで最新情報をご確認ください。移行の具体的手順は移行ガイド記事を参照してください。

Claude Opus 4.7リリース——新機能・ベンチマーク・価格を徹底解説