Claude Opus 4.5: 世界で最も先進的なAIモデル

AIを再定義する発表

2025年11月24日 — Anthropicは、これまでで最も先進的なモデルであるClaude Opus 4.5を発表しました。「コーディング、エージェント、およびコンピュータ操作において世界最高のモデル」として紹介されたOpus 4.5は、AIシステムの進化における重要なマイルストーンを記録します。

Introducing Claude Opus 4.5: the best model in the world for coding, agents, and computer use. Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done.

🇯🇵 Claude Opus 4.5を紹介します：コーディング、エージェント、コンピュータ操作において世界最高のモデルです。Opus 4.5は、AIシステムができることの前進であり、仕事の進め方がどのように大きく変化するかを示すプレビューです。 — @claudeai on X

🔗 anthropic.comでの公式発表

なぜOpus 4.5がゲームチェンジャーなのか

Claude Opus 4.5は単なる段階的なアップデートではありません。このモデルは、いくつかの主要分野において質的な飛躍を表しています：

インテリジェントな推論

Opus 4.5は、曖昧さやトレードオフの管理に優れています。このモデルは、複数の有効なアプローチが存在する複雑な状況をナビゲートし、コンテキストに最も適切なものを選択する能力が向上しています。

拡張されたコンテキスト管理

自動要約（summarization）のおかげで、Opus 4.5は会話の長さの制限を排除します。モデルは、パフォーマンスを低下させることなく、長時間の作業セッションにわたってコンテキストを維持できます。

マルチエージェント・コーディネーション

最大の進歩の一つは、マルチエージェントシステムをオーケストレーションする能力に関するものです。Opus 4.5は、複雑なタスクで並行して動作する複数の自律プロセスを調整できます。

高度なComputer Use

モデルは以下を直接操作できるようになりました：

スプレッドシート — Excel/Sheetsデータの分析と修正
プレゼンテーション — スライドの作成と編集
ブラウザ — 複雑なWebタスクの自動化
デスクトップアプリケーション — ネイティブソフトウェアとの対話

ベンチマーク：数字が語る

ソフトウェアエンジニアリングのパフォーマンス

ベンチマーク	Opus 4.5	改善点
SWE-bench Verified	State-of-the-art	絶対的なリーダー
SWE-bench Multilingual	7/8言語	7言語で最高
Aider Polyglot	+10.6%	vs Sonnet 4.5
Vending-Bench	+29%	vs Sonnet 4.5
Terminal Bench	+15%	vs Sonnet 4.5
BrowseComp-Plus	大幅な向上	エージェンティックなリサーチ

注目すべき事実

2時間の制限時間があるAnthropicの内部エンジニアリング試験において、Opus 4.5はすべての人間の候補者よりも高いスコアを獲得しました。これは、このモデルが到達したレベルを示す初めての出来事です。

革新的なトークン効率

Opus 4.5の最も印象的な側面の一つは、そのトークン効率です。モデルは、大幅に少ないトークンで同等またはそれ以上の結果を生成します：

労力レベル	パフォーマンス	トークン削減
中程度の労力	Sonnet 4.5と同等	-76% トークン
最大の労力	+4.3% vs Sonnet 4.5	-48% トークン
長いタスク	維持	-65% トークン

これが具体的に意味すること

コスト削減 — トークンが少ない = API請求額が軽くなる
応答の高速化 — 生成が少ない = レイテンシの短縮
より効率的な推論 — バックトラッキングや冗長な探索が少ない

価格と利用可能性

APIアクセス

パラメータ	値
Model ID	`claude-opus-4-5-20251101`
Input 価格	$5 / 100万トークン
Output 価格	$25 / 100万トークン
Context window	200K トークン
Thinking budget	64K トークン

利用可能なプラットフォーム

Anthropic API — 直接アクセス
AWS Bedrock — Amazonクラウド統合
Google Vertex AI — Googleクラウド統合
Claude アプリケーション — claude.ai、デスクトップ、モバイル

企業の評価

初期ユーザーからのフィードバックは一致しています：

GitHub Copilot

モデルは、トークン使用量を半分に削減しながら、社内のコーディングベンチマークを上回っています。 — Mario Rodriguez, Chief Product Officer

Windsurf AI

Clear winner… best frontier task planning and tool calling.

🇯🇵 明白な勝者… 最高のフロンティアタスク計画とツール呼び出し。 — Jeff Wang, CEO

Replit

Using fewer tokens to solve the same problems.

🇯🇵 同じ問題を解決するためにより少ないトークンを使用しています。 — Michele Catasta, President

Warp

15% improvement over Sonnet 4.5 on Terminal Bench for autonomous tasks. — Zach Lloyd, Founder

Cursor

Notable improvement with improved pricing and intelligence.

🇯🇵 改善された価格設定と知能による顕著な改善。 — Michael Truell, CEO

製品の改善

Opus 4.5には、Claudeエコシステムのいくつかの新機能が伴います：

Claude Code — 強化されたPlan Mode

実行前の確認質問
ユーザーが編集可能なplan.mdファイル
複数ファイルの変更における調整の向上

Claude Desktop

ローカルおよびリモートの並列セッション
統合されたスクリーンショットキャプチャ
ウィンドウをクリックしてコンテキストを共有
音声コマンド（Caps Lockで話す）

Claude for Chrome（すべての有料プランで利用可能）

当初ベータ版だったClaude for Chromeは、2025年12月18日からすべての有料プラン（Pro、Team、Enterprise）で利用可能になりました。この拡張機能により、Claudeはブラウザ内で直接対話できます：

自律ナビゲーション — サイトの閲覧、クリック、フォームへの入力
マルチタブ — 複数のタブで同時に作業
自動化 — メトリクスの抽出、クラウドファイルの管理、カレンダーの準備
統合 — Google Drive、Salesforce、Gmail、CRM
スケジュールされたワークフロー — 毎日または毎週の自動化
セキュリティ — 実行前の機密アクションのレビュー

🔗 Claude for Chromeの詳細

その他の統合

Claude for Excel — Max、Team、Enterpriseにベータ拡大
拡張された会話 — 自動要約のおかげで長さ制限なし

安全性とアライメント

Anthropicは、Opus 4.5を「これまでで最も堅牢にアライメントされたモデル」として提示しています：

攻撃への耐性

プロンプトインジェクション — どの競合モデルよりも騙すのが難しい
悪用カテゴリ — 「懸念される行動」スコアの低下

System Card

安全性ドキュメントには、複雑なエッジケースシナリオでも信頼性が高く予測可能な動作を保証するために講じられた措置が詳述されています。

技術仕様

仕様	値
Context window	200K トークン（デフォルト）
Thinking budget	64K トークン（インターリーブ）
評価方法	5回の独立した試行の平均
労力パラメータ	設定可能（速度 vs 能力）
サンプリング	標準的な温度とtop-p

アーキテクチャ上の利点

バックトラッキングを減らす効率的なマルチステップ推論
最適化されたコンテキスト圧縮
長いセッションでの持続的な推論のためのメモリツール

結論

Claude Opus 4.5は、単なるモデルのアップデート以上のものを表しています — それは、効率と能力が共に進歩したときにAIが何を達成できるかを示す実証です。

開発者にとって、その意味は明らかです：

コーディングおよび自動化タスクでのパフォーマンス向上
トークン効率によるコスト削減
コンピュータ操作とマルチエージェント調整による新しい可能性