AIを再定義する発表
2025年11月24日 — Anthropicは、これまでで最も先進的なモデルであるClaude Opus 4.5を発表しました。「コーディング、エージェント、およびコンピュータ操作において世界最高のモデル」として紹介されたOpus 4.5は、AIシステムの進化における重要なマイルストーンを記録します。
Introducing Claude Opus 4.5: the best model in the world for coding, agents, and computer use. Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done.
🇯🇵 Claude Opus 4.5を紹介します:コーディング、エージェント、コンピュータ操作において世界最高のモデルです。Opus 4.5は、AIシステムができることの前進であり、仕事の進め方がどのように大きく変化するかを示すプレビューです。 — @claudeai on X
なぜOpus 4.5がゲームチェンジャーなのか
Claude Opus 4.5は単なる段階的なアップデートではありません。このモデルは、いくつかの主要分野において質的な飛躍を表しています:
インテリジェントな推論
Opus 4.5は、曖昧さやトレードオフの管理に優れています。このモデルは、複数の有効なアプローチが存在する複雑な状況をナビゲートし、コンテキストに最も適切なものを選択する能力が向上しています。
拡張されたコンテキスト管理
自動要約(summarization)のおかげで、Opus 4.5は会話の長さの制限を排除します。モデルは、パフォーマンスを低下させることなく、長時間の作業セッションにわたってコンテキストを維持できます。
マルチエージェント・コーディネーション
最大の進歩の一つは、マルチエージェントシステムをオーケストレーションする能力に関するものです。Opus 4.5は、複雑なタスクで並行して動作する複数の自律プロセスを調整できます。
高度なComputer Use
モデルは以下を直接操作できるようになりました:
- スプレッドシート — Excel/Sheetsデータの分析と修正
- プレゼンテーション — スライドの作成と編集
- ブラウザ — 複雑なWebタスクの自動化
- デスクトップアプリケーション — ネイティブソフトウェアとの対話
ベンチマーク:数字が語る
ソフトウェアエンジニアリングのパフォーマンス
| ベンチマーク | Opus 4.5 | 改善点 |
|---|---|---|
| SWE-bench Verified | State-of-the-art | 絶対的なリーダー |
| SWE-bench Multilingual | 7/8言語 | 7言語で最高 |
| Aider Polyglot | +10.6% | vs Sonnet 4.5 |
| Vending-Bench | +29% | vs Sonnet 4.5 |
| Terminal Bench | +15% | vs Sonnet 4.5 |
| BrowseComp-Plus | 大幅な向上 | エージェンティックなリサーチ |
注目すべき事実
2時間の制限時間があるAnthropicの内部エンジニアリング試験において、Opus 4.5はすべての人間の候補者よりも高いスコアを獲得しました。これは、このモデルが到達したレベルを示す初めての出来事です。
革新的なトークン効率
Opus 4.5の最も印象的な側面の一つは、そのトークン効率です。モデルは、大幅に少ないトークンで同等またはそれ以上の結果を生成します:
| 労力レベル | パフォーマンス | トークン削減 |
|---|---|---|
| 中程度の労力 | Sonnet 4.5と同等 | -76% トークン |
| 最大の労力 | +4.3% vs Sonnet 4.5 | -48% トークン |
| 長いタスク | 維持 | -65% トークン |
これが具体的に意味すること
- コスト削減 — トークンが少ない = API請求額が軽くなる
- 応答の高速化 — 生成が少ない = レイテンシの短縮
- より効率的な推論 — バックトラッキングや冗長な探索が少ない
価格と利用可能性
APIアクセス
| パラメータ | 値 |
|---|---|
| Model ID | claude-opus-4-5-20251101 |
| Input 価格 | $5 / 100万トークン |
| Output 価格 | $25 / 100万トークン |
| Context window | 200K トークン |
| Thinking budget | 64K トークン |
利用可能なプラットフォーム
- Anthropic API — 直接アクセス
- AWS Bedrock — Amazonクラウド統合
- Google Vertex AI — Googleクラウド統合
- Claude アプリケーション — claude.ai、デスクトップ、モバイル
企業の評価
初期ユーザーからのフィードバックは一致しています:
GitHub Copilot
モデルは、トークン使用量を半分に削減しながら、社内のコーディングベンチマークを上回っています。 — Mario Rodriguez, Chief Product Officer
Windsurf AI
Clear winner… best frontier task planning and tool calling.
🇯🇵 明白な勝者… 最高のフロンティアタスク計画とツール呼び出し。 — Jeff Wang, CEO
Replit
Using fewer tokens to solve the same problems.
🇯🇵 同じ問題を解決するためにより少ないトークンを使用しています。 — Michele Catasta, President
Warp
15% improvement over Sonnet 4.5 on Terminal Bench for autonomous tasks. — Zach Lloyd, Founder
Cursor
Notable improvement with improved pricing and intelligence.
🇯🇵 改善された価格設定と知能による顕著な改善。 — Michael Truell, CEO
製品の改善
Opus 4.5には、Claudeエコシステムのいくつかの新機能が伴います:
Claude Code — 強化されたPlan Mode
- 実行前の確認質問
- ユーザーが編集可能な
plan.mdファイル - 複数ファイルの変更における調整の向上
Claude Desktop
- ローカルおよびリモートの並列セッション
- 統合されたスクリーンショットキャプチャ
- ウィンドウをクリックしてコンテキストを共有
- 音声コマンド(Caps Lockで話す)
Claude for Chrome(すべての有料プランで利用可能)
当初ベータ版だったClaude for Chromeは、2025年12月18日からすべての有料プラン(Pro、Team、Enterprise)で利用可能になりました。この拡張機能により、Claudeはブラウザ内で直接対話できます:
- 自律ナビゲーション — サイトの閲覧、クリック、フォームへの入力
- マルチタブ — 複数のタブで同時に作業
- 自動化 — メトリクスの抽出、クラウドファイルの管理、カレンダーの準備
- 統合 — Google Drive、Salesforce、Gmail、CRM
- スケジュールされたワークフロー — 毎日または毎週の自動化
- セキュリティ — 実行前の機密アクションのレビュー
その他の統合
- Claude for Excel — Max、Team、Enterpriseにベータ拡大
- 拡張された会話 — 自動要約のおかげで長さ制限なし
安全性とアライメント
Anthropicは、Opus 4.5を「これまでで最も堅牢にアライメントされたモデル」として提示しています:
攻撃への耐性
- プロンプトインジェクション — どの競合モデルよりも騙すのが難しい
- 悪用カテゴリ — 「懸念される行動」スコアの低下
System Card
安全性ドキュメントには、複雑なエッジケースシナリオでも信頼性が高く予測可能な動作を保証するために講じられた措置が詳述されています。
技術仕様
| 仕様 | 値 |
|---|---|
| Context window | 200K トークン(デフォルト) |
| Thinking budget | 64K トークン(インターリーブ) |
| 評価方法 | 5回の独立した試行の平均 |
| 労力パラメータ | 設定可能(速度 vs 能力) |
| サンプリング | 標準的な温度とtop-p |
アーキテクチャ上の利点
- バックトラッキングを減らす効率的なマルチステップ推論
- 最適化されたコンテキスト圧縮
- 長いセッションでの持続的な推論のためのメモリツール
結論
Claude Opus 4.5は、単なるモデルのアップデート以上のものを表しています — それは、効率と能力が共に進歩したときにAIが何を達成できるかを示す実証です。
開発者にとって、その意味は明らかです:
- コーディングおよび自動化タスクでのパフォーマンス向上
- トークン効率によるコスト削減
- コンピュータ操作とマルチエージェント調整による新しい可能性