検索

Claude Opus 4.5: 世界で最も先進的なAIモデル

Claude Opus 4.5: 世界で最も先進的なAIモデル

AIを再定義する発表

2025年11月24日 — Anthropicは、これまでで最も先進的なモデルであるClaude Opus 4.5を発表しました。「コーディング、エージェント、およびコンピュータ操作において世界最高のモデル」として紹介されたOpus 4.5は、AIシステムの進化における重要なマイルストーンを記録します。

Introducing Claude Opus 4.5: the best model in the world for coding, agents, and computer use. Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done.

🇯🇵 Claude Opus 4.5を紹介します:コーディング、エージェント、コンピュータ操作において世界最高のモデルです。Opus 4.5は、AIシステムができることの前進であり、仕事の進め方がどのように大きく変化するかを示すプレビューです。@claudeai on X

🔗 anthropic.comでの公式発表


なぜOpus 4.5がゲームチェンジャーなのか

Claude Opus 4.5は単なる段階的なアップデートではありません。このモデルは、いくつかの主要分野において質的な飛躍を表しています:

インテリジェントな推論

Opus 4.5は、曖昧さやトレードオフの管理に優れています。このモデルは、複数の有効なアプローチが存在する複雑な状況をナビゲートし、コンテキストに最も適切なものを選択する能力が向上しています。

拡張されたコンテキスト管理

自動要約(summarization)のおかげで、Opus 4.5は会話の長さの制限を排除します。モデルは、パフォーマンスを低下させることなく、長時間の作業セッションにわたってコンテキストを維持できます。

マルチエージェント・コーディネーション

最大の進歩の一つは、マルチエージェントシステムをオーケストレーションする能力に関するものです。Opus 4.5は、複雑なタスクで並行して動作する複数の自律プロセスを調整できます。

高度なComputer Use

モデルは以下を直接操作できるようになりました:

  • スプレッドシート — Excel/Sheetsデータの分析と修正
  • プレゼンテーション — スライドの作成と編集
  • ブラウザ — 複雑なWebタスクの自動化
  • デスクトップアプリケーション — ネイティブソフトウェアとの対話

ベンチマーク:数字が語る

ソフトウェアエンジニアリングのパフォーマンス

ベンチマークOpus 4.5改善点
SWE-bench VerifiedState-of-the-art絶対的なリーダー
SWE-bench Multilingual7/8言語7言語で最高
Aider Polyglot+10.6%vs Sonnet 4.5
Vending-Bench+29%vs Sonnet 4.5
Terminal Bench+15%vs Sonnet 4.5
BrowseComp-Plus大幅な向上エージェンティックなリサーチ

注目すべき事実

2時間の制限時間があるAnthropicの内部エンジニアリング試験において、Opus 4.5はすべての人間の候補者よりも高いスコアを獲得しました。これは、このモデルが到達したレベルを示す初めての出来事です。


革新的なトークン効率

Opus 4.5の最も印象的な側面の一つは、そのトークン効率です。モデルは、大幅に少ないトークンで同等またはそれ以上の結果を生成します:

労力レベルパフォーマンストークン削減
中程度の労力Sonnet 4.5と同等-76% トークン
最大の労力+4.3% vs Sonnet 4.5-48% トークン
長いタスク維持-65% トークン

これが具体的に意味すること

  • コスト削減 — トークンが少ない = API請求額が軽くなる
  • 応答の高速化 — 生成が少ない = レイテンシの短縮
  • より効率的な推論 — バックトラッキングや冗長な探索が少ない

価格と利用可能性

APIアクセス

パラメータ
Model IDclaude-opus-4-5-20251101
Input 価格$5 / 100万トークン
Output 価格$25 / 100万トークン
Context window200K トークン
Thinking budget64K トークン

利用可能なプラットフォーム

  • Anthropic API — 直接アクセス
  • AWS Bedrock — Amazonクラウド統合
  • Google Vertex AI — Googleクラウド統合
  • Claude アプリケーション — claude.ai、デスクトップ、モバイル

企業の評価

初期ユーザーからのフィードバックは一致しています:

GitHub Copilot

モデルは、トークン使用量を半分に削減しながら、社内のコーディングベンチマークを上回っています。 — Mario Rodriguez, Chief Product Officer

Windsurf AI

Clear winner… best frontier task planning and tool calling.

🇯🇵 明白な勝者… 最高のフロンティアタスク計画とツール呼び出し。Jeff Wang, CEO

Replit

Using fewer tokens to solve the same problems.

🇯🇵 同じ問題を解決するためにより少ないトークンを使用しています。Michele Catasta, President

Warp

15% improvement over Sonnet 4.5 on Terminal Bench for autonomous tasks. — Zach Lloyd, Founder

Cursor

Notable improvement with improved pricing and intelligence.

🇯🇵 改善された価格設定と知能による顕著な改善。Michael Truell, CEO


製品の改善

Opus 4.5には、Claudeエコシステムのいくつかの新機能が伴います:

Claude Code — 強化されたPlan Mode

  • 実行前の確認質問
  • ユーザーが編集可能なplan.mdファイル
  • 複数ファイルの変更における調整の向上

Claude Desktop

  • ローカルおよびリモートの並列セッション
  • 統合されたスクリーンショットキャプチャ
  • ウィンドウをクリックしてコンテキストを共有
  • 音声コマンド(Caps Lockで話す)

Claude for Chrome(すべての有料プランで利用可能)

当初ベータ版だったClaude for Chromeは、2025年12月18日からすべての有料プラン(Pro、Team、Enterprise)で利用可能になりました。この拡張機能により、Claudeはブラウザ内で直接対話できます:

  • 自律ナビゲーション — サイトの閲覧、クリック、フォームへの入力
  • マルチタブ — 複数のタブで同時に作業
  • 自動化 — メトリクスの抽出、クラウドファイルの管理、カレンダーの準備
  • 統合 — Google Drive、Salesforce、Gmail、CRM
  • スケジュールされたワークフロー — 毎日または毎週の自動化
  • セキュリティ — 実行前の機密アクションのレビュー

🔗 Claude for Chromeの詳細

その他の統合

  • Claude for Excel — Max、Team、Enterpriseにベータ拡大
  • 拡張された会話 — 自動要約のおかげで長さ制限なし

安全性とアライメント

Anthropicは、Opus 4.5を「これまでで最も堅牢にアライメントされたモデル」として提示しています:

攻撃への耐性

  • プロンプトインジェクション — どの競合モデルよりも騙すのが難しい
  • 悪用カテゴリ — 「懸念される行動」スコアの低下

System Card

安全性ドキュメントには、複雑なエッジケースシナリオでも信頼性が高く予測可能な動作を保証するために講じられた措置が詳述されています。


技術仕様

仕様
Context window200K トークン(デフォルト)
Thinking budget64K トークン(インターリーブ)
評価方法5回の独立した試行の平均
労力パラメータ設定可能(速度 vs 能力)
サンプリング標準的な温度とtop-p

アーキテクチャ上の利点

  • バックトラッキングを減らす効率的なマルチステップ推論
  • 最適化されたコンテキスト圧縮
  • 長いセッションでの持続的な推論のためのメモリツール

結論

Claude Opus 4.5は、単なるモデルのアップデート以上のものを表しています — それは、効率と能力が共に進歩したときにAIが何を達成できるかを示す実証です。

開発者にとって、その意味は明らかです:

  1. コーディングおよび自動化タスクでのパフォーマンス向上
  2. トークン効率によるコスト削減
  3. コンピュータ操作とマルチエージェント調整による新しい可能性

情報源