週末は複数の重要な発表で締めくくられました:OpenAI の GPT-5.4 がネイティブの computer use を強化し OSWorld で 75% を達成、コンテキストウィンドウは 100万トークンに拡張、NotebookLM は Gemini を監督に据えた Cinematic Video Overviews を導入、Codex はネイティブのサンドボックス付きで Windows に対応しました。開発者向けツール面では、Anthropic が skill-creator を改良して Claude Code に HTTP hooks を導入し、GitHub は Pro ユーザー全員に対して Copilot Memory をデフォルトで有効化しました。
GPT-5.4 — ネイティブの computer use、1M トークン、tool search
2026年3月5日 — OpenAI はプロフェッショナルワーク向けのフロンティアモデル GPT-5.4 を公開しました。ChatGPT(GPT-5.4 Thinking の名前で)、API(識別子 gpt-5.4)、および Codex で利用可能なこのモデルは、推論、コーディング、エージェント的ワークフロー(agentic workflows)の能力を単一のアーキテクチャに統合しています。
技術的に最も注目すべきはネイティブの computer use 統合です:GPT-5.4 はサードパーティのプラグインを必要とせず、スクリーンショットやキーボード/マウスを通じて GUI を操作できます。実際のソフトウェアインターフェースとの相互作用を評価するベンチマーク OSWorld-Verified では、GPT-5.4 が 75.0 % を記録し、GPT-5.2 の 47.3 % を上回りました。コンテキストウィンドウは Codex と API で 100万トークン に拡張されています。
もう一つの注目点は tool search です:毎回利用可能なツール一覧を全て受け取る代わりに、モデルは軽量なツールリストを受け取り、必要に応じてツールを検索します。OpenAI の測定では、ツールを多数利用するワークフローにおけるトークン消費が 47 % 削減されました(Scale MCP Atlas でのテスト)。Codex の /fast モードは、同等の推論力で 1.5× の速度向上を示します。
ベンチマーク:
| 評価 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval(プロフェッショナル作業) | 83.0 % | 70.9 % | 70.9 % |
| SWE-Bench Pro | 57.7 % | 56.8 % | 55.6 % |
| OSWorld-Verified(computer use) | 75.0 % | 74.0 % | 47.3 % |
| BrowseComp(ウェブ検索) | 82.7 % | 77.3 % | 65.8 % |
| Toolathlon(ツール利用) | 54.6 % | 51.9 % | 46.3 % |
| ARC-AGI-2(抽象的推論) | 73.3 % | — | 52.9 % |
API 料金:
| モデル | 入力 | 出力 |
|---|---|---|
| gpt-5.2 | $1.75 / M tokens | $14 / M tokens |
| gpt-5.4 | $2.50 / M tokens | $15 / M tokens |
| gpt-5.2-pro | $21 / M tokens | $168 / M tokens |
| gpt-5.4-pro | $30 / M tokens | $180 / M tokens |
GPT-5.4 Thinking は本日から ChatGPT Plus、Team、Pro の加入者が利用可能です。GPT-5.2 Thinking は 2026年6月5日まで「Legacy Models」として残ります。安全性の観点では、OpenAI は GPT-5.4 を Preparedness Framework(準備フレームワーク)上で「High cyber capability」に分類しています。同時に、OpenAI は 13 のフロンティアモデルの chain-of-thought の制御可能性を測るオープンソース評価スイート CoT-Control を公開しました—スコアは低く(0.1 % から 15.4 %)、思考連鎖の監視が依然として有効なセーフティ手段であることを示しています。
NotebookLM — Cinematic Video Overviews
2026年3月4日 — NotebookLM は Studio に Cinematic Video Overviews を導入しました。これらの動画は、2024年に導入された Audio Overviews(ポッドキャスト形式)や標準的な動画テンプレートを超えるものです。
仕組み:Gemini が監督役を担います。モデルはユーザーのソースを分析し、最適なフォーマット(チュートリアル、ドキュメンタリー等)を決定し、視覚スタイルを選び、画像を生成し、自己批評して最終版を作成します。その結果、各ソースセットごとにユニークで没入感のあるパーソナライズされた動画が生成されます。
この機能は英語で、Google AI Ultra の加入者向けに 2026年3月4日から利用可能です。Ultra ユーザーへの全面展開は同日に確認されました。Pro 加入者向けのアクセスはロードマップに記載されていますが、具体的な時期は未定です。発表ツイートは300万ビューを記録しました。
OpenAI — Codex の Windows 対応、CoT-Control の研究
Windows 対応の Codex
2026年3月4日 — Codex アプリが Windows で利用可能になりました。ネイティブのエージェントサンドボックスを備え、PowerShell を通じた Windows 開発環境のサポートが追加されています。2 つの新しいスキルが利用可能です:Blazor、ASP.NET MVC、Razor Pages 向けの $aspnet-core、および WinUI 3 を使ったネイティブ Windows アプリ向けの $winui-app。
研究 — 思考連鎖の制御可能性
2026年3月5日 — OpenAI は「Reasoning models struggle to control their chains of thought, and that’s good(推論モデルは自分の思考連鎖を制御するのが難しいが、それは良いことだ)」を公開しました。オープンソースの評価スイート CoT-Control は 13 のフロンティアモデルの思考連鎖の制御可能性を測定します。スコアは 0.1 % から 15.4 % の範囲で、現在のモデルは監視システムを回避するように推論を意図的に変えることが難しいことを示しており、これはセキュリティ上は好ましい結果とされています。OpenAI は今後のモデルの system cards(システムカード)にこれらのメトリクスを含める予定です。
Anthropic — Skill-creator と HTTP hooks
Skill-creator の改善
2026年3月3日 — Anthropic は Claude Code と Claude.ai 向けの skill-creator ツールを大幅に更新しました。発表では 2 種類の正式な Agent Skills が導入されました:
| 種類 | 説明 | 耐久性 |
|---|---|---|
| Capability uplift | Claude がまだ得意でないことをできるように補助する | モデルが改善すると陳腐化する可能性あり |
| Encoded preference | チームのプロセスや好みをエンコードする | 永続的、実際のワークフローへの忠実度に依存 |
新機能には、スキルが期待通りの結果を出すか確認する evals(自動テスト)、成功率・時間・トークン消費を測るベンチマークモード、テスト間の汚染を防ぐマルチエージェントによる並列評価のサポートが含まれます。A/B 比較モードで 2 バージョンのスキルを比較することも可能です。skill-creator は Claude.ai および Cowork で利用可能で、Claude Code ではプラグインとしてインストールします。
🔗 skill-creator を改善する:Agent Skills のテスト、計測、改良
Claude Code の HTTP hooks
2026年3月4日 — Claude Code は既存のコマンドフック(command hooks)に代わる選択肢として HTTP hooks を公開しました。ローカルでシェルスクリプトを実行する代わりに、Claude Code はユーザーが選択した URL にイベントを送信して応答を待ちます。ユースケース:進捗を可視化するウェブアプリの構築、権限管理、複数の Claude Code インスタンス間での状態同期(データベース経由)など。HTTP hooks はプラグイン、カスタムエージェント、管理されたエンタープライズ設定で機能します。
Gemini CLI v0.32.0 — デフォルトで Generalist Agent
2026年3月3日 — Gemini CLI のバージョン 0.32.0 はデフォルトで Generalist Agent を有効にし、タスクの委譲とルーティングを改善します。アップデートには、workspace 内での Model Steering(モデル操作)の組み込み、Plan Mode の改良(外部エディタでのプランの開閉と編集、複雑なタスク向けのマルチ選択管理)、シェル内での対話型オートコンプリート、起動時パフォーマンス向上のための拡張の並列読み込みが含まれます。
GitHub Copilot — Memory をデフォルト有効に、モバイル通知、メトリクス
Copilot Memory をデフォルトで有効化
2026年3月4日 — GitHub は Pro と Pro+ プランの全ユーザーに対して Copilot Memory をデフォルトで有効化しました。以前はオプトインのプレビューだったこの機能は、リポジトリ単位で持続的な情報(コーディング規約、アーキテクチャパターン、重要な依存関係など)を Copilot が保持できるようにします。
メモリは厳密に単一リポジトリに限定され、適用前に現在のコードと照合されるため、古いコンテキストの利用を防ぎます。メモリは自動的に 28 日で期限切れになります。機能はコーディングエージェント、コードレビュー、Copilot CLI で有効で、エージェントが発見した知識は即座に他の機能でも利用可能になります。ユーザーは設定(Settings > Features > Copilot Memory)から Copilot Memory を無効にできます;Enterprise 管理者は完全な制御を保持します。
🔗 Copilot Memory を Pro / Pro+ ユーザーにデフォルトで有効化
GitHub Mobile のエージェント用ライブ通知
2026年3月4日 — GitHub Mobile に Copilot エージェントのセッションに関するリアルタイム通知が追加されました。開発者は、セッションが PC から開始されたか携帯から開始されたかに関わらず、エージェントの進行状況を追跡できます。
🔗 GitHub Mobile | 発表(X)
Copilot Free Auto に Grok Code Fast 1 を追加
2026年3月4日 — GitHub は xAI の Grok Code Fast 1 を Copilot Free のモデル自動選択(Auto)に追加しました。このモデルは Visual Studio Code、Visual Studio、JetBrains IDE、Xcode、Eclipse のチャットセッションで Copilot によって選択される可能性があります。
🔗 Grok Code Fast 1 が Copilot Free Auto に追加
ユーザーレベルの Copilot CLI メトリクス
2026年3月5日 — GitHub は Copilot の使用メトリクスに CLI のユーザーレベル活動を追加しました。この更新は先週のエンタープライズレベルのリリースに続くもので、管理者は CLI をアクティブに使っているユーザーの特定、リクエスト数とセッション数の確認、ユーザーごとのトークン消費の追跡が可能になりました。
🔗 Copilot の使用メトリクス — ユーザーレベルの CLI 活動
Perplexity — GPT-5.4 と Computer の Voice Mode
Perplexity で GPT-5.4 Thinking が利用可能に
2026年3月5日 — GPT-5.4 と GPT-5.4 Thinking が Perplexity 上で Pro と Max の加入者向けに利用可能になりました。Thinking バージョンは GPT-5.4 の拡張推論を有効にし、複雑な問いに対してより深い応答を提供します。
🔗 発表(X)
Perplexity Computer の Voice Mode
2026年3月4日 — Perplexity は Perplexity Computer に Voice Mode(音声モード)を導入しました。既にプロジェクトの検索、コーディング、デプロイが可能だったインターフェースは、音声による指示にも対応します。
🔗 発表(X)
Cohere × Aston Martin F1 — 複数年にわたるパートナーシップ
2026年3月4日 — Cohere は Aston Martin Aramco F1 チームとの複数年契約を発表しました。チームの各メンバーは企業向けモデルと Cohere のエージェント型 AI プラットフォーム(North)にアクセスでき、世界で最も厳しいデータ環境の一つで作業できます。Cohere のロゴは 2026 年オーストラリアGP からマシンに掲出されます。
Black Forest Labs — Self-Flow、マルチモーダル研究
2026年3月4日 — Black Forest Labs(FLUX の開発元)は research preview として Self-Flow を公開しました。このアプローチは外部モデルに依存せずに(表現学習を外部に頼らず)自己教師ありの flow matching により、画像・動画・音声・テキストを扱う生成モデルを訓練します。
提示された成果:クロスモーダル収束が最大 2.8× 高速化、動画の時間的一貫性の向上、タイポグラフィ表現の向上。デモには 6M 本の動画で訓練した 4B パラメータの動画モデル、2億枚の画像で訓練した 4B パラメータの画像モデル、音声と動画を統合したモデルが含まれます。BFL は Self-Flow を world models に向かう一つの道として位置づけています:“Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”
簡潔に
Runway は 3 月 3 日に 統合モデルハブ をローンチし、プラットフォーム内で画像・動画・音声・言語のサードパーティモデルへのアクセスを集中化しました。🔗 発表
Claude は 3 月 5 日に iOS App Store の 各国ランキングで 1 位 を 14 カ国同時に獲得しました — オーストラリア、オーストリア、ベルギー、カナダ、フランス、ドイツ、アイルランド、イタリア、ニュージーランド、ノルウェー、シンガポール、スイス、イギリス、アメリカ。🔗 Tweet
Manus は創立1周年を記念して 3 月 5 日に年次レターを公開し、ユーザーの声(母親、86 歳の言語学者、花屋)を紹介しました。🔗 レター
Grok は米 App Store で100 万件のレビューを突破しました。🔗 Tweet — @grok
意味するところ
GPT-5.4 は computer use が実験段階から汎用モデルに統合された機能へと移行したことを確認します。OSWorld-Verified の 75 % というスコアと、tool search によるトークン消費 47 % 削減は、エージェント型 AI が専門的なインフラなしに複雑なソフトウェアインターフェースを操作できるようになったことを示す具体的な指標です。
開発者ツールの面では、今週の動きは収束を示しています:Anthropic はエージェントスキルのテストと監視を改善し、GitHub はコーディングエージェント向けに持続的メモリを有効化し、Perplexity は Computer に音声インターフェースを追加しました。エージェント実行環境(agentic runtimes)はメモリ、可観測性(HTTP hooks、モバイル通知)、自然なインタラクション(音声)という層で強化されています。
NotebookLM の Cinematic Video Overviews は別の方向性を示しています:個人のソースから長尺の教育コンテンツを生成するという用途です。Gemini を監督として「分析→批評→再構成」するワークフローは、単なる生成アシスタントを超えた、制作のためのメタツールとしての AI 利用を示しています。
出典 - GPT-5.4 の紹介 | OpenAI
- X上の @OpenAI
- X上の @OpenAIDevs — Codex Windows
- Windows 向け Codex | OpenAI Developers
- 推論モデル CoT-Control | OpenAI
- X上の NotebookLM 発表
- skill-creator の改善 | Anthropic
- HTTP hooks Claude Code — @dickson_tsai
- App Storeで1位の Claude — @RyD0ne
- Gemini CLI の変更ログ
- Copilot Memory がデフォルトでオンに | GitHub
- GitHub Mobile のライブエージェント通知
- Copilot Free の自動選択で Grok Code Fast 1 が利用可能に | GitHub
- Copilot CLI メトリクスにユーザーレベルが追加 | GitHub
- Perplexity 上の GPT-5.4
- Perplexity Computer のボイスモード
- Cohere × Aston Martin F1
- BFL Self-Flow
- Runway Hub のマルチモデル
- Manus の1周年の手紙
- App Storeでの Grok の100万件レビュー
この文書はgpt-5-miniモデルを使用して、フランス語(fr)版から日本語(ja)に翻訳されました。翻訳プロセスの詳細については、https://gitlab.com/jls42/ai-powered-markdown-translatorをご覧ください。