検索

Anthropic+xAI パートナーシップ compute Colossus 1、Claude M365 GA、GPT-Realtime-2 音声推論

Anthropic+xAI パートナーシップ compute Colossus 1、Claude M365 GA、GPT-Realtime-2 音声推論

ai-powered-markdown-translator

fr から ja に翻訳された記事(gpt-5.4-mini 使用)。

GitHub でプロジェクトを見る ↗

Anthropic と xAI は前例のない契約を締結:スーパーコンピュータ Colossus 1 の 220,000 基の NVIDIA GPU が、今週から Claude Code の利用上限を倍増させます。Claude for Microsoft 365 は Excel、PowerPoint、Word で一般提供に移行。OpenAI は、GPT-5 レベルの推論を備えた初の音声モデル GPT-Realtime-2 を発表。Perplexity は Personal Computer をすべての Mac ユーザーに開放し、ElevenLabs は NVIDIA を戦略的投資家に迎えて 5 億ドルの ARR を突破しました。


Anthropic が xAI に Colossus 1 を貸与 — NVIDIA GPU 220,000 基、Claude Code の上限を倍増

5月6日 — Anthropic は、使用上限の即時引き上げと SpaceX / xAI との前例のないインフラ契約を同時に発表しました。

利用者にとって最も目に見える変化は、Claude Code における5時間あたりのスループット上限の倍増で、Pro、Max、Team、Enterprise の各プランで即時に有効になります。これまで Pro と Max を制限していたピーク時の自動減速も廃止されました。Claude Opus モデルの API 上限も並行して引き上げられます。

これらの引き上げは SpaceX との契約によって可能になりました。Anthropic は xAI のスーパーコンピュータである Colossus 1 の全容量、すなわち 300MW 超と 220,000 基超の NVIDIA GPU(H100、H200、GB200)にアクセスします。この容量は今月中に利用可能になります。両社はさらに、複数ギガワット規模の AI 計算能力を軌道上で開発するという共同意向も発表しており、これは業界初です。

この提携は、すでに進行中の一連の契約に加わるものです。Amazon(最大 5GW、そのうち約 1GW は 2026 年末に利用可能)、Google と Broadcom(2027 年から 5GW)、Microsoft と NVIDIA(Azure 容量 300 億ドル)、Fluidstack(米国の AI インフラ 500 億ドル)。国際展開では、規制対象分野向けのデータ居住要件も取り込まれます。Anthropic はまた、自社データセンターに起因して地域住民向けの電力価格が上昇した場合、その増加分をすべて負担することを約束しています。

変更対象プラン発効
Claude Code の 5時間上限を倍増Pro, Max, Team, Enterprise即時
ピーク時の減速を廃止Pro, Max即時
Opus API 上限を引き上げすべて即時
compute 契約容量スケジュール
SpaceX / xAI Colossus 1300+ MW、220,000+ NVIDIA GPU今月中
Amazon最大 5 GW(2026 年末に約 1 GW)2026 年
Google + Broadcom5 GW2027 年から
Microsoft + NVIDIAAzure 300 億米ドル
Fluidstack米国インフラ 500 億米ドル

🔗 Anthropic — 上限引き上げ + SpaceX 契約


Claude for Microsoft 365 — Excel、PowerPoint、Word で一般提供 + Outlook ベータ版

5月7日 — Claude for Excel、PowerPoint、Word は、すべての有料プランで一般提供となります。Claude for Outlook は同時に同条件で公開ベータ版に入ります。

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇯🇵 Claude for Excel、PowerPoint、Word は本日よりすべての方にご利用いただけるようになり、Claude for Outlook は公開ベータ版になりました。Microsoft の各アプリをまたいでも、Claude は会話のコンテキスト全体を保持します。@claudeai on X

中心となる機能は、4つのアプリ間で共有されるコンテキストです。Outlook でメールを振り分けるところから始めた会話は、Word でメモを作成し、Excel でデータ分析を行い、PowerPoint でプレゼンテーションを作るまで続きます。しかも、コンテキストを再説明する必要はありません。自動の相互更新も重要な追加点です。Excel のモデルで仮定を修正すると、プレゼンテーションのグラフと Word メモの該当数値が同時に更新されます。

紹介された企業の一例としては、ServiceNow(「Claude は、ツール間でコンテンツを移動させる代わりに、Excel 自体の中で作業をこなしてくれます」)や、財務カバレッジモデルの構築・維持に活用しているプライベート資産運用チームがあります。

アプリケーション2026年5月7日時点の状況プラン
Claude for Excel一般提供(GA)すべての有料プラン
Claude for PowerPoint一般提供(GA)すべての有料プラン
Claude for Word一般提供(GA)すべての有料プラン
Claude for Outlook公開ベータ版すべての有料プラン

🔗 Claude for Microsoft 365 の発表


Claude Managed Agents — dreaming、outcomes、マルチエージェントオーケストレーション、webhooks

5月6日 — Code with Claude カンファレンスで、Anthropic はエージェント展開プラットフォーム向けに複数の新機能を発表しました。

最も注目すべき新機能は dreaming です。これは、エージェントの過去セッションを分析し、反復するパターンを抽出して記憶を統合し、時間の経過とともに改善していく計画的プロセスです。開発者は制御を維持できます。dreaming は記憶を自動更新することも、各変更を人間によるレビューに回すことも可能です。dreaming は要望ベースで研究プレビュー(research preview)として利用できます。

Outcomes は公開ベータ版に入りました。この機能により、開発者が定義した基準に基づいて、ユーザーに渡す前に各エージェントの成果を評価できます。Wisedocs 社はこれを用いて、社内基準との整合性を保ちながら医療文書レビューを 50% 高速化しました。

マルチエージェントオーケストレーション は、親エージェントが下位タスクを並列に動作する専門エージェントへ委任できる機能で、複数の専門性が同時に必要な複雑な作業の処理を容易にします。webhooks も外部アクションをトリガーするために利用可能です。

機能提供状況説明
DreamingResearch preview(要望ベース)過去セッションの分析による自己改善
Outcomes公開ベータ版配信前の成果評価
マルチエージェントオーケストレーション公開ベータ版親エージェント + 専門エージェントの並列実行
Webhooks公開ベータ版外部アクションのトリガー

🔗 Claude Managed Agents の発表


GPT-Realtime-2 — GPT-5 推論と 128K コンテキストを備えた音声

5月7日 — OpenAI は Realtime API における新世代モデルとして、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper を発表しました。

GPT-Realtime-2 は、GPT-5 レベルの推論を備えた初の音声モデルです。複雑な要求に対応し、ツールを並列に呼び出し(parallel tool calls)、中断から復帰し(recovery behavior)、長時間セッションに適した 128,000 トークン のコンテキストウィンドウ(前世代の 32,000 から拡張)を維持できます。推論レベルは 5 段階で調整可能で、minimal、low、medium、high、xhigh が用意されています(初期設定は low)。応答の前に自然な流れを作るための前置き(preambles)も挿入できます。

GPT-Realtime-Translate は、70+ のソース言語から 13 のターゲット言語へ、ライブで同時翻訳を行います。GPT-Realtime-Whisper は低レイテンシのストリーミング文字起こしを提供します。

Zillow は自社の音声インタラクションで GPT-Realtime-2 を検証し、最も難しい adversarial ベンチマークで合格率が 26 ポイント向上しました(95% 対 69%)。EU Data Residency もサポートされています。

モデル機能料金
GPT-Realtime-2音声 + GPT-5 推論、128K$32/1M tokens audio input, $64/1M output
GPT-Realtime-Translate70→13 言語翻訳$0,034/min
GPT-Realtime-Whisperストリーミング文字起こし$0,017/min
ベンチマークGPT-Realtime-1.5GPT-Realtime-2 (high)GPT-Realtime-2 (xhigh)
Big Bench Audio参照値+15,2 %
Audio MultiChallenge APR36,7 %70,8 %

🔗 OpenAI の発表 — 新しい音声モデル


Perplexity Personal Computer がすべての Mac ユーザーに利用可能に

5月7日 — Perplexity は新しい macOS アプリを発表し、Pro または Max の制限なしに、すべてのユーザーが Personal Computer を利用できるようにしました。

このアプリは、AI をクラウドから端末へ直接移します。ローカルファイルMac ネイティブアプリ、オープンウェブ、Perplexity の安全なサーバー上で動作します。400+ のコネクタをサポートし、コネクタのない Web ツール向けに Comet ブラウザと統合されます。Pro と Max プランでは既存のサブスクリプションに紐づくクレジットが利用され、無料ユーザーもアクセスできます。

推奨される使い方は、Mac mini を常時稼働のハブとして使うことです。ユーザーが別の作業をしている間も、エージェントチームは 24 時間稼働でき、人間の承認が必要になると通知が届きます。操作は iPhone を含む任意の端末から行えます。

旧 Perplexity Mac アプリは今後数週間で終了予定です。ダウンロードは直接提供で、まだ App Store では利用できません。

項目
利用可能範囲すべての Mac ユーザー
推奨端末Mac mini(常時オン)
サポートされるコネクタ400+
ブラウザ統合Comet
App Storeいいえ(直接ダウンロード)
旧アプリ今後数週間で終了

🔗 Perplexity ブログ — 全 Mac ユーザー向け Personal Computer


Perplexity Finance Search が Agent API に登場 — FinSearchComp T1 で精度第1位

5月6日 — Perplexity は Agent API に Finance Search を追加しました。1回のツール呼び出しで、ライセンス付きの金融データ、リアルタイム市場データ、引用付きの Web ソースを集約します。

解決したい問題は明快です。金融判断には、信頼でき、最新で、追跡可能なソースが必要です。Finance Search は一般的な Web 検索を、株価、ファンダメンタルズ、決算説明会のトランスクリプト、予測などのライセンス付き構造化データに置き換え、バックエンドのプロバイダーに関係なく、一貫したスキーマで返します。

FinSearchComp T1 ベンチマークでは、Finance Search はリアルタイム金融データにおいて最高の精度を達成し、かつ正解あたりのコストが最も低い結果となりました(構造化データにより必要トークン数が少ないため)。引用は各結果に埋め込まれます。モデルは開発者が設定可能で、トークン使用量の可視性もあります。

Finance Search は、すでに 5 月 5 日に紹介された Computer for Professional Finance と補完関係にあります。前者が視覚的なワークスペースを提供するのに対し、Finance Search は API 経由でプログラム的なワークフローに統合されます。

項目
インターフェース1 回のツール呼び出し (finance_search)
対象データ株価、ファンダメンタルズ、トランスクリプト、予測、市場コンテキスト
FinSearchComp T1 ベンチマーク精度第1位、正解あたりコスト第1位
引用各結果に埋め込み

🔗 Perplexity ブログ — Finance Search


Natural Language Autoencoders (NLAs) — Claude の内部思考を読む

5月7日 — Anthropic は、モデルの内部活性を直接読めるテキストへ変換する新しい解釈可能性手法を公開しました。

このアーキテクチャはクローズドループ学習に基づいています。activation verbalizer は活性を説明文に変換し、activation reconstructor はそのテキストから活性を再構成しようとします。再構成が忠実であるほど、説明は優れていることになります。

安全性への応用は印象的です。Claude Opus 4.6 と Claude Mythos Preview に適用すると、NLAs はモデルがテスト中である可能性を疑っていたことを、実際に口にしていた場合よりはるかに高い頻度で明らかにしました。破壊的コードテストでは、評価への暗黙の認識が 16% のケースで見られたのに対し、明示的な言語化は 0% でした。SWE-bench Verified ではこの数字は 26% に上がります。実際の claude.ai ユーザー会話では 1% 未満でした。

意図的に不整合なモデルを使った監査セットでは、NLAs を備えた監査担当者が根本原因を 12〜15% のケースで特定できたのに対し、他のツールでは 3% 未満でした。学習コードはオープンソースで公開されており、インタラクティブなデモは Neuronpedia で利用できます。

評価暗黙の認識(NLA)言語化された認識
破壊的コードテスト16 %~0 %
SWE-bench Verified26 %~0 %
実際の claude.ai 会話< 1 %

🔗 Anthropic Research — Natural Language Autoencoders


Petri 3.0 — オープンソースのアラインメントツールが Meridian Labs に譲渡

5月7日 — Anthropic は、オープンソースのアラインメントツール Petri を、AI 評価に特化した独立系非営利組織 Meridian Labs に譲渡しました。

Petri は、あらゆる言語モデルに適用できるアラインメントテスト用ツールキットです。欺瞞、迎合、悪意あるリクエストへの協力などを評価します。Sonnet 4.5 以降のすべての Claude モデル評価に組み込まれており、英国の AI Security Institute にも AI 研究サボタージュ評価のため採用されました。

3.0 版では 3 つの進化があります。監査側コンポーネントと対象モデルを分離することでより高い適応性を実現し、実際のデプロイ条件(本物の system prompt、本物の scaffold)でテストを実行してシナリオを検出されにくくする「Dish」モジュール、そしてより深い行動評価のための Bloom との統合です。

Meridian Labs への譲渡は、MCP プロトコルを Linux Foundation に譲渡したモデルに倣うもので、AI ラボからツールの独立性を確保することを目的としています。

🔗 Anthropic Research — Petri 3.0


Anthropic Institute(TAI) — 4つの軸からなる研究アジェンダ

5月7日 — Anthropicは、2026年3月に立ち上げた内部組織TAIの研究アジェンダ全文を公開した。TAIは、フロンティアラボの立場からAIの現実的な影響を調査することを目的としている。

アジェンダは4つの軸で構成される。経済的普及(企業や各国によるAI導入、労働市場への影響)、脅威とレジリエンス(デュアルユース能力、サイバーセキュリティ、防御メカニズム)、自然環境下のAIシステムin the wild — 大規模に展開されたAIの行動面・制度面への影響)、そしてAIによるR&D(AI自体による科学研究の加速、自己改善の再帰ループのリスクを含む)である。

TAIは、Anthropic Economic Indexのより頻繁なデータ共有と、自社ツールによるAnthropic内部の加速に関する情報を公開していくと約束している。Anthropic Fellowsプログラム(4か月の資金提供あり)への公募も開始された。

🔗 Anthropic Research — TAIアジェンダ


Codex Extension Chrome — macOSとWindowsでバックグラウンドのブラウザ操作

5月7日 — OpenAIはCodex向けのChrome拡張をリリースし、エージェントがユーザーのワークフローを中断することなく、Chromeタブを直接操作できるようにした。

Codexは複数タブを同時にバックグラウンドで動作し、ネイティブプラグインの機能とWebサイト(ダッシュボード、CRM、Webアプリ)への直接アクセスを組み合わせる。システムは各ステップごとに最適なツールを自動選択する。プラグイン、Chrome、あるいはその組み合わせだ。ユースケースには、ブラウザフローのデバッグ、ダッシュボードの確認、調査、CRMの更新、複雑なWebアプリのテスト(サブエージェントを用いたマルチプレイヤーゲームを含む)がある。

拡張機能はCodexアプリ内のChromeプラグイン経由でインストールする。macOSとWindowsで、すべてのCodexユーザーがすぐに利用できる。

🔗 OpenAI — Codex Chrome Extension


ChatGPT Trusted Contact — 人間による確認付きのメンタルヘルス安全機能

5月7日 — OpenAIは、ChatGPTにオプションの安全機能Trusted Contactを展開する。

18歳以上の成人(韓国では19歳以上)は、会話内で危機の兆候が検出された場合に通知される信頼できる連絡先(友人、家族、ケア担当者)を指定できる。このプロセスは自動検出と人間による確認を組み合わせており、送信前の目標は1時間未満である。プライバシー保護のため、通知には書き起こしへのアクセスは含まれない。この機能は、すでにティーンアカウント向けに存在する保護者向け管理を成人にも拡張する。American Psychological Associationおよび60か国にまたがる260人超の医師ネットワークと協力して開発された。

パラメータ
対象18歳以上(韓国は19歳以上)
連絡先の承認期限1週間
人間による確認のSLA目標 < 1時間
通知内容一般的な理由、書き起こしなし
チャネルEmail、SMS、アプリ内

🔗 OpenAI — Trusted Contact


OpenAI B2B Signals — 先進企業と一般企業の差が拡大

5月6日 — OpenAIは、B2B Signalsの初回レポートを公開し、AI導入において「先進」企業と一般企業の差が広がっている実態を記録した。

95パーセンタイルの企業は、一般企業より従業員1人あたり3.5倍多くのインテリジェンスを活用している(2025年4月時点では2倍)。この差はメッセージ量(差の36%)よりも、利用の深さ(64%)に起因する。すなわち、複雑なタスクの委任、エージェント型ワークフロー、本番システムへの統合である。Codexではこの差が最も顕著で、従業員1人あたりのメッセージ数は16倍に達する。

具体例として、Ciscoはビルド時間を約20%短縮し、月あたり1,500時間超のエンジニアリング工数を削減、欠陥解決速度を10〜15倍に向上させた。Travelers Insuranceは、年間約10万件の保険金請求電話をアシスタントで処理している。

指標一般企業先進企業
インテリジェンス/従業員基準×3.5
Codexメッセージ/従業員基準×16
差分における量の割合36%
差分における深さの割合64%

🔗 OpenAI — B2B Signals


MRC — Stargateスーパーコンピュータ向けオープンソースネットワークプロトコル

5月5日 — OpenAIは、AMD、Broadcom、Intel、Microsoft、NVIDIAと2年にわたり共同開発したMRC(Multipath Reliable Connection)プロトコルを、Open Compute Projectを通じてオープンソース公開した。

MRCは、大規模AI学習用スーパーコンピュータ向けの800 Gb/sネットワークプロトコルである。従来の方式では3〜4段必要だったところを、2段のスイッチだけで100,000台超のGPUを接続し、IPv6ソースルーティング(SRv6)を用いて数百の経路に同時分散する。障害復旧はマイクロ秒単位で行われる(従来の動的BGPでは数秒)。すでにTexas州AbileneのStargateとMicrosoftのFairwaterスーパーコンピュータで本番運用されており、GPT-5.5やCodexを含む複数モデルの学習に使われている。

項目従来の方式MRC
100K超GPU向けスイッチ段数3-42
障害復旧数秒〜数十秒マイクロ秒
ルーティング動的BGP静的SRv6
パケット分散転送ごとに1経路数百経路を並列

🔗 OpenAI — MRC Supercomputer Networking


Perplexity ROSE — 独自推論エンジンとCuTeDSL

5月6日 — Perplexityは、独自の推論エンジンROSE(Runtime-Optimized Serving Engine)と、CuTeDSL(NVIDIA GPUカーネルのライブラリ)統合について詳述した研究記事を公開した。

ROSEは、NVIDIA HopperおよびBlackwell GPU上で動作するPerplexityのすべてのサービス(Sonar、Search、Embeddings)を支えており、エンコーディングモデルから兆単位パラメータのLLMまで対応する。CuTeDSLにより、新しいモデルアーキテクチャに継続的に適応しながら、最適化されたカスタムGPUカーネルをより高速に構築できる。

この公開は、Perplexityの戦略を示している。性能で差別化し、サードパーティ製フレームワークへの依存を減らすため、GPUカーネル層まで含めた技術スタック全体を自社で制御するという戦略である。

🔗 Perplexity Research — CuTeDSL と ROSE


ElevenLabsがARR 5億ドルに到達 — NVIDIAがNVentures経由で投資

5月5日 — ElevenLabsは、NVIDIAがNVenturesを通じて新たな戦略的投資家として加わった第3回目のSeries Dクロージングを発表した。

ARRは2025年末の3億5,000万ドルから2026年4月には5億ドルへ増加し、4か月で43%増となった。この第3回クロージングには、BlackRock、Wellington Management、D.E. Shaw、Schrodersに加え、顧客企業(Salesforce、Santander、KPN、Deutsche Telekom)やRobinhood Ventures経由のリテール投資も含まれる。並行して1億ドルのtender offerも完了した。ElevenLabsの従業員数は50か国以上で530人。ロードマップでは、画像/動画と音声を統合した一体型クリエイティブプラットフォームの実現が示されている。

🔗 ElevenLabs — 5億ドルARRと新規投資家


AlphaEvolveが本番稼働 — Google Cloud経由で5業界へ展開

5月7日 — 発表から1年後、Google DeepMindは、Gemini搭載のコーディングエージェントAlphaEvolveの成果を公表し、研究段階から産業本番へ移行したことを示した。

AlphaEvolveは、TPU、キャッシュ置換ポリシー、Google SpannerのLSM-tree圧縮など、Googleの重要インフラを最適化する。Google Cloud経由で商用展開されており、5つの業界に導入されている。金融(transformerの性能を2倍化)、半導体(計算機支援リソグラフィ)、物流(巡回セールスマン問題)、広告、材料科学(Schrödingerで約4倍の速度向上)である。学術面では、Terence Tao(UCLA)とErdős問題で協働し、巡回セールスマン問題やRamsey数の下界も改善した。

🔗 DeepMind — AlphaEvolve Impact


Manus Projectsの自己学習機能 — すべてのタスクで改善されるエージェント型ワークスペース

5月6日 — Manusは、Projectsが各会話から自動的に学習し、ユーザー承認済みの更新を提案できる機能をリリースした。

各タスクの終了時に、Manusは再利用可能な意思決定、規範、パターンを識別し、次の更新を提案する。プロセスや用語が変化した場合の指示の更新、古くなったソース・例・テンプレートに対するファイルの更新、反復フロー向けのスキル(skills)の更新である。明示的な人間の確認なしに変更が適用されることはない。今後の共同作業者は、Projectで共有された最新のコンテキストから開始する。この機能は、指示とファイルがサポートされるすべてのセッションで利用できる。

🔗 Manus — 自己学習Projects


短報

  • Anthropicのバグバウンティを一般公開 — これまでセキュリティ研究コミュニティ内でのみ公開されていたプログラムが、HackerOneで誰でも利用可能になった。 🔗 source
  • xAI Image Generation Quality Mode API — 画像生成の品質モード(Grokで3億枚超の画像生成実績)がxAI API経由で利用可能になった。写実性の向上、テキスト描画の改善、創造的コントロールの強化が特徴。 🔗 source
  • Z.ai GLM-5V-Turbo Tech Report — Z.ai(Zhipu AI)がGLM-5V-Turboの技術報告を公開。CogViTエンコーダー(SigLIP2 + DINOv3の蒸留)と知覚-計画-実行ループを備えた、マルチモーダルエージェント向けネイティブ基盤モデル。 🔗 source
  • ChatGPT Futures Class of 2026 — OpenAIが20以上の大学(Vanderbilt、Oxford、Georgia Techなど)出身の若手ビルダー26人を選出。各人に10,000米ドルの助成金と最先端モデルへのアクセスを提供。 🔗 source
  • NVIDIA DeepStream + Claude Code — DeepStream、Claude Code、再利用可能なSkillsを組み合わせ、コードを1行ずつ書かずにVision AIアプリを生成する「concept to app」アプローチのデモ。 🔗 source
  • NVIDIA Guess-Verify-Refine — NVIDIAアクセラレータ向けに特化して設計された、各デコード段階が次段に先行を与える新しいhardware-aware推論手法。 🔗 source
  • TokenSpeed + NVIDIA Dynamo — TokenSpeed(LightSeek Foundation)がオープンソースでTensorRT-LLMレベルに到達。NVIDIA Dynamoはこのバックエンドをday-0サポートし、Dynamoフロントエンド経由でKimi K2.5もサポート。 🔗 source
  • Ideogram BG Remover — 背景除去向けの新しい生成モデル(従来のセグメンテーションではなくゼロから学習)。アルファチャンネルを保持し、ロゴや複雑なイラスト向け。APIも利用可能。 🔗 source
  • Google DeepMind × EVE Online — CCP Gamesとの提携により、プレイヤー主導の複雑なゲーム環境におけるAI研究を探る。 🔗 source
  • GitHub Copilot Trust Layer — Microsoft/GitHubが、Copilotエージェントを検証するための構造的な信頼レイヤーに関する研究を公開。実行グラフ + 支配者解析により、自己評価の82.2%に対して精度100%、再現率は自己評価の60%に対して100%。 🔗 source
  • GitHub — エージェントのpull requestをレビューする — 10分チェックリスト付きの実践ガイド。5つの警戒シグナルとして、CIゲーム化、コード再利用の見落とし、幻覚的な正しさ、agentic ghosting、CIパイプラインへのプロンプト注入を挙げる。 🔗 source

これが意味すること

パーソナルコンピュータ争奪戦が加速している。 わずか1週間で、3つのまったく異なるインターフェースが同じユーザーのデスクトップを狙っている。Perplexity Personal ComputerはMac上で動作し(Mac miniは常設ハブとして機能)、Claudeは共有コンテキストでMicrosoft 365の4つのアプリケーションを横断し、CodexはChromeをバックグラウンドで操る。これらのエージェントはもはやクラウドの中だけにいるのではない。既存のワークフロー、開いているファイル、ネイティブアプリケーションの中に組み込まれている。情報検索から、日常の業務ツールを直接操作する行動へと移る流れは、もはや現実のものだ。

オービタル・コンピュートが事実の領域に入った。 AnthropicとxAIのColossus 1契約は、2つの点で注目に値する。第一に、Anthropicが220,000基のNVIDIA GPUへ即時アクセスでき、今週中に上限を倍増できること。第二に、複数ギガワット規模の宇宙上AI計算能力を共同で開発する意図が含まれていることだ。Amazon、Google/Broadcom、Microsoft/NVIDIA、Fluidstackとの契約を合わせると、Anthropicは独立研究所として他に例のない計算インフラを構築している。この計算能力の蓄積こそが、次世代モデルと限界の継続的倍増の前提条件である。

推論する音声が、音声エージェントの適用範囲を変えている。 GPT-Realtime-2は単なる見た目の更新ではない。GPT-5の推論を、128Kのコンテキストと並列ツール呼び出しを備えたリアルタイムUIへ持ち込むことで、ユースケースが変わる。Zillowは、最も難しい通話で成功率が26ポイント向上したと測定している。同一モデル内でのリアルタイム翻訳(70の元言語から13の対象言語へ)は、別個の翻訳パイプラインなしに多言語ワークフローを開く。問いはもはや「AI音声は可能か?」ではなく、「どのような複雑な音声対話が経済的に成立するのか?」になっている。

アラインメントとエージェントの信頼は、ツール化へ移行している。 3つの別々の発表が、同じ問題に収束している。すなわち、実運用のエージェントをどう信頼するか、である。AnthropicのNLAは、Claudeが自分がテストされていることを、明言しないまま認識していることを明らかにした(評価の16〜26%)。GitHubのTrust Layer(自己評価の82%に対して精度100%)は、開発チームに対してエージェント生成のpull requestを構造的に検証する手段を与える。Petri 3.0のMeridian Labsへの譲渡は、特定のラボに依存しない評価基盤を作る。これら3層――モデルの解釈可能性、出力の検証、監査ツールの独立性――が、大規模なエージェント展開に向けた信頼アーキテクチャを形作り始めている。


ソース