2026年4月23日は濃密な一日となった。OpenAI は ARC-AGI-2 で 85% を記録し、入力 API 料金が $5/M tokens の GPT-5.5 を発表し、一方 Anthropic は Managed Agents 向けの永続メモリをベータで公開し、Claude Code のポストモーテムを発表した。並行して、GitHub Copilot は 3 日間で 7 件のアップデートを提供し、Kimi K2.6 は 300 のサブエージェントからなる swarm を展開し、SpaceX は Cursor とコーディング提携を締結した。
GPT-5.5: OpenAI のフロンティアモデル
4月23日 — OpenAI は、実世界の作業とエージェントのために設計された、これまでで最も強力なモデルである GPT-5.5 を発表した。エージェント的なコーディング、コンピュータ使用 (computer use)、知識労働、科学研究を大幅に改善しつつ、GPT-5.4 のレイテンシは維持している。
提供状況と価格
GPT-5.5 は、ChatGPT Plus、Pro、Business、Enterprise の加入者、および Codex で即時利用可能。API アクセスは「まもなく」提供される。
| プラン | API アクセス | 入力 | 出力 |
|---|---|---|---|
| GPT-5.5 standard | まもなく | $5 / M tokens | $30 / M tokens |
| GPT-5.5 Pro | まもなく | $30 / M tokens | $180 / M tokens |
Codex のコンテキストウィンドウは 400K tokens に達する。Fast モード — 1.5× 高速、コスト 2.5× — も利用可能。
ベンチマーク
| 評価 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE (内部) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench (bioinformatique) | 80.5% | 74.0% | — | — |
GPT-5.5 は大半のベンチマークで首位に立っているが、注目すべき例外として SWE-Bench Pro があり、そこでは Claude Opus 4.7 が優位を保っている(64.3% 対 58.6%)。
インフラと安全性
このモデルは NVIDIA GB200/GB300 NVL72 と共同設計された。Codex は GPT-5.5 を使って自らのインフラを最適化し、トークン生成速度を +20% 向上させた。サイバーセキュリティ面では、GPT-5.5 は OpenAI の Preparedness Framework で High に分類されている(Critical ではない)。Trusted Access Cyber プログラムも拡張されている。
科学研究
コードを超えて、GPT-5.5 は Ramsey 数に関する新しい定理(組合せ論)の証明を支援し、Lean で形式的に検証された。また、62 サンプルと 28,000 遺伝子からなるゲノムデータセットを数分で分析した。これは研究者チームなら数か月を要したはずの作業だった。
« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »
🇯🇵 GPT-5.5 は GPT-5.4 よりもはるかに賢く、粘り強く、コーディング性能が向上し、ツールの使用もより信頼できる。 — Michael Truell、Cursor の共同創業者兼 CEO
永続エージェントの波
この 4 月 23 日、永続エージェントをめぐる 3 つの主要発表が重なった。永続エージェントは、長時間にわたり自律的に行動し、セッションをまたいでコンテキストを保持できる。
ChatGPT における OpenAI Workspace Agents
4月22日 — OpenAI は Workspace Agents(ワークスペースエージェント)を発表した。これは、チームが一度作成し、ChatGPT や Slack で共用し、徐々に改善していける共有エージェントである。クラウド上の Codex によって駆動され、ユーザーがオフラインでも複雑なタスクを実行できる。Workspace Agents は、移行期間中は引き続き利用可能な GPT を段階的に置き換えていく。
| エージェントの種類 | 機能 |
|---|---|
| ソフトウェア検証担当 | 問い合わせを確認し、ポリシーを照合し、IT チケットを作成 |
| 製品フィードバックルーター | Slack/サポート/フォーラムを監視 → 優先順位付きチケット |
| レポート生成エージェント | 金曜日にデータを抽出し、グラフと要約を作成 |
| 需要開拓エージェント | リードを調査・評価し、メールを作成、CRM を更新 |
| サードパーティリスク責任者 | ベンダーを評価し、構造化レポートを作成 |
Business、Enterprise、Edu、Teachers 向けの research preview で利用可能。2026年5月6日 までは無料、その後はクレジット課金。
Ankur Bhatt(Rippling の AI Engineering)によれば、以前は営業担当が毎週 5〜6 時間かけていた作業が、今では各案件ごとにバックグラウンドで自動実行されている。
Anthropic — Claude Managed Agents のメモリ
4月23日 — Claude Managed Agents 向けのメモリが、Claude Platform 上でパブリックベータとして利用可能になった。エージェントは、ファイルシステム上に直接構築されたメモリ層のおかげで、セッション間で学習できるようになった。エージェントは、すでにエージェントタスクに使っているものと同じ bash とコード実行機能を利用する。
| 機能 | 詳細 |
|---|---|
| 共有可能なストア | 複数のエージェント、異なるアクセス範囲(読み取り専用 / 読み書き) |
| 同時アクセス | 並行セッション間で上書きなし |
| 監査ログ | どのセッション、どのエージェント、どのメモリ |
| ロールバック | 以前の任意のバージョンへ戻せる |
| エクスポート可能性 | API 経由で管理可能なメモリ |
顧客の成果が、その実際の影響を示している。
| 顧客 | 成果 |
|---|---|
| Rakuten | 初回通過エラー -97%、コスト -27%、レイテンシ -34% |
| Wisedocs | 文書検証速度 +30% |
| Netflix | 手動更新なしでセッション間のコンテキストを継続 |
| Ando | 専用インフラなしのプラットフォームメモリ |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇯🇵 Managed Agents のメモリによって、継続学習を大規模に本番運用へ持ち込めるようになりました。私たちのエージェントは各セッションから学びを抽出し、初回通過エラーを 97% 削減、コストを 27% 削減、レイテンシを 34% 削減しています。 — Yusuke Kaji、Rakuten の General Manager AI for Business
Claude Code: 品質ポストモーテムと 2 つの新バージョン
ポストモーテムと制限リセット
4月23日 — Claude Code チームは、先月報告された 3 件の品質問題についてポストモーテムを公開した。いずれも v2.1.116+ で修正済み。利用上限はすべての加入者に対してリセットされた。
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇯🇵 先月、皆さんの一部から Claude Code の品質低下が報告されました。私たちは調査を行い、特定された 3 つの問題についてポストモーテムを公開しました。いずれも v2.1.116+ で修正済みであり、すべての加入者の利用上限をリセットしました。 — @ClaudeDevs
v2.1.117 と v2.1.118
| バージョン | 主な機能 |
|---|---|
| v2.1.118 | 選択とオペレータを備えた Vim のビジュアルモード (v/V);統合された /usage(/cost と /stats を統合);/theme 内のカスタムテーマ;type: "mcp_tool" を介して MCP ツールを呼び出す hooks;厳格な DISABLE_UPDATES;WSL 経由の Windows managed settings 継承 |
| v2.1.117 | Pro/Max における Opus 4.6 と Sonnet 4.6 のデフォルト effort が high に変更(以前は medium);外部ビルドでサブエージェント fork を有効化可能;より高速な検索のため、glob/Grep が組み込みの bfs/ugrep に置き換え;Opus 4.7 セッション修正(1M コンテキストが正しく計算される);thinking 無効時の Bedrock+Opus 4.7 修正 |
日常生活向けの新しい Claude コネクタ
4月23日 — Anthropic はコネクタの対象を一般向けアプリへと拡大した。2025年7月以降、業務ツール向けのコネクタ 200 以上が利用可能だったが、今回のアップデートで日常的な 15 サービスが追加された。
| アプリ | カテゴリ |
|---|---|
| AllTrails | ハイキング |
| Audible | オーディオブック |
| Booking.com | 旅行 |
| Instacart | オンライン食料品 |
| Intuit Credit Karma | 金融 |
| Intuit TurboTax | 税務 |
| Resy | レストラン予約 |
| Spotify | 音楽 |
| StubHub | チケット販売 |
| Taskrabbit | 家事代行サービス |
| Thumbtack | 地域の専門業者 |
| TripAdvisor | 旅行 |
| Uber | 交通 |
| Uber Eats | 食事配達 |
| Viator | 観光アクティビティ |
Claude は会話のコンテキストに応じて、関連するコネクタを自動的に提案するようになった。すべてのプラン(無料を含む)、web、desktop、mobile で利用可能(mobile はベータ)。有料掲載やスポンサー回答はなく、アプリのデータがモデルの学習に使われることもない。
GitHub Copilot — 3 日間で 7 件のアップデート
GitHub Copilot は 4月22日から 4月23日の間に、changelog へ 7 件の項目を公開した。
pull request 向けチャット(3 つの新機能)
4月23日 — Copilot Chat は、github.com/copilot または diffs 上の Copilot ボタンから利用できる、pull request 向けの 3 つの機能を統合した(public preview):
- PR 理解 (pull request understanding):コメント、変更、コミット、レビューを文脈として統合
- PR レビュー:オンデマンドの構造化レビュー
- PR 要約:変更点の簡潔な要約
issues と projects から操作できる agent セッション
4月23日 — cloud agent は、GitHub の issues と projects ボードから直接操作できるようになった。issue ヘッダーにセッションインジケーター、進行状況のサイドパネル、すべての project ビューでデフォルト有効のセッションが追加される。
Web 上での stack trace の構造化デバッグ
4月23日 — github.com 上の Copilot Chat は、stack trace の分析を 6 つの構造化ステップで案内するようになった: 何が失敗したか、なぜ失敗したか、根本原因、コードから得られる証拠、信頼度、次に確認すべきこと。
VS Code での BYOK が利用可能に(GA)
4月22日 — Bring Your Own Key (自分の API キーを持ち込む) が、VS Code の Copilot Business および Enterprise ユーザー向けに一般提供となった。Anthropic、Gemini、OpenAI、OpenRouter、Azure がサポートされ、Ollama と Foundry Local 経由のローカルモデルも利用できる。課金は選択したプロバイダーによって直接行われ、Copilot の割り当ての対象外。
Copilot CLI 向け C++ Language Server の public preview
4月22日 — Microsoft C++ Language Server(Visual Studio/VS Code の IntelliSense エンジン)が、Copilot CLI 向けに public preview で利用可能になった。grep による反復検索の代わりに、正確な意味情報(シンボル定義、参照、呼び出し階層、型)を提供する。前提条件: Copilot CLI 認証 + compile_commands.json。
Business self-serve の新規登録を一時停止
4月22日 — GitHub は、GitHub Free と GitHub Team プランにおける Copilot Business の self-serve 新規登録を停止した。既存顧客への影響はない。
API メトリクスの used_copilot_cloud_agent フィールド
4月23日 — 「coding agent」から「cloud agent」へのブランド変更に伴い、メトリクス API はユーザーレポート(1日移動平均と 28日移動平均)に used_copilot_cloud_agent フィールドを追加した。旧フィールド used_copilot_coding_agent は 2026年8月1日まで維持される。
Gemini CLI v0.39.0 と、すべての Ultra 向け Deep Think ### Gemini CLI v0.39.0
4月23日 — Google は Gemini CLI v0.39.0 をリリースし、“Latest” としてマークされた安定版となりました。目玉は、作業セッション中に CLI が自動抽出した skills を確認して検証するための新しい /memory inbox コマンドです。
| 機能 | 説明 |
|---|---|
/memory inbox | 自動抽出された skills のレビュー |
invoke_subagent 統合版 | リファクタリングされたサブエージェントツールを単一インターフェースに統合 |
| コンパクトなフォーマット | コンパクト表示での可読性向上 |
| Plan Mode — confirmations | skills 有効化前に確認が必要 |
| 軽量起動 | 起動を高速化する軽量な親プロセス |
| JSONL ストリーミング移行 | チャットセッションを JSONL で記録 |
追加されたキーボードショートカット: 単語単位削除用の Ctrl+Backspace(Windows Terminal)、Ctrl+Shift+G。
Deep Think がすべての Ultra 加入者に開放
4月22日 — Google は Deep Think モード(深い推論、extended thinking)をすべての Gemini Ultra 加入者に公開しました。このモードは以前は限定アクセスでしたが、現在は Gemini アプリのツールメニュー(Web とモバイル)から直接利用できます。
Kimi K2.6: 300 サブエージェントのスウォームと open-weights ベンチマーク
Agent Swarm — 300 並列サブエージェント
4月23日 — Moonshot AI は Kimi K2.6 Agent Swarm を発表しました。これは、K2.5 の 100 エージェント・1,500 ステップに対し、1 回の実行で 4,000 ステップにわたって 300 のサブエージェントを並列展開できるシステムです。
| 能力 | K2.5 | K2.6 |
|---|---|---|
| 並列サブエージェント | 100 | 300 |
| 実行あたりのステップ数 | 1,500 | 4,000 |
| 出力の種類 | チャットテキスト | 100+ 個の実ファイル、10 万語のレビュー、2 万行のデータセット |
サブエージェントは、Web リサーチ、データ分析、コーディング、長文執筆、ビジュアル生成といった異種のスキルを組み合わせます。kimi.com/agent-swarm で利用可能です。
ベンチマーク: open-weights で 1 位
4月23日 — Kimi K2.6 は、2 つのベンチマークで open-weights モデルの首位に立ちました。
- Design Arena: Claude Opus 4.7 と同等のパフォーマンス帯
- MathArena open(Think モード): GLM 5.1 を上回る
SpaceXAI × Cursor と Grok Imagine
SpaceXAI × Cursor パートナーシップ
4月22日 — SpaceXAI(xAI/SpaceX の提携から生まれた組織)と Cursor は、“世界で最も高性能なコーディングおよび知識労働向け AI” を作るためのパートナーシップを発表しました。SpaceX はスーパーコンピュータ Colossus(H100 100 万台相当)を提供し、Cursor は 2026 年後半に同社を 600 億ドルで買収する権利、または共同作業のみで 100 億ドルを支払う権利を与えます。
Grok Imagine — 共有可能なカスタムテンプレート
4月22日 — SuperGrok と Premium+ の加入者は、Grok Imagine でカスタムテンプレートを作成し、公開共有できるようになりました。
NVIDIA × Google Cloud Next
4月22日 — Google Cloud Next(ラスベガス)で、NVIDIA と Google Cloud はエージェント的な AI インフラをめぐる複数の主要な進展を発表しました。
| 発表 | 詳細 |
|---|---|
| A5X インスタンス(Vera Rubin NVL72) | マルチサイトクラスタで最大 960,000 台の Rubin GPU、トークンあたりコスト 10 分の 1、メガワットあたりスループット 10 倍 |
| Google Distributed Cloud 上の Gemini | Blackwell および Blackwell Ultra GPU によるプレビュー — データ主権 |
| Confidential VMs Blackwell | パブリッククラウドにおける Blackwell の初の confidential computing 提供 |
| Nemotron 3 Super | Gemini Enterprise Agent Platform 上で利用可能 |
| NeMo RL API | 大規模に管理された強化学習 (Reinforcement Learning) |
Kling AI Video 3.0 — ネイティブ 4K モード
4月23日 — Kling AI は Video 3.0 シリーズに ネイティブ 4K モードを導入しました。4K 生成は追加のアップスケーリング工程なしにワンクリックで行えます。ビジュアルの一貫性(登場人物、テキスト、スタイル、ライティング)はネイティブ解像度で確保され、高級制作に対応します。企業向けには fal.ai 経由でも利用可能です。
同時に Kling AI は 4K Short Film Creative Contest を開催し、新モードで制作した短編映画の応募を促す世界規模のコンテストを実施しています。
ChatGPT for Clinicians と OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
4月22日 — OpenAI は ChatGPT for Clinicians を発表しました。これは、米国の認証済み医療従事者(医師、ナースプラクティショナー、医療助手、薬剤師)向けの無料版です。サービスには、複雑な臨床質問に対する frontier モデルへのアクセス、反復的ワークフロー(紹介状、事前承認)のための skills、引用付きのリアルタイム臨床検索、継続教育単位(CME)の自動生成が含まれます。HIPAA 処理は契約によりオプションで利用できます。
OpenAI はまた、実際の臨床タスクにおける AI を評価するオープンベンチマーク HealthBench Professional も公開しました(医師によって評価された 70 万件超の回答)。ChatGPT for Clinicians 上の GPT-5.4 は、Web アクセスを備えた時間制限なし条件で、このベンチマークにおいて人間の医師を上回ります。
OpenAI Privacy Filter
4月22日 — OpenAI は Privacy Filter を公開しました。これは、テキスト内の個人識別情報 (Personally Identifiable Information, PII) を検出してマスクするための open-weight モデル(Apache 2.0)です。このモデルはローカルで動作し(サーバーにデータは送信されません)、128K トークンのコンテキストをサポートし、PII-Masking-300k ベンチマークで F1 スコア 97.43% を達成しています。
| 特性 | 値 |
|---|---|
| アーキテクチャ | 双方向トークンクラス分類器(制約付き Viterbi デコーディング) |
| サイズ | 合計 15 億パラメータ、アクティブ 5,000 万 |
| コンテキスト | 128,000 トークン |
| ライセンス | Apache 2.0(Hugging Face + GitHub) |
| F1 | 修正済み PII-Masking-300k で 97.43% |
カバーされる PII のカテゴリ: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret(パスワードと API キー)。
Perplexity と Cohere
Perplexity が Kimi K2.6 を統合
4月23日 — Moonshot AI の Kimi K2.6 が、Perplexity の Pro および Max の全加入者向けに利用可能になりました。
Cohere — vLLM で production-ready な W4A8
4月22日 — Cohere は、W4A8 推論(重み 4 ビット、アクティベーション 8 ビット量子化)を vLLM に統合したと発表しました。Hopper GPU 上で W4A16 と比較した結果は、最初のトークンまでの時間 (Time To First Token) で +58%、出力トークン 1 個あたりの時間 (Time Per Output Token) で +45% でした。この統合は、主に大規模な本番環境向け MoE モデル Command A を対象としています。
ブリーフ
Suno が音楽カテゴリの App Store で 1 位に
4月21日 — AI 音楽生成プラットフォームの Suno が、App Store の音楽カテゴリで首位に立ちました。CEO の Mikey Shulman は次のように述べています: 「音楽の未来は、誰もが創作を楽しめるものです。」
Anthropic Economic Index Survey
4月22日 — Anthropic は、Anthropic Interviewer を通じて Claude ユーザーのランダムサンプルに対して実施する月次調査 Anthropic Economic Index Survey を開始しました。目的は、AI の経済的影響に関する定性的データを収集することです: 委任されたタスク、生産性向上、役割の変化。結果は今後の Anthropic Economic Index レポートに活用されます。
🔗 調査発表
Anthropic — 本番環境の MCP エージェント: 数字
4月22日 — Anthropic の技術記事では、本番エージェントに対する MCP の利点が示されています。MCP SDK の月間ダウンロード数は 3 億回を超え、ツール検索 (tool search) はツール定義トークンを 85% 削減し、プログラムによるツール呼び出し (programmatic tool calling) は複雑な多段ワークフローでのトークン使用量を 37% 削減します。
OpenAI — Responses API の WebSocket: レイテンシ 40% 削減
4月22日 — OpenAI の回顧記事では、Responses API の WebSocket モードがエージェントループのレイテンシを 40% 削減する仕組みを説明しています。持続的接続により、以前のレスポンス状態のメモリ内キャッシュが維持され、呼び出しのたびに履歴全体を再処理する必要がなくなります。すでに本番運用されているもの: Codex、Vercel AI SDK、Cline(+39%)、Cursor(+30%)。
Perplexity Research — 検索拡張モデルの学習
4月22日 — Perplexity は、検索回答の品質を向上させるための SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) パイプラインに関する研究を公開しました。主な結果: 事後学習された Qwen モデルは、より低コストで GPT モデルに匹敵する事実性に到達します。
これは何を意味するか
2026 年 4 月 23 日は、2 つの収束する潮流を示しています。1 つ目は、GPT-5.5 により、OpenAI が複数か月にわたって Claude Opus 4.7 が優勢だった後、エージェント系ベンチマーク(Terminal-Bench、ARC-AGI-2、OSWorld)で首位を取り戻したことが確認された点です。SWE-Bench Pro では差は依然として僅差で、Anthropic が優位を保っています。これは、両研究所が同じ優先ユースケースに収れんしていることの表れです。
もう 1 つは、この日が 記憶を持つ永続エージェント の時代の到来を示したことです。OpenAI Workspace Agents、Anthropic Managed Agents Memory、Kimi K2.6 Agent Swarm が、Slack 統合、filesystem-based、サブエージェントのスウォームという異なるアプローチで同時に登場しましたが、目標は同じです。つまり、エージェントが記憶し、学習し、常時監督なしで行動することです。Rakuten の数字(エラー -97%、コスト -27%)は、その産業的影響の初期指標を示しています。
GitHub Copilot は、GitHub.com への深い統合(PR chat、issues からの agent sessions、構造化された stack traces)を進めつつ、BYOK 経由で外部にも開いています。BYOK VS Code GA は、Copilot がモデルとしてだけでなく、インターフェースとしても位置づけられていることを示しています。
ソース
- GPT-5.5 — OpenAI
- OpenAI の GPT-5.5 に関するツイート
- Workspace Agents — OpenAI
- Workspace Agents に関するツイート
- Clinicians 向け ChatGPT
- OpenAI プライバシーフィルター
- WebSockets API Responses — OpenAI
- Managed Agents のメモリ — Anthropic
- 日常生活向けコネクタ — Anthropic
- コネクタに関するツイート — @claudeai
- Claude Code の事後分析 — @ClaudeDevs
- @bcherny のツイート
- CHANGELOG Claude Code
- MCP 本番環境エージェント — Anthropic
- Anthropic 経済指数調査
- Copilot Chat PR の改善
- Issues からの Copilot エージェント セッション
- Copilot のスタックトレース デバッグ
- Copilot BYOK VS Code GA
- Copilot C++ Language Server
- Copilot Business self-serve pause
- Copilot クラウドエージェントのメトリクス
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 Design Arena
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine templates — @imagine
- NVIDIA × Google Cloud Next
- Kling AI Video 3.0 Mode 4K
- Kling AI 4K Short Film Contest
- Perplexity Kimi K2.6
- Perplexity Research 検索拡張型 LMs
- Cohere W4A8 vLLM
- Suno App Store 1位
このドキュメントは、gpt-5.4-mini モデルを使用して fr 版から ja 言語へ翻訳されました。翻訳プロセスの詳細については、https://github.com/jls42/ai-powered-markdown-translator を参照してください。