OpenAI が GPT-5.5 を発表、Anthropic が Managed Agents にメモリを開放、Kimi K2.6 Agent Swarm

2026年4月23日は濃密な一日となった。OpenAI は ARC-AGI-2 で 85% を記録し、入力 API 料金が $5/M tokens の GPT-5.5 を発表し、一方 Anthropic は Managed Agents 向けの永続メモリをベータで公開し、Claude Code のポストモーテムを発表した。並行して、GitHub Copilot は 3 日間で 7 件のアップデートを提供し、Kimi K2.6 は 300 のサブエージェントからなる swarm を展開し、SpaceX は Cursor とコーディング提携を締結した。

GPT-5.5: OpenAI のフロンティアモデル

4月23日 — OpenAI は、実世界の作業とエージェントのために設計された、これまでで最も強力なモデルである GPT-5.5 を発表した。エージェント的なコーディング、コンピュータ使用 (computer use)、知識労働、科学研究を大幅に改善しつつ、GPT-5.4 のレイテンシは維持している。

提供状況と価格

GPT-5.5 は、ChatGPT Plus、Pro、Business、Enterprise の加入者、および Codex で即時利用可能。API アクセスは「まもなく」提供される。

プラン	API アクセス	入力	出力
GPT-5.5 standard	まもなく	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	まもなく	$30 / M tokens	$180 / M tokens

Codex のコンテキストウィンドウは 400K tokens に達する。Fast モード — 1.5× 高速、コスト 2.5× — も利用可能。

ベンチマーク

評価	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (内部)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (bioinformatique)	80.5%	74.0%	—	—

GPT-5.5 は大半のベンチマークで首位に立っているが、注目すべき例外として SWE-Bench Pro があり、そこでは Claude Opus 4.7 が優位を保っている（64.3% 対 58.6%）。

インフラと安全性

このモデルは NVIDIA GB200/GB300 NVL72 と共同設計された。Codex は GPT-5.5 を使って自らのインフラを最適化し、トークン生成速度を +20% 向上させた。サイバーセキュリティ面では、GPT-5.5 は OpenAI の Preparedness Framework で High に分類されている（Critical ではない）。Trusted Access Cyber プログラムも拡張されている。

科学研究

コードを超えて、GPT-5.5 は Ramsey 数に関する新しい定理（組合せ論）の証明を支援し、Lean で形式的に検証された。また、62 サンプルと 28,000 遺伝子からなるゲノムデータセットを数分で分析した。これは研究者チームなら数か月を要したはずの作業だった。

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇯🇵 GPT-5.5 は GPT-5.4 よりもはるかに賢く、粘り強く、コーディング性能が向上し、ツールの使用もより信頼できる。 — Michael Truell、Cursor の共同創業者兼 CEO

🔗 GPT-5.5 発表

永続エージェントの波

この 4 月 23 日、永続エージェントをめぐる 3 つの主要発表が重なった。永続エージェントは、長時間にわたり自律的に行動し、セッションをまたいでコンテキストを保持できる。

ChatGPT における OpenAI Workspace Agents

4月22日 — OpenAI は Workspace Agents（ワークスペースエージェント）を発表した。これは、チームが一度作成し、ChatGPT や Slack で共用し、徐々に改善していける共有エージェントである。クラウド上の Codex によって駆動され、ユーザーがオフラインでも複雑なタスクを実行できる。Workspace Agents は、移行期間中は引き続き利用可能な GPT を段階的に置き換えていく。

エージェントの種類	機能
ソフトウェア検証担当	問い合わせを確認し、ポリシーを照合し、IT チケットを作成
製品フィードバックルーター	Slack/サポート/フォーラムを監視 → 優先順位付きチケット
レポート生成エージェント	金曜日にデータを抽出し、グラフと要約を作成
需要開拓エージェント	リードを調査・評価し、メールを作成、CRM を更新
サードパーティリスク責任者	ベンダーを評価し、構造化レポートを作成

Business、Enterprise、Edu、Teachers 向けの research preview で利用可能。2026年5月6日 までは無料、その後はクレジット課金。

Ankur Bhatt（Rippling の AI Engineering）によれば、以前は営業担当が毎週 5〜6 時間かけていた作業が、今では各案件ごとにバックグラウンドで自動実行されている。

🔗 Workspace Agents

Anthropic — Claude Managed Agents のメモリ

4月23日 — Claude Managed Agents 向けのメモリが、Claude Platform 上でパブリックベータとして利用可能になった。エージェントは、ファイルシステム上に直接構築されたメモリ層のおかげで、セッション間で学習できるようになった。エージェントは、すでにエージェントタスクに使っているものと同じ bash とコード実行機能を利用する。

機能	詳細
共有可能なストア	複数のエージェント、異なるアクセス範囲（読み取り専用 / 読み書き）
同時アクセス	並行セッション間で上書きなし
監査ログ	どのセッション、どのエージェント、どのメモリ
ロールバック	以前の任意のバージョンへ戻せる
エクスポート可能性	API 経由で管理可能なメモリ

顧客の成果が、その実際の影響を示している。

顧客	成果
Rakuten	初回通過エラー -97%、コスト -27%、レイテンシ -34%
Wisedocs	文書検証速度 +30%
Netflix	手動更新なしでセッション間のコンテキストを継続
Ando	専用インフラなしのプラットフォームメモリ

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇯🇵 Managed Agents のメモリによって、継続学習を大規模に本番運用へ持ち込めるようになりました。私たちのエージェントは各セッションから学びを抽出し、初回通過エラーを 97% 削減、コストを 27% 削減、レイテンシを 34% 削減しています。 — Yusuke Kaji、Rakuten の General Manager AI for Business

🔗 Managed Agents メモリ

Claude Code: 品質ポストモーテムと 2 つの新バージョン

ポストモーテムと制限リセット

4月23日 — Claude Code チームは、先月報告された 3 件の品質問題についてポストモーテムを公開した。いずれも v2.1.116+ で修正済み。利用上限はすべての加入者に対してリセットされた。

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇯🇵 先月、皆さんの一部から Claude Code の品質低下が報告されました。私たちは調査を行い、特定された 3 つの問題についてポストモーテムを公開しました。いずれも v2.1.116+ で修正済みであり、すべての加入者の利用上限をリセットしました。 — @ClaudeDevs

v2.1.117 と v2.1.118

バージョン主な機能

v2.1.118 選択とオペレータを備えた Vim のビジュアルモード (v/V)；統合された /usage（/cost と /stats を統合）；/theme 内のカスタムテーマ；type: "mcp_tool" を介して MCP ツールを呼び出す hooks；厳格な DISABLE_UPDATES；WSL 経由の Windows managed settings 継承

v2.1.117 Pro/Max における Opus 4.6 と Sonnet 4.6 のデフォルト effort が high に変更（以前は medium）；外部ビルドでサブエージェント fork を有効化可能；より高速な検索のため、glob/Grep が組み込みの bfs/ugrep に置き換え；Opus 4.7 セッション修正（1M コンテキストが正しく計算される）；thinking 無効時の Bedrock+Opus 4.7 修正

バージョン	主な機能
v2.1.118	選択とオペレータを備えた Vim のビジュアルモード (`v`/`V`)；統合された `/usage`（`/cost` と `/stats` を統合）；`/theme` 内のカスタムテーマ；`type: "mcp_tool"` を介して MCP ツールを呼び出す hooks；厳格な `DISABLE_UPDATES`；WSL 経由の Windows managed settings 継承
v2.1.117	Pro/Max における Opus 4.6 と Sonnet 4.6 のデフォルト effort が `high` に変更（以前は `medium`）；外部ビルドでサブエージェント fork を有効化可能；より高速な検索のため、`glob`/`Grep` が組み込みの `bfs`/`ugrep` に置き換え；Opus 4.7 セッション修正（1M コンテキストが正しく計算される）；thinking 無効時の Bedrock+Opus 4.7 修正

🔗 Claude Code CHANGELOG

日常生活向けの新しい Claude コネクタ

4月23日 — Anthropic はコネクタの対象を一般向けアプリへと拡大した。2025年7月以降、業務ツール向けのコネクタ 200 以上が利用可能だったが、今回のアップデートで日常的な 15 サービスが追加された。

アプリ	カテゴリ
AllTrails	ハイキング
Audible	オーディオブック
Booking.com	旅行
Instacart	オンライン食料品
Intuit Credit Karma	金融
Intuit TurboTax	税務
Resy	レストラン予約
Spotify	音楽
StubHub	チケット販売
Taskrabbit	家事代行サービス
Thumbtack	地域の専門業者
TripAdvisor	旅行
Uber	交通
Uber Eats	食事配達
Viator	観光アクティビティ

Claude は会話のコンテキストに応じて、関連するコネクタを自動的に提案するようになった。すべてのプラン（無料を含む）、web、desktop、mobile で利用可能（mobile はベータ）。有料掲載やスポンサー回答はなく、アプリのデータがモデルの学習に使われることもない。

🔗 日常生活向けコネクタ

GitHub Copilot — 3 日間で 7 件のアップデート

GitHub Copilot は 4月22日から 4月23日の間に、changelog へ 7 件の項目を公開した。

pull request 向けチャット（3 つの新機能）

4月23日 — Copilot Chat は、github.com/copilot または diffs 上の Copilot ボタンから利用できる、pull request 向けの 3 つの機能を統合した（public preview）:

PR 理解 (pull request understanding)：コメント、変更、コミット、レビューを文脈として統合
PR レビュー：オンデマンドの構造化レビュー
PR 要約：変更点の簡潔な要約

🔗 Copilot Chat PR の改善

issues と projects から操作できる agent セッション

4月23日 — cloud agent は、GitHub の issues と projects ボードから直接操作できるようになった。issue ヘッダーにセッションインジケーター、進行状況のサイドパネル、すべての project ビューでデフォルト有効のセッションが追加される。

🔗 issues からの agent セッション

Web 上での stack trace の構造化デバッグ

4月23日 — github.com 上の Copilot Chat は、stack trace の分析を 6 つの構造化ステップで案内するようになった: 何が失敗したか、なぜ失敗したか、根本原因、コードから得られる証拠、信頼度、次に確認すべきこと。

🔗 stack trace デバッグ

VS Code での BYOK が利用可能に（GA）

4月22日 — Bring Your Own Key (自分の API キーを持ち込む) が、VS Code の Copilot Business および Enterprise ユーザー向けに一般提供となった。Anthropic、Gemini、OpenAI、OpenRouter、Azure がサポートされ、Ollama と Foundry Local 経由のローカルモデルも利用できる。課金は選択したプロバイダーによって直接行われ、Copilot の割り当ての対象外。

🔗 BYOK VS Code GA

Copilot CLI 向け C++ Language Server の public preview

4月22日 — Microsoft C++ Language Server（Visual Studio/VS Code の IntelliSense エンジン）が、Copilot CLI 向けに public preview で利用可能になった。grep による反復検索の代わりに、正確な意味情報（シンボル定義、参照、呼び出し階層、型）を提供する。前提条件: Copilot CLI 認証 + compile_commands.json。

🔗 C++ Language Server

Business self-serve の新規登録を一時停止

4月22日 — GitHub は、GitHub Free と GitHub Team プランにおける Copilot Business の self-serve 新規登録を停止した。既存顧客への影響はない。

🔗 Business self-serve 一時停止

API メトリクスの `used_copilot_cloud_agent` フィールド

4月23日 — 「coding agent」から「cloud agent」へのブランド変更に伴い、メトリクス API はユーザーレポート（1日移動平均と 28日移動平均）に used_copilot_cloud_agent フィールドを追加した。旧フィールド used_copilot_coding_agent は 2026年8月1日まで維持される。

🔗 cloud agent メトリクス

Gemini CLI v0.39.0 と、すべての Ultra 向け Deep Think ### Gemini CLI v0.39.0

4月23日 — Google は Gemini CLI v0.39.0 をリリースし、“Latest” としてマークされた安定版となりました。目玉は、作業セッション中に CLI が自動抽出した skills を確認して検証するための新しい /memory inbox コマンドです。

機能	説明
`/memory inbox`	自動抽出された skills のレビュー
`invoke_subagent` 統合版	リファクタリングされたサブエージェントツールを単一インターフェースに統合
コンパクトなフォーマット	コンパクト表示での可読性向上
Plan Mode — confirmations	skills 有効化前に確認が必要
軽量起動	起動を高速化する軽量な親プロセス
JSONL ストリーミング移行	チャットセッションを JSONL で記録

追加されたキーボードショートカット: 単語単位削除用の Ctrl+Backspace（Windows Terminal）、Ctrl+Shift+G。

🔗 Gemini CLI v0.39.0

Deep Think がすべての Ultra 加入者に開放

4月22日 — Google は Deep Think モード（深い推論、extended thinking）をすべての Gemini Ultra 加入者に公開しました。このモードは以前は限定アクセスでしたが、現在は Gemini アプリのツールメニュー（Web とモバイル）から直接利用できます。

🔗 Tweet @GeminiApp

Kimi K2.6: 300 サブエージェントのスウォームと open-weights ベンチマーク

Agent Swarm — 300 並列サブエージェント

4月23日 — Moonshot AI は Kimi K2.6 Agent Swarm を発表しました。これは、K2.5 の 100 エージェント・1,500 ステップに対し、1 回の実行で 4,000 ステップにわたって 300 のサブエージェントを並列展開できるシステムです。

能力	K2.5	K2.6
並列サブエージェント	100	300
実行あたりのステップ数	1,500	4,000
出力の種類	チャットテキスト	100+ 個の実ファイル、10 万語のレビュー、2 万行のデータセット

サブエージェントは、Web リサーチ、データ分析、コーディング、長文執筆、ビジュアル生成といった異種のスキルを組み合わせます。kimi.com/agent-swarm で利用可能です。

🔗 Tweet @Kimi_Moonshot

ベンチマーク: open-weights で 1 位

4月23日 — Kimi K2.6 は、2 つのベンチマークで open-weights モデルの首位に立ちました。

Design Arena: Claude Opus 4.7 と同等のパフォーマンス帯
MathArena open（Think モード）: GLM 5.1 を上回る

🔗 Design Arena

SpaceXAI × Cursor と Grok Imagine

SpaceXAI × Cursor パートナーシップ

4月22日 — SpaceXAI（xAI/SpaceX の提携から生まれた組織）と Cursor は、“世界で最も高性能なコーディングおよび知識労働向け AI” を作るためのパートナーシップを発表しました。SpaceX はスーパーコンピュータ Colossus（H100 100 万台相当）を提供し、Cursor は 2026 年後半に同社を 600 億ドルで買収する権利、または共同作業のみで 100 億ドルを支払う権利を与えます。

🔗 Tweet @SpaceX

Grok Imagine — 共有可能なカスタムテンプレート

4月22日 — SuperGrok と Premium+ の加入者は、Grok Imagine でカスタムテンプレートを作成し、公開共有できるようになりました。

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

4月22日 — Google Cloud Next（ラスベガス）で、NVIDIA と Google Cloud はエージェント的な AI インフラをめぐる複数の主要な進展を発表しました。

発表	詳細
A5X インスタンス（Vera Rubin NVL72）	マルチサイトクラスタで最大 960,000 台の Rubin GPU、トークンあたりコスト 10 分の 1、メガワットあたりスループット 10 倍
Google Distributed Cloud 上の Gemini	Blackwell および Blackwell Ultra GPU によるプレビュー — データ主権
Confidential VMs Blackwell	パブリッククラウドにおける Blackwell の初の confidential computing 提供
Nemotron 3 Super	Gemini Enterprise Agent Platform 上で利用可能
NeMo RL API	大規模に管理された強化学習 (Reinforcement Learning)

🔗 Blog NVIDIA × Google Cloud

Kling AI Video 3.0 — ネイティブ 4K モード

4月23日 — Kling AI は Video 3.0 シリーズに ネイティブ 4K モードを導入しました。4K 生成は追加のアップスケーリング工程なしにワンクリックで行えます。ビジュアルの一貫性（登場人物、テキスト、スタイル、ライティング）はネイティブ解像度で確保され、高級制作に対応します。企業向けには fal.ai 経由でも利用可能です。

同時に Kling AI は 4K Short Film Creative Contest を開催し、新モードで制作した短編映画の応募を促す世界規模のコンテストを実施しています。

🔗 Tweet @Kling_ai

ChatGPT for Clinicians と OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

4月22日 — OpenAI は ChatGPT for Clinicians を発表しました。これは、米国の認証済み医療従事者（医師、ナースプラクティショナー、医療助手、薬剤師）向けの無料版です。サービスには、複雑な臨床質問に対する frontier モデルへのアクセス、反復的ワークフロー（紹介状、事前承認）のための skills、引用付きのリアルタイム臨床検索、継続教育単位（CME）の自動生成が含まれます。HIPAA 処理は契約によりオプションで利用できます。

OpenAI はまた、実際の臨床タスクにおける AI を評価するオープンベンチマーク HealthBench Professional も公開しました（医師によって評価された 70 万件超の回答）。ChatGPT for Clinicians 上の GPT-5.4 は、Web アクセスを備えた時間制限なし条件で、このベンチマークにおいて人間の医師を上回ります。

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

4月22日 — OpenAI は Privacy Filter を公開しました。これは、テキスト内の個人識別情報 (Personally Identifiable Information, PII) を検出してマスクするための open-weight モデル（Apache 2.0）です。このモデルはローカルで動作し（サーバーにデータは送信されません）、128K トークンのコンテキストをサポートし、PII-Masking-300k ベンチマークで F1 スコア 97.43% を達成しています。

特性	値
アーキテクチャ	双方向トークンクラス分類器（制約付き Viterbi デコーディング）
サイズ	合計 15 億パラメータ、アクティブ 5,000 万
コンテキスト	128,000 トークン
ライセンス	Apache 2.0（Hugging Face + GitHub）
F1	修正済み PII-Masking-300k で 97.43%

カバーされる PII のカテゴリ: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret（パスワードと API キー）。

🔗 OpenAI Privacy Filter

Perplexity と Cohere

Perplexity が Kimi K2.6 を統合

4月23日 — Moonshot AI の Kimi K2.6 が、Perplexity の Pro および Max の全加入者向けに利用可能になりました。

🔗 Tweet @perplexity_ai

Cohere — vLLM で production-ready な W4A8

4月22日 — Cohere は、W4A8 推論（重み 4 ビット、アクティベーション 8 ビット量子化）を vLLM に統合したと発表しました。Hopper GPU 上で W4A16 と比較した結果は、最初のトークンまでの時間 (Time To First Token) で +58%、出力トークン 1 個あたりの時間 (Time Per Output Token) で +45% でした。この統合は、主に大規模な本番環境向け MoE モデル Command A を対象としています。

🔗 Blog Cohere W4A8

ブリーフ

Suno が音楽カテゴリの App Store で 1 位に

4月21日 — AI 音楽生成プラットフォームの Suno が、App Store の音楽カテゴリで首位に立ちました。CEO の Mikey Shulman は次のように述べています: 「音楽の未来は、誰もが創作を楽しめるものです。」

🔗 Tweet @suno

Anthropic Economic Index Survey

4月22日 — Anthropic は、Anthropic Interviewer を通じて Claude ユーザーのランダムサンプルに対して実施する月次調査 Anthropic Economic Index Survey を開始しました。目的は、AI の経済的影響に関する定性的データを収集することです: 委任されたタスク、生産性向上、役割の変化。結果は今後の Anthropic Economic Index レポートに活用されます。

🔗 調査発表

Anthropic — 本番環境の MCP エージェント: 数字

4月22日 — Anthropic の技術記事では、本番エージェントに対する MCP の利点が示されています。MCP SDK の月間ダウンロード数は 3 億回を超え、ツール検索 (tool search) はツール定義トークンを 85% 削減し、プログラムによるツール呼び出し (programmatic tool calling) は複雑な多段ワークフローでのトークン使用量を 37% 削減します。

🔗 Blog MCP production agents

OpenAI — Responses API の WebSocket: レイテンシ 40% 削減

4月22日 — OpenAI の回顧記事では、Responses API の WebSocket モードがエージェントループのレイテンシを 40% 削減する仕組みを説明しています。持続的接続により、以前のレスポンス状態のメモリ内キャッシュが維持され、呼び出しのたびに履歴全体を再処理する必要がなくなります。すでに本番運用されているもの: Codex、Vercel AI SDK、Cline（+39%）、Cursor（+30%）。

🔗 WebSockets 記事

Perplexity Research — 検索拡張モデルの学習

4月22日 — Perplexity は、検索回答の品質を向上させるための SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) パイプラインに関する研究を公開しました。主な結果: 事後学習された Qwen モデルは、より低コストで GPT モデルに匹敵する事実性に到達します。

🔗 Research Perplexity

これは何を意味するか

2026 年 4 月 23 日は、2 つの収束する潮流を示しています。1 つ目は、GPT-5.5 により、OpenAI が複数か月にわたって Claude Opus 4.7 が優勢だった後、エージェント系ベンチマーク（Terminal-Bench、ARC-AGI-2、OSWorld）で首位を取り戻したことが確認された点です。SWE-Bench Pro では差は依然として僅差で、Anthropic が優位を保っています。これは、両研究所が同じ優先ユースケースに収れんしていることの表れです。

もう 1 つは、この日が 記憶を持つ永続エージェント の時代の到来を示したことです。OpenAI Workspace Agents、Anthropic Managed Agents Memory、Kimi K2.6 Agent Swarm が、Slack 統合、filesystem-based、サブエージェントのスウォームという異なるアプローチで同時に登場しましたが、目標は同じです。つまり、エージェントが記憶し、学習し、常時監督なしで行動することです。Rakuten の数字（エラー -97%、コスト -27%）は、その産業的影響の初期指標を示しています。

GitHub Copilot は、GitHub.com への深い統合（PR chat、issues からの agent sessions、構造化された stack traces）を進めつつ、BYOK 経由で外部にも開いています。BYOK VS Code GA は、Copilot がモデルとしてだけでなく、インターフェースとしても位置づけられていることを示しています。

ソース

このドキュメントは、gpt-5.4-mini モデルを使用して fr 版から ja 言語へ翻訳されました。翻訳プロセスの詳細については、https://github.com/jls42/ai-powered-markdown-translator を参照してください。