AIエージェントにとって忙しい一週間
2026年1月21日から23日にかけて、coding agentsとインフラストラクチャに関するいくつかの主要な発表がありました。AnthropicはClaudeをExcelに導入し、マルチエージェントシステムに関する3つの記事を公開しました。OpenAIはCodexの内部アーキテクチャとそのPostgreSQLインフラストラクチャを詳述し、Qwenはそのテキスト読み上げモデルをオープンソース化し、RunwayはGen-4.5にImage to Videoを追加しました。
Anthropic: Excel版ClaudeとClaude Code
Excel版Claude
1月23日 — ClaudeがMicrosoft Excelでベータ版として利用可能になりました。この統合により、ネストされた数式やタブ間の依存関係を含む完全なExcelワークブックを分析できるようになります。
機能:
- ワークブック全体の理解(数式、マルチタブ依存関係)
- セルレベルの引用付きの説明
- 数式を維持したままの前提条件の更新
Claude Pro、Max、Team、Enterpriseのサブスクライバー向けに利用可能です。
Claude Code v2.1.19: Tasksシステム
1月23日 — バージョン2.1.19では、複雑なマルチセッションプロジェクト向けの新しいタスク管理システムであるTasksが導入されました。
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇯🇵 Claude CodeのTodoをTasksに変えています。Tasksは、Claude Codeがより複雑なプロジェクトを追跡して完了し、複数のセッションやサブエージェントにまたがってそれらに協力するのに役立つ新しいプリミティブです。 — Thariq (@trq212), Claude Codeチーム Anthropic
Tasksの機能:
| 側面 | 詳細 |
|---|---|
| ストレージ | ~/.claude/tasks (ファイル、その上にツールを構築可能) |
| コラボレーション | CLAUDE_CODE_TASK_LIST_ID=name claude でセッション間で共有 |
| 依存関係 | メタデータに保存された依存関係とブロッカーを持つTasks |
| ブロードキャスト | Taskの更新は同じTask List上のすべてのセッションにブロードキャストされます |
| 互換性 | claude -p および AgentSDK で動作 |
何のためのものか: 複雑なプロジェクト(複数ファイルのリファクタリング、移行、長い機能)において、Claudeは作業をタスクに分割し、何が完了し、何が残っているかを追跡できます。タスクはディスクに永続化されます — コンテキストの圧縮、セッションの終了、再起動後も残ります。複数のセッションやサブエージェントが同じタスクリストでリアルタイムに協力できます。
実際には: Claudeはタスクを作成し (TaskCreate)、それらをリストし (TaskList)、ステータスを更新します (TaskUpdate: pending → in_progress → completed)。認証リファクタリングの例:
#1 [completed] セッションストレージをRedisに移行
#2 [in_progress] リフレッシュトークンローテーションの実装
#3 [pending] OAuth統合テストの追加
#4 [pending] APIドキュメントの更新
タスクは ~/.claude/tasks/ に保存され、CLAUDE_CODE_TASK_LIST_ID を介してセッション間で共有できます。
その他のv2.1.19の新機能:
- カスタムコマンドの引数用の省略形
$0,$1 - 全員向けのVSCodeセッションフォーキングと巻き戻し
- 権限のないSkillsは承認なしで実行されます
- 一時的に無効にするための
CLAUDE_CODE_ENABLE_TASKS=false
🔗 CHANGELOG Claude Code | スレッド @trq212
Claude Code v2.1.18: カスタマイズ可能なキーバインディング
コンテキストごとにキーバインディングを設定し、コードシーケンスを作成する機能を追加した以前のバージョン。
コマンド: /keybindings
⚠️ 注意: この機能は現在プレビュー中であり、すべてのユーザーが利用できるわけではありません。
Petri 2.0: 自動化されたアライメント監査
1月22日 — Anthropicは、言語モデル向けの自動化された行動監査ツールのアップデートであるPetri 2.0を公開しました。
何のためのものか: Petriは、LLMが問題のある行動(操作、欺瞞、ルールの回避)をとる可能性があるかどうかをテストします。このツールは現実的なシナリオを生成し、モデルの応答を観察して、本番環境で発生する前に望ましくない行動を検出します。
| 改善点 | 説明 |
|---|---|
| 70の新しいシナリオ | より多くのエッジケースをカバーするための拡張されたシードライブラリ |
| Eval-awarenessの緩和 | モデルはテストされていることを知ってはなりません — さもないと行動を適応させてしまいます。Petri 2.0は、この検出を避けるためにシナリオのリアリズムを向上させています。 |
| フロンティア比較 | 最近のモデル(Claude, GPT, Gemini)の評価結果 |
ブログ: マルチエージェントシステムを使用すべき(または使用すべきでない)場合
1月23日 — Anthropicは、マルチエージェントアーキテクチャに関する実用的なガイドを公開しました。主なメッセージ: デフォルトでマルチエージェントを使用しないでください。
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇯🇵 私たちは、チームが精巧なマルチエージェントアーキテクチャの構築に数ヶ月を費やしたものの、単一のエージェントでのプロンプトの改善が同等の結果を達成したことを発見するのを見てきました。
この記事では、マルチエージェントが本当に価値をもたらす3つのケースを特定しています:
| ケース | 問題 | マルチエージェントソリューション |
|---|---|---|
| コンテキスト汚染 | エージェントが大量のデータを生成し、後でその要約だけが役立つ場合 | サブエージェントが2000トークンの履歴を取得し、メインエージェントに「注文配送済み」だけを返す |
| 並列化 | 複数の独立した検索を行う必要がある | 順次処理するのではなく、5つの異なるソースで5つのエージェントを並列に起動する |
| 専門化 | 単一のエージェントにツールが多すぎる(20以上)と、適切なものを選択する能力が低下する | 専門のエージェントに分割する: CRM用、マーケティング用、メッセージング用 |
避けるべき罠: 作業タイプ(あるエージェントが計画し、別のエージェントが実装し、別のエージェントがテストする)で分割すること。各引き継ぎでコンテキストが失われ、品質が低下します。単一のエージェントが機能を最初から最後まで処理する方が良いです。
実際のコスト: 同じタスクに対して、単一のエージェントよりも3〜10倍多くのトークンがかかります。
シリーズの他の記事:
Building agents with Skills (1月22日)
ドメインごとに専門化されたエージェントを構築する代わりに、Anthropicはskillsを構築することを提案しています: ジェネラリストエージェントがオンデマンドでロードするファイル(ワークフロー、スクリプト、ベストプラクティス)のコレクションです。
3レベルの段階的開示:
| レベル | コンテンツ | サイズ |
|---|---|---|
| 1 | メタデータ(名前、説明) | ~50トークン |
| 2 | 完全なSKILL.mdファイル | ~500トークン |
| 3 | リファレンスドキュメント | 2000+トークン |
各レベルは必要な場合にのみロードされます。結果: エージェントはコンテキストを飽和させることなく何百ものskillsを持つことができます。
Eight trends 2026 (1月21日)
Anthropicは、2026年のソフトウェア開発における8つのトレンドを特定しています。
キーメッセージ: エンジニアはコードを書くことから、コードを書くエージェントを調整することへと移行しています。
重要なニュアンス: AIは仕事の〜60%で使用されていますが、完全に委任できるのはわずか0〜20%です — 人間の監督は依然として不可欠です。
| 企業 | 結果 |
|---|---|
| Rakuten | vLLMコードベース(1250万行)上のClaude Code、7時間の自律作業 |
| TELUS | 30%高速化、50万時間の節約 |
| Zapier | 89%のAI採用、800+の内部エージェント |
OpenAI: Codexアーキテクチャとインフラストラクチャ
Unrolling the Codex agent loop
1月23日 — OpenAIはCodex CLIの舞台裏を公開しました。彼らのソフトウェアエージェントの内部動作に関するシリーズの最初の記事です。
私たちが学ぶこと:
エージェントループは理論的には単純です: ユーザーがリクエストを送信 → モデルが応答を生成するかツールを要求する → エージェントがツールを実行する → モデルが結果で再開する → 最終的な応答まで。実際には、微妙な点はコンテキスト管理にあります。
プロンプトキャッシング — パフォーマンスへの鍵:
会話の各ターンはプロンプトにコンテンツを追加します。最適化がない場合、送信されるトークンに対して二次関数的になります。プロンプトキャッシングにより、以前のターンの計算を再利用できます。条件: 新しいプロンプトは古いプロンプトの完全なプレフィックスでなければなりません。OpenAIは、キャッシュを壊す落とし穴(MCPツールの順序変更、会話の途中で設定を変更)を詳述しています。
自動コンパクション:
コンテキストがしきい値を超えると、Codexは /responses/compact を呼び出し、会話の圧縮バージョンを返します。モデルは、不透明な encrypted_content を介して潜在的な理解を保持します。
Zero Data Retention (ZDR):
データを保存したくないクライアントのために、encrypted_content はサーバー側にデータを保存することなく、ターン間でモデルの推論を保持することを可能にします。
シリーズの最初の記事 — 次の記事では、CLIアーキテクチャ、ツール実装、サンドボックスについて扱います。
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 8億人のChatGPTユーザー
1月22日 — OpenAIは、PostgreSQLがどのようにして8億人のユーザーに対して毎秒数百万のリクエストでChatGPTとAPIを支えているかを詳述しています。
| 指標 | 値 |
|---|---|
| ユーザー | 8億人 |
| スループット | 数百万QPS |
| レプリカ | ~50 マルチリージョンリードレプリカ |
| p99 レイテンシ | クライアント側で2桁ms |
| 可用性 | Five-nines (99.999%) |
アーキテクチャ:
- シングルプライマリAzure PostgreSQLフレキシブルサーバー
- コネクションプーリングのためのPgBouncer(接続レイテンシ: 50ms → 5ms)
- 書き込み重視のワークロードはAzure Cosmos DBに移行
- キャッシュミスストームから保護するためのキャッシュロック
- 100レプリカを超えるためのテスト中のカスケードレプリケーション
過去12ヶ月で唯一のSEV-0 PostgreSQL: ChatGPT ImageGenのバイラルローンチ中(1週間で1億人の新規ユーザー、書き込みトラフィック10倍)。
Qwen: Qwen3-TTS オープンソース
1月22-23日 — Alibabaは、Apache 2.0ライセンスの下でQwen3-TTSをオープンソースとして公開しました。
| 機能 | 詳細 |
|---|---|
| ライセンス | Apache 2.0 |
| 音声クローニング | はい |
| MLX-Audio サポート | 利用可能 |
インストール:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
1月21日 — RunwayはGen-4.5にImage to Video機能を追加しました。
| 機能 | 説明 |
|---|---|
| Image to Video | 画像のシネマティックビデオへの変換 |
| カメラコントロール | 正確なカメラコントロール |
| 一貫したナラティブ | 時間の経過とともに一貫したナラティブ |
| キャラクターの一貫性 | 一貫性を保つキャラクター |
すべてのRunway有料プランで利用可能です。一時的なプロモーション: 15%割引。
これが意味すること
今週は、coding agentsツールの成熟を示しています。2つの巨人(AnthropicとOpenAI)は、彼らのエージェントアーキテクチャに関する詳細な技術文書を公開しています — これは市場が「デモ」フェーズから「プロダクション」フェーズに移行していることの兆候です。
インフラストラクチャ側では、OpenAIのPostgreSQLの記事は、適切な最適化を行えば、シングルプライマリアーキテクチャが数億人のユーザー規模で持ちこたえることができることを示しています。
ExcelへのClaudeの到着は、新しい戦線を開きます: 日々の生産性ツールに直接統合されたAIです。