検索

GLM-5 オープンソース、妨害リスク報告書 ASL-4、OpenAI がエージェンティック・プリミティブを発表

GLM-5 オープンソース、妨害リスク報告書 ASL-4、OpenAI がエージェンティック・プリミティブを発表

Z.ai は、MIT ライセンスの下で 7,440 億パラメータを持つ新しいフラッグシップオープンソースモデル GLM-5 を発表しました。これは、コーディングとエージェンティックタスクにおいてオープンソースモデルの首位に躍り出ました。Anthropic は Opus 4.6 の ASL-4 妨害リスク報告書を公開し、OpenAI は API をエージェンティック・プリミティブで強化し、Kimi は 100 の並列サブエージェントシステムを明らかにしました。エコシステム側では、Runway が 3 億 1,500 万ドルを調達し、ElevenLabs が音声エージェント向けの表現力豊かなモードを開始しました。


Z.ai が GLM-5 を発表:744B パラメータ、MIT ライセンスのオープンソース

2月11日 — Z.ai (Zhipu AI) は、複雑なシステムエンジニアリングと長時間のエージェンティックタスク向けに設計された新しいフロンティアモデル、GLM-5 を発表しました。GLM-4.5 と比較して、モデルは 3,550 億パラメータ(320 億アクティブ)から 7,440 億パラメータ(400 億アクティブ)に増加し、事前学習データは 23T トークンから 28.5T トークンに増加しました。

GLM-5 は、長いコンテキスト能力を維持しながら展開コストを削減するために DeepSeek Sparse Attention (DSA) を統合し、トレーニング後のスループットを向上させる非同期強化学習インフラストラクチャ「slime」を導入しています。

ベンチマークGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77.8%73.8%76.8%80.9%76.2%
HLE (text)30.524.831.528.437.2
HLE w/ Tools50.442.851.843.445.8
Terminal-Bench 2.056.241.050.859.354.2
Vending Bench 2$4,432$2,377$1,198$4,967$5,478

GLM-5 は、推論、コーディング、エージェンティックタスクにおいて最高のオープンソースモデルとして位置付けられ、プロプライエタリなフロンティアモデルとの差を縮めています。1 年間の自動販売機管理をシミュレートするベンチマークである Vending Bench 2 では、GLM-5 は 4,432の残高で終了し、ClaudeOpus4.5(4,432 の残高で終了し、Claude Opus 4.5 (4,967) に迫っています。

コード以外にも、GLM-5 は .docx、.pdf、.xlsx ファイル(提案書、財務報告書、スプレッドシート)を直接生成し、すぐに使える状態で提供できます。Z.ai は、ドキュメント作成のための組み込みスキルを備えたエージェントモードを展開し、マルチターンのコラボレーションをサポートしています。

モデルの重みは Hugging Face で MIT ライセンスの下で公開されています。GLM-5 は Claude Code および OpenClaw と互換性があり、OpenRouter で利用可能です。展開は段階的で、Coding Plan Max サブスクライバーから開始されます。

🔗 GLM-5 技術ブログ 🔗 X での発表


Anthropic が初の ASL-4 妨害リスク報告書を公開

2月11日 — Anthropic は、自律型 AI 研究開発のための ASL-4 (AI Safety Level 4) 安全閾値を見越して、Claude Opus 4.6 の妨害リスク報告書を公開しました。

Claude Opus 4.5 のリリース時に、Anthropic は新しいフロンティアモデルごとに妨害リスク報告書を作成することを約束しました。曖昧な閾値をナビゲートするのではなく、同社はより高い ASL-4 安全基準を積極的に尊重することを選択しました。

要素詳細
評価されたモデルClaude Opus 4.6
安全閾値ASL-4 (AI Safety Level 4)
ドメイン自律型 AI 研究開発
形式公開 PDF 報告書
前例Opus 4.5 発表時のコミットメント

これは AI の安全性の透明性における重要なステップです。Anthropic は、本番環境のモデルに対してこのような妨害報告書を公開した最初の研究所の 1 つです。

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇯🇵 Claude Opus 4.5 をリリースしたとき、将来のモデルが自律型 AI 研究開発のための AI Safety Level 4 閾値に近づくことを知っていました。そのため、将来のフロンティアモデルについて妨害リスク報告書を作成することを約束しました。今日、Claude Opus 4.6 でその約束を果たします。@AnthropicAI on X

🔗 Anthropic スレッド


OpenAI:Responses API の新しいエージェンティック・プリミティブ

2月10日 — OpenAI は、長期間のエージェンティックワークのために、Responses API に 3 つの新しいプリミティブを導入しました。

サーバーサイド・コンパクション

コンテキスト制限に達することなく、数時間にわたるエージェントセッションを可能にします。コンパクションはサーバー側で管理されます。早期アクセス・テスターの Triple Whale は、精度の低下なしに 1 つのセッションで 150 回のツール呼び出しと 500 万トークンを達成したと報告しています。

ネットワーク付きコンテナ

OpenAI がホストするコンテナは、制御された方法でインターネットにアクセスできるようになりました。管理者はダッシュボードでドメインのホワイトリストを定義し、リクエストは明示的に network_policy を定義する必要があり、ドメインシークレットはモデルに生値を公開することなく注入できます。

API 内のスキル

最初の事前構築済みスキル(スプレッドシート)を備えた Agent Skills 標準のネイティブサポート。スキルは再利用可能でバージョン管理されたバンドルであり、ホストされたシェル環境にマウントでき、モデルは実行時にそれらを呼び出すかどうかを決定します。

プリミティブ説明ステータス
サーバーサイド・コンパクションコンテキスト制限なしの数時間のセッション利用可能
ネットワーク付きコンテナホストされたコンテナの制御されたインターネットアクセス利用可能
API 内のスキル再利用可能なバンドル(最初のスキル:スプレッドシート)利用可能

🔗 OpenAIDevs スレッド


Kimi Agent Swarm:100 サブエージェントのオーケストレーション

2月10日 — Kimi (Moonshot AI) は、最大 100 の専門化されたサブエージェントで複雑なタスクを並列化できるマルチエージェント調整機能、Agent Swarm を明らかにしました。

このシステムは 1,500 回以上のツール呼び出しを実行でき、順次実行よりも 4.5 倍高速です。ユースケースには、複数ファイルの同時生成(Word、Excel、PDF)、並列コンテンツ分析、および複数のスタイルでの並列クリエイティブ生成が含まれます。Agent Swarm は、コンテキストを埋める長いタスク中の推論の低下という LLM の構造的な制限を解決します。

🔗 Kimi 発表


OpenAI Harness Engineering:Codex による手動コード 0 行

2月11日 — OpenAI は、手動で書かれたコードが 0 行の内部ソフトウェア製品の構築に関するフィードバックを公開しました。5 か月間、3 ~ 7 人のエンジニアのチームが、すべてのコードを生成するために Codex のみを使用しました。

指標
生成されたコード行数~100 万
プルリクエスト~1,500
エンジニア 1 人あたりの 1 日の PR 数平均 3.5
内部ユーザー数百人
推定時間手作業で必要な時間の 1/10
Codex セッション最大 6 時間以上

「Harness Engineering」アプローチは、コードを書くのではなく、環境を設計し、意図を指定し、エージェントのためのフィードバックループを構築するという、エンジニアの役割を再定義します。リポジトリ内の構造化されたドキュメントはガイドとして機能し(目次としての AGENTS.md)、アーキテクチャは Codex によって生成されたリンターと構造テストによって厳格であり、定期的なタスクが逸脱をスキャンしてリファクタリング PR を自動的に開きます。

🔗 Harness Engineering ブログ


Runway がシリーズ E で 3 億 1,500 万ドルを調達

2月10日 — Runway は 3 億 1,500 万ドルのシリーズ E 資金調達を発表し、評価額は 53 億ドルになりました。このラウンドは General Atlantic が主導し、NVIDIA、Adobe Ventures、AMD Ventures、Fidelity、AllianceBernstein などが参加しました。

詳細
金額315 M$
シリーズE
評価額53 億ドル (vs シリーズ D で 33 億ドル)
リード投資家General Atlantic
2018 年以降の調達総額860 M$

資金は、物理世界をシミュレートできるモデルである次世代の「ワールドモデル」の事前トレーニングと、新しい製品や業界への展開に使用されます。この発表は、Runway の最新の動画生成モデルである Gen-4.5 の発売後に行われました。

🔗 公式発表 🔗 X での Runway の投稿


Cowork が Windows で利用可能に

2月10日 — マルチステップタスク用のデスクトップアプリケーションである Claude Cowork が、macOS と比較して完全な機能パリティを備えたリサーチプレビューとして Windows で利用可能になりました。

機能説明
ファイルアクセスローカルファイルの読み取りと書き込み
プラグインCowork プラグインのサポート
MCP コネクタMCP サーバーとの統合
フォルダごとの指示Claude.md スタイル — プロジェクトごとの自然言語による指示

Windows 版 Cowork は、claude.com/cowork を通じてすべての有料 Claude プランで利用できます。

🔗 Cowork Windows 発表


Claude 無料プランの無料機能

2月11日 — Anthropic は、無料の Claude プランで利用できる機能を拡大しました。ファイル作成、コネクタ、スキル、コンパクションがサブスクリプションなしで利用できるようになりました。コンパクションにより、Claude は以前のコンテキストを自動的に要約できるため、再起動することなく長い会話を続けることができます。

🔗 無料プラン発表


Slack での Claude Code Plan Mode

2月11日 — Slack の Claude Code 統合に Plan Mode が追加されました。Slack で Claude にコードタスクを与えると、実行前に計画を作成できるようになり、実装前にアプローチを検証できます。

機能説明
Plan Mode実行前の計画作成
自動検出コードとチャット間のインテリジェントルーティング
PR 作成Slack から直接「Create PR」ボタン
前提条件Pro、Max、Team または Enterprise プラン + GitHub 接続

🔗 Boris Cherny スレッド


ElevenLabs が音声エージェント向けの Expressive Mode を開始

2月10日 — ElevenLabs は、AI 音声エージェントがトーン、感情、強調をリアルタイムで適応できるようにする進化形である ElevenAgents の Expressive Mode を明らかにしました。

このモードは、リアルタイム対話用に最適化された音声合成モデルである Eleven v3 Conversational に基づいており、中断を減らす新しいターンテーキングシステムと組み合わされています。価格は 1 分あたり 0.08 ドルのままです。並行して、ElevenLabs はプラットフォームを 3 つの製品ファミリーに再構築しています:ElevenAgents(音声エージェント)、ElevenCreative(クリエイティブツール)、ElevenAPI(開発者プラットフォーム)。

🔗 Expressive Mode ブログ


Kimi K2.5 が Qoder に統合

2月9日 — Qoder(開発者向け AI プラットフォーム)は、Kimi K2.5 をマーケットプレイスのフラッグシップモデルとして展開しました。SWE-bench Verified スコアは 76.8% で、有利な料金(Efficient ティアで 0.3x クレジット)です。推奨されるワークフロー:設計とアーキテクチャに重いモデルを使用し、実装に K2.5 を使用します。

🔗 Qoder 発表


これが意味すること

オープンソースは、フロンティアモデルに向けて急速に進歩し続けています。Z.ai の GLM-5 は、コーディングおよびエージェンティックタスクのベンチマークにおいて Claude Opus 4.5 および GPT-5.2 との差を縮め、同時に MIT ライセンスの下で利用可能です。Anthropic による ASL-4 妨害報告書の公開は、他の研究所がおそらく従わざるを得なくなる安全性の透明性の前例を確立します。

開発者側では、OpenAI のエージェンティック・プリミティブ(サーバーサイド・コンパクション、ネットワークコンテナ、API スキル)と「Harness Engineering」アプローチが、自律エージェントが数時間のセッションを管理する未来を描いています。Kimi Agent Swarm は、数百の並列サブエージェントのオーケストレーションによって、このロジックをさらに推し進めています。


出典