検索

DiffusionGemmaは4倍高速化、Claude Codeの動的ワークフローがGA、Grok VoiceがEVA-Benchで第1位

DiffusionGemmaは4倍高速化、Claude Codeの動的ワークフローがGA、Grok VoiceがEVA-Benchで第1位

ai-powered-markdown-translator

gpt-5.4-mini を使用して fr から ja に翻訳された記事。

GitHub でプロジェクトを見る ↗

2026年6月10日 は濃密な一日となりました。Google DeepMindはDiffusionGemmaを発表し、H100上で毎秒1,000トークンに達する新しい拡散型テキスト生成アーキテクチャを公開、NVIDIAは直ちにローカルハードウェア向けに最適化しました。開発者向けツールでは、AnthropicがClaude Codeの動的ワークフローを最大5階層のエージェント再帰付きで一般提供に移行し、xAIはGrok Voice Think Fast 1.0をEVA-Benchで第1位のベンチマークとして位置づけました。さらにGitHub、OpenAI、Perplexity、Cohereも、多数の発表でこの一日を彩りました。


DiffusionGemma:256トークンのブロックを並列生成、GPUで4倍高速

6月10日 — Google DeepMindは、DiffusionGemma を発表しました。これは26億パラメータの実験的オープンモデルで、Apache 2.0ライセンスのもとで公開されています。特徴は、従来の自己回帰モデルのように1トークンずつ生成するのではなく、画像拡散モデルと同じ反復的なデノイジング原理を用いて 256トークンのブロック全体を同時に 生成する点です。

その結果、専用GPUで最大4倍高速 を実現します。推論時にアクティブになるのは3.8億パラメータだけで、量子化後は 18GBのVRAM に収まり、高性能な一般向けGPUでも利用可能です。双方向アテンションにより、自己回帰モデルでは難しい用途――インライン編集、コード補完、アミノ酸配列、数学グラフ――に対応できます。

NVIDIAは、自己回帰アーキテクチャがメモリ帯域幅に縛られるのに対し、Tensor Cores を活用することでDiffusionGemmaを自社GPU向けに即座に最適化しました。異なるハードウェアでの測定性能は次のとおりです。

ハードウェア性能
NVIDIA H100(サーバー)1,000 tokens/s
NVIDIA DGX Station最大800 tokens/s
NVIDIA DGX Spark(ローカル)150 tokens/s
GeForce RTX 5090(量子化)700+ tokens/s
GeForce RTX 4090(量子化)llama.cpp 対応予定

重みは Hugging Face で利用可能で、HF Transformers、vLLM、Unsloth ですぐにサポートされます。モデルは build.nvidia.com でも無料で試せます。

重要: Googleは、出力品質はGemma 4標準モデルよりまだ低いと明示しています。DiffusionGemmaは、本番運用ではなく、迅速な反復やインライン編集などの対話的なローカルワークフローを探求する開発者を対象としています。

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇯🇵 DiffusionGemmaは、専用GPUで最大4倍高速な出力を提供する新しい実験的オープンモデルです。単語を1語ずつ予測する代わりに、テキストのブロック全体を同時に生成します。@GoogleDeepMind on X

🔗 Google DeepMindの発表 · 🔗 NVIDIA最適化


Claude Code v2.1.172:動的ワークフローが一般提供に、再帰的サブエージェントは最大5階層

6月10日 — Anthropicは、Claude Codeの動的ワークフロー(dynamic workflows)が 一般提供 に移行すると発表しました。5月28日に研究プレビューとして公開されたこの機能により、Claudeは自らオーケストレーションを設計し、数十から数百のサブエージェントを並列起動して、複雑なタスクをエンドツーエンドで処理できます。

同日に公開されたCLIの v2.1.172 では、これに対応する重要機能として、サブエージェントが自分自身のサブエージェントを作成可能 になり、最大5階層 までネストできるようになりました。これが、大規模な動的ワークフローを実運用可能にする技術的基盤です。

主なユースケース:

  • リポジトリ全体規模のバグハンティング、セキュリティ監査
  • 数千ファイルにまたがるコード移行(例:BunのZig→Rust移植を11日で完了)
  • リリース前の結果に対する敵対的検証

対応状況と条件:

項目詳細
プランMax、Team、Enterprise(管理者が有効化した場合)、Claude API
クラウドプラットフォームAmazon Bedrock、Vertex AI、Microsoft Foundry
有効化コマンド Create a workflow またはパラメータ ultracode(effort xhigh
サブエージェント深度最大5階層
CLIバージョンv2.1.172

注: 動的ワークフローは、標準のClaude Codeセッションよりも大幅に多くのトークンを消費します。Claude Codeは最初の実行前に確認を表示します。Enterprise管理者は、管理対象の設定からこの機能を無効化できます。

v2.1.172のその他の変更点: 1Mコンテキストでクレジットなしの場合にセッションが永久に停止する不具合の修正、ブラウザ内の検索バー /plugin、Amazon Bedrockが ~/.aws からAWSリージョンを読み取るように変更(AWS_REGION が未設定の場合)、バックグラウンドエージェント向けの多数の安定性修正。

🔗 @claudeaiの発表 · 🔗 動的ワークフローブログ · 🔗 CHANGELOG


Grok Voice Think Fast 1.0 — EVA-Benchで第1位

6月10日 — xAIは、ServiceNow AI Research の EVA-Bench ランキングにおける パレートフロンティア 上に位置する音声モデル、Grok Voice Think Fast 1.0 を発表しました。パレートフロンティアとは、評価対象の他のどのシステムも、精度とユーザー体験品質の両方で同時に上回れないことを意味します。

xAIは、自然なタイミング、文脈に合ったイントネーション、人間のような温かみという3つの特徴を強調しています。モデルは xAI の音声API x.ai/api/voice 経由で利用でき、競合他社よりかなり低価格だと説明されています。

指標
EVA-Benchランキングパレートフロンティア(第1位)
利用可能性API x.ai/api/voice
価格設定競合価格の一部(xAIによる)

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇯🇵 Grok Voiceは、人間のようなタイミング、トーン、温かみを備えた最先端の性能を提供します。そしてその価格は競合他社の一部にすぎません。@xai on X

🔗 EVA-Benchの結果


Apple Private Cloud ComputeにおけるNVIDIA Confidential Computing(WWDC 2026)

6月9日WWDC 2026 で発表されたこのApple–NVIDIA–Googleの三者統合は、クラウドにおけるAIの機密性に向けた重要な一歩を示します。NVIDIA Blackwell with Confidential Computing GPUは、Appleの Private Cloud Compute(PCC) インフラに統合され、Appleのデータセンターを越えて Google Cloud にも展開されます。

目的は、Apple Intelligence のリクエストをサーバー側で処理しつつ、暗号学的に絶対的な機密性を保証することです。システムを構築した側でさえ、ユーザーのデータ、会話、チャットにアクセスできません。

保護メカニズム:

  • ハードウェアに根ざした信頼(hardware-rooted trust):インフラが改ざんされていないことを検証
  • コンポーネント間の暗号化された通信経路
  • リモートアテステーション(remote attestation):機微なデータを転送する前に、ソフトウェアがプラットフォームのセキュリティ状態を検証
  • GPU性能を損なわない高速推論のサポート

このアーキテクチャにより、Appleはプライバシーの約束を維持したまま Apple Intelligence を Google Cloud に拡張できます。業界では珍しい組み合わせです。NVIDIAにとっては、Blackwell Confidential Computing が一般向け展開で大規模採用されたことを意味します。

🔗 NVIDIAブログ


Anthropic:スケジュール済みエージェント、秘密保管庫、規制フレームワーク

Claude Managed Agents — スケジュール済みデプロイと変数保管庫

6月9日 — Code with Claude Tokyo で発表された2つの新機能が、Claude Managed Agents に パブリックベータ として追加されました。

スケジュール済みデプロイ(scheduled deployments:エージェントが手動介入なしで、予定に従って自動実行できるようになります。日次レポート、定期チェック、定常データパイプラインに対応します。

保管庫内の変数(vaults:エージェントは、コードやセッション設定に鍵を露出させることなく、管理された保管庫を通じて秘密情報や設定にアクセスします。

機能ステータス
スケジュール済みデプロイパブリックベータ
保管庫内の変数パブリックベータ
プラットフォームClaude Managed Agents

🔗 Claude Managed Agentsの新機能

Policy on the AI Exponential — Anthropicの規制フレームワーク

6月10日 — Anthropicは、Dario Amodei のエッセイを伴う公共政策フレームワーク Policy on the AI Exponential を公開しました。結論は、AI能力は立法プロセスが追随するよう設計されていない指数関数的な速度で進歩している、というものです。

この文書は、10²⁵ FLOP 以上で訓練されたモデル、または AI関連収益が5億米ドル超 の企業、あるいは AI R&Dに10億米ドル超 を投資する企業によって開発されたモデルを対象としています。そこでは、壊滅的リスクを4つのカテゴリに分類しています:生物学的リスク、サイバーリスク、AIシステムに対する制御喪失、そしてAI R&Dそのものの自動化です。

提案された義務説明
透明性義務的テスト、結果の公開
独立評価少なくとも1名の有資格の外部評価者
セキュリティ国家主体からの重みの保護
政府権限危険なモデルを停止または延期する権限

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇯🇵 AIは、私たちの立法機関が想定して設計されていない速度で進歩しており、この二つの間に生じるギャップこそが、この技術が突きつける中心的課題になりつつあります。@AnthropicAI on X

🔗 Policy on the AI Exponential


GitHub Copilot:全員向けアプリ公開、見えるエージェントセッション、CLIでのセキュリティレビュー

Copilot App — 待機リストなしで一般公開のtechnical preview

6月10日 — GitHub Copilotアプリのtechnical previewが、Copilot Pro、Pro+、Max、Business、Enterprise のすべての加入者に対して、待機リストなし で利用可能になりました。エージェント向けに設計されたこのデスクトップアプリは、エージェントセッション管理、pull request作成、開発タスクの操作をデスクトップから一元化し、チケットからPRまでを1か所で完結できます。

🔗 @githubの発表

Copilot Chatでエージェントセッションが見えるように

6月10日 — GitHubは、Copilot Chat とクラウドエージェント間の移行を改善しました。Copilot Chat では新たに2つのツールが利用できます。Get agent logs(pull request上のエージェントセッションのログを会話内で直接照会)と Session search(話題、タイトル、日付で過去セッションを検索・要約)です。進行中セッションの状態も、チャット内でリアルタイムに反映されます。

🔗 Changelog

Copilot CLI — コマンド /security-review(実験的public preview)

6月10日 — GitHub Copilot CLI に、実験的な public preview として新しいスラッシュコマンド /security-review が追加されました。これは、ローカルのコード変更をターミナルから直接分析します:インジェクション(SQL、コマンド)、XSS、非安全なデータ処理、path traversal、弱い暗号化。結果は深刻度と信頼度でスコア化され、ターミナルを離れずに適用できる提案が表示されます。このコマンドは GitHub code scanning や Dependabot とは独立しており、オンデマンドの軽量分析としてそれらを補完します。

🔗 Changelog

Manus — Zoom Connector

6月9日 — ManusはZoomコネクタを公開し、接続済みアカウントからアクセス可能な会議コンテンツをエージェントが自動分析できるようにしました:要約、文字起こし、録画、メモ、アジェンダ、ホワイトボード、参加者情報。主なユースケースは3つです。会議のオンデマンド分析、Slackまたはメールへのレポート付き定期自動レビュー、複数会議にまたがるトレンド分析。制限として、Manusがアクセスできるのは、接続済みのZoomアカウントに閲覧権限のあるリソースのみです。

🔗 Manusブログ


xAI と Kimi:提携とスウォームエージェント

Grok + eToro — Xのリアルタイムデータを活用するToriエージェント

6月10日 — xAIとeToroは、eToroのAIエージェント Tori(75か国で4,000万人のユーザー)が、XプラットフォームのxAIモデルとリアルタイムデータを統合し、マーケットセンチメント(market sentiment)を分析できるようになったと発表しました。Toriは、センチメントの変化をリアルタイムで読み取り、ライブシグナルを追跡し、情報を分析できます。同じリアルタイム知能は、xAI APIコンソールを通じてすべての開発者に提供されています。

🔗 xAI News

Kimi Agent Swarm — 2026年ワールドカップ104試合の予測

6月9日 — Kimi(Moonshot AI)は、300体のサブエージェントを並列 に動かし、FIFAワールドカップ2026の104試合を予測しています。各エージェントは、戦術、選手のフォーム、過去データ、世論、天候、心理、オッズの動きといった独自の分析視点を持ちます。システムは Elo/FIFA、Poisson/Dixon-Coles、モンテカルロシミュレーション、動的ベイズ更新を利用します。特定されたシグナルでは、ドイツの優勝確率は 約11.3% と推定され、ベッティング市場の約7.4%を上回っています。

🔗 @Kimi_Moonshotの発表


OpenAI Codex:Claude Codeからの移行とAbletonのショーケース

Codex app 26.608 — Claude Codeからの移行とプラグイン再設計

6月9日Codex app 26.608 は、Claude CodeClaude Cowork から設定を自動インポートできる移行フロー(Migrate to Codex)を導入しました。アプリ初回起動時も含まれます。プラグインUIは、個別タブ、カテゴリ別フィルタ付きマーケットプレイス、改善されたキーボードナビゲーションを備えて全面的に再設計されました。設定検索はGitと視覚カスタマイズにも拡張されています。

機能詳細
Claude Code/Cowork移行初期セットアップ時を含め自動インポート
Plugins screenタブ、marketplace、カテゴリフィルタ
Settings searchGit、視覚カスタマイズまで拡張

🔗 Codex Changelog


Perplexity と Cohere:マルチモデルオーケストレーションと音声ベンチマーク

Perplexity ComputerがClaude Fable 5をオーケストレーターとして統合

6月10日 — Perplexityは、マルチステップのエージェント型インターフェースである Perplexity Computer に、オーケストレーションモデルとして Claude Fable 5 を統合したと発表しました。この統合は Pro および Max の加入者限定です。

🔗 @perplexity_aiの発表

Cohere Transcribe、Hugging Face の Far-Field ASR ベンチマークで第1位

6月10日 — Cohere のオープンソース音声認識モデル Cohere Transcribe が、実世界の音声環境(会議室、コンタクトセンター、電話通話)での堅牢性をテストするために設計された、Hugging Face の新しい Far-Field ASR ベンチマークで第1位にランクインしました。

モデルFar-Field ASR の WER
Cohere Transcribe17,9
IBM Granite Speech~19,8
NVIDIA Parakeet~21,5

このモデルは引き続き Apache 2.0 ライセンスの下で提供され、ローカル実行が可能です。2026年3月には、汎用 OpenASR リーダーボードでもすでに第1位でした。

🔗 発表 @cohere


Gemini App:中小企業向けの新機能

6月10日 — サンパウロで開催された Google for Brazil イベントで、Google は中小企業向けの Gemini App の2つの機能を発表し、2026年6月に世界展開を予定していると明らかにしました。

Google Business Profile 連携:ユーザーは Gemini アプリ内で自分のプロフィールを直接接続できます。接続すると、Gemini は顧客レビュー、質問、パフォーマンスデータにアクセスし、月次の業績分析、ブランドの声に合わせたレビュー返信の作成、営業時間やプロフィールの更新など、パーソナライズされた提案を行います。

Business notebooks:企業がやり取り、ソース、Google Business プロフィールをまとめて管理する中央スペースです。Gemini はこれを知識ベースとして活用し、会話の継続性を保ちながら、未回答の顧客質問や未設定の祝日営業時間などに対するプロアクティブなアラートを提案します。

🔗 Google ブログ


短報

  • 6月10日の Gemini 障害 — プロダクト責任者 Josh Woodward が、19時31分にサービス障害を報告し、部分的な修正はすでに展開済みであると伝えました。🔗 @joshwoodward
  • GitHub Enterprise — 500 のコストセンター — 企業ごとのコストセンター上限が 250 から 500 に増加し、設定不要で自動適用されます。🔗 更新履歴
  • Dependabot が Deno をサポート — Deno のバージョン更新が deno.github/dependabot.yml エントリ経由でサポートされます(セキュリティ更新は現時点では未対応)。🔗 更新履歴
  • npm v12 — 2026年7月の互換性破壊変更 — インストールスクリプト、Git 依存、リモート URL が既定でブロックされます。先回りのため npm 11.16.0+ への更新が推奨されます。🔗 更新履歴
  • Alibaba Wan — Fisheye Lens — 標準画像を魚眼風の円形超広角ビューに変換する新ツールが、Wan のビジュアルスキルギャラリーに追加されました。🔗 @Alibaba_Wan
  • Z-Image-Engineer-V6 — Z-Image-Turbo(Tongyi Lab / Alibaba)向けの差し替え可能なテキストエンコーダーで、簡単なプロンプトを映画的な記述に変換します。Hugging Face で利用可能です。🔗 @Ali_TongyiLab
  • Qwen-Image-Edit-2511 + LoRA — Qwen-Image-Edit-2511 向けの新しいコミュニティ Hugging Face スペースで、汎用 LoRA マトリクス(顔交換、ポーズ、バーチャル試着、多角度レンダリング)を備えています。🔗 @Ali_TongyiLab
  • ChatGPT for iOS 1.2026.153 — Codex Mobile の新機能 — worktrees、/goal
  • Ableton Live での Codex — @OpenAIDevs が、トラックの説明から Ableton Live を自動設定するために Codex を使っているミュージシャン @sound4movement を紹介しました。🔗 @OpenAIDevs
  • Cohere Labs — AI と仕事の未来 — AI の雇用への影響をめぐる議論における証拠のギャップに関するレポートを公開し、新たな研究方向を打ち出しました。🔗 @cohere

それが意味すること

新しい推論アーキテクチャ:トークンごとの処理は終わるのか? DiffusionGemma は、公開された大規模なテキスト拡散アーキテクチャの初の実証であり、発売当日にモデルを最適化した NVIDIA の即時の関心は、この方向性が産業レベルでも真剣に受け止められていることを示しています。専用 GPU で 4 倍の性能向上は些細なことではありません。ボトルネックを(自己回帰の大敵である)メモリ帯域幅から Tensor コアへと移します。現在の制約(Gemma 4 より品質が低いこと)と、用途を本番ではなく明確に開発者向けにしている点は、これが即時の置き換えではなく研究路線であることを示しています。しかし、別領域(音声)における Grok Voice の EVA-Bench での Pareto ベンチマークは、効率性の競争が今や複数のアーキテクチャ面で並行して進んでいることを示しています。

エージェントの自律性:約束からインフラへ。 Claude Code の 5 階層再帰付きダイナミックワークフローの GA と、Claude Managed Agents の計画実行とシークレット保管庫の組み合わせは、パラダイムシフトを具体化しています。エージェントはもはや単発ツールではなく、永続的で計画可能、かつ秘密情報へ安全にアクセスできるプロセスです。Kimi Agent Swarm の取り組み(104 試合で 300 のサブエージェント)は、Moonshot AI 側でも同じ動きが進んでいることを示しています。そして、Perplexity Computer が Claude Fable 5 をオーケストレーターとして統合していることは、エージェント競争がモデルそのものだけでなく、ツール群のレベルでも戦われていることを示しています。

プライバシーと信頼:Apple–NVIDIA–Google の軸。 Google Cloud 上の Apple PCC に NVIDIA Confidential Computing が統合されたことは、構造的に重要です。GPU アクセラレーション、暗号学的なプライバシー保証、サードパーティのクラウド基盤を組み合わせた大規模展開が可能であることを示しています。これはニッチな話ではありません。Apple Intelligence は数億台のデバイスに届いています。このアーキテクチャが標準化されれば、機微な個人データを扱う AI サービスの事実上の標準になる可能性があります。

開発者エコシステム:ツールの集約と競争。 Codex 26.608 が Claude Code からの移行フローを提供しているのは偶然ではありません。開発者が競合ツールに自分の設定を投資しており、移行コストを下げる必要があるという認識です。GitHub Copilot は一方で、「agent-native」アプローチ(待機リストなしのアプリ、チャット内で可視化されたエージェントセッション、CLI でのセキュリティレビュー)を加速しています。6月10日は、モデルの生の能力よりも、日々の開発ワークフローへの統合の深さで差別化が決まるエコシステムを描き出しています。


ソース