検索

Grok STTとTTS APIsが格安、Claude for Word、Midjourney V8.1

4月18日、xAIは2つの音声API――音声認識(Speech to Text)と音声合成(Text to Speech)――を、既存の競合をすべて下回る価格で提供開始しました。Anthropicは、Pro、Max、Team、Enterpriseの加入者向けに、ClaudeをMicrosoft Word内で直接利用できるようにしました。MidjourneyはV8.1を展開し、ネイティブ2Kレンダリングを実現、V8より3倍高速で3分の1のコストを実現しました。同時に、LumaとWonder ProjectはAWS支援のInnovative Dreamsスタジオを立ち上げ、MiniMaxはNousResearchとMaxHermesで提携し、Kimiはクロスデータセンター推論アーキテクチャを公開、GoogleはGemini SkillsでChromeを強化しました。


Grok STTとTTS — 市場最安の音声API

4月17日 — xAIは2つのスタンドアロン音声APIを同時にリリースしました。音声認識(Speech to Text、STT)APIと音声合成(Text to Speech、TTS)APIです。価格設定は攻めの姿勢で、両APIともそれぞれのカテゴリで最安値です。

STT API(音声認識)

GrokのSTT APIは、バッチRESTとストリーミングWebSocketの2モードを提供します。料金はそれぞれ $0.10/時間(バッチ)と $0.20/時間(ストリーミング)で、ElevenLabsの$0.22と$0.39、AssemblyAIの$0.21と$0.45、Deepgramの$0.31と$0.55を下回ります。

競合バッチ(REST)ストリーミング(WebSocket)
Grok$0.10/h$0.20/h
ElevenLabs$0.22/h$0.39/h
AssemblyAI$0.21/h$0.45/h
Deepgram$0.31/h$0.55/h

品質面では、Grok STTの全体的な単語誤り率(Word Error Rate)は 6.9% で、ElevenLabsの9.0%、Deepgramの11.0%、AssemblyAIの12.9%を上回ります。Grok STTは25以上の言語をサポートし、単語単位のタイムスタンプ、多話者ダイアライゼーション(speaker diarization)、マルチチャネル対応、逆テキスト正規化(発話から数字や日付へ変換)を備えています。

TTS API(音声合成)

GrokのTTS APIは 100万文字あたり$4.20 で、OpenAIの$30、InWorldの$40、Cartesiaの$46.70、ElevenLabsの$50を大きく下回ります。APIはRESTとストリーミングWebSocketをサポートします。さらに、合成のトーンやリズムを制御するための表現豊かなタグとして、[laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> を導入しています。

競合100万文字あたりの価格
Grok$4.20
OpenAI$30.00
InWorld$40.00
Cartesia$46.70
ElevenLabs$50.00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇯🇵 xAIはGrokの音声認識APIと音声合成APIの提供開始を発表します。Grok STTは世界で最も低い単語誤り率と価格を実現しています。Grok TTSは世界で最も表現力豊かな音声と最安値を提供します。@xai on X

🔗 xAI発表 🔗 @xaiの投稿


Claude for Word — Microsoft拡張機能がベータ公開

4月17日 — Anthropicは、Pro、Max、Team、Enterpriseの加入者向けに Claude for Word のベータ版を公開しました。この拡張機能はMicrosoft WordのUIに直接統合され、別ウィンドウなしで、文書レベルで動作します。

機能説明
ネイティブ変更履歴Claudeによる変更はすべて、Wordの承認/却下可能な修正として表示される
コメント管理Claudeはコメントを読み、アンカーされたテキストを編集し、スレッド内で返信する
フォーマット保持見出しスタイル、番号付け、定義済み用語を継承する
Cross-context同一の会話内でExcelとPowerPointのアドインとコンテキストを共有する
エンタープライズセキュリティClaudeアカウントまたは既存のクラウドプロバイダー経由でサインイン

対応形式は .docx.docm です。拡張機能はMicrosoft Marketplaceで WA200010453 の識別子でインストールできます。

🔗 claude.com/claude-for-word 🔗 @claudeaiの投稿


Midjourney V8.1 — ネイティブ2Kレンダリング、3倍高速

4月14日 — Midjourneyは画像生成モデルのV8.1を公開しました。このアップデートでは、ネイティブ2K HDレンダリングに対応し、V8より3倍高速、コストは3分の1です。

V8.1はV8エンジンの大きな改良版です。解像度は後処理アップスケーリングなしで直接2Kになり、細部の忠実度が向上し、拡大工程でよく見られるアーティファクトが減少します。速度/価格/解像度の組み合わせにより、V8.1はV8シリーズで最も利用しやすいバージョンとなっています。


Luma × Wonder Project — AWS支援のInnovative Dreamsスタジオ

4月16日 — Luma AIとWonder Project(faith & values系の制作スタジオで、Prime Videoのパートナー)は共同で、Innovative Dreams の立ち上げを発表しました。これは、Amazon Web Services(AWS) に支援・資金提供される新しい映画制作会社、R&Dラボ、VFX企業です。

Innovative Dreamsは、Realtime Hybrid Filmmaking を大規模展開する初のスタジオとして紹介されています。これは、パフォーマンスキャプチャ、バーチャルプロダクション、生成AI(特に Luma Agents)を、企画、プリビジュアライゼーション、撮影、ポストプロダクションのすべての工程に組み合わせるアプローチです。

項目詳細
CEOJon Erwin(Wonder Project創業者)
CTO / LumaAmit Jain(Luma AI CEO)
インフラAWS cloud + R&Dおよび仮想制作ツール向けAI
技術Luma Agents + Realtime Hybrid Filmmaking
拠点MBS Media Campus, Manhattan Beach, カリフォルニア
最初のプロジェクト”The Old Stories: Moses”(3話) - Ben KingsleyとO-T Fagbenle出演、Prime Video向け

“Realtime Hybrid Filmmaking” の手法は、撮影、レンダリング、編集の従来のタイムラグをなくします。俳優はデジタル環境にリアルタイムで反応できるため、創造的なアイデアと最終ピクセルの距離が短縮され、人間の演技は維持されます。Innovative Dreamsは、他のハリウッドスタジオにもそのツールを提供します。

🔗 Lumaの発表 🔗 @LumaLabsAIの投稿


MiniMax M2.7 × NousResearch — 設定不要のHermes Agent、MaxHermes

4月16日 — MiniMaxは、モデル M2.7Hermes Agent harness に統合するため、NousResearchとの深い提携を発表しました。この発表では、MaxHermes が導入されます。これは、ターミナル設定やローカルインストールなしで、@MiniMaxAgent から直接利用できる、Hermes Agentのクラウド管理版です。

M2.7 × Hermes Agent の共進化は、より高度なエージェントを目指しています。Hermesの自己改善ループ(self-improving loop)は、エージェントタスクにおいてM2.7モデルの力を最大限に引き出します。ローカルでHermesを動かしているユーザーは、自分のエージェントをMaxHermesに接続して、クラウド管理インフラの恩恵を受けることもできます。

🔗 @MiniMax_AIの投稿


ChromeのGemini Skills — プロンプトをワンクリックで

4月14日 — Google Chromeは、ブラウザ内のGemini向けに「Skills」と呼ばれる新機能を統合しました。これにより、よく使うプロンプトを保存して、再入力せずにワンクリックで再実行できます。すぐに使い始められるよう、定型プロンプトのライブラリも用意されています。

この機能は4月14日に発表され、2026年4月15日に利用可能であることが確認され、その後4月17日の @GoogleAI の週間まとめでも取り上げられました。

🔗 @googlechromeの投稿(4月14日) 🔗 @googlechromeの投稿(4月15日)


Gemini API — Google AI Studioでの前払い(Prepay Billing

4月15日 — Google AI Studioは、Gemini API向けに「Prepay Billing」を導入しました。開発者はクレジットを事前購入し、利用に応じて消費できるため、月末の請求サプライズをなくせます。

残高が少なくなると自動チャージが利用可能です。この機能は、以前導入されたSpend CapsおよびUsage Tiersと互換性があります。米国では新しいGoogle Cloud請求アカウント向けに提供されており、今後数週間で世界展開される予定です。高い利用レベルの既存アカウントは、後払いに切り替えることができます。

🔗 @GoogleAIStudioの投稿


Kimi Prefill-as-a-Service — クロスデータセンター推論

4月18日 — Moonshot AI(Kimi)は、推論インフラにおける技術的進展として Prefill-as-a-Service(PraaS)を公開しました。このアーキテクチャは、Prefill/Decodeの分離(prefill/decode disaggregation)を単一クラスタの外へ押し広げ、異種ハードウェアを備えたクロスデータセンターアーキテクチャへと拡張します。

発表された成果は、1.54倍のスループットthroughput)向上と、P90 TTFTが64%減少(最初のtokenまでの時間)です。鍵となる技術は、データセンター間でのKV cache(key-value cache)転送コストを削減するハイブリッドモデル Kimi Linear です。これは一般向け製品の発表ではなく、分散推論インフラに関する研究発表であり、Kimiのtokenあたりコスト削減に直接的な影響をもたらします。

🔗 @Kimi_Moonshotの投稿 🔗 arXiv論文


Claude Code v2.1.114 と Runway Seedance 2.0 API

4月18日 — Claude Code v2.1.114 は、エージェントチームのメンバーが権限ダイアログ経由でツールへのアクセスを要求した際に発生していたクラッシュを修正しました。

4月16日 — Runwayは、開発者向けに Seedance 2.0 を Runway API 経由で利用可能にしました。Webリリース(4月9日)、1080pレンダリング(4月16日)、iOSアプリ(4月17日)に続き、APIアクセスによりモデルのマルチチャネル展開が完了します。ドキュメントは dev.runwayml.com で利用できます。

🔗 Claude Code CHANGELOG 🔗 @runwaymlの投稿 — Seedance API


これが意味すること

GrokのSTTとTTS APIの同時リリースは、今週最も攻めた価格戦略です。ElevenLabs、AssemblyAI、OpenAI TTSに対して2倍から10倍の価格破壊を行うことで、xAIはAI音声がコモディティ化しつつあることを明確に示しています。これは独立開発者やスタートアップの採用を加速させる一方、既存プレイヤーの利益率を圧迫するでしょう。市場最安級の認識精度、破格の価格、そして表現豊かなタグの組み合わせにより、これらのAPIはすぐに本番利用できます。

Claude for WordとChromeのGemini Skillsは、異なる2つの戦略を示しています。Anthropicは、ユーザーがすでに日々使っている既存のオフィス生産性ツールにモデルを統合しています。一方Googleは、Geminiを日常的に欠かせない存在にするため、ブラウザを強化しています。どちらのアプローチも、モデルへのアクセス摩擦を下げることを狙っています。

Luma × Wonder Project × AWSは、新しいハリウッド・スタジオモデルの台頭を示しています。生成AIを制作の各工程に組み込み、AWSのクラウドインフラを活用し、これまで分散されていた制作をロサンゼルスに「再集中」させるという野心です。この発表は技術的であると同時に象徴的でもあり、Realtime Hybrid Filmmaking を単なる概念ではなく、工業化可能なパイプラインとして裏付けています。


ソース

この文書は、モデル gpt-5.4-mini を使用して fr 版から ja 言語へ翻訳されました。翻訳プロセスの詳細については、https://gitlab.com/jls42/ai-powered-markdown-translator を参照してください。