4月18日,xAI 同时推出两项音频 API——语音识别(Speech to Text)和语音合成(Text to Speech)——其定价低于所有已建立的竞争对手。Anthropic 将 Claude 直接带入 Microsoft Word,面向其 Pro、Max、Team 和 Enterprise 订阅用户。Midjourney 推出 V8.1,原生 2K 渲染,速度比 V8 快三倍,成本低三分之二。与此同时:Luma 和 Wonder Project 在 AWS 支持下推出 Innovative Dreams 影业工作室,MiniMax 与 NousResearch 合作推出 MaxHermes,Kimi 发布跨数据中心推理架构,Google 则通过 Gemini Skills 为 Chrome 增添新功能。
Grok STT 和 TTS —— 市场上最便宜的音频 API
4月17日 — xAI 同步推出两项独立音频 API:语音识别 API(Speech to Text, STT)和语音合成 API(Text to Speech, TTS)。定价策略非常激进:这两项 API 在各自细分领域都标出了最低价格。
STT API(语音识别)
Grok 的 STT API 提供两种模式:批处理 REST 和流式 WebSocket。价格分别为 $0.10/小时(批处理)和 $0.20/小时(流式),而 ElevenLabs 分别为 $0.22 和 $0.39,AssemblyAI 为 $0.21 和 $0.45,Deepgram 为 $0.31 和 $0.55。
| 竞争对手 | 批处理(REST) | 流式(WebSocket) |
|---|---|---|
| Grok | $0.10/h | $0.20/h |
| ElevenLabs | $0.22/h | $0.39/h |
| AssemblyAI | $0.21/h | $0.45/h |
| Deepgram | $0.31/h | $0.55/h |
在质量方面,Grok STT 的整体词错误率(Word Error Rate)为 6.9%,低于 ElevenLabs 的 9.0%、Deepgram 的 11.0% 和 AssemblyAI 的 12.9%。Grok STT 支持 25+ 种语言,具备词级时间戳、多说话人分离(speaker diarization)、多通道支持以及逆文本规范化(将口语转换为数字和日期)。
TTS API(语音合成)
Grok 的 TTS API 定价为 每百万字符 $4.20,而 OpenAI 收费 $30、InWorld $40、Cartesia $46.70、ElevenLabs $50。该 API 同时支持 REST 和流式 WebSocket。它引入了表达式标记:[laugh]、[sigh]、[whisper]、<emphasis>、<slow>、<pause>——用于控制合成的语气和节奏。
| 竞争对手 | 每百万字符价格 |
|---|---|
| Grok | $4.20 |
| OpenAI | $30.00 |
| InWorld | $40.00 |
| Cartesia | $46.70 |
| ElevenLabs | $50.00 |
xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.
🇨🇳 xAI 宣布推出 Grok 语音识别和语音合成 API。Grok STT 拥有全球最低的词错误率和最低价格。Grok TTS 提供全球最具表现力的语音以及最低价格。 — @xai 在 X 上
Claude for Word —— 微软扩展的测试版
4月17日 — Anthropic 推出 Claude for Word 测试版,面向 Pro、Max、Team 和 Enterprise 订阅用户。该扩展直接集成到 Microsoft Word 界面中——无需单独窗口——并在文档级别运行。
| 功能 | 描述 |
|---|---|
| 原生修订跟踪 | Claude 的所有修改都会以 Word 可接受/可拒绝的修订形式呈现 |
| 评论管理 | Claude 可读取评论、编辑锚定文本并在讨论线程中回复 |
| 格式保留 | 继承标题样式、编号和已定义术语 |
| 跨上下文 | 与同一对话中的 Excel 和 PowerPoint 加载项共享上下文 |
| 企业安全 | 通过 Claude 账户或现有云提供商登录 |
支持的格式为 .docx 和 .docm。该扩展可通过 Microsoft Marketplace 安装,标识符为 WA200010453。
🔗 claude.com/claude-for-word 🔗 @claudeai 推文
Midjourney V8.1 —— 原生 2K 渲染,速度快 3 倍
4月14日 — Midjourney 上线了其图像生成器的 V8.1 版本。此次更新带来 原生 2K HD 渲染,生成速度比 V8 快三倍,成本则低三分之二。
V8.1 是对 V8 引擎的一次显著优化:分辨率直接提升到 2K,无需后期放大,从而提升细节保真度并减少放大步骤中常见的伪影。速度/价格/分辨率的组合,使 V8.1 成为 V8 系列中最易使用的版本。
Luma × Wonder Project —— 由 AWS 支持的 Innovative Dreams 工作室
4月16日 — Luma AI 与 Wonder Project(faith & values 制片公司、Prime Video 合作伙伴)联合宣布推出 Innovative Dreams——一家新的电影制作公司、研发实验室和 VFX 企业,由 Amazon Web Services(AWS) 提供支持并融资。
Innovative Dreams 被称为首个大规模部署 Realtime Hybrid Filmmaking 的工作室——这一方法将表演捕捉、虚拟制作与生成式 AI(尤其是 Luma Agents)贯穿于制作的各个阶段:概念、预可视化、拍摄和后期制作。
| 方面 | 细节 |
|---|---|
| 首席执行官 | Jon Erwin(Wonder Project 创始人) |
| CTO / Luma | Amit Jain(Luma AI 首席执行官) |
| 基础设施 | AWS 云 + 用于研发和虚拟制作工具的 AI |
| 技术 | Luma Agents + Realtime Hybrid Filmmaking |
| 地点 | MBS Media Campus,曼哈顿海滩,加利福尼亚 |
| 首个项目 | ”The Old Stories: Moses”(3 集),由 Ben Kingsley 和 O-T Fagbenle 主演,面向 Prime Video |
“Realtime Hybrid Filmmaking” 方法消除了拍摄、渲染和剪辑之间的传统延迟。演员可以实时对数字环境作出反应,从而缩短创意构想到最终像素之间的距离,同时保留人类表演。Innovative Dreams 也会向其他好莱坞工作室提供其工具。
MiniMax M2.7 × NousResearch —— 无需配置的 Hermes Agent:MaxHermes
4月16日 — MiniMax 宣布与 NousResearch 深度合作,将 M2.7 模型集成到 Hermes Agent harness 中。此次公告推出 MaxHermes——一个托管在云端的 Hermes Agent 版本,可直接通过 @MiniMaxAgent 访问,无需终端配置或本地安装。
M2.7 × Hermes Agent 的协同演进旨在打造更高级别的智能体:Hermes 的自我改进循环(self-improving loop)能够在智能体任务中充分发挥 M2.7 模型的优势。使用本地运行 Hermes 的用户也可以将其智能体连接到 MaxHermes,以利用托管云基础设施。
Chrome 中的 Gemini Skills —— 一键调用你的提示词
4月14日 — Google Chrome 在浏览器中集成了一项名为 “Skills” 的 Gemini 新功能。你现在可以保存最常用的提示词,并一键重新运行,无需重新输入。系统还提供了一个预设提示词库,便于快速上手。
该功能于 4 月 14 日宣布,并于 2026 年 4 月 15 日确认可用,随后又在 4 月 17 日的 @GoogleAI 周报中再次提及。
🔗 @googlechrome 推文(4月14日) 🔗 @googlechrome 推文(4月15日)
Gemini API —— Google AI Studio 的预付费(Prepay Billing)
4月15日 — Google AI Studio 为 Gemini API 引入了 “Prepay Billing”。开发者现在可以预先购买积分并按使用量消耗,从而避免月底账单的意外。
当余额不足时可启用自动充值。该功能兼容此前推出的 Spend Caps 和 Usage Tiers。它目前面向美国境内的新 Google Cloud 计费账户开放,并将在未来几周内全球推广。对于已建立高使用等级的账户,可切换为后付费。
Kimi Prefill-as-a-Service —— 跨数据中心推理
4月18日 — Moonshot AI(Kimi)发布了一项推理基础设施技术进展:Prefill-as-a-Service(PraaS)。该架构将 Prefill/Decode 解耦(prefill/decode disaggregation)推进到单个集群之外,扩展为采用异构硬件的跨数据中心架构。
公布的结果包括:吞吐量提升 1.54 倍(throughput)以及 P90 TTFT 降低 64%(首 token 时间)。关键技术是混合模型 Kimi Linear,它降低了 key-value cache(key-value cache)在数据中心之间传输的成本。这不是面向大众的发布,而是一篇分布式推理基础设施研究论文,对降低 Kimi 的每 token 成本有直接影响。
🔗 @Kimi_Moonshot 推文 🔗 arXiv 论文
Claude Code v2.1.114 和 Runway Seedance 2.0 API
4月18日 — Claude Code v2.1.114 修复了一个崩溃问题:当智能体团队中的某个成员通过权限对话框请求访问某个工具时,会发生该崩溃。
4月16日 — Runway 通过 Runway API 向开发者开放 Seedance 2.0。继网页端发布(4月9日)、1080p 渲染(4月16日)和 iOS 应用(4月17日)之后,API 访问完成了该模型的多渠道部署。文档可在 dev.runwayml.com 查看。
🔗 Claude Code CHANGELOG 🔗 @runwayml 推文 — Seedance API
这意味着什么
Grok 的 STT 和 TTS API 同步发布,是本周最激进的定价动作。xAI 将价格压低到比 ElevenLabs、AssemblyAI 和 OpenAI TTS 低 2 到 10 倍,明确传递出一个信号:AI 音频正在变成一种商品——这会加速独立开发者和初创公司的采用,但也会压缩现有玩家的利润空间。其结合了市场最低级别的识别错误率、超低价格和表达式标记,使这些 API 可以立即投入生产环境使用。
Claude for Word 和 Chrome 中的 Gemini Skills 代表了两种不同的策略:Anthropic 将模型嵌入用户已经每天使用的办公生产力工具中;而 Google 则增强浏览器,让 Gemini 成为日常使用中不可或缺的一部分。两种方式都在试图降低访问模型的摩擦。
Luma × Wonder Project × AWS 展现了好莱坞新型工作室模式的出现:在制作每个环节都集成生成式 AI、采用 AWS 云基础设施,并有将原本外包制作“本地化”到洛杉矶的雄心。这个公告既具象征意义,也有技术意义——它验证了 Realtime Hybrid Filmmaking 作为可工业化流水线的可行性,而不只是一个概念。
来源
- xAI 公告 — Grok STT 和 TTS APIs
- @xai 推文 — Grok STT 和 TTS
- @claudeai 推文 — Claude for Word
- claude.com/claude-for-word
- Luma AI 公告 — Innovative Dreams
- @LumaLabsAI 推文 — Innovative Dreams
- @MiniMax_AI 推文 — M2.7 × NousResearch
- @googlechrome 推文 — Gemini Skills(4月14日)
- @googlechrome 推文 — Gemini Skills(4月15日)
- @GoogleAIStudio 推文 — Prepay Billing
- @Kimi_Moonshot 推文 — PraaS
- arXiv 论文 — Kimi PraaS
- Claude Code CHANGELOG — v2.1.114
- @runwayml 推文 — Seedance 2.0 API
本文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://github.com/jls42/ai-powered-markdown-translator