搜索

Grok STT 和 TTS APIs 超低价,Claude for Word,Midjourney V8.1

4月18日,xAI 推出两项音频 APIs —— 语音识别(Speech to Text)和语音合成(Text to Speech)—— 定价低到压过所有既有竞争对手。Anthropic 让 Claude 直接进入 Microsoft Word,面向其 Pro、Max、Team 和 Enterprise 订阅用户。Midjourney 推出 V8.1,支持原生 2K 渲染,速度比 V8 快三倍,成本低三倍。与此同时:Luma 和 Wonder Project 在 AWS 支持下启动 Innovative Dreams 制片厂,MiniMax 与 NousResearch 合作推出 MaxHermes,Kimi 发布跨数据中心推理架构,Google 则为 Chrome 增加了 Gemini Skills。


Grok STT 和 TTS —— 市场上最便宜的音频 APIs

4月17日 — xAI 同时推出两项独立音频 APIs:语音识别 API(Speech to Text,STT)和语音合成 API(Text to Speech,TTS)。定价策略非常直接:这两项 APIs 在各自细分领域都给出了最低价格。

STT API(语音识别)

Grok 的 STT API 提供两种模式:batch REST 和 streaming WebSocket。价格分别为 $0.10/小时(batch)和 $0.20/小时(streaming),而 ElevenLabs 为 $0.22 和 $0.39,AssemblyAI 为 $0.21 和 $0.45,Deepgram 为 $0.31 和 $0.55。

竞争对手Batch (REST)Streaming (WebSocket)
Grok$0.10/h$0.20/h
ElevenLabs$0.22/h$0.39/h
AssemblyAI$0.21/h$0.45/h
Deepgram$0.31/h$0.55/h

在质量方面,Grok STT 的整体词错率(Word Error Rate)为 6.9%,低于 ElevenLabs 的 9.0%、Deepgram 的 11.0% 和 AssemblyAI 的 12.9%。Grok STT 支持 25+ 种语言,提供词级时间戳、多说话人分离(speaker diarization)、多通道支持,以及文本逆规范化(将语音中的数字和日期转换出来)。

TTS API(语音合成)

Grok 的 TTS API 定价为 每百万字符 $4.20,而 OpenAI 收费 $30,InWorld $40,Cartesia $46.70,ElevenLabs $50。该 API 同时支持 REST 和 streaming WebSocket。它引入了富有表现力的标签:[laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> —— 用于控制合成的语气和节奏。

竞争对手每百万字符价格
Grok$4.20
OpenAI$30.00
InWorld$40.00
Cartesia$46.70
ElevenLabs$50.00

xAI 宣布推出 Grok 的语音转文字和文字转语音 APIs。Grok STT 拥有全球最低的词错率和价格。Grok TTS 拥有全球最具表现力的声音和最低的价格。

🇨🇳 xAI 宣布推出 Grok 的语音转文字和文字转语音 APIs。Grok STT 拥有全球最低的词错率和价格。Grok TTS 拥有全球最具表现力的声音和最低的价格。@xai 在 X 上

🔗 xAI 公告 🔗 @xai 推文


Claude for Word —— Microsoft 扩展进入 beta

4月17日 — Anthropic 为 Pro、Max、Team 和 Enterprise 订阅用户推出 Claude for Word beta 版。该扩展直接集成到 Microsoft Word 界面中——没有单独窗口——并在文档层面运行。

功能描述
原生修订痕迹Claude 的所有修改都会显示为可接受/可拒绝的 Word 修订
评论管理Claude 读取评论、编辑锚定文本,并在对话线程中回复
格式保留继承标题样式、编号和已定义术语
跨上下文在同一对话中与 Excel 和 PowerPoint 插件共享上下文
企业安全通过 Claude 账号或现有云服务提供商登录

支持的格式为 .docx.docm。该扩展可通过 Microsoft Marketplace 以 WA200010453 标识安装。

🔗 claude.com/claude-for-word 🔗 @claudeai 推文


Midjourney V8.1 —— 原生 2K 渲染,速度提升 3×

4月14日 — Midjourney 已上线其图像生成器 V8.1 版本。此次更新带来了 原生 2K HD 渲染,生成速度比 V8 快三倍,成本则低三倍。

V8.1 是对 V8 引擎的重要精炼:分辨率直接提升到 2K,无需后续 upscaling,这提升了细节保真度,并减少了放大步骤常见的伪影。速度/价格/分辨率的组合使 V8.1 成为 V8 系列中最易使用的版本。


Luma × Wonder Project —— 由 AWS 支持的 Innovative Dreams 制片厂

4月16日 — Luma AI 与 Wonder Project(faith & values 制片公司,Prime Video 合作伙伴)联合宣布推出 Innovative Dreams——一家新的电影制作公司、研发实验室和 VFX 企业,由 Amazon Web Services (AWS) 提供支持并资助。

Innovative Dreams 被描述为首个大规模部署 Realtime Hybrid Filmmaking 的工作室——一种将表演捕捉、虚拟制作和生成式 AI(尤其是 Luma Agents)融合到制作各个阶段的方法:概念、前期可视化、拍摄和后期制作。

方面详情
CEOJon Erwin(Wonder Project 创始人)
CTO / LumaAmit Jain(Luma AI CEO)
基础设施AWS 云 + 用于研发和虚拟制作工具的 AI
技术Luma Agents + Realtime Hybrid Filmmaking
地点MBS Media Campus,Manhattan Beach,加利福尼亚州
首个项目”The Old Stories: Moses”(3 集),由 Ben Kingsley 和 O-T Fagbenle 主演,为 Prime Video 制作

“Realtime Hybrid Filmmaking” 方法消除了拍摄、渲染和剪辑之间的传统延迟。演员可以实时对数字环境做出反应,从而缩短创意构想到最终像素之间的距离,同时保留人的表演。Innovative Dreams 也将其工具提供给其他好莱坞工作室。

🔗 Luma 公告 🔗 @LumaLabsAI 推文


MiniMax M2.7 × NousResearch —— 无需配置的 MaxHermes,Hermes Agent

4月16日 — MiniMax 宣布与 NousResearch 深度合作,将 M2.7 模型集成到 Hermes Agent harness 中。该公告推出了 MaxHermes —— 由云端托管的 Hermes Agent 版本,可直接通过 @MiniMaxAgent 访问,无需在终端配置或本地安装。

M2.7 × Hermes Agent 的协同演进旨在打造更高级别的 agents:Hermes 的自我改进循环(self-improving loop)能够充分发挥 M2.7 模型在 agent 任务中的能力。使用本地 Hermes 的用户也可以将其 agent 连接到 MaxHermes,以利用受管的云基础设施。

🔗 @MiniMax_AI 推文


Chrome 中的 Gemini Skills —— 一键使用你的 prompts

4月14日 — Google Chrome 为浏览器中的 Gemini 引入了一项名为 “Skills” 的新功能。现在你可以保存最常用的 prompts,并一键重新调用,无需重复输入。系统还提供预设 prompts 库,方便快速开始。

该功能于 4月14日公布,并于 2026年4月15日确认可用,随后被收录在 4月17日的 @GoogleAI 周报中。

🔗 @googlechrome 推文(4月14日) 🔗 @googlechrome 推文(4月15日)


Gemini API —— Google AI Studio 中的预付费(Prepay Billing

4月15日 — Google AI Studio 为 Gemini API 引入 “Prepay Billing”。开发者现在可以提前购买 credits,并按使用情况逐步消耗,从而避免月底账单带来的意外。

当余额较低时可自动充值。该功能兼容此前推出的 Spend Caps 和 Usage Tiers。它目前面向美国的新 Google Cloud 计费账号开放,并将在未来几周内全球推广。已有高用量等级的账号可以切换到 postpaid。

🔗 @GoogleAIStudio 推文


Kimi Prefill-as-a-Service —— 跨数据中心推理

4月18日 — Moonshot AI(Kimi)发布了一项推理基础设施技术进展:Prefill-as-a-Service(PraaS)。该架构将 Prefill/Decode 解耦(prefill/decode disaggregation)推进到单一集群之外,扩展到采用异构硬件的跨数据中心架构。

公布的结果包括:1.54× 的吞吐量throughput)提升,以及 P90 TTFT 降低 64%(首次 token 时间)。关键技术是混合模型 Kimi Linear,它降低了跨数据中心传输 KV cache(key-value cache)的成本。这不是面向大众的发布,而是一篇分布式推理基础设施研究论文,对降低 Kimi 的每 token 成本有直接影响。

🔗 @Kimi_Moonshot 推文 🔗 arXiv 论文


Claude Code v2.1.114 和 Runway Seedance 2.0 API

4月18日 — Claude Code v2.1.114 修复了一个崩溃问题:当 agents 团队中的某个成员通过权限对话框请求访问某个工具时会触发该崩溃。

4月16日 — Runway 面向开发者通过 Runway API 提供 Seedance 2.0。继 web 端发布(4月9日)、1080p 渲染(4月16日)以及 iOS 应用(4月17日)之后,API 访问补全了该模型的多渠道部署。文档可在 dev.runwayml.com 获取。

🔗 CHANGELOG Claude Code 🔗 @runwayml 推文 — Seedance API


这意味着什么

Grok 的 STT 和 TTS APIs 同步上线,是本周最激进的定价动作。通过将价格压低到比 ElevenLabs、AssemblyAI 和 OpenAI TTS 低 2 到 10 倍,xAI 明确表态:AI 音频正在变成一种商品化能力——这会加速独立开发者和初创公司的采用,但也会压缩既有厂商的利润空间。其低于市场平均的识别错误率、低价和富有表现力的标签组合,使这些 APIs 具备了立刻投入生产环境的可用性。

Claude for Word 和 Chrome 中的 Gemini Skills 代表了两种不同策略:Anthropic 将模型嵌入用户本来就日常使用的办公生产力工具中;Google 则增强浏览器,让 Gemini 在日常使用中无处不在。两种路径都在努力降低访问模型的摩擦。

Luma × Wonder Project × AWS 展示了好莱坞新型制片厂模式的出现:生成式 AI 融入制作每一个环节,AWS 云基础设施,以及把原本会外迁的制作“本地化”到洛杉矶的雄心。这一公告既是象征性的,也是技术性的——它验证了 Realtime Hybrid Filmmaking 作为可工业化流水线的可行性,而不仅仅是一个概念。


来源

本文件已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译流程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator