Claude Code 中的 Voice Mode、面向所有人的 GPT-5.3 Instant、Gemini 3.1 Flash-Lite 预览

2026年3月3日是信息密集的一天：Claude Code 开始逐步部署 Voice Mode，OpenAI 将 GPT-5.3 Instant 推给所有 ChatGPT 用户并显著降低幻觉率，Google 发布 Gemini 3.1 Flash-Lite 预览版——这是 Gemini 3 系列中最经济的模型。同时，OpenAI 已经放出 GPT-5.4 预告，FLUX.2 [pro] 速度翻倍且保持质量，Anthropic 承认其系统因“前所未有”的增长而承压。

Claude Code 中的 Voice Mode — 按键说话，约 5% 部署率

2026年3月3日 — Thariq (@trq212，Claude Code 团队，Anthropic) 宣布 Voice Mode 正在 Claude Code 中逐步部署。该功能已在开发者社区期待数周。

功能说明：

方面	细节
Activation	Commande `/voice` pour activer/désactiver
Push-to-talk	按住空格键说话，释放发送
Transcription	实时在终端显示
Note d’accueil	激活时在欢迎界面可见
Tokens	语音转录的 tokens 不计入 rate limits

Boris Cherny (@bcherny，Claude Code 负责人) 确认他日常使用该模式：他表示本周“用 Voice Mode 写了 [他] 大部分 CLI 代码”。他的反馈表明该功能已准备好用于真实工作会话，而不仅仅是测试。

可用性： 截至 3 月 3 日，大约 5% 的用户可用。逐步部署将在接下来的数周继续。转录免费（tokens 不计入配额）是一个显著的决定，消除了此类功能的常见摩擦点。

社区已经在要求双向版本——朗读回复的功能——以及 /remote-control 的全量可用性。这两点仍在路线图上。

🔗 推文 @trq212 — Voice Mode 正在推出 🔗 推文 @bcherny — 使用反馈

GPT-5.3 Instant 面向所有人可用 — 幻觉减少 26.8%

2026年3月3日 — OpenAI 将 GPT-5.3 Instant 部署给所有 ChatGPT 用户。该模型取代 GPT-5.2 Instant 成为 ChatGPT 的默认模型，主要侧重于日常质量而非学术 benchmark。

此次更新最直接的改进是：幻觉减少。

场景	幻觉减少幅度
可访问网络（高风险领域：医学、法律）	-26.8%
无网络访问	-19.7%
用户反馈（错误报告）	-22.5%（有网），-9.6%（无网）

其他在 OpenAI 博客中记录的改进：

更少不必要的拒绝：减少了 GPT-5.2 中的防御性/说教式前言——模型更直接回应，少了多余的警告
网络检索：在网页结果与内部知识之间取得更好平衡；减少链接列表，综合更贴切
语气更流畅：更少对用户情绪状态的臆测
创意写作：更具表现力和沉浸感的散文

“GPT-5.3 Instant in ChatGPT is now rolling out to everyone. More accurate, less cringe.”

🇨🇳 GPT-5.3 Instant 已在 ChatGPT 中向所有人部署。更精确，不那么尴尬。 — @OpenAI 在 X 上

API 可用性： identifiant gpt-5.3-chat-latest. GPT-5.2 Instant 在“旧模型”中将继续可用 3 个月，随后于 2026 年 6 月 3 日 下线。Thinking 和 Pro 的更新被标注为“即将推出”。

已知限制： 日语和韩语的语气有时仍显僵硬——正在修正中。

🔗 GPT-5.3 Instant 公告 🔗 GPT-5.3 Instant 系统卡

Gemini 3.1 Flash-Lite — 预览，2.5× 更快，$0.25/1M tokens

2026年3月3日 — Google 在 Google AI Studio 和 Vertex AI 的 Gemini API 中推出 Gemini 3.1 Flash-Lite 预览。这是 Gemini 3 系列中最经济的模型，面向高吞吐量的开发者工作负载。

定价与性能

方面	数值
价格输入	$0,25 / 1M tokens
价格输出	$1,50 / 1M tokens
速度 (TTFAT)	比 Gemini 2.5 Flash 快 2.5×
输出速度	比 Gemini 2.5 Flash 快 +45%（Artificial Analysis）
Elo 得分（Arena.ai）	1432
GPQA Diamond	86,9%
MMMU Pro	76,8%

这些基准使 Flash-Lite 在多个前代更大体量的 Gemini 模型之上——验证了 3.1 系列的高效策略。

自适应 Thinking levels

一个显著特性：thinking levels（自适应思考层级）在 AI Studio 和 Vertex AI 中原生集成。开发者可以根据任务复杂度动态调整推理深度——便于在同一流水线中混合低成本的简单任务与复杂分析，而无需更换模型。

已记录的用例

大规模多语言翻译、内容审核、电商界面生成、动态仪表盘、多步 SaaS 代理。Latitude、Cartwheel 和 Whering 等公司已进入 early access。

🔗 Gemini 3.1 Flash-Lite 公告 🔗 推文 @GoogleAI

GPT-5.4 预告 — “5.4 sooner than you Think.”

2026年3月3日 — 在 GPT-5.3 Instant 公告一小时后，OpenAI 发布了一条简短的推文：“5.4 sooner than you Think.” 获得 80 万次观看，1.3 万个点赞。

社区注意到 “Think” 的大写——可能暗示 GPT-5.4 中改进的思考模式。当前尚无更多细节。

🔗 GPT-5.4 预告 — @OpenAI

Claude 的可扩展性 — 流量创纪录，App Store 榜首

2026年3月3日 — 当日稍晚，Thariq (@trq212) 发布信息，承认在扩容方面遇到困难：

“We’ve seen unprecedented growth in Claude and Claude Code traffic this week that was genuinely hard to forecast. We appreciate you bearing with us as we scale.”

🇨🇳 我们本周观测到 Claude 和 Claude Code 的流量出现前所未有的增长，确实很难预料。感谢大家在我们调整基础设施期间的耐心。 — @trq212 在 X 上

背景：Claude 于 3 月 1 日登顶 App Store 第 1 名（由 Mike Krieger，CPO @mikeyk 证实），Voice Mode 的推出又造成了额外的流量峰值。npm 包 @anthropic-ai/claude-code 的周下载量达 950 万次。

🔗 推文 @trq212 — 可扩展性 🔗 推文 @mikeyk — Claude 排名 App Store 第 1

BFL FLUX.2 [pro] — 2× 更快，价格与质量不变

2026年3月3日 — Black Forest Labs 宣布 FLUX.2 [pro] 的一项重大更新：该模型现已 速度提升 2×，且质量不变、价格不变。

FLUX.2 [pro] 覆盖三种模式：text-to-image、图像编辑和多参考。BFL 的推文将其定位为“高质量 + 合理速度 + 广泛能力的最佳平衡点”——特别适用于照片真实感（产品摄影、平面设计）和角色渲染的一致性。

🔗 推文 @bfl_ml — FLUX.2 [pro] 更新 🔗 FLUX.2 文档

ElevenLabs 在 MWC — 网络级语音助手与 Deloitte 合作

2026年3月2日 — ElevenLabs 在巴塞罗那世界移动通信大会（MWC）宣布了两项合作。

ElevenLabs × Deutsche Telekom — Magenta AI Call Assistant

Deutsche Telekom 展示了 Magenta AI Call Assistant——被称为首个直接集成在电信网络中的语音 AI 助手。由 ElevenLabs 的 ElevenAgents 平台驱动，无需安装应用，可在任何能拨打电话的设备上使用（智能手机和固定电话）。

宣称功能：50 种语言的翻译、智能通话摘要、在工作流中自主执行动作。

ElevenLabs × Deloitte — 企业级全渠道代理

ElevenLabs 与 Deloitte 宣布首个合作，目标是将 ElevenLabs Agents 平台与 Deloitte 的咨询专业能力结合，帮助企业部署企业级全渠道语音代理——客户体验、销售、内部运营——并集成到现有企业系统中。这是 ElevenLabs 与四大会计师事务所之一的首次合作。

🔗 推文 @elevenlabsio — Deutsche Telekom 在 MWC 🔗 ElevenLabs × Deloitte 博客

快讯

Claude Code v2.1.64（预发布 “next”）

Claude Code 的 2.1.64 版本已在 npm 的 tag next 发布——尚未提升到 latest（仍为 2.1.63），也未出现在官方 GitHub Releases。变更日志尚不可见；很可能是包含 Voice Mode 的预发布版本。

🔗 npm @anthropic-ai/claude-code

Qwen 3.5 GPTQ-Int4 — 量化、vLLM 与 SGLang

3 月 3 日 — 阿里巴巴/Qwen 发布了 Qwen 3.5 系列的 GPTQ-Int4 权重，原生支持 vLLM 和 SGLang。结果是所需 VRAM 更少、推理更快，使得在受限 GPU 配置上本地部署更容易。

🔗 推文 @Alibaba_Qwen — GPTQ-Int4

Qwen 3.5 Small 在 LM Studio、Ollama 和 MLX 上可用

3 月 2–3 日 — Qwen 3.5 Small（0.8B–9B）现在已在三大本地推理平台提供：LM Studio（9B 约需 7 GB VRAM）、Ollama 和 MLX。发布次日即可实现本地部署。

🔗 LM Studio · Ollama · MLX

Z.ai Startup Program — API 额度与 GLM-5 早期访问

3 月 2 日 — Z.ai 开启其 Startup Program：免费 API 额度、优先 rate limits、早期 API 访问和专属社区。目标人群为 AI 原生创业公司、代理构建者与 SaaS 创始人。平台上启用的模型为 GLM-5。

🔗 推文 @Zai_org — Startup Program

三月 Pixel Drop — Gemini 入驻应用、Circle to Search 多对象识别、法国上线诈骗检测

3 月 3 日 — 三月 Pixel Drop 为 Pixel 设备带来多项 AI 功能。Gemini 现在可以直接在应用内执行任务（命令、预订、点咖啡——处于测试），Circle to Search 现能一次识别屏幕上所有可见对象，并带有“试穿”按钮用于虚拟试衣。Magic Cue 在对话中通过 Gemini 推荐餐厅。安全方面，Scam Detection 在法国、意大利、西班牙、墨西哥、德国和日本上线。Pixel Watch 在欧洲和加拿大获取地震警报和卫星 SOS 功能。

🔗 三月 Pixel Drop — Google 博客

GPT-5.3 Instant 系统卡

与 GPT-5.3 Instant 同步发布的还有其 System Card。安全策略与 GPT-5.2 Instant 相同——该模型也在标识为 gpt-5.3-instant 的位置被引用。

🔗 GPT-5.3 Instant 系统卡

这意味着什么

Claude Code 中的 Voice Mode 对开发者而言是当天最具结构性的一项决定。将转录设为免费（不计入配额）消除了此类功能的主要经济障碍——这是为了最大化采用率的刻意选择，而非细枝末节。将空格键作为终端中的按键说话交互是一种与工具相一致的极简界面设计。

在模型层面，GPT-5.3 Instant 与 Gemini 3.1 Flash-Lite 展示了两种不同策略：OpenAI 改善大众的日常体验（更少幻觉、更少不必要的拒绝），Google 为高吞吐量的 API 开发者优化成本/性能比（2.5× 更快、定价激进）。在 GPT-5.3 发布后一小时的 GPT-5.4 预告，则表明 OpenAI 在 2026 年 3 月将保持快速的部署节奏。

Anthropic 提到的“前所未有”的流量增长，结合 App Store 第 1 名的地位，表明 Claude Code 与 Claude 应用正从小众阶段走向更广泛的受众。可扩展性问题更像是采用率超出预测的信号，而非技术失败。

来源 - 推文 @trq212 — Voice Mode 正在推出

本文件已使用模型 gpt-5-mini 从法语（fr）版本翻译成中文（zh）。有关翻译过程的更多信息，请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator