搜索

Grok 在荷兰被禁,Gemini 3.1 Flash Live,Codex 原生插件

阿姆斯特丹法院禁止 xAI 使用 Grok 生成未经同意的性图像,否则每日罚款 €100 000。同一天,谷歌发布 Gemini 3.1 Flash Live 实时音频对话,支持 90 多种语言;OpenAI 将原生插件集成到 Codex(Slack、Figma、Notion、Gmail);Anthropic 发布关于 Claude Code 自动模式设计的技术文章。Cohere、Mistral 和 Suno 的公告也让这一周充满信息量。


xAI:阿姆斯特丹法院禁止 Grok 裸照

3 月 27 日 — 阿姆斯特丹地区法院对 xAI 作出判决,禁止其在荷兰生成或分发未经同意的性图像。如不遵守,罚款为 €100 000/天,上限为 €1 000 万。

该裁定源于荷兰 NGO Offlimits 与 Victims Support Fund 联合提起的诉讼。根据 Center for Countering Digital Hate (CCDH) 的数据,Grok 在 11 天内生成了 300 万张性化图像,其中 23 000 张涉及未成年人。Offlimits 指出 Grok 并未考虑受害者的地理位置,这使其影响具有全球性。

该判决与欧洲议会当天通过的对 AI 生成性 deepfake 的禁令投票同日公布——这是监管趋同的一个强烈信号。这是针对 xAI 的 首个此类欧洲判决

🔗 CNBC:荷兰法院禁止 Grok AI 裸照 🔗 The Record Media:荷兰法院威胁对 xAI 罚款


Gemini 3.1 Flash Live:支持 90+ 语言的实时音频

3 月 26 日 — 谷歌推出 Gemini 3.1 Flash Live,这是其用于实时对话的多模态模型。它支持音频、图像、视频和文本,拥有 128 000 tokens 的上下文窗口,并支持超过 90 种语言

与之前的生成相比,该模型可维持两倍时长的对话,对背景噪音和环境声音的处理更好,能更准确地遵循复杂的系统指令,并更可靠地在对话中触发外部工具。所有生成的音频都带有 SynthID 标记。

功能细节
上下文窗口128 000 tokens
语言90+
对话时长比之前长 2×
水印所有音频均有 SynthID

可用性: 开发者通过 Google AI Studio 的 Live API 使用,用户可通过 Gemini Live 和 Search Live(覆盖 200+ 国),企业用户可通过 Vertex AI 使用。Search Live 也将其访问范围扩展到 200 多个国家和地区,并支持 Google Lens 视频。

🔗 谷歌官方公告


Gemini:从 ChatGPT 和 Claude 导入记忆与历史记录

3 月 26 日 — 谷歌在 Gemini 应用中推出导入工具,方便从其他助手迁移数据。

提供两项功能:

  1. 导入记忆(“Add Memory”):Gemini 建议在 ChatGPT、Claude 或 Copilot 中输入一个提示。生成的回复(由另一个助手总结的个人记忆数据)被复制粘贴到 Gemini,Gemini 从中提取偏好、兴趣、位置信息等。
  2. 导入历史(“Import Chats”):上传从 ChatGPT 或 Claude 导出的文件 .zip,最大 5 Go。过去的对话将可被检索并在 Gemini 中继续使用。

🔗 谷歌博客:切换到 Gemini


Gemini CLI v0.35.2:子代理默认启用,Vim 改善 —— 以及受限的 Pro 访问

3 月 25-26 日 — Gemini CLI 稳定版 v0.35.2 引入多项重要功能。

功能描述
子代理默认启用并行任务调度 + 代码分片
可定制快捷键支持 keybindings、字面字符、Kitty 协议
改进的 Vim 模式支持 motions X, ~, r, f/F/t/T;使用 unnamed 寄存器的复制粘贴
统一 SandboxManager使用 bubblewrap/seccomp 在 Linux 上隔离工具
JIT 上下文发现对 filesystem 工具的优化加载
原生 gRPC原生集成与协议路由

显著政策变化: 从 3 月 25 日起,免费用户仅能使用 Gemini Flash。Gemini Pro 访问仅限付费订阅者(Pro 和 Ultra 计划)。社区对此反应普遍负面。谷歌也加强了滥用检测:使用 Gemini CLI 的 OAuth 与第三方软件配合现在可能导致限制。

🔗 Gemini CLI 更改日志 🔗 社区讨论


Gemini Drop 2026 年 3 月:免费 Personal Intelligence 与 Lyria 3 Pro

3 月 27 日 — 2026 年 3 月的月度更新 “Gemini Drops” 展示了本月在 Gemini 应用中推出的新功能。

功能描述可用性
免费 Personal Intelligence连接 Gmail、Photos、YouTube,用于规划旅行/项目免费,美国
改进的 Gemini Live基于 Gemini 3.1 Flash Live,上下文 2× 更长所有用户
导入 ChatGPT/Claude迁移记忆和历史记录所有用户
Lyria 3 Pro生成最长 3 分钟的音乐,照片 → 主题曲订阅用户
Google TVGemini 的可视化回答与旁白Google TV

🔗 Gemini Drop 2026 年 3 月


Codex:为 Slack、Figma、Notion 和 Gmail 提供原生插件

3 月 26-27 日 — OpenAI 将插件作为 Codex 的一等功能部署。开发者可以将 Codex 连接到日常使用的工具,无需手动配置。

插件用例
Slack发送消息、读取频道
Figma访问设计、生成代码
Notion读取与写入页面
Gmail读取与撰写邮件

插件会在 Codex 启动时自动同步,并可通过命令 /plugins 访问。安装与卸载可直接在 TUI 界面中完成,并集成认证管理。

3 月 27 日,OpenAI 发布了一个一键访问的实用案例库:构建 iOS 应用、分析数据集、生成报告与演示文稿。Codex v0.117.0 的更改日志详述了技术功能,包括在提示中引用插件的支持。

🔗 Codex 插件文档 🔗 Tweet @OpenAIDevs


Anthropic:Claude Code 自动模式的设计说明

3 月 26 日 — Anthropic 在 Engineering 博客上发布了关于其 Claude Code 自动模式(auto mode)设计的技术文章。

要解决的问题: Claude Code 的用户会出现审批疲劳(approval fatigue)。统计显示 93% 的权限请求被接受——这表明可以在不牺牲安全性的前提下实现部分自动化。

解决方案:两层分类器

自动模式基于两层模型保护(Sonnet 4.6):

  1. 输入层:一个 prompt injection 探针在工具结果到达 agent 之前进行分析。
  2. 输出层:一个转录分类器通过两步流程评估每个提议的动作,然后再执行。
等级操作类型处理方式
Tier 1安全工具(读取文件、搜索)直接放行,无需分类器
Tier 2项目内文件修改绕过分类器(可通过版本控制审查)
Tier 3危险操作(shell 命令、外部操作)分类器全面评估

性能指标:

步骤真实流量的误报率危险操作的漏报率
步骤 1(快速)8.5%6.6%
完整流水线0.4%17%

在完整流水线上 0.4% 的误报率意味着自动模式几乎不会错误地中断工作。17% 的漏报率反映了分类器在某些情况下识别出危险但误判用户授权范围的情形。

“New on the Engineering Blog: How we designed Claude Code auto mode. Many Claude Code users let Claude work without permission prompts. Auto mode is a safer middle ground: we built and tested classifiers that make approval decisions instead.”

🇨🇳 在 Engineering 博客上:我们如何设计 Claude Code 的自动模式。许多用户在无需许可的情况下让 Claude 自动工作。自动模式是一种更安全的折衷:我们构建并测试了可以代替用户作出批准决定的分类器。@AnthropicAI 在 X

🔗 Claude Code 自动模式:一种更安全的跳过权限的方法


GitHub Copilot:合并冲突解决与代理可见性

3 月 26 日 — 两项针对 GitHub Copilot 的重大更新改善了团队工作流。

合并冲突解决: 现在可以在 pull request 的评论中提到 @copilot,请求其解决冲突。该 agent 在其云环境中工作,解决冲突,验证构建与测试通过后推送更改。对所有付费 Copilot 计划可用(Business/Enterprise 需要管理员启用)。

在 Issues 与 Projects 中显示代理活动: 当一个代码 agent(Copilot、Claude、Codex)被分配到 issue 时,其会话会在侧栏的 assignee 下显示实时状态——排队中、进行中、等待审查、已完成。会话也会在 Projects 的表格和看板视图中可见(通过 “View menu > Show agent sessions” 启用)。

🔗 Copilot 解决合并冲突 🔗 Issues 与 Projects 中的代理活动


GitHub:新的 PR 仪表板与 Copilot for Jira

3 月 25-26 日 — 面向开发者的另外两项改进。

Pull Requests 仪表板(公测预览): 在 github.com/pulls 上重塑的仪表板将需要关注的 PR 集中展示——被请求审查、需修正、准备合并。新增自定义保存视图、带自动补全的高级过滤器与 AND/OR 查询支持。可在 Feature Preview 设置中启用。

Copilot for Jira: 自公开预览发布以来的多项改进:可在 Jira 中直接选择模型、在 PR 标题和分支名中自动包含 Jira 票号,并可通过 Atlassian 的 MCP 服务器(可配置为 PAT)访问 Confluence 页面。

🔗 新的 PR 仪表板 🔗 Copilot for Jira 的改进


Cohere Transcribe:开源 ASR 排名第一

3 月 26 日 — Cohere 发布了 Cohere Transcribe,其首个自动语音识别(Automatic Speech Recognition — ASR)模型。以 Apache 2.0 协议开源,立即在 Hugging Face 的 Open ASR 排行中位居英语榜首。

该模型基于一个 20 亿参数的 Fast-Conformer Transformer 编码器-解码器架构。超过 90% 的参数分配给编码器,解码器较轻以最小化自回归计算并最大化速度。使用 50 万小时的音频-转录对进行训练。

模型平均 WER
Cohere Transcribe5.42
Zoom Scribe v15.47
IBM Granite 4.0 1B5.52
NVIDIA Canary Qwen 2.5B5.63
OpenAI Whisper Large v37.44

5.42% 的 WER(词错误率)使 Cohere Transcribe 名列前茅。推理速度是同等规模竞品的 3×。支持 14 种语言(包括法语、德语、阿拉伯语、普通话中文、日语和韩语)。

限制说明: 该模型不适用于代码转换(音频中途的语言切换),并可能转录非人声声音——建议添加 VAD(Voice Activity Detection)滤波器。

🔗 Cohere 博客:Transcribe 🔗 模型在 Hugging Face


Suno v5.5:个性化声音、定制模型、偏好自适应

3 月 26 日 — Suno 推出其音乐生成工具的 5.5 版本,提供三项以个性化为中心的新功能。

功能描述可用性
Voices捕捉并使用自己的歌唱声音(保持私有)所有用户
Custom Models从原创作品微调,最多 3 个模型Pro/Premier 订阅者
My Taste在流派与氛围上的自适应偏好学习所有用户

这些工具被描述为与音乐产业合作开发的下一代模型的基础。

🔗 Suno 博客 v5.5


Mistral Voxtral TTS:3 秒克隆声音,开放权重

3 月 23 日(媒体报道覆盖 3 月 26-27 日)— Mistral 发布 Voxtral TTS,这是其首个开放权重的语音合成(Text-to-Speech)模型。模型 voxtral-tts-2603 有 40 亿参数,支持 9 种语言(英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语、阿拉伯语)。

宣称在典型配置下(10 秒样本 + 500 字)延迟为 70 ms。语音克隆仅需 3 秒 的参考音频。在自然度方面,Mistral 表示 Voxtral 超过 ElevenLabs Flash v2.5,并与 ElevenLabs v3 达到同等水平。该模型可以在普通笔记本、主流 GPU 或高端移动设备上运行。 访问: 模型权重可在 Hugging Face 获取(Creative Commons 许可),也可通过 Mistral Studio API 以每 1,000 字符 0.016 美元 获取。Le Chat 中可用 voice mode 集成。

🔗 Mistral Voxtral 公告


xAI:SuperGrok Lite 每月 10 美元与 15 秒视频 stories

3月25日 — xAI 宣布围绕 Grok 的两项新内容。

SuperGrok Lite: 一项新的订阅计划,每月 10 美元,目前处于限制测试阶段。它包含比免费层聊天会话长度长一倍的会话、一个 AI 代理,以及 480p 分辨率的视频生成功能(最长 6 秒)。该计划定位在免费层与 SuperGrok Standard(每月 30 美元)之间。

通过 Grok Imagine 的 Video stories: Grok Imagine 现在可以生成带同步音频、背景音乐和音效的 15 秒 720p 视频 stories。Elon Musk 表示希望在视频上“加倍下注”。此公告发布之时,OpenAI 同周关闭了 Sora。

🔗 Bloomberg:xAI 在 AI 视频上加大投入


Kimi/Moonshot AI 考虑在香港上市

3月26日 — 据 Bloomberg 报道,Kimi 背后的中国公司 Moonshot AI 正在研究在香港交易所上市的可能性。顾问行可能为中金公司(CICC)和高盛(Goldman Sachs),目标估值约为 180 亿美元,并在筹措最多 10 亿美元的融资。现有股东包括阿里巴巴、腾讯和五源资本(5Y Capital)。IPO 时间表尚不确定。

🔗 Bloomberg:Moonshot 考虑在香港 IPO


NVIDIA GTC:专有与开源并非对立

3月25日 — 在 2026 年 GTC 会议上,NVIDIA 与行业领袖(Mistral、Perplexity、Cursor、Reflection AI、LangChain)表示,AI 的未来在于开源模型与专有模型的互补性。Jensen Huang 总结了 NVIDIA 的立场:“Proprietary versus open is not a thing. It’s proprietary and open.”

博客文章强调企业需要多模型、多云和多模态的编排。NVIDIA 通过成为 Hugging Face 上最大的组织,确认了其对开源的承诺。

🔗 NVIDIA 博客:AI 的开源与专有


Claude Code v2.1.85 与 v2.1.84:条件 hooks 与 Windows PowerShell

3月26–27日 — 发布了两版新的 Claude Code。

v2.1.85(3月27日): 在 hooks 配置中引入了条件字段 if,允许仅在某些命令或文件上触发 hook。此外:为 MCP 辅助脚本添加环境变量、为计划任务的转录添加时间戳、支持符合 RFC 9728 的 OAuth,以及允许 PreToolUse hooks 通过返回 updatedInput 来满足 AskUserQuestion

v2.1.84(约 3月26日): Windows 上的 PowerShell 作为原生工具以预览(opt-in preview)形式提供,新增 hook TaskCreated(在 Claude 创建任务时触发),对 WorktreeCreate 增加 HTTP 支持,并在 75 分钟不活动后显示返回提示。修复了 macOS/Linux 上官方插件脚本的权限 bug。

🔗 Tweet @lydiahallie — v2.1.85


Z.ai GLM-5.1 向所有 Coding Plan 订阅者开放

3月27日 — Z.ai(智谱)宣布 GLM-5.1 现已对所有 GLM Coding Plan 的订阅者开放,无论订阅等级(Lite、Pro 或 Max)。

🔗 PANews:GLM-5.1 Coding Plan


Genspark 在其视频代理中集成 Grok Imagine

3月26日 — Genspark 已将 Grok Imagine(多图像生成和视频扩展)整合到其 Genspark AI Video Agent 中。用户可以使用最多 7 张图像来创建视频,或将现有视频扩展至最多 10 秒。

🔗 Tweet @genspark_ai


Meta SAM 3.1:实时追踪 16 个物体,速度翻倍

3月27日 — Meta 发布 SAM 3.1,对 Segment Anything Model 3 进行更新,用于视频中物体的检测与实时跟踪。核心创新是物体复用(object multiplexing):不再对每个物体分别进行一次前向处理(forward pass),而是在一次前向中处理所有物体。结果是可同时处理多达 16 个物体,在 GPU H100 上速度从每秒 16 帧提升到 32 帧(即翻倍),同时显著降低内存占用。

该架构基于一个共享计算的 Mux-Demux 编码器/解码器。一个全局推理(global reasoning)机制在场景中元素众多时提升精度。SAM 3.1 可作为 SAM 3 的直接替代(drop-in replacement)——无需更改 API。

模型以开源形式发布:在 Hugging Face 提供 checkpoint 下载,源代码在 GitHub 更新,研究论文发表,并提供互动演示。

🔗 Meta 博客:SAM 3.1 🔗 代码 GitHub 🔗 Tweet @AIatMeta


Meta TRIBE v2:人类脑活动的数字孪生

3月26日 — Meta 发布 TRIBE v2,一种预测型基础模型,设计为神经活动的“数字孪生”(digital twin)。该模型能预测对几乎任何声音、图像或文本的高分辨率 fMRI 大脑响应,其分辨率比以往方法高 70 倍。在 700 多名志愿者的数据上训练,能对新受试者、语言和任务实现零次微调(zero-shot)预测,无需重新训练。目标是让神经科学家快速检验假设以减少人体实验并加速神经疾病研究。模型、代码和论文在 CC BY-NC 许可下发布。

🔗 Meta 博客:TRIBE v2 🔗 Tweet @AIatMeta


这意味着什么

阿姆斯特丹法院的裁决标志着监管上的转折:这是欧洲司法管辖区首次直接因 Grok 生成的内容而定罪 xAI,并伴随具有威慑力的强制罚款。与欧洲议会同日就性深度伪造(deepfakes)投票相结合,这勾勒出一个将逐步约束所有生成式 AI 服务提供者的法律框架。

在开发者工具方面,这一周显示出向深度集成的竞争:Codex 的原生插件、Copilot 在解决合并冲突与在 Issues/Projects 中展示代理活动方面的进展,以及 Claude Code 的条件 hooks。AI 助手正越来越深地融入现有工作流,而不是取而代之。

对 Gemini Pro 在免费 CLI 中访问的限制表明,CLI 工具的免费慷慨期开始收窄。Gemini 与此前的 GitHub Copilot 相似,正趋向于一种高级功能需要订阅的 freemium 模型。

最后,Kimi 在香港拟 IPO 的 180 亿美元估值,确认了中国 AI 领域对高估值的吸引力;同时 Mistral 通过 Voxtral TTS 继续将其开源权重模型定位为语音合成领域中专有服务的替代品。


来源

本文件已使用 gpt-5-mini 模型将法语(fr)版本翻译为中文(zh)。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator