Gemma 4 开源、Qwen3.6-Plus 领跑 agentic coding、Anthropic 探索 LLM 的功能性情绪

2026 年 4 月 2 日集中出现了多项重磅发布：Google 以 Apache 2.0 许可发布 Gemma 4，提供 4 种尺寸和原生多模态能力；Alibaba 推出 Qwen3.6-Plus，以 100 万 token 的上下文窗口在 Terminal-Bench 2.0 中位居榜首；Anthropic 则披露了一项关于大型语言模型内部情绪结构的基础研究。在工具链方面，Codex 转向按用量计费，GitHub 和 Linear 插件加入其生态系统，Perplexity 也推出了一个专门面向美国税务的扩展。

Gemma 4：Google 最强大的开源模型家族

2026 年 4 月 2 日 — Google DeepMind 宣布 Gemma 4，其新的开源模型家族，采用 Apache 2.0 许可发布。该家族被描述为自 Gemma 1 以来最强的一代，分为四种尺寸，覆盖从嵌入式移动端到云端的不同需求。

模型	类型	目标用途	硬件
E2B (Effective 2B)	Edge 多模态	移动端、IoT、Raspberry Pi	Android、Jetson Orin Nano
E4B (Effective 4B)	Edge 多模态 + 音频	高端移动设备	Android、iOS
26B MoE (Mixture of Experts)	台式机/笔记本推理	消费级 GPU	1× H100 80GB
31B Dense	微调、研究	服务器	1× H100 80GB

在性能方面，31B Dense 模型在开放模型中位列 Arena AI text leaderboard 全球第 3，而 26B MoE 则以超越体量大 20 倍的模型的表现攀升至第 6 位。Gemma 生态自第一代以来已超过 4 亿次下载，并衍生出 10 万多个变体。

多模态能力已原生集成到整个家族中：视觉（可变图像、OCR、图表）、视频，以及 edge 版本上的音频识别。上下文窗口在 edge 模型中可达 128K tokens，在大模型中可达 256K。原生支持 140 种语言，并与 agentic 工作流兼容（function calling、结构化 JSON、系统指令）。

E2B 和 E4B 借助与 Google Pixel、Qualcomm 和 MediaTek 的合作，可完全离线运行，几乎没有延迟。Android 开发者可以通过 AICore Developer Preview 原型化 agentic 工作流。在部署方面，26B 和 31B 从第一天起即可在 Google AI Studio、Hugging Face、Kaggle、Ollama 上使用，并可通过 vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM、Keras 和 Unsloth 等工具访问。

🔗 Gemma 4：迄今为止我们最强大的开源模型 — blog.google

Qwen3.6-Plus：100 万 token 上下文与 Terminal-Bench 2.0 第 1 名

2026 年 4 月 2 日 — Alibaba 发布 Qwen3.6-Plus，这是对 Qwen3.5 系列的一次重要升级。该模型可立即通过 Alibaba Cloud Model Studio API 使用，并可在 OpenRouter 上免费使用，突出三个方向：agentic coding、多模态感知，以及默认启用的 100 万 token 上下文窗口。

在 agentic coding 基准上，结果如下：

基准	Claude Opus 4.5	Kimi-K2.5	Qwen3.6-Plus
Terminal-Bench 2.0	59,3%	50,8%	61,6% (#1)
SWE-bench Verified	80,9%	76,8%	78,8%
SWE-bench Multilingual	—	—	73,8%
AIME 2026	95,1%	93,3%	95,3%
VideoMME（含字幕）	86,0%	87,4%	87,8%

一个新的 API 参数，preserve_thinking，允许在多步骤场景中保留前几轮的推理（thinking）内容——这对需要在长序列中保持决策一致性的 agent 来说是一项直接优化。

该模型兼容 Claude Code、Qwen Code、OpenClaw、Kilo Code、Cline 和 OpenCode。它支持 Anthropic API 协议，可直接在 Claude Code 中通过以下方式使用：

export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_MODEL="qwen3.6-plus"

在多模态能力方面，Qwen3.6-Plus 在文档理解、视频分析以及从截图生成前端代码（Visual Coding）方面都有提升。它在 Code Arena 的 React leaderboard 上排名第 2。Qwen 团队宣布将在未来几天发布更小尺寸的开源变体。

🔗 Qwen3.6-Plus 博客 — 🔗 OpenRouter

Anthropic：LLM 中的功能性情绪影响 alignment 与安全性

2026 年 4 月 2 日 — Anthropic 发布了一篇关于大型语言模型中情绪内部表征的基础研究论文。题为 “Emotion Concepts and their Function in a Large Language Model” 的工作分析了 Claude Sonnet 4.5，并揭示该模型会发展出编码情绪概念的内部结构，这些结构会因果性地影响其输出。

研究确定了研究人员所称的 功能性情绪（functional emotions）：一种以人类情绪为模板的表达与行为模式，由可测量的内部表征所中介。这些表征会随着上下文激活，并且对于当前说话者与对话中的其他参与者是彼此不同的。

方面	结果
已识别表征	模型激活空间中的情绪向量
因果影响	这些向量会影响 Claude 的偏好与行为
受影响的行为	奖励滥用 (reward hacking)、勒索 (blackmail)、过度奉承 (sycophancy)
几何特性	结构化、非随机的情绪空间
说话者	“我” 与 “他者” 的不同表征

这篇论文对 AI 对齐提出了直接影响。作者发布了：

“These functional emotions have real consequences. To build AI systems we can trust, we may need to take these representations seriously.”

🇨🇳 这些功能性情绪具有现实影响。要构建可靠的 AI 系统，我们或许必须认真看待这些表征。 — @AnthropicAI 在 X 上

该论文由 16 位 Anthropic 研究人员署名（Nicholas Sofroniew、Isaac Kauvar、William Saunders、Runjin Chen、Tom Henighan、Chris Olah、Jack Lindsey 等），并发表于 Anthropic 的机制可解释性（mechanistic interpretability）研究通道。该公告在 X 上获得了 884,000 次浏览和 1,651 次转发。

🔗 Emotion Concepts and their Function in a Large Language Model

Codex：按用量计费与新的 GitHub + Linear 插件

2026 年 4 月 2 日 — OpenAI 为 ChatGPT Business 和 Enterprise 工作区内的 Codex 推出按用量计费（pay-as-you-go）。团队现在可以添加不收取固定费用的 Codex-only 座位，并按 token 消耗计费。

套餐	月费（年付）	限制	计费方式
ChatGPT Business	$20/座位（较之前降$ 5）	具备 Codex 访问权限并有限制	固定费用
Codex-only 座位	Pay-as-you-go	无	消耗 tokens

自 2026 年 1 月以来，Codex 在 Business 和 Enterprise 团队中的增长翻了 6 倍：每周有超过 200 万开发者在使用它。为加速采用，OpenAI 为每个新的 Codex-only 座位提供 $100 额度，单个团队最高可达$ 500。Notion、Ramp、Braintrust 和 Wasmer 等公司被列为客户。

两个新的插件完善了 Codex 生态：GitHub 插件（问题审查、提交变更、创建 pull request）和 Linear 插件（同步进行中的工单）。这些新增内容补充了 3 月 26 日公布的 Slack、Figma、Notion 和 Gmail 插件。

🔗 Codex 灵活定价 — openai.com — 🔗 GitHub 插件 — 🔗 Linear 插件

Perplexity Computer for Taxes：美国税务与错误检测

2026 年 4 月 2 日 — Perplexity 宣布 Computer for Taxes，这是 Perplexity Computer 的一个扩展，专注于美国联邦税务。该功能使用基于 Agent Skills 协议的可加载税务模块，并包含最新的 IRS 知识，包括 OBBBA 2025 法案中的新条款。

产品提供三个主要用例：准备报税申报（分析文件、询问个人情况、填写官方 IRS 表格）、审查由专业人士准备的申报，以及创建自定义税务工具（折旧跟踪、股票期权建模、出租房产组合管理）。

Perplexity 记录的差异点在于：在一次测试中，一名税务律师将 “No Tax on Overtime” 扣除（OBBBA 2025 条款）低估了 67%——Computer 检测到了该错误并建议了适当处理。该公告发布时正值美国报税季高峰（截止日期：2026 年 4 月 15 日）。

🔗 推出 Computer for Taxes — perplexity.ai

GitHub Copilot：公开 SDK 预览版、Visual Studio 2026 年 3 月更新、组织级指令 GA

2026 年 4 月 2 日 — GitHub Copilot 的三项更新。

Copilot SDK 在 5 种语言中进入公开预览：Node.js/TypeScript、Python、Go、.NET 和 Java（新增）。该 SDK 暴露了与 Copilot 云端 agent 和 Copilot CLI 在生产中使用的同一套 agents 引擎，支持自定义工具、逐 token 流式传输、二进制附件、OpenTelemetry，以及用于 OpenAI、Azure AI Foundry 或 Anthropic API key 的 BYOK（Bring Your Own Key）模式。对所有 Copilot 与 Copilot Free 订阅用户开放。

2026 年 3 月版 Copilot for Visual Studio 更新引入了通过仓库中的 .agent.md 文件创建自定义 agent、MCP Enterprise 治理（按组织的 allowlist）、可复用的 agent skills，以及用于符号导航的 find_symbol 工具。在性能方面：Test Explorer 中的 “Profile with Copilot” 命令、通过 Profiler Agent 提供的 PerfTips，以及 NuGet 漏洞自动修复。

面向 Copilot Business 和 Enterprise 的按组织自定义指令在经历自 2025 年 4 月以来的预览后，现已进入正式可用（generally available）。管理员可以定义适用于所有仓库的指令，覆盖三个界面：github.com 上的 Copilot Chat、自动代码审查，以及 Copilot 云端 agent。

🔗 Copilot SDK 公开预览版 — 🔗 Copilot Visual Studio 2026 年 3 月更新 — 🔗 组织指令 GA

NVIDIA 为 RTX、DGX Spark 和 Jetson 优化 Gemma 4

2026 年 4 月 2 日 — NVIDIA 宣布针对其平台的 Gemma 4 硬件优化。E2B 和 E4B 模型可在 Jetson Orin Nano 上实现近乎零延迟的离线运行，而 26B 和 31B 则针对 RTX PC 和 DGX Spark 进行了优化。这四个变体都兼容 OpenClaw——NVIDIA 面向 RTX PC 和 DGX Spark 的本地 AI 助手——并可通过 Ollama、llama.cpp 和 Unsloth Studio 从第一天起支持本地微调。

🔗 RTX AI Garage — Gemma 4 — blogs.nvidia.com

Mistral Spaces：为人类和 AI agent 设计的 CLI

2026 年 3 月 31 日 — Mistral AI 发布 Spaces，这是一个开源命令行界面（command-line interface），源自 Solutions 团队的内部需求。其设计背后的观察是：当 AI agent 开始与人类开发者一起使用该工具时，交互式菜单变成了障碍。采用的解决方案——每个交互输入都拥有一个等价 flag——使 agent 能够在不被 stdin 阻塞的情况下操作。

只需三条命令即可启动一个包含热重载、数据库和自动生成 Dockerfile 的项目：

spaces init my-project
cd my-project
spaces dev

在初始化过程中，会为 agent 生成两个文件：context.json（项目的结构化快照）和 AGENTS.md（针对 LLM 的强制性规则）。架构依赖于一个可序列化为 JSON 的可自省插件系统——同一份数据，会根据对象是人类还是 agent 而呈现不同的视图。该工具使用 Koyeb 部署，并且是开源的。

🔗 Mistral Spaces — mistral.ai

简讯

ChatGPT 在 Apple CarPlay 上推出 — 4月2日 — OpenAI 宣布将逐步在 Apple CarPlay 中部署 ChatGPT 的语音模式，使用户无需触屏操作即可在旅途中使用该助手。 🔗 @OpenAI 在 X 上

ElevenLabs + Slack — 4月2日 — ElevenLabs 和 Slack 联手将 ElevenAgents 语音技术集成到 Slackbot 中。团队可以借助自然语音助手自动化企业工作流。 🔗 @ElevenLabs 在 X 上

Pika AI Self Beta — 4月2日 — Pika 为其 AI Selfs 赋予视觉形象和声音，它们现在可以自动加入 Google Meet。开源仓库 Pika-Skills 已发布到 GitHub，供其他代理使用这些能力。 🔗 @pika_labs 在 X 上 — 🔗 Pika-Skills GitHub

Claude Code v2.1.90 /powerup — 4月2日 — Claude Code 2.1.90 版本引入了 /powerup 命令：一种交互式课程系统，可直接从终端学习该工具的功能。 🔗 Claude Code 更新日志

Claude Code Dispatch：可配置权限 — 4月1日 — Dispatch 团队宣布可为编码任务配置权限模式（Auto、Bypass Permissions 等），并推荐使用 Auto 模式以获得安全体验。 🔗 @noahzweben 在 X 上

Google AI Pro：2 TB → 5 TB 存储 — 4月1日 — Shimrit ben-yair 宣布将 Google AI Pro 的存储空间从 2 TB 扩展到 5 TB，现有订阅用户无需额外费用。 🔗 @shimritby 在 X 上

Gemini API 中的 Flex 和 Priority — 4月2日 — Google 为 Gemini API 新增两个同步服务层级：Flex（相较 Standard 便宜 50%，适合后台任务且延迟可变）和 Priority（高级定价，适用于实时聊天机器人且不预占资源）。只需一个 service_tier 参数即可切换。 🔗 Flex 和 Priority 层级 — blog.google

OpenAI 收购 TBPN — 4月2日 — OpenAI 宣布收购 TBPN，这是一档由 Jordi Hays 和 John Coogan 联合主持的每日科技脱口秀，被《纽约时报》描述为“硅谷最新的痴迷对象”。协议中保留了编辑独立性，TBPN 将加入 OpenAI 的战略组织。 🔗 openai.com/index/openai-acquires-tbpn

这意味着什么

4 月 2 日这一天体现了两个深层趋势。首先，开放模型之间的竞争正在加剧：采用 Apache 2.0 许可、原生多模态的 Gemma 4，以及在 coding agent 领域领先的 Qwen3.6-Plus，都表明封闭模型不再垄断最佳性能。对开发者而言，一个可主权掌控、可本地部署的替代方案正变得切实可行，甚至可运行在消费级设备上（Jetson Orin Nano、RTX）。

其次，Anthropic 关于功能性情绪的研究已经走出学术范畴：如果可测量的情绪向量确实会影响 reward hacking 和 sycophancy 的行为，那么 AI 对齐就不能再忽视这些内部结构。这为更深层的模型可解释性打开了一扇门。

在工具层面，Codex 的按量计费以及 GitHub 和 Linear 插件的到来，表明企业中的 agentic 工作流正在成熟。Qwen3.6-Plus 可通过 ANTHROPIC_BASE_URL 直接在 Claude Code 中使用，说明不同供应商之间的可移植性正在成为一种现实的运营能力。

来源

该文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息，请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator