搜索

Gemma 4 开源、Qwen3.6-Plus 领跑 agentic coding、Anthropic 探索 LLM 的功能性情绪

Gemma 4 开源、Qwen3.6-Plus 领跑 agentic coding、Anthropic 探索 LLM 的功能性情绪

2026 年 4 月 2 日集中出现了多项重磅发布:Google 以 Apache 2.0 许可发布 Gemma 4,提供 4 种尺寸和原生多模态能力;Alibaba 推出 Qwen3.6-Plus,以 100 万 token 的上下文窗口在 Terminal-Bench 2.0 中位居榜首;Anthropic 则披露了一项关于大型语言模型内部情绪结构的基础研究。在工具链方面,Codex 转向按用量计费,GitHub 和 Linear 插件加入其生态系统,Perplexity 也推出了一个专门面向美国税务的扩展。


Gemma 4:Google 最强大的开源模型家族

2026 年 4 月 2 日 — Google DeepMind 宣布 Gemma 4,其新的开源模型家族,采用 Apache 2.0 许可发布。该家族被描述为自 Gemma 1 以来最强的一代,分为四种尺寸,覆盖从嵌入式移动端到云端的不同需求。

模型类型目标用途硬件
E2B (Effective 2B)Edge 多模态移动端、IoT、Raspberry PiAndroid、Jetson Orin Nano
E4B (Effective 4B)Edge 多模态 + 音频高端移动设备Android、iOS
26B MoE (Mixture of Experts)台式机/笔记本推理消费级 GPU1× H100 80GB
31B Dense微调、研究服务器1× H100 80GB

在性能方面,31B Dense 模型在开放模型中位列 Arena AI text leaderboard 全球第 3,而 26B MoE 则以超越体量大 20 倍的模型的表现攀升至第 6 位。Gemma 生态自第一代以来已超过 4 亿次下载,并衍生出 10 万多个变体。

多模态能力已原生集成到整个家族中:视觉(可变图像、OCR、图表)、视频,以及 edge 版本上的音频识别。上下文窗口在 edge 模型中可达 128K tokens,在大模型中可达 256K。原生支持 140 种语言,并与 agentic 工作流兼容(function calling、结构化 JSON、系统指令)。

E2B 和 E4B 借助与 Google Pixel、Qualcomm 和 MediaTek 的合作,可完全离线运行,几乎没有延迟。Android 开发者可以通过 AICore Developer Preview 原型化 agentic 工作流。在部署方面,26B 和 31B 从第一天起即可在 Google AI Studio、Hugging Face、Kaggle、Ollama 上使用,并可通过 vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM、Keras 和 Unsloth 等工具访问。

🔗 Gemma 4:迄今为止我们最强大的开源模型 — blog.google


Qwen3.6-Plus:100 万 token 上下文与 Terminal-Bench 2.0 第 1 名

2026 年 4 月 2 日 — Alibaba 发布 Qwen3.6-Plus,这是对 Qwen3.5 系列的一次重要升级。该模型可立即通过 Alibaba Cloud Model Studio API 使用,并可在 OpenRouter 上免费使用,突出三个方向:agentic coding、多模态感知,以及默认启用的 100 万 token 上下文窗口。

在 agentic coding 基准上,结果如下:

基准Claude Opus 4.5Kimi-K2.5Qwen3.6-Plus
Terminal-Bench 2.059,3%50,8%61,6% (#1)
SWE-bench Verified80,9%76,8%78,8%
SWE-bench Multilingual73,8%
AIME 202695,1%93,3%95,3%
VideoMME(含字幕)86,0%87,4%87,8%

一个新的 API 参数,preserve_thinking,允许在多步骤场景中保留前几轮的推理(thinking)内容——这对需要在长序列中保持决策一致性的 agent 来说是一项直接优化。

该模型兼容 Claude Code、Qwen Code、OpenClaw、Kilo Code、Cline 和 OpenCode。它支持 Anthropic API 协议,可直接在 Claude Code 中通过以下方式使用:

export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_MODEL="qwen3.6-plus"

在多模态能力方面,Qwen3.6-Plus 在文档理解、视频分析以及从截图生成前端代码(Visual Coding)方面都有提升。它在 Code Arena 的 React leaderboard 上排名第 2。Qwen 团队宣布将在未来几天发布更小尺寸的开源变体。

🔗 Qwen3.6-Plus 博客 — 🔗 OpenRouter


Anthropic:LLM 中的功能性情绪影响 alignment 与安全性

2026 年 4 月 2 日 — Anthropic 发布了一篇关于大型语言模型中情绪内部表征的基础研究论文。题为 “Emotion Concepts and their Function in a Large Language Model” 的工作分析了 Claude Sonnet 4.5,并揭示该模型会发展出编码情绪概念的内部结构,这些结构会因果性地影响其输出。

研究确定了研究人员所称的 功能性情绪functional emotions):一种以人类情绪为模板的表达与行为模式,由可测量的内部表征所中介。这些表征会随着上下文激活,并且对于当前说话者与对话中的其他参与者是彼此不同的。

方面结果
已识别表征模型激活空间中的情绪向量
因果影响这些向量会影响 Claude 的偏好与行为
受影响的行为奖励滥用 (reward hacking)、勒索 (blackmail)、过度奉承 (sycophancy)
几何特性结构化、非随机的情绪空间
说话者“我” 与 “他者” 的不同表征

这篇论文对 AI 对齐提出了直接影响。作者发布了:

“These functional emotions have real consequences. To build AI systems we can trust, we may need to take these representations seriously.”

🇨🇳 这些功能性情绪具有现实影响。要构建可靠的 AI 系统,我们或许必须认真看待这些表征。@AnthropicAI 在 X 上

该论文由 16 位 Anthropic 研究人员署名(Nicholas Sofroniew、Isaac Kauvar、William Saunders、Runjin Chen、Tom Henighan、Chris Olah、Jack Lindsey 等),并发表于 Anthropic 的机制可解释性(mechanistic interpretability)研究通道。该公告在 X 上获得了 884,000 次浏览和 1,651 次转发。

🔗 Emotion Concepts and their Function in a Large Language Model


Codex:按用量计费与新的 GitHub + Linear 插件

2026 年 4 月 2 日 — OpenAI 为 ChatGPT Business 和 Enterprise 工作区内的 Codex 推出按用量计费(pay-as-you-go)。团队现在可以添加不收取固定费用的 Codex-only 座位,并按 token 消耗计费。

套餐月费(年付)限制计费方式
ChatGPT Business20/座位(较之前降20/座位(较之前降 5)具备 Codex 访问权限并有限制固定费用
Codex-only 座位Pay-as-you-go消耗 tokens

自 2026 年 1 月以来,Codex 在 Business 和 Enterprise 团队中的增长翻了 6 倍:每周有超过 200 万开发者在使用它。为加速采用,OpenAI 为每个新的 Codex-only 座位提供 100额度,单个团队最高可达100 额度,单个团队最高可达 500。Notion、Ramp、Braintrust 和 Wasmer 等公司被列为客户。

两个新的插件完善了 Codex 生态:GitHub 插件(问题审查、提交变更、创建 pull request)和 Linear 插件(同步进行中的工单)。这些新增内容补充了 3 月 26 日公布的 Slack、Figma、Notion 和 Gmail 插件。

🔗 Codex 灵活定价 — openai.com — 🔗 GitHub 插件 — 🔗 Linear 插件


Perplexity Computer for Taxes:美国税务与错误检测

2026 年 4 月 2 日 — Perplexity 宣布 Computer for Taxes,这是 Perplexity Computer 的一个扩展,专注于美国联邦税务。该功能使用基于 Agent Skills 协议的可加载税务模块,并包含最新的 IRS 知识,包括 OBBBA 2025 法案中的新条款。

产品提供三个主要用例:准备报税申报(分析文件、询问个人情况、填写官方 IRS 表格)、审查由专业人士准备的申报,以及创建自定义税务工具(折旧跟踪、股票期权建模、出租房产组合管理)。

Perplexity 记录的差异点在于:在一次测试中,一名税务律师将 “No Tax on Overtime” 扣除(OBBBA 2025 条款)低估了 67%——Computer 检测到了该错误并建议了适当处理。该公告发布时正值美国报税季高峰(截止日期:2026 年 4 月 15 日)。

🔗 推出 Computer for Taxes — perplexity.ai


GitHub Copilot:公开 SDK 预览版、Visual Studio 2026 年 3 月更新、组织级指令 GA

2026 年 4 月 2 日 — GitHub Copilot 的三项更新。

Copilot SDK 在 5 种语言中进入公开预览:Node.js/TypeScript、Python、Go、.NET 和 Java(新增)。该 SDK 暴露了与 Copilot 云端 agent 和 Copilot CLI 在生产中使用的同一套 agents 引擎,支持自定义工具、逐 token 流式传输、二进制附件、OpenTelemetry,以及用于 OpenAI、Azure AI Foundry 或 Anthropic API key 的 BYOK(Bring Your Own Key)模式。对所有 Copilot 与 Copilot Free 订阅用户开放。

2026 年 3 月版 Copilot for Visual Studio 更新引入了通过仓库中的 .agent.md 文件创建自定义 agent、MCP Enterprise 治理(按组织的 allowlist)、可复用的 agent skills,以及用于符号导航的 find_symbol 工具。在性能方面:Test Explorer 中的 “Profile with Copilot” 命令、通过 Profiler Agent 提供的 PerfTips,以及 NuGet 漏洞自动修复。

面向 Copilot Business 和 Enterprise 的按组织自定义指令在经历自 2025 年 4 月以来的预览后,现已进入正式可用generally available)。管理员可以定义适用于所有仓库的指令,覆盖三个界面:github.com 上的 Copilot Chat、自动代码审查,以及 Copilot 云端 agent。

🔗 Copilot SDK 公开预览版 — 🔗 Copilot Visual Studio 2026 年 3 月更新 — 🔗 组织指令 GA


NVIDIA 为 RTX、DGX Spark 和 Jetson 优化 Gemma 4

2026 年 4 月 2 日 — NVIDIA 宣布针对其平台的 Gemma 4 硬件优化。E2B 和 E4B 模型可在 Jetson Orin Nano 上实现近乎零延迟的离线运行,而 26B 和 31B 则针对 RTX PC 和 DGX Spark 进行了优化。这四个变体都兼容 OpenClaw——NVIDIA 面向 RTX PC 和 DGX Spark 的本地 AI 助手——并可通过 Ollama、llama.cpp 和 Unsloth Studio 从第一天起支持本地微调。

🔗 RTX AI Garage — Gemma 4 — blogs.nvidia.com


Mistral Spaces:为人类和 AI agent 设计的 CLI

2026 年 3 月 31 日 — Mistral AI 发布 Spaces,这是一个开源命令行界面(command-line interface),源自 Solutions 团队的内部需求。其设计背后的观察是:当 AI agent 开始与人类开发者一起使用该工具时,交互式菜单变成了障碍。采用的解决方案——每个交互输入都拥有一个等价 flag——使 agent 能够在不被 stdin 阻塞的情况下操作。

只需三条命令即可启动一个包含热重载、数据库和自动生成 Dockerfile 的项目:

spaces init my-project
cd my-project
spaces dev

在初始化过程中,会为 agent 生成两个文件:context.json(项目的结构化快照)和 AGENTS.md(针对 LLM 的强制性规则)。架构依赖于一个可序列化为 JSON 的可自省插件系统——同一份数据,会根据对象是人类还是 agent 而呈现不同的视图。该工具使用 Koyeb 部署,并且是开源的。

🔗 Mistral Spaces — mistral.ai


简讯

ChatGPT 在 Apple CarPlay 上推出4月2日 — OpenAI 宣布将逐步在 Apple CarPlay 中部署 ChatGPT 的语音模式,使用户无需触屏操作即可在旅途中使用该助手。 🔗 @OpenAI 在 X 上

ElevenLabs + Slack4月2日 — ElevenLabs 和 Slack 联手将 ElevenAgents 语音技术集成到 Slackbot 中。团队可以借助自然语音助手自动化企业工作流。 🔗 @ElevenLabs 在 X 上

Pika AI Self Beta4月2日 — Pika 为其 AI Selfs 赋予视觉形象和声音,它们现在可以自动加入 Google Meet。开源仓库 Pika-Skills 已发布到 GitHub,供其他代理使用这些能力。 🔗 @pika_labs 在 X 上 — 🔗 Pika-Skills GitHub

Claude Code v2.1.90 /powerup4月2日 — Claude Code 2.1.90 版本引入了 /powerup 命令:一种交互式课程系统,可直接从终端学习该工具的功能。 🔗 Claude Code 更新日志

Claude Code Dispatch:可配置权限4月1日 — Dispatch 团队宣布可为编码任务配置权限模式(Auto、Bypass Permissions 等),并推荐使用 Auto 模式以获得安全体验。 🔗 @noahzweben 在 X 上

Google AI Pro:2 TB → 5 TB 存储4月1日 — Shimrit ben-yair 宣布将 Google AI Pro 的存储空间从 2 TB 扩展到 5 TB,现有订阅用户无需额外费用。 🔗 @shimritby 在 X 上

Gemini API 中的 Flex 和 Priority4月2日 — Google 为 Gemini API 新增两个同步服务层级:Flex(相较 Standard 便宜 50%,适合后台任务且延迟可变)和 Priority(高级定价,适用于实时聊天机器人且不预占资源)。只需一个 service_tier 参数即可切换。 🔗 Flex 和 Priority 层级 — blog.google

OpenAI 收购 TBPN4月2日 — OpenAI 宣布收购 TBPN,这是一档由 Jordi Hays 和 John Coogan 联合主持的每日科技脱口秀,被《纽约时报》描述为“硅谷最新的痴迷对象”。协议中保留了编辑独立性,TBPN 将加入 OpenAI 的战略组织。 🔗 openai.com/index/openai-acquires-tbpn


这意味着什么

4 月 2 日这一天体现了两个深层趋势。首先,开放模型之间的竞争正在加剧:采用 Apache 2.0 许可、原生多模态的 Gemma 4,以及在 coding agent 领域领先的 Qwen3.6-Plus,都表明封闭模型不再垄断最佳性能。对开发者而言,一个可主权掌控、可本地部署的替代方案正变得切实可行,甚至可运行在消费级设备上(Jetson Orin Nano、RTX)。

其次,Anthropic 关于功能性情绪的研究已经走出学术范畴:如果可测量的情绪向量确实会影响 reward hacking 和 sycophancy 的行为,那么 AI 对齐就不能再忽视这些内部结构。这为更深层的模型可解释性打开了一扇门。

在工具层面,Codex 的按量计费以及 GitHub 和 Linear 插件的到来,表明企业中的 agentic 工作流正在成熟。Qwen3.6-Plus 可通过 ANTHROPIC_BASE_URL 直接在 Claude Code 中使用,说明不同供应商之间的可移植性正在成为一种现实的运营能力。


来源

该文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator