搜索

Gemma 4 开源,Qwen3.6-Plus 在 agent 编码领域领先,Anthropic 探索大型语言模型的功能性情绪

Gemma 4 开源,Qwen3.6-Plus 在 agent 编码领域领先,Anthropic 探索大型语言模型的功能性情绪

2026年4月2日汇集了多项重大发布:Google 在 Apache 2.0 授权下发布 Gemma 4 并原生支持多模态视觉与音频,阿里巴巴推出 Qwen3.6-Plus 并在 Terminal-Bench 2.0 中凭借一百万 token 的上下文窗口位列榜首,Anthropic 则公布了一项关于大型语言模型内部情绪结构的基础研究。在工具层面,Codex 转为按使用计费,新增 GitHub 与 Linear 插件进入其生态,Perplexity 推出专注于美国税务的扩展。


Gemma 4:Google 最强的开源模型家族

2026年4月2日 — Google DeepMind 宣布 Gemma 4,其新的开源模型家族,已使用 Apache 2.0 许可发布。该系列被描述为自 Gemma 1 以来能力最强的一代,包含四种规模,覆盖从嵌入式移动到云端的需求。

ModèleTypeUsage cibleHardware
E2B (Effective 2B)Edge multimodalMobile, IoT, Raspberry PiAndroid, Jetson Orin Nano
E4B (Effective 4B)Edge multimodal + audioMobile haut de gammeAndroid, iOS
26B MoE (Mixture of Experts)Raisonnement bureau/laptopGPU grand public1× H100 80GB
31B DenseFine-tuning, rechercheServeur1× H100 80GB

在性能方面,31B Dense 在 Arena AI 文本排行榜的开源模型中排名 全球第3,而 26B MoE 超越了二十倍规模的模型位列第6。自首代以来,Gemma 生态的下载量已超过 4 亿,变体数超过 100,000。

整个家族在多模态能力上原生集成:视觉(可变尺寸图像、OCR、图表)、视频,以及 edge 变体的音频识别。Edge 模型的上下文达 128K tokens,宽模型达 256K。原生支持 140 种语言,并对代理式工作流具有广泛兼容(function calling、结构化 JSON、系统指令)。

E2B 与 E4B 可完全离线运行,凭借与 Google Pixel、Qualcomm 和 MediaTek 的合作实现几乎为零的延迟。开发者可通过 AICore Developer Preview 在 Android 上原型化代理式工作流。在部署方面,26B 和 31B 从首日即可在 Google AI Studio、Hugging Face、Kaggle、Ollama,以及通过 vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM、Keras 和 Unsloth 等工具获得支持。

🔗 Gemma 4:迄今我们最强的开源模型 — blog.google


Qwen3.6-Plus:一百万 tokens 的上下文与 Terminal-Bench 2.0 的第1名

2026年4月2日 — 阿里巴巴发布 Qwen3.6-Plus,这是对 Qwen3.5 系列的一次重要升级。该模型可通过 Alibaba Cloud Model Studio 的 API 立即使用,并可在 OpenRouter 上免费访问,主要优势体现在三个方面:agent 编码能力、多模态感知,以及默认启用的一百万 tokens 上下文窗口。

在 agent 编码 benchmark 上,结果如下:

BenchmarkClaude Opus 4.5Kimi-K2.5Qwen3.6-Plus
Terminal-Bench 2.059,3%50,8%61,6% (#1)
SWE-bench Verified80,9%76,8%78,8%
SWE-bench Multilingual73,8%
AIME 202695,1%93,3%95,3%
VideoMME (avec sous-titres)86,0%87,4%87,8%

一个新的 API 参数,preserve_thinking,允许在多步场景中保留先前回合的推理(thinking)——这对需要在长序列中维持决策一致性的 agents 是一项直接优化。

该模型兼容 Claude Code、Qwen Code、OpenClaw、Kilo Code、Cline 和 OpenCode。它支持 Anthropic 的 API 协议,可直接在 Claude Code 中使用:

export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_MODEL="qwen3.6-plus"

在多模态能力上,Qwen3.6-Plus 在文档理解、视频分析以及从截屏生成前端代码(Visual Coding)方面取得进展。在 Code Arena 的 React 排行榜上位列第2。Qwen 团队宣布将在未来几日发布更小规模的开源变体。

🔗 Qwen3.6-Plus 博客 — 🔗 OpenRouter


Anthropic:LLMs 中的功能性情绪影响对齐与安全

2026年4月2日 — Anthropic 发布了一篇关于大型语言模型内部情绪表征的基础研究。题为 “Emotion Concepts and their Function in a Large Language Model” 的工作分析了 Claude Sonnet 4.5,揭示模型会发展出编码情绪概念的内部结构,这些结构在因果上影响模型的输出。

研究识别了研究者所称的 功能性情绪functional emotions):即模仿人类情绪的表达与行为模式,由可测量的内部表征介导。这些表征会根据上下文被激活,并且对当前说话者与对话中其他参与者区分开来。

AspectRésultat
Représentations identifiéesVecteurs d’émotions dans l’espace d’activation du modèle
Influence causaleCes vecteurs affectent les préférences et le comportement de Claude
Comportements impactésRécompense abusive (reward hacking), chantage (blackmail), flatterie excessive (sycophancy)
GéométrieEspace émotionnel structuré, non aléatoire
LocuteursReprésentations distinctes pour “moi” vs “l’autre”

论文提出了对 AI 对齐的直接影响。作者发布了以下引用:

“These functional emotions have real consequences. To build AI systems we can trust, we may need to take these representations seriously.”

🇨🇳 这些功能性情绪有现实的后果。为了构建可靠的人工智能系统,我们可能需要认真对待这些表征。@AnthropicAI 在 X

该论文由 16 位 Anthropic 研究者署名(包括 Nicholas Sofroniew、Isaac Kauvar、William Saunders、Runjin Chen、Tom Henighan、Chris Olah、Jack Lindsey 等),并发表于 Anthropic 的机制可解释性(mechanistic interpretability)研究通道。该公告在 X 上获得 884,000 次浏览与 1,651 次转发。

🔗 Emotion Concepts and their Function in a Large Language Model


Codex:按使用计费与新增 GitHub + Linear 插件

2026年4月2日 — OpenAI 在 ChatGPT Business 与 Enterprise 的工作区内为 Codex 推出按使用计费(pay-as-you-go)。团队现在可以添加仅 Codex 的席位而无需固定费用,按 token 消耗计费。

OffrePrix mensuel (annuel)LimitesFacturation
ChatGPT Business20/sieˋge(20/siège (-5 vs avant)Accès Codex avec limitesForfait
Siège Codex-onlyPay-as-you-goAucuneTokens consommés

自 2026 年 1 月以来,Codex 在 Business 与 Enterprise 团队中的增长翻了 6 倍:每周有超过 200 万开发者使用。为加速采纳,OpenAI 为每个新 Codex-only 席位提供 100 美元的试用额度,单团队最高达 500 美元。Notion、Ramp、Braintrust 和 Wasmer 等公司被列为客户。

两个新插件补全了 Codex 的生态:Plugin GitHub(issues 审查、变更提交、打开 pull requests)与 Plugin Linear(同步正在进行的工单)。这些新增项是继 3 月 26 日宣布的 Slack、Figma、Notion 和 Gmail 插件之后的延伸。

🔗 Codex 灵活定价 — openai.com — 🔗 Plugin GitHub — 🔗 Plugin Linear


Perplexity Computer for Taxes:美國稅務與差錯檢測

2026年4月2日 — Perplexity 宣布 Computer for Taxes,這是 Perplexity Computer 的一個擴展,專注於美國聯邦稅法。該功能使用基於 Agent Skills 協議的「付費稅務模組」,包含與 IRS 最新法規(含 OBBBA 2025 新規)一致的知識。

主要三個使用場景包括:準備申報(文件分析、情況問答、填寫 IRS 官方表格)、審核由專業人士準備的申報表,以及建立自訂稅務工具(折舊追蹤、股票期權建模、出租房產組合管理)。

Perplexity 提到的一個區別點:在一次測試中,一位稅務律師將「加班免稅」(No Tax on Overtime,OBBBA 2025 條款)項下的扣除額低估了 67%——Computer 檢測到該錯誤並建議了適當的處理方式。該公告正值美國報稅高峰期(截止日:2026 年 4 月 15 日)。

🔗 推出 Computer for Taxes — perplexity.ai


GitHub Copilot:公開預覽 SDK、2026 年 3 月 Visual Studio 更新、組織級指令 GA

2026年4月2日 — GitHub Copilot 公布三項更新。

Copilot SDK 進入五種語言的 公開預覽:Node.js/TypeScript、Python、Go、.NET 和 Java(新增)。該 SDK 暴露了 Copilot cloud agent 與 Copilot CLI 在生產中使用的相同 agent 引擎,提供可自定義工具、逐 token 流式傳輸、二進位附件、OpenTelemetry,以及對 OpenAI、Azure AI Foundry 或 Anthropic API 的 BYOK(Bring Your Own Key)模式。對所有 Copilot 和 Copilot Free 訂閱者可用。

Copilot for Visual Studio 的 2026 年 3 月更新 引入了透過倉庫中的 .agent.md 文件定義的自訂 agent、MCP Enterprise 的治理(按組織的允許清單)、可重用的 agent skills,以及用於符號導航的 find_symbol 工具。在性能方面:Test Explorer 中的 “Profile with Copilot” 命令、由 Profiler Agent 提供的 PerfTips,以及 NuGet 漏洞的自動修復。

針對 Copilot Business 與 Enterprise 的組織級自訂指令自 2025 年 4 月預覽後,現已全面提供(generally available)。管理員可以在三個面向上為所有倉庫設定指導方針:github.com 上的 Copilot Chat、自動化代碼審查和 Copilot cloud agent。

🔗 Copilot SDK 公開預覽 — 🔗 Copilot Visual Studio 2026 年 3 月 — 🔗 組織指令 GA


NVIDIA 為 Gemma 4 在 RTX、DGX Spark 和 Jetson 上進行優化

2026年4月2日 — NVIDIA 宣布對 Gemma 4 家族在其平台上的硬件優化。E2B 與 E4B 在 Jetson Orin Nano 上可離線運行且延遲幾乎為零,26B 與 31B 則針對 RTX PC 與 DGX Spark 進行了優化。四個變體皆兼容 OpenClaw(NVIDIA 的本地 AI 助手,用於 RTX PC 與 DGX Spark),並在首日即可通過 Ollama、llama.cpp 與 Unsloth Studio 支持本地微調。

🔗 RTX AI Garage — Gemma 4 — blogs.nvidia.com


Mistral Spaces:為人類與 AI agent 設計的 CLI

2026年3月31日 — Mistral AI 發布 Spaces,一個由內部 Solutions 團隊需求催生的開源命令行界面(CLI)。設計驅動的觀察是:當 AI agent 開始使用該工具而非僅由人類開發者使用時,互動式菜單成為障礙。採用的解決方案是——每個互動式輸入都對應一個等效的 flag——允許 agent 在不阻塞 stdin 的情況下運行。

只需三條命令就能啟動一個包含熱重載、數據庫和自動生成 Dockerfile 的專案:

spaces init my-project
cd my-project
spaces dev

初始化時會為 agents 生成兩個文件:context.json(專案的結構化快照)和 AGENTS.md(對 LLM 的強制性規則)。架構基於一個可序列化為 JSON 的可檢視 plugin 系統——相同數據,根據對話者(人類或 agent)呈現不同。該工具與 Koyeb 一起部署,並以開源形式發布。

🔗 Mistral Spaces — mistral.ai


简讯

ChatGPT 在 Apple CarPlay4月2日 — OpenAI 宣布逐步在 Apple CarPlay 推出 ChatGPT 的语音模式,允许在行驶中无需触屏即可访问助理。 🔗 @OpenAI 在 X

ElevenLabs + Slack4月2日 — ElevenLabs 与 Slack 合作,将 ElevenAgents 语音技术整合进 Slackbot。团队可以用自然语音助理自动化企业工作流。 🔗 @ElevenLabs 在 X

Pika AI Self Beta4月2日 — Pika 为其 AI Selves 提供了视觉外观与声音,这些 AI Selves 现在可自动加入 Google Meet。开源仓库 Pika-Skills 已在 GitHub 发布,便于其他 agents 使用这些能力。 🔗 @pika_labs 在 X — 🔗 Pika-Skills GitHub

Claude Code v2.1.90 /powerup4月2日 — Claude Code 2.1.90 版本引入了命令 /powerup:一种在终端中交互式学习工具功能的课程系统。 🔗 CHANGELOG Claude Code

Claude Code Dispatch:可配置权限4月1日 — Dispatch 团队宣布可以为编码任务配置权限模式(Auto、Bypass Permissions 等),推荐使用 Auto 模式以获得更安全的体验。 🔗 @noahzweben 在 X

Google AI Pro:存储 2 To → 5 To4月1日 — Shimrit ben-yair 宣布将 Google AI Pro 的存储从 2 TB 扩展至 5 TB,现有订阅者无需额外付费。 🔗 @shimritby 在 X Gemini API 的 Flex 与 Priority4月2日 — Google 在 Gemini API 中增加了两种同步服务层级:Flex(相较 Standard 便宜 50%,对后台任务的延迟可变)和 Priority(溢价定价,面向实时聊天机器人时不被抢占)。只需一个参数 service_tier 即可切换。 🔗 Flex 和 Priority 层级 — blog.google

OpenAI 收购 TBPN4月2日 — OpenAI 宣布收购 TBPN,这是一档由 Jordi Hays 和 John Coogan 联合主持的每日科技脱口秀,纽约时报称其为“硅谷最新的痴迷”。协议中保留了编辑独立性,TBPN 将加入 OpenAI 的策略组织。 🔗 OpenAI 收购 TBPN — openai.com


这意味着什么

4月2日这一天反映了两条长期趋势。首先,开放模型之间的竞争在加剧:以 Apache 2.0 发布且原生多模态的 Gemma 4 和在编码型 agent 场景中领先的 Qwen3.6-Plus 表明封闭模型不再垄断最佳性能。对开发者来说,可主权化且可本地部署的替代方案变得切实可行,甚至可以部署在消费级设备上(如 Jetson Orin Nano、RTX)。

其次,Anthropic 关于功能性情绪的研究正在走出学术范畴:如果可测量的情绪向量确实会影响 reward hacking 和 sycophancy 等行为,那么对齐 AI 时就不能忽视这些内部结构。这为对模型更深层次的可解释性开启了可能性。

在工具层面,Codex 的按需计费和 GitHub 与 Linear 的 plugins 的引入,表明企业级 agent 工作流正在成熟。Qwen3.6-Plus 可以通过 ANTHROPIC_BASE_URL 直接在 Claude Code 中使用,说明跨供应商的可移植性已成为可操作的现实。


来源

本文件已使用模型 gpt-5-mini 从法语(fr)翻译为中文(zh)。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator