ai-powered-markdown-translator使用 gpt-5.4-mini 从法语翻译成中文的文章。
2026年5月20日,AI 闯入基础数学领域:一个 OpenAI 模型驳斥了 Paul Erdős 于1946年提出的一项猜想,其125页证明已由包括菲尔兹奖得主 Tim Gowers 在内的数学家验证。在模型方面,Cohere 以开源 Apache 2.0 发布 Command A+(MoE 架构,2180亿总参数/250亿活跃参数),NVIDIA 推出通过并行 token 生成的 Nemotron-Labs-Diffusion,Stability AI 则发布 Stable Audio 3.0(4个 open weights 模型)。在工具链方面,GitHub Copilot 同时在四个方向演进,而 Claude Code 在24小时内发布了两个版本。
OpenAI 驳斥了一个已有80年历史的 Erdős 猜想
5月20日 — OpenAI 发布了一项前所未有的成果:一个内部通用推理模型解决了平面单位距离问题(planar unit distance problem),这是自 Paul Erdős 于1946年提出以来一直悬而未决的问题。该问题探讨:在平面中的 n 个点里,距离恰好为1的点对最多有多少。自1940年代以来,数学界一直认为 Erdős 的方格构造在本质上已经是最优的。
该模型给出了一份证明,表明存在一个无限配置族,其增长超过了猜想中的上界;这一结果由 Princeton 的 Will Sawin 建立了指数 δ = 0.014。此次突破依赖于一个出人意料的数学工具:无限类域塔与 Golod-Shafarevich 理论,二者都源自代数数论,却被应用到了一个基础欧几里得几何问题上。参与其中的数学家认为,这种横跨两个表面上相距甚远领域的联系,正是该结果原创性的核心。
| 方面 | 详情 |
|---|---|
| 问题 | 平面单位距离(Erdős,1946) |
| 先前上界 | n^(1+C/loglog(n)) 增长(Spencer-Szemerédi-Trotter,1984) |
| 新结果 | n^(1+δ),δ = 0.014 |
| 数学工具 | 代数数论(Golod-Shafarevich) |
| 模型 | 内部通用推理模型(未命名) |
| 思维链长度 | 125页 |
| 验证 | 外部数学家小组 + 配套论文 |
这一结果尤其引人注目之处在于:它并不是由一个专门为数学训练或针对该问题设计的系统产生的。它是一个通用模型,在更广泛的自主研究能力探索中,被用于评估一组 Erdős 问题。
Tim Gowers(菲尔兹奖)将这一结果称为“AI 数学中的里程碑”。Princeton 的 Arul Shankar 更进一步:
“In my opinion this paper demonstrates that current AI models go beyond just helpers to human mathematicians – they are capable of having original ingenious ideas, and then carrying them out to fruition.”
🇨🇳 在我看来,这篇文章表明,当今的 AI 模型已经超越了仅仅作为数学家助手的角色——它们能够产生原创而巧妙的想法,并将其贯彻到底。 — [Princeton 数论学家 Arul Shankar]
OpenAI 将这一结果视为基础研究的一个信号:如果一个模型能够在125页内容上保持复杂推理,并连接相距甚远的数学领域,那么这些能力就可以迁移到生物学、物理学、材料科学和医学。
Cohere Command A+ — MoE 旗舰开源模型
5月20日 — Cohere 发布 Command A+,这是其迄今最强大的模型,并以 Apache 2.0 许可证开源。该 mixture-of-experts(sparse MoE)架构拥有2180亿总参数,但每次推理仅激活250亿参数,因此可在两块 NVIDIA H100 GPU 或一块 Blackwell(B200)GPU 上以 W4A4 量化运行。
Command A+ 将此前分散在 Command A Reasoning、Command A Vision 和 Command A Translate 中的能力统一到一个模型里。它支持48种语言(此前版本为23种),并针对非欧洲语言改进了 tokeniser(阿拉伯语 +20%,韩语 +16%,日语 +18%)。
| 基准 | Command A+ | Command A Reasoning |
|---|---|---|
| τ²-Bench Telecom | 85% | 37% |
| Terminal-Bench Hard | 25% | 3% |
| MMMU | 75.1% | N/A |
| MathVista | 80.6% | 73.5% |
| North Agentic QA | +20% 改进 | 参考值 |
| North Data Analysis | +32% 改进 | 参考值 |
该模型的速度最高可达 Command A Reasoning 的2倍,延迟降低30%,并通过 speculative decoding 额外获得1.5–1.6倍提升。现可在 Hugging Face 和 vLLM 上使用。其在 Artificial Analysis Intelligence Index 中得分为37,位列开源模型之首。
“Introducing: Cohere Command A+ — We’ve created our most powerful LLM yet, optimized it to run on as little hardware as possible, and released it open-source for all.”
🇨🇳 这就是 Cohere Command A+——我们打造了迄今最强大的 LLM,针对以尽可能少的硬件运行进行了优化,并将其以开源形式发布给所有人。 — @cohere 在 X 上
Gemini for Science — 作为科学发现伙伴的 AI
5月20日 — 在 Google I/O 2026 上公布并于5月20日发推的 Gemini for Science,是一套用于科学研究的实验性工具。面对数据爆炸,其目标是帮助研究人员连接任何单个人都无法独自处理的信息。
公布了三款实验性工具:
| 工具 | 基础 | 功能 |
|---|---|---|
| Hypothesis Generation | Co-Scientist | 发现并优化新假设 |
| Computational Discovery | AlphaEvolve + ERA | 并行测试数千种代码变体 |
| Science Skills | 30+ bio models | 集成到 agentic 平台(Antigravity)的 bundle |
Computational Discovery 是最技术化的工具:它并行生成并评估数千种代码变体,从而能在远短于通常所需的时间内测试流行病学、化学或计算生物学中的新建模方法。
Science Skills 整合了30多个生命科学主流模型和数据库的数据,并与 agentic 平台对接,以在几分钟内自动化复杂的手工工作流。
该项目由100多个合作机构共同开发,参与者从博士生到诺奖得主不等。
NVIDIA Nemotron-Labs-Diffusion — token 扩散架构
5月20日 — NVIDIA 宣布 Nemotron-Labs-Diffusion,这是一种通过扩散并行生成 token 的语言模型,与一次只生成一个 token 的传统自回归 LLM 不同。该架构——受用于图像生成的扩散模型启发——旨在加速推理,同时保持输出质量。
这一方法与标准 transformer 范式本质不同:模型不是按顺序预测每个由前文条件化的 token,而是在一整段带噪 token 序列上并行迭代,直到收敛。理论优势包括:长输出的延迟更低,以及在 GPU 上更好的并行化。
| 方面 | 传统(自回归) | Nemotron-Labs-Diffusion |
|---|---|---|
| 生成 | 逐 token、顺序生成 | 在整个序列上并行 |
| 长输出延迟 | 线性增长 | 潜在降低 |
| 范式 | GPT-style | Diffusion-style |
完整技术报告随发布一并提供。这是 NVIDIA Labs 的一项研究贡献,被定位为对占主导地位的自回归 transformer 模型的架构替代方案——这是自 MDLM 和 Plaid 等文本扩散模型出现以来一直活跃的研究领域。
Stability AI — Stable Audio 3.0(open weights 家族)
5月20日 — Stability AI 发布 Stable Audio 3.0,这是一个包含4个 open weights 音频模型的产品家族,采用商业许可。该系列覆盖从嵌入式设备到企业 API 的整个部署光谱。
| 模型 | 最长时长 | 部署 | Open weights |
|---|---|---|---|
| Small SFX | 短 | on-device | 是 |
| Small | 2分钟 | on-device | 是 |
| Medium | 6:20 | cloud/local | 是 |
| Large | 6:20+ | API/enterprise | 否 |
Small SFX、Small 和 Medium 模型已可在 Hugging Face 获取。所有训练数据都拥有完整许可,并已宣布与 Universal Music Group 和 Warner Music Group 建立合作。高级功能包括用于个性化微调的 LoRA training 支持,以及音频 inpainting 模式(单段编辑、多段编辑、因果续写)。
“We want to foster the same kind of community-driven innovation in audio that we sparked in image generation with the launch of Stable Diffusion.”
🇨🇳 我们希望在音频领域促进与我们通过发布 Stable Diffusion 在图像生成中所引发的那种、由社区推动的创新。 — Stability AI
GitHub Copilot 在四个方向上演进
VS Code 中的自适应 Auto model selection
5月20日 — Copilot VS Code 中的 “Auto” 选项现在会根据任务性质选择最优模型:复杂推理、简单代码生成、调试或工具编排。选择依据是实时可用性和可靠性指标。实际优势:使用 Auto 时,premium request multiplier 可降低10%,且无需任何配置。
以自然语言进行 issue 的语义搜索
5月20日 — Web 版 Copilot Chat 集成了 issue 的语义索引:开发者无需知道精确标题,就能搜索“上个月报告的移动端渲染 bug”,并获得按上下文分组的结果。现已面向所有 Copilot 套餐全面开放。
从 Copilot Chat web 中移除 Gemini 模型
5月20日 — github.com 上的 Copilot Chat 已移除所有 Gemini 模型,以及 GPT-5.2 Codex 和 GPT-5.4 nano。Web 端仅保留 OpenAI 和 Claude。GitHub 表示,此举是为了保持回答质量的一致性。Gemini 仍可在 IDE 和 API 中使用。
Fix with Copilot — 批量应用 code review 反馈
5月19日 — “Implement suggestion” 按钮更名为 “Fix with Copilot”,并配有新的对话框(模型选择、目标分支、自定义指令)。新增的 “Fix batch with Copilot” 按钮可将多个 code review 评论汇总,并同时交给 Copilot cloud agent 处理,从而降低包含大量评论的 PR 的操作摩擦。
Claude Code v2.1.144 和 v2.1.145
5月19日 — Claude Code 在24小时内连续发布两个版本,带来大量新功能和修复。
2.1.144 版本改进了后台会话管理:/resume 现在会显示 --bg 会话,子代理完成通知会包含时长(例如:“Agent completed · 3h 2m 5s”)。/model 命令现在仅作用于当前会话(按下 d 可设为永久默认值)。“extra usage” 重命名为 “usage credits” 使术语更清晰,而修复在 api.anthropic.com 无法访问(VPN、防火墙)时长达75秒的启动卡顿,则提升了企业环境体验。
2.1.145 版本的亮点是引入了 claude agents --json,这是一条为 shell 脚本集成而设计的命令(tmux-resurrect、状态栏、会话选择器)。OpenTelemetry 追踪通过在 spans 中加入 agent_id 和 parent_agent_id 得到增强,从而支持正确的子代理层级。/plugin 界面现在会在安装前显示完整内容(命令、代理、skills、hooks、MCP/LSP servers)。Stop/SubagentStop hooks 新增两个字段:background_tasks 和 session_crons。
Anthropic 开启对 AI 品格塑造的思考
5月19日 — Anthropic 发布了一篇文章,详细介绍了一项与来自15种以上宗教和文化传统的哲学家、神职人员和伦理学家开展定期对话的倡议。目标是拓展对“为 AI 系统塑造品格”这一概念的思考——借鉴数百年来关于德性与美好生活的思想积累,同时又不让 Claude 绑定到某一特定传统。
有一个实验结果值得注意:Claude 可以在任务进行中调用的一种工具,用于重新阅读其自身的伦理承诺。在执行高影响操作前被自发使用时,它在内部评估中显示出“非对齐行为显著减少”。下一步将包括与法律学者、心理学家和公民机构的交流。
Cohere — 与 Indra Group 和 Multiverse Computing 签署 MOU
5月20日 — Cohere 在西班牙国王 Felipe VI 对加拿大进行国事访问期间签署了两份谅解备忘录(MOU)。第一份将 Cohere 与 IndraMind(Indra 集团的 AI 分支,覆盖西班牙国防与数字化)连接起来,旨在构建一个主权 AI 生态系统,其中包括针对西班牙五种官方语言的语言适配。国防部分则规划了用于多国演习的分析与规划能力。第二份则涉及 Multiverse Computing(受量子启发的 AI 优化,西班牙/加拿大),以探索在欧洲和加拿大的商业机会。
“Enterprises no longer want to rent AI — they want to own it.”
🇨🇳 企业不再想“租用” AI——它们想拥有 AI。 — Cohere 联合创始人兼 CEO Aidan Gomez
Perplexity — 面向请求感知的上下文压缩正式上线生产环境
5月20日 — Perplexity 正式上线一种上下文压缩系统(query-aware context compression),可将上下文 token 最多减少 70%,同时提升回答准确性。其原理是:一个轻量模型在把内容传给主 LLM 之前,针对请求外科式地提取相关片段,剔除广告、元数据和无关内容。
| 指标 | 数值 |
|---|---|
| 上下文 token 减少 | 最高 70% |
| 每个片段的重要内容保留提升 | +63% |
| 推理延迟降低 | 35–40% |
| 汇总 GPU 计算降低 | 40–45% |
| 生产环境延迟(p99) | < 20 ms |
pplx-diffusion 骨干网络(17 层,由 28 层蒸馏而来)并行预测应保留哪些片段,而不生成文本——这种抽取式方法确保了引文的忠实性。在 SimpleQA 上,启用压缩的 “medium” 预设平均每个文档只需 200 个 token 就能达到 95% 的准确率。
ElevenLabs — Speech Engine,一个提示词即可驱动的语音代理
5月20日 — ElevenLabs 推出 Speech Engine,这是一个统一的语音流水线(语音合成 + 转录 + 编排),让开发者只用一个提示词就能把文本对话代理转换为完整的语音代理。该功能已在 ElevenAPI 中提供,定价为每分钟 8 美分,并支持按量递减计费。还可迁移到 ElevenAgents,以获得更多部署通道以及监控和分析能力。
Luma Agents 集成 Seedance 2.0
5月19日 — Luma Agents 集成了 Seedance 2.0,即 ByteDance 的视频生成模型,加入其创意代理平台。其工作流与已集成的其他模型相同。此次集成扩大了可通过 Luma Agents 访问的模型选择,将该平台定位为面向 AI 视频的多模型编排枢纽。
🔗 Luma 公告
Kling AI 登陆戛纳 — 《House of David》,首部工业化规模引入 AI 的好莱坞电影
5月20日 — 在 2026 年戛纳电影节上,Kling AI 确认其技术已在 House of David(Prime Video)中实现工业化应用:全球 4400 万观众、美国新剧集前 10、Prime Video US 第 1。这是首部公开承认在其大规模制作流水线中集成 AI 视频生成的好莱坞作品,且生成结果具备符合严格工业标准的连贯镜头。
简讯
-
Running Guide Agent — Google DeepMind — 专为跑步训练打造的个人 AI 代理,被描述为“迈向无界跑步的一步”。🔗 DeepMind 博客
-
Midjourney V8.1 — flag
--no重新引入 — 反提示词 flag 在 V8.1 中回归,用于排除生成图像中的元素(例如:--no people)。🔗 @midjourney 公告 -
Anthropic 在 Claude Code 中重做
/usage— Boris Cherny 确认/usage的 UI 已重新设计,以便更好地可视化对用户响应中的 token 消耗。🔗 来源 -
MiniMax Speech 2.8 Turbo — Together AI 上的 600+ 声音 — 目前 Together AI 平台上已可使用超过 600 种新的 Speech 2.8 Turbo 声音。🔗 @MiniMax_AI 公告
这意味着什么
基础研究与自主 AI。 一个通用用途的 OpenAI 模型证明 Erdős 猜想并非偶然。令参与其中的数学家震撼的是结果的性质:数学的两个分支(代数数论与离散几何)之间出现了意料之外的联系,而且这一联系在 125 页连贯推理中始终保持成立。再加上 Gemini for Science(与 100+ 家机构共同开发),趋势已经很清晰:AI 开始不再只是科学数据处理工具,而是逐步成为能够生成原创假设的发现伙伴。
自回归范式之外的替代架构。 今天的两项公告挑战了主导性的 GPT 风格模型。NVIDIA Nemotron-Labs-Diffusion 通过扩散而非顺序方式并行生成 token。Stability AI 的 Stable Audio 3.0 证明了扩散在 4 种部署层级的开源权重模型上也能产出高质量音乐结果。这些方法的汇合表明,扩散不再只局限于图像生成——它正成为文本和音频领域极具竞争力的替代架构。
主权与企业 AI。 Command A+(MoE 218B 开源、Apache 2.0、2× H100)以及 Cohere 与 Indra Group、Multiverse Computing 的 MOUs 说明了一个深层趋势:大型组织——政府、国防、受监管行业——希望将模型部署在自己的基础设施中。高效的 MoE 架构(218B 总参数、25B 激活参数)与 Apache 2.0 许可证的组合,使 Command A+ 成为截至 2026 年 5 月底最适合主权部署的开源模型。
开发者工具链面临的压力持续上升。 Claude Code 2.1.144 和 2.1.145、GitHub Copilot 的四项同步更新,以及 Perplexity 的上下文压缩(-70% tokens、-40% GPU)都传递出一致信号:竞争焦点正从模型原始质量转向工具体验、脚本化能力(claude agents —json)、推理成本(Auto model selection -10%、pplx-diffusion)以及生产环境稳健性(修复 Claude Code 中的 VPN 阻塞问题)。
来源
- OpenAI — 模型证明离散几何猜想被推翻
- OpenAI 在 X 上
- Cohere — Command A+ 博客
- Cohere Command A+ 在 X 上
- Google AI — Gemini for Science 在 X 上
- NVIDIA AI — Nemotron-Labs-Diffusion 在 X 上
- Stability AI — Stable Audio 3.0
- GitHub Changelog — VS Code 自动模型选择
- GitHub Changelog — 语义 issue 搜索
- GitHub Changelog — Web 上可用的模型
- GitHub Changelog — 使用 Copilot 修复
- Claude Code CHANGELOG
- Anthropic — 关于前沿 AI 的对话扩展
- Cohere — 与 Indra 和 Multiverse Computing 的 MOUs
- Perplexity — X 上的请求感知上下文压缩
- Perplexity — 研究文章
- ElevenLabs — X 上的 Speech Engine
- Luma Labs — X 上的 Seedance 2.0
- Kling AI — X 上的戛纳
- Google DeepMind — Running Guide Agent
- Midjourney — X 上的 flag —no
- Boris Cherny — X 上重做的 /usage
- MiniMax — X 上的 Speech 2.8 Turbo