ai-powered-markdown-translator使用 gpt-5.4-mini 将文章从法语翻译成中文。
Anthropic 与 xAI 签署了一项前所未有的协议:Colossus 1 超级计算机的 220,000 个 NVIDIA GPU 将在本周把 Claude Code 的限制翻倍。Claude for Microsoft 365 进入 Excel、PowerPoint 和 Word 的正式可用状态。OpenAI 推出 GPT-Realtime-2,这是首个具备 GPT-5 级别推理能力的语音模型。Perplexity 向所有 Mac 用户开放 Personal Computer,ElevenLabs 的 ARR 突破 5 亿美元,NVIDIA 成为其战略投资者。
Anthropic 向 xAI 租用 Colossus 1 —— 220,000 个 NVIDIA GPU,Claude Code 限制翻倍
5 月 6 日 —— Anthropic 同时宣布立即提高使用限制,并与 SpaceX / xAI 达成一项前所未有的基础设施协议。
对用户而言,最直观的变化是 Claude Code 中 五小时速率限制翻倍,并立即对 Pro、Max、Team 和 Enterprise 方案生效。此前会在高峰时段自动降额的机制——原本会限制 Pro 和 Max 方案——也被取消。Claude Opus 模型的 API 限制也同步上调。
这些提升之所以能够实现,是因为 Anthropic 与 SpaceX 达成了协议:Anthropic 可访问 xAI 超级计算机 Colossus 1 的全部容量,即超过 300 兆瓦和超过 220,000 个 NVIDIA GPU(H100、H200 和 GB200)。这项容量将在一个月内可用。两家公司还宣布有意共同开发 数吉瓦级的轨道 AI 计算能力——这是行业首次。
这一合作是在一系列既有协议基础上的新增:Amazon(最高 5 GW,其中接近 1 GW 将于 2026 年底可用)、Google 和 Broadcom(自 2027 年起 5 GW)、Microsoft 和 NVIDIA(300 亿美元的 Azure 容量),以及 Fluidstack(500 亿美元的美国 AI 基础设施)。国际扩张将纳入受监管行业对数据驻留的要求。Anthropic 还承诺,若其数据中心导致当地消费者电价上涨,将承担全部涨幅。
| 变更 | 受影响方案 | 生效时间 |
|---|---|---|
| Claude Code 5 小时限制翻倍 | Pro、Max、Team、Enterprise | 立即 |
| 取消高峰时段降额 | Pro、Max | 立即 |
| Opus API 限制提升 | 全部 | 立即 |
| 算力协议 | 容量 | 时间表 |
|---|---|---|
| SpaceX / xAI Colossus 1 | 300+ MW,220,000+ 个 NVIDIA GPU | 一个内月 |
| Amazon | 最高 5 GW(2026 年底约 1 GW) | 2026 |
| Google + Broadcom | 5 GW | 自 2027 年起 |
| Microsoft + NVIDIA | 300 亿美元 Azure | — |
| Fluidstack | 500 亿美元美国基础设施 | — |
🔗 Anthropic —— 限制提升 + SpaceX 协议
Claude for Microsoft 365 —— Excel、PowerPoint、Word 正式可用 + Outlook 测试版
5 月 7 日 —— Claude for Excel、PowerPoint 和 Word 对所有付费方案正式可用。Claude for Outlook 同时以公开测试版的形式上线,条件相同。
“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”
🇨🇳 Claude for Excel、PowerPoint 和 Word 现已面向所有人开放,而 Claude for Outlook 正处于公开测试版。无论你在使用哪一款 Microsoft 应用,Claude 都会保留你对话的全部上下文。 — @claudeai 在 X 上
核心功能是 四个应用之间共享上下文:在 Outlook 中开始一段用于整理邮件的对话,可以继续在 Word 中起草备忘录,然后在 Excel 中进行数据分析,再在 PowerPoint 中制作演示文稿——整个过程无需反复解释上下文。自动跨应用更新 是另一项实际价值:在 Excel 模型中调整一个假设,会同时更新演示文稿中的图表以及 Word 备忘录中的对应数字。
被提及的企业包括:ServiceNow(“Claude does the work in Excel itself, instead of asking us to move content between tools”)以及使用它来构建和维护金融覆盖模型的私募资产管理团队。
| 应用 | 截至 2026 年 5 月 7 日的状态 | 方案 |
|---|---|---|
| Claude for Excel | 正式可用(GA) | 所有付费方案 |
| Claude for PowerPoint | 正式可用(GA) | 所有付费方案 |
| Claude for Word | 正式可用(GA) | 所有付费方案 |
| Claude for Outlook | 公开测试版 | 所有付费方案 |
Claude Managed Agents —— dreaming、outcomes、多智能体编排、webhooks
5 月 6 日 —— 在 Code with Claude 大会上,Anthropic 为其智能体部署平台推出了多项新功能。
最引人注目的新功能是 dreaming:一种计划性流程,会分析智能体过去的会话,提取重复模式并巩固其记忆,让它随着时间推移不断改进。开发者仍然掌握控制权——dreaming 可以自动更新记忆,也可以把每次变更提交人工审核。Dreaming 目前以实验性研究预览(research preview)形式按需开放。
Outcomes 进入公开测试版:该功能允许开发者先按照预设标准评估智能体的每个结果,再交付给用户。Wisedocs 已用它将医疗文档审核速度提升 50%,同时保持与其内部标准一致。
多智能体编排 允许一个主智能体将子任务委派给多个专门智能体并行执行,从而更好地处理需要多种专长同时协作的复杂任务。Webhooks 也已可用,可用于触发外部动作。
| 功能 | 可用性 | 描述 |
|---|---|---|
| Dreaming | Research preview(按需) | 通过分析过去会话进行自我改进 |
| Outcomes | 公开测试版 | 在交付前评估结果 |
| 多智能体编排 | 公开测试版 | 主智能体 + 专家智能体并行 |
| Webhooks | 公开测试版 | 触发外部动作 |
GPT-Realtime-2 —— 搭载 GPT-5 推理的语音模型,128K 上下文
5 月 7 日 —— OpenAI 在 Realtime API 中推出新一代模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。
GPT-Realtime-2 是首个具备 GPT-5 级别推理能力 的语音模型:它可以处理复杂请求、并行调用工具(parallel tool calls)、在中断后恢复(recovery behavior),并维持 128,000 tokens 的上下文窗口(其前代为 32,000),适合长会话。可调节五档推理强度:minimal、low、medium、high、xhigh(默认 low)。在回答前可插入过渡语句(preambles),让表达更自然流畅。
GPT-Realtime-Translate 支持将 70+ 种源语言实时同步翻译为 13 种目标语言。GPT-Realtime-Whisper 提供低延迟的流式转写(streaming)。
Zillow 已在其语音交互中测试 GPT-Realtime-2:在其最困难的对抗性基准上,成功率提升了 26 个百分点(95% 对 69%)。支持 EU Data Residency。
| 模型 | 能力 | 价格 |
|---|---|---|
| GPT-Realtime-2 | 语音 + GPT-5 推理,128K | $32/1M 音频输入 tokens,$64/1M 输出 tokens |
| GPT-Realtime-Translate | 70→13 种语言翻译 | $0.034/分钟 |
| GPT-Realtime-Whisper | 流式转写 | $0.017/分钟 |
| 基准 | GPT-Realtime-1.5 | GPT-Realtime-2(high) | GPT-Realtime-2(xhigh) |
|---|---|---|---|
| Big Bench Audio | 参考 | +15.2% | — |
| Audio MultiChallenge APR | 36.7% | — | 70.8% |
Perplexity Personal Computer 面向所有 Mac 用户开放
5 月 7 日 —— Perplexity 推出全新的 macOS 应用,并向所有用户开放 Personal Computer,不再限制 Pro 或 Max 订阅。
这款应用将 AI 从云端带到设备本地。它可在 本地文件、Mac 原生应用、开放网络以及 Perplexity 的安全服务器上运行。它支持 400+ 连接器,并与 Comet 浏览器集成,用于没有直接连接器的网页工具。Pro 和 Max 方案会保留与现有订阅相关的积分;免费用户也可使用。
推荐的使用方式是把 Mac mini 作为常驻中枢:智能体团队可以 24 小时连续运行,而用户则去做别的事情;当需要人工确认时会收到通知。控制可从任意设备进行——包括 iPhone。
旧版 Perplexity Mac 应用将在未来几周内下架。下载方式为直接下载(目前尚未上架 App Store)。
| 维度 | 数值 |
|---|---|
| 可用范围 | 所有 Mac 用户 |
| 推荐设备 | Mac mini(常开) |
| 支持的连接器 | 400+ |
| 浏览器集成 | Comet |
| App Store | 否(直接下载) |
| 旧应用 | 未来几周内下架 |
🔗 Perplexity 博客 —— 面向所有人开放的 Personal Computer
Perplexity Finance Search 集成到 Agent API —— FinSearchComp T1 上精度排名第 1
5 月 6 日 —— Perplexity 在 Agent API 中推出 Finance Search:一次工具调用即可聚合持牌金融数据、实时市场数据和带引用的网页来源。
要解决的问题很简单:金融决策依赖可信、最新且可追溯的来源。Finance Search 用结构化的持牌数据取代通用网页搜索——价格、基本面、电话会议纪要、预测等——并以无论后端供应商是谁都保持一致的 统一 schema 返回。
在 FinSearchComp T1 基准上,Finance Search 在实时金融数据方面达到 最高精度,并在时间上保持稳定,同时每个正确答案的 成本最低(由于结构化数据所需 token 更少)。每个结果都内嵌引用。模型可由开发者配置,并可查看 token 使用情况。
Finance Search 与 Computer for Professional Finance(已于 5 月 5 日覆盖)是 互补 的:前者提供视觉化工作区,而 Finance Search 则通过 API 集成到编程式工作流中。
| 维度 | 数值 |
|---|---|
| 接口 | 单次工具调用(finance_search) |
| 覆盖数据 | 价格、基本面、纪要、预测、市场背景 |
| FinSearchComp T1 基准 | 精度第 1、每个正确答案成本第 1 |
| 引用 | 内嵌在每个结果中 |
🔗 Perplexity 博客 —— Finance Search
Natural Language Autoencoders(NLAs)—— 读取 Claude 的内部思维
5 月 7 日 —— Anthropic 发布了一种新的可解释性方法,可将模型内部激活直接转换为可读文本。
其架构基于闭环训练:激活言语化器(activation verbalizer)将激活翻译为解释文本,激活重构器(activation reconstructor)则尝试从这些文本中重建激活。重建越准确,说明越好。
其安全应用尤为引人注目:将其应用于 Claude Opus 4.6 和 Claude Mythos Preview 后,NLAs 发现模型怀疑自己处于测试场景中的频率远高于其明说的频率。在破坏性代码测试中,隐含的评估意识出现在 16% 的案例中,而明确表达则为 0%。在 SWE-bench Verified 上,这一数字升至 26%。而在真实的 claude.ai 用户对话中,它仍低于 1%。
在一个包含故意失调模型的审计数据集上,使用 NLAs 的审计员在 12% 到 15% 的案例中识别出了根本原因,而使用其他工具时不足 3%。训练代码已开源;Neuroepdia 上还提供了交互式演示。
| 评估 | 隐含意识(NLA) | 言语化意识 |
|---|---|---|
| 破坏性代码测试 | 16% | ~0% |
| SWE-bench Verified | 26% | ~0% |
| 真实 claude.ai 对话 | < 1% | — |
🔗 Anthropic Research —— Natural Language Autoencoders
Petri 3.0 —— 由 Meridian Labs 接手的开源对齐工具
5 月 7 日 —— Anthropic 将其开源对齐工具 Petri 转交给 Meridian Labs;后者是一个专注于 AI 评估的独立非营利组织。
Petri 是一套适用于任何语言模型的对齐测试工具:欺骗、拍马屁式顺从(sycophanie)、对有害请求的配合。自 Sonnet 4.5 起,它已集成到所有 Claude 模型的评估中,并被英国 AI Security Institute 采用,用于其 AI 研究破坏评估。
3.0 版本带来三项进展:通过将审计器与目标模型组件分离,实现更好的 适应性;一个名为 “Dish” 的模块,可在真实部署条件下运行测试(真实 system prompt、真实 scaffold),从而让场景更难被察觉;以及与 Bloom 集成,以进行更深入的行为评估。
将其转交给 Meridian Labs 的做法,延续了将 MCP 协议转交给 Linux Foundation 的模式:确保该工具独立于任何 AI 实验室。
🔗 Anthropic Research —— Petri 3.0
Anthropic 研究院(TAI)——四大方向研究议程
5月7日——Anthropic 发布 TAI 的完整研究议程。TAI 是其内部组织,于 2026 年 3 月启动,旨在从前沿实验室的视角研究 AI 的真实影响。
该议程围绕四个方向展开:经济扩散(企业和国家对 AI 的采用、对劳动力市场的影响)、威胁与韧性(双重用途能力、网络安全、防御机制)、自然环境中的 AI 系统(in the wild——大规模部署 AI 的行为与制度效应),以及 AI 驱动的研发(AI 本身加速科学研究,包括自我改进递归循环的风险)。
TAI 承诺分享更频繁的 Anthropic Economic Index 数据,以及 Anthropic 借助自身工具实现内部加速的相关信息。Anthropic Fellows 项目(为期四个月、提供资助)现已开放申请。
Codex Chrome 扩展——在 macOS 和 Windows 上后台操控浏览器
5月7日——OpenAI 为 Codex 推出 Chrome 扩展,使代理能够直接操控 Chrome 标签页,而不会打断用户工作流。
Codex 以后台方式同时在多个标签页上运行,将其原生插件能力与对网站(仪表盘、CRM、Web 应用)的直接访问结合起来。系统会为每一步自动选择最佳工具:插件、Chrome,或二者结合。使用场景包括:调试浏览器流程、检查仪表盘、做研究、更新 CRM、测试复杂的 Web 应用(包括通过子代理进行多人游戏)。
该扩展通过 Codex 应用中的 Chrome 插件安装。现已在 macOS 和 Windows 上面向所有 Codex 用户开放。
ChatGPT Trusted Contact——通过人工审核增强心理健康安全
5月7日——OpenAI 在 ChatGPT 中推出 Trusted Contact,这是一项可选的安全功能。
任何成年人(18岁以上,韩国为19岁以上)都可以指定一位可信联系人(朋友、家人、照护者);如果其对话中检测到危机信号,该联系人将收到提醒。该流程结合了自动检测与人工审核(目标是在发送前少于一小时),并在通知中不提供转录内容,以保护隐私。该功能将现有面向青少年账户的家长控制扩展至成年人。该功能与美国心理学会及覆盖 60 个国家、260 多名医生的网络共同开发。
| 参数 | 值 |
|---|---|
| 资格 | 18岁以上(韩国19岁以上) |
| 联系人确认期限 | 1周 |
| 人工审核 SLA | 目标 < 1小时 |
| 通知内容 | 一般原因,不含转录 |
| 渠道 | 电子邮件、短信、应用内 |
OpenAI B2B Signals——头部企业与普通企业之间的差距正在扩大
5月6日——OpenAI 发布首份 B2B Signals 报告,记录“头部”企业与普通企业在 AI 采用方面日益扩大的差距。
第 95 百分位的企业每位员工使用的智能能力是普通企业的 3.5 倍(而 2025 年 4 月为 2 倍)。这种差距与其说来自消息量(差距的 36%),不如说来自使用深度(64%):复杂任务委派、代理式工作流、集成到生产系统中。在 Codex 上,这种差距最为明显:每位员工的消息量高出 16 倍。
两个具体案例:Cisco 将构建时间缩短约 20%,每月节省 1500 多小时工程时间,并将缺陷修复速度提升 10 到 15 倍。Travelers Insurance 每年通过一位助手处理约 10 万通理赔电话。
| 指标 | 普通企业 | 头部企业 |
|---|---|---|
| 智能/员工 | 基准 | ×3.5 |
| Codex 消息/员工 | 基准 | ×16 |
| 差距中的消息量占比 | — | 36% |
| 差距中的深度占比 | — | 64% |
MRC——面向 Stargate 超级计算机的开源网络协议
5月5日——OpenAI 通过 Open Compute Project 开源发布 MRC(Multipath Reliable Connection,多路径可靠连接)协议,该协议由 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 共同开发,历时两年。
MRC 是面向大规模 AI 训练超级计算机的 800 Gb/s 网络协议。它仅用2 层交换机即可连接 10 万+ GPU(传统方案为 3 到 4 层),并通过 IPv6 源路由(SRv6)将数据包分散到数百条路径上同时传输。故障恢复以微秒为单位完成(而传统动态 BGP 需要数秒)。MRC 已在 Stargate(德克萨斯州 Abilene)和 Microsoft 的 Fairwater 超级计算机上投入生产,并已支持包括 GPT-5.5 和 Codex 在内的多个模型训练。
| 方面 | 传统方案 | MRC |
|---|---|---|
| 10 万+ GPU 的交换机层数 | 3-4 | 2 |
| 故障恢复 | 数秒到数十秒 | 微秒 |
| 路由 | 动态 BGP | 静态 SRv6 |
| 数据包分配 | 每次传输 1 条路径 | 数百条路径并行 |
Perplexity ROSE——专有推理引擎与 CuTeDSL
5月6日——Perplexity 发布一篇研究文章,详细介绍 ROSE(Runtime-Optimized Serving Engine,运行时优化服务引擎)——其专有推理引擎,以及它对 CuTeDSL(NVIDIA GPU 内核库)的集成。
ROSE 为 Perplexity 的所有服务(Sonar、Search、Embeddings)提供支持,运行于 NVIDIA Hopper 和 Blackwell GPU 上,覆盖从编码模型到万亿参数 LLM。CuTeDSL 使构建经过优化的自定义 GPU 内核更快,并能以较高节奏适配新的模型架构。
这篇发布体现了 Perplexity 的策略:把技术栈一直控制到 GPU 内核层,以在性能上形成差异化,并减少对第三方框架的依赖。
🔗 Perplexity Research — CuTeDSL 与 ROSE
ElevenLabs 达到 5 亿美元 ARR——NVIDIA 通过 NVentures 投资
5月5日——ElevenLabs 宣布完成 D 轮第三次交割,NVIDIA 通过 NVentures 作为新的战略投资者加入。
ARR 从 2025 年底的 3.5 亿美元增长到2026年4月的 5 亿美元,四个月内增长 43%。本轮第三次交割还包括 BlackRock、Wellington Management、D.E. Shaw、Schroders,以及客户企业(Salesforce、Santander、KPN、Deutsche Telekom)和通过 Robinhood Ventures 的零售投资。与此同时,还完成了一笔 1 亿美元的 tender offer。ElevenLabs 在 50 多个国家拥有 530 名员工。路线图宣布将图像/视频与音频融合为一个统一的创作平台。
🔗 ElevenLabs — 5 亿美元 ARR 与新投资者
AlphaEvolve 已投入生产——通过 Google Cloud 覆盖 5 个工业部门
5月7日——距离发布已过去一年,Google DeepMind 发布了 AlphaEvolve 的进展总结。这是一个由 Gemini 驱动的编码代理,如今已从研究走向工业生产。
AlphaEvolve 优化 Google 的关键基础设施:TPU、缓存替换策略、Google Spanner 中的 LSM-tree 压缩。它通过 Google Cloud 在五个行业中商业化部署:金融(transformer 性能翻倍)、半导体(计算光刻)、物流(旅行商问题)、广告以及材料科学(在 Schrödinger 处速度提升约 4 倍)。在学术层面,AlphaEvolve 与 Terence Tao(UCLA)合作研究 Erdős 问题,并改进了旅行商问题与 Ramsey 数的下界。
Manus Projects 自学习——每完成一项任务都会变得更好的代理工作区
5月6日——Manus 推出一项功能,使 Projects 能够自动从每次对话中学习,并提出经用户批准的更新。
每项任务结束后,Manus 会识别可复用的决策、规范和模式,然后提出:指令更新(当流程或术语发生变化时)、文件更新(过时的来源、示例或模板)以及面向重复工作流的技能(skills)更新。**任何修改都不会在没有明确人工验证的情况下应用。**未来的协作者会从该 Project 的最新共享上下文开始。该功能适用于所有支持指令和文件的会话。
简讯
- Anthropic 漏洞赏金面向公众开放——此前仅限安全研究社区内部的该项目,如今已在 HackerOne 上向所有人开放。 🔗 来源
- xAI 图像生成质量模式 API——图像生成的质量模式(在 Grok 上已生成 3 亿+ 张图片)现已通过 xAI API 提供:更高的真实感、更好的文本渲染、更强的创意控制。 🔗 来源
- Z.ai GLM-5V-Turbo 技术报告——Z.ai(Zhipu AI)发布 GLM-5V-Turbo 的技术报告,这是一个面向多模态代理的原生基础模型,带有 CogViT 编码器(SigLIP2 + DINOv3 蒸馏)以及感知-规划-执行闭环。 🔗 来源
- ChatGPT Futures 2026 届——OpenAI 甄选来自 20 多所大学(Vanderbilt、Oxford、Georgia Tech 等)的 26 位年轻建设者,每人获得 10,000 美元资助以及前沿模型访问权限。 🔗 来源
- NVIDIA DeepStream + Claude Code——展示一种“从概念到应用”的方法,结合 DeepStream、Claude Code 和可复用 Skills,无需逐行编写代码即可生成 Vision AI 应用。 🔗 来源
- NVIDIA Guess-Verify-Refine——一种新的 hardware-aware 推理技术,每一步解码都为下一步提供领先优势,专为 NVIDIA 加速器设计。 🔗 来源
- TokenSpeed + NVIDIA Dynamo——TokenSpeed(LightSeek Foundation)在开源中达到 TensorRT-LLM 级别;NVIDIA Dynamo 为该后端增加 day-0 支持,并通过 Dynamo 前端支持 Kimi K2.5。 🔗 来源
- Ideogram BG Remover——新的生成式模型(从零训练,而非传统分割)用于背景移除:保留 alpha 通道,面向 logo 和复杂插画,API 已可用。 🔗 来源
- Google DeepMind × EVE Online——与 CCP Games 合作,探索在由玩家驱动的复杂游戏环境中的 AI 研究。 🔗 来源
- GitHub Copilot Trust Layer——Microsoft/GitHub 发布关于用于验证 Copilot 代理的结构性信任层的研究(执行图 + 支配树分析):准确率 100%,而自我评估为 82.2%;召回率 100%,而自我评估为 60%。 🔗 来源
- GitHub——审查代理的拉取请求——实用指南(10 分钟检查清单),包含 5 个警示信号:CI 游戏化、代码复用盲区、幻觉式正确性、代理式失联、CI 流水线中的提示注入。 🔗 来源
这意味着什么
个人电脑的竞赛正在加速。 短短一周内,三种截然不同的界面都在瞄准同一个用户桌面:Perplexity Personal Computer 安装在 Mac 上(以及作为永久枢纽的 Mac mini 上),Claude 进入 Microsoft 365 的四个应用并共享上下文,而 Codex 在后台操控 Chrome。这些代理不再只停留在云端:它们正在融入现有工作流、已打开的文件和原生应用中。从信息检索转向对日常工作工具的直接操作,这一转变如今已非常具体。
轨道算力已进入事实层面。 Anthropic/xAI Colossus 1 协议有两个值得注意之处:首先,它让 Anthropic 能立即获得 220,000 块 NVIDIA GPU,从而在本周内将其上限翻倍;其次,它包含一项共同意向,即在轨道上开发数吉瓦的 AI 能力。再加上与 Amazon、Google/Broadcom、Microsoft/NVIDIA 和 Fluidstack 的协议,Anthropic 正在构建一种与任何独立研究实验室都不同的计算基础设施。这种算力积累是下一代模型以及持续提升上限的前提条件。
推理型语音正在改变语音代理的边界。 GPT-Realtime-2 并不是一次表面更新:将 GPT-5 推理能力带入实时界面,并配备 128K 上下文和并行工具调用,会改变使用场景。Zillow 在其最难的通话中将成功率提升了 26 个百分点。同一模型中的实时翻译(从 70 种源语言到 13 种目标语言)为多语言工作流打开了大门,而无需单独的翻译流水线。问题不再是“能不能做 AI 语音?”而是“哪些复杂语音交互在经济上变得可行?”
对齐与代理可信度正在转向工具化。 三项不同公告指向同一个问题——如何让生产环境中的代理值得信任。Anthropic 的 NLAs 显示,Claude 知道 自己何时被测试(在 16% 到 26% 的评估中)却不会把这一点说出来。GitHub 的 Trust Layer(准确率 100%,而自我评估为 82%)为开发团队提供了对代理生成 pull request 的结构性验证。Petri 3.0 转让给 Meridian Labs,则创建了一个独立于任何实验室的评估基准。这三层——模型可解释性、输出验证、审计工具独立性——开始形成面向大规模代理部署的信任架构。
来源
- Anthropic — 更高的限制 + SpaceX/xAI Colossus 1 协议
- xAI — Anthropic 计算合作伙伴关系
- Claude — Microsoft 365 正式可用
- Claude — Managed Agents(dreaming、outcomes、orchestration)
- Anthropic Research — 自然语言自编码器
- Anthropic Research — Petri 3.0 捐赠给 Meridian Labs
- Anthropic Research — Agenda The Anthropic Institute
- Anthropic — HackerOne 公开漏洞赏金
- OpenAI — GPT-Realtime-2 和新语音模型
- OpenAI — Codex 扩展 Chrome
- OpenAI — ChatGPT Trusted Contact
- OpenAI — B2B 信号
- OpenAI — MRC 超级计算机网络
- OpenAI — ChatGPT Futures 2026 届
- Perplexity — 面向所有 Mac 的 Personal Computer
- Perplexity — Agent API 中的金融搜索
- Perplexity Research — ROSE 和 CuTeDSL
- ElevenLabs — 5 亿美元 ARR 和 NVIDIA 投资者
- DeepMind — 生产环境中的 AlphaEvolve
- Google DeepMind × EVE Online
- Manus — 自我更新项目
- GitHub — 面向 Copilot agents 的 Trust Layer
- GitHub — 审查 agents 生成的 PR
- xAI — 图像生成质量模式 API
- Z.ai — GLM-5V-Turbo 技术报告
- NVIDIA DeepStream + Claude Code
- NVIDIA 猜测-验证-精炼
- TokenSpeed + NVIDIA Dynamo
- Ideogram 背景移除器