搜索

Anthropic Institute、Perplexity Everything is Computer、OpenAI Responses API:2026年3月11日

Anthropic Institute、Perplexity Everything is Computer、OpenAI Responses API:2026年3月11日

2026年3月11日 是信息密集的一天:Anthropic 创建一个跨学科研究所,以推动围绕 AI 的公共讨论;Perplexity 通过四个 API 同时部署其 “Computer” 愿景;OpenAI 发布 Responses API 的新智能体原语;Meta 详细介绍了两年内开发的四代自研 AI 芯片。


Anthropic Institute:Jack Clark 领导公共利益方向

2026年3月11日 — Anthropic 推出 The Anthropic Institute,这是一项新举措,旨在推进围绕强大 AI 所带来挑战的公共讨论。该倡议由联合创始人 Jack Clark 领导,他在 Anthropic 担任新的 “Head of Public Benefit”(公共利益负责人)职务。

该研究所将汇集一支跨学科团队——研究人员、经济学家、法学家、公共政策专家——并拥有对 Anthropic 前沿模型的独特访问权限。其使命是:随着 AI 的发展,分析并传达其社会、经济和安全影响。

首批三名成员已公布:

新成员背景
Matt BotvinickYale Law School Resident Fellow;前 Google DeepMind Senior Director of Research
Anton Korinek经济学教授(休假中),Economic Research 团队
Zoë Hitzig前 OpenAI,专注于 AI 的社会和经济影响

该研究所依托 Anthropic 现有团队:Frontier Red Team、Societal Impacts、Economic Research。与此同时,Anthropic 宣布扩展其 Public Policy 团队,重点关注模型透明度、能源消费者保护、出口管制以及全球 AI 治理。

该研究所的成立标志着一个重要阶段:Anthropic 正式组织其公共参与,并由其联合创始人之一作为代表。

🔗 介绍 The Anthropic Institute


Perplexity:围绕 “Everything is Computer” 愿景的协调发布

2026年3月11日 — Perplexity 同时发布四项公告,构成围绕其 “Computer” 愿景的一次协调发布:把 AI 作为个人和专业计算机。

Personal Computer 与 Enterprise

Personal Computer 是一台专用 Mac mini,全天候运行,连接本地应用程序和 Perplexity 服务器。它作为用户的数字代理——敏感操作需要明确批准。等待名单已开放。

Computer for Enterprise 可连接 Snowflake、Salesforce、HubSpot 以及数百个平台。技能(skills)可自定义,Slack 集成允许在 DM 或共享频道中工作。它基于 SOC 2 Type II、SAML SSO 和审计日志(audit logs)。Perplexity 提出了一项来自 16,000 条请求内部研究的数据:节省 160 万美元人工成本,并在 4 周内完成 3.25 年的工作量。

Comet Enterprise 是一款原生 AI 浏览器,具备管理员控制(按域名设置权限、操作日志、MDM),并与 CrowdStrike 合作提供浏览器级保护。

Perplexity Finance 获得 40+ 个实时金融工具(SEC filings、FactSet、S&P Global、Coinbase、LSEG、Quartr、Polymarket),并可通过 Plaid 连接券商,用于分析真实投资组合。

Premium Sources 可在搜索流中直接访问 Statista、CB Insights 和 PitchBook——付费来源会自动引用。

🔗 Everything is Computer

Agent API:完整的 runtime 编排

Agent API 是一个托管 runtime,用于构建具备集成搜索、工具执行和多模型编排的智能体工作流。它以单一集成点取代模型路由器、搜索层、embeddings 提供方、sandbox 服务和监控堆栈(monitoring stack)。

内置工具能力
web_search按域名、时效性、日期范围、语言、内容预算进行过滤
fetch_url直接获取 URL
自定义函数完整支持

四个优化配置(presets)覆盖使用场景:快速事实搜索、平衡搜索、深入多来源分析,以及机构级搜索。Deep Research 2.0 可通过 advanced-deep-research 配置使用——它会针对每个请求启动数十次搜索,并处理数百份文档。

Agent API 不绑定特定模型,支持多模型回退链(fallback chains),以实现接近 100% 的可用性,并且今天即可使用,地址为 docs.perplexity.ai。

🔗 Agent API

Search API:改进 snippets 与 SEAL benchmark

Search API 的更新重点是摘录(snippets)质量和评估基础设施。

新的片段级标注(span-level labeling)pipeline 会识别源文档中哪些段落与请求相关。结果是:摘录更小、更精准,从而降低 token 成本,并改善下游模型的上下文管理。

SEAL benchmark 测试检索系统能否回答答案会随时间变化的问题。Perplexity 在 SEAL-Hard 上取得进步,而其他供应商则出现下降。search_evals framework 已在 GitHub 上以 open source 形式更新。

其他改进:支持多请求(单个 API 请求中最多 5 个)、按语言(ISO 639-1 代码)和国家过滤,以及带有对三个 API 原生支持的 Python SDK(pip install perplexityai)。

🔗 Search API 更新

Sandbox API:面向智能体的隔离代码执行

Perplexity 将其内部代码执行环境作为独立服务开放。每个会话都在隔离的 Kubernetes pod 中运行,并挂载持久文件系统。支持语言:Python、JavaScript、SQL。可以在运行时(at runtime)安装 packages。

会话是有持久状态的(stateful):在某一步创建的文件可供后续步骤使用,长工作流可以暂停,然后在数小时后恢复。安全性基于零信任(zero-trust)模型:无直接网络访问,出站流量通过 proxy,代码永远无法访问原始 API 密钥。

Sandbox API 将能够使用相同的 API 密钥和相同的 credits 集成到 Agent API 中。状态:私有 beta 即将推出。

🔗 Sandbox API


OpenAI:Responses API 获得面向智能体的计算环境

2026年3月11日 — OpenAI 发布一篇工程文章,详细介绍 Responses API 用于构建可靠自主智能体的新原语:Unix shell tool、托管容器、原生上下文压缩以及可复用的 agent skills。

shell tool

shell tool 允许模型通过命令行与计算机交互,并访问经典 Unix 工具(grep、curl、awk)。不同于此前仅执行 Python 的代码解释器,shell tool 支持 Go、Java、Node.js 以及其他环境。GPT-5.2 及后续模型已接受训练,可提出 shell 命令。

Responses API 可以通过独立容器会话并行执行多个 shell 命令,并对每条命令应用输出上限,以避免撑满上下文窗口。

托管容器

容器构成模型的工作空间:

组件描述
文件系统通过 container 和 file APIs 上传、组织和管理资源
数据库结构化存储(SQLite)——模型查询表,而不是加载全部内容
网络访问带 allowlist 的集中式 egress proxy,按域注入 secrets

原生上下文压缩

对于长时间运行的任务,Responses API 集成了原生压缩机制:模型经过训练,可以生成对话状态的紧凑且加密的表示。可在服务器端使用(阈值可配置),也可通过 /compact endpoint 使用。Codex 使用该机制来维持长时间编码会话且不发生退化。

Agent skills

skills(智能体技能)将重复性工作流模式(workflow patterns)封装为可复用的 bundles:一个包含 SKILL.md 文件及相关资源的文件夹。Responses API 会在向模型发送 prompt 之前,自动将 skill 加载到上下文中。skills 通过 API 管理并进行版本控制。

与此同时,一篇开发者博客文章庆祝 Responses API 一周年,并包含五个客户案例研究。两篇发布共同呈现了平台向智能体方向演进的连贯图景。

🔗 Responses API + 计算环境 🔗 Responses API 一周年


OpenAI:抵御 prompt injection 的防御策略

2026年3月11日 — OpenAI 发布一篇关于 AI 智能体抵御 prompt injection 攻击的安全文章。

早期攻击是在外部内容(Wikipedia 页面、电子邮件)中插入直接指令。随着模型改进,这些攻击演变为社会工程(social engineering):令人信服的职业语境、模拟紧急情况、声称已获授权。文章中描述的一个 2025 年示例显示,针对旧版 ChatGPT 的一次攻击在 50% 的情况下成功。

OpenAI 从三方系统(雇主 / 智能体 / 恶意第三方)的视角处理该问题,类似于一名人类客服代表面对操纵尝试。目标并不是完美识别每一次攻击,而是限制一次成功操纵所造成的影响

对策描述
source-sink 分析检测不可信内容 + 危险操作的组合
Safe Url检测对话中的信息是否会被传输给第三方——请求确认或阻止
应用 sandboxCanvas 和 ChatGPT Apps 检测意外通信并请求同意

Safe Url 同样适用于 Atlas 中的浏览,以及 Deep Research 中的搜索和浏览。

🔗 设计能够抵御 prompt injection 的 AI 智能体


Meta MTIA:两年内推出四代 AI 芯片

2026年3月11日 — Meta 发布一篇技术文章,详细介绍其自研 AI 芯片家族 MTIA(Meta Training and Inference Accelerator)。两年内,Meta 连续开发了四代芯片,以更低成本服务数十亿用户。

“AI models are evolving faster than traditional chip development cycles.”

🇨🇳 AI 模型的演进速度快于传统芯片开发周期。

代际主要创新
MTIA 300第一款针对排序和推荐模型(Ranking & Recommendation)优化的芯片,可复用的模块化基础
MTIA 400向 GenAI workloads 演进,在单一 scale-up 域中部署 72 芯片 rack
MTIA 450HBM 带宽翻倍,MX4 FLOPS +75%,attention 和 FFN 硬件加速
MTIA 500HBM 带宽较 MTIA 450 增加 50%,聚焦 GenAI inference

从 MTIA 300 到 MTIA 500 的进展:HBM 带宽提升 4.5 倍,FLOPS 提升 25 倍。Meta 的策略基于高速度开发(每年一款新芯片)、聚焦 inference 而非预训练,以及原生 PyTorch 集成。

“Mainstream GPUs are typically built for the most demanding workload — large-scale GenAI pre-training — while Meta’s primary need is inference.”

🇨🇳 主流 GPU 通常是为最严苛的 workload——大规模 GenAI 预训练——而构建的,而 Meta 的主要需求是 inference。

基础处理器架构(Processing Element)结合了两个向量 RISC-V 核心、一个点积引擎(Dot Product Engine)、一个特殊函数单元(Special Function Unit)、一个归约引擎和一个 DMA。软件栈基于 PyTorch、vLLM、Triton 和专用 MTIA 编译器,并通过 plugin 架构集成 vLLM。

🔗 Meta MTIA:为数十亿用户扩展 AI 芯片

Gemini CLI v0.33.0:增强版 Plan Mode 与 A2A 认证

2026 年 3 月 11 日 — Gemini CLI 发布 v0.33.0,距离引入 Plan Mode 的 v0.32.0 已过去两周。

类别新功能
Agent 架构面向远程 A2A agent 的 HTTP 认证、经过认证的 A2A agent 卡片发现
Plan Mode集成研究子 agent、支持用户反馈注释、新的子命令 copy
CLI 界面带 ASCII 图标的紧凑 header、上下文窗口反向显示、聊天历史默认保留 30 天

为 A2A(Agent-to-Agent)协议添加 HTTP 认证是主要技术新功能:Gemini CLI 现在可以发现远程 agent 并向其进行认证,为安全的多 agent 编排奠定基础。

🔗 Gemini CLI 更新日志


Chrome 中的 Gemini:扩展至印度、新西兰和加拿大

2026 年 3 月 11 日 — Google 将 Chrome 的 AI 功能扩展到三个新市场:印度、新西兰和加拿大。

Gemini in Chrome——基于 Gemini 3.1、位于侧边栏中的 AI 助手——现已在这些地区的 Mac、Windows 和 Chromebook Plus 上可用。此次上线的功能包括:从 Chrome 访问 Gmail、Maps、Calendar 和 YouTube,对多个已打开标签页进行交叉分析,以及通过 Nano Banana 2 直接在浏览器中进行图像转换。本次更新新增 50 多种语言,包括印地语、法语和西班牙语。

🔗 Chrome 扩展至印度、新西兰和加拿大


AlphaEvolve:为 5 个 Ramsey 数给出新界

2026 年 3 月 11 日 — Pushmeet Kohli(Google DeepMind)宣布,AlphaEvolve 在极值组合学中为 5 个经典 Ramsey 数确立了新的下界——这些问题难度极高,Erdős 本人也曾评论过其复杂性,而此前的最佳结果至少已是十年前的成果。

AlphaEvolve 像一个元算法,能够自动发现所需的搜索过程,而过去通常需要手动设计专门算法。这一结果展示了 AlphaEvolve 在 Google kernel 优化之外的能力,而它此前已因这些优化而闻名。

🔗 Pushmeet Kohli 的 Tweet


Gemini Embedding 2:Google 首个多模态 embedding

2026 年 3 月 10 日 — Google 宣布推出 Gemini Embedding 2,并称其为“our most capable and first fully multimodal embedding model”。这是 Google 首个原生多模态 embedding 模型,开发者可通过 Gemini API 和 AI Studio 使用。

🔗 @googleaidevs 的 Tweet


GitHub Copilot:从终端进行代码审查,以及 JetBrains 进展

2026 年 3 月 11 日 — GitHub Copilot 有两项值得关注的更新。

从 GitHub CLI v2.88.0 进行 Code Review

现在可以直接从终端请求 Copilot 进行代码审查。命令 gh pr edit --add-reviewer @copilot(非交互模式)和 gh pr create(交互模式)将 Copilot 与团队成员一起纳入流程。审阅者选择新增动态搜索,从而提升大型组织中的性能,并修复可访问性问题。适用于所有包含 Copilot code review 的方案——需要更新至 GitHub CLI v2.88.0

🔗 从 GitHub CLI 进行 Code Review

JetBrains IDEs 的 agentic 改进

JetBrains plugin 更新带来正式可用(GA)功能:自定义 agent(custom agents)、子 agent 和规划 agent(plan agent),以及面向所有方案的模型自动选择。公开预览(public preview)功能包括:通过 .github/hooks/ 中的 hooks.json 文件配置的 agent hooksuserPromptSubmittedpreToolUsepostToolUseerrorOccurred),以及对 AGENTS.md 和 CLAUDE.md 文件的支持。

其他改进也补充了此次更新:可按 MCP 配置的 auto-approve、面向扩展推理模型的思考面板、上下文窗口使用量指示器,以及菜单中 Edit 模式的弃用。

🔗 JetBrains 改进

在网页版 Copilot 中浏览仓库

公开预览:现在可以直接从 Copilot 网页界面浏览 GitHub 仓库的目录树。所选文件会自动作为临时引用添加到聊天中,并可设为永久引用。

🔗 在 Copilot 中浏览仓库


Anthropic 悉尼与 Claude for Office

悉尼,亚太地区第 4 个办公室

2026 年 3 月 10 日 — Anthropic 宣布即将在悉尼开设办公室,这是其在亚太地区的第四个办公室(继东京、首尔和新加坡之后)。按人均 Claude.ai 使用量计算,澳大利亚位居全球第 4;根据同一指标(Anthropic Economic Index),新西兰位居第 8。该办公室初期将专注于企业客户、初创公司和研究领域。

🔗 悉尼,亚太地区第 4 个办公室

Claude for Excel 和 PowerPoint:共享上下文与 Office Skills

2026 年 3 月 11 日 — Claude for Excel 和 Claude for PowerPoint add-ins 获得两项重要更新:两个应用之间的上下文共享(一名分析师可以在一次对话中从 Excel 工作簿提取数据,并将其用于 PowerPoint 演示文稿),以及 Skills(可一键复用的 workflows)登陆这两个 add-ins。

预加载的 Skills 覆盖最常见的使用场景:公式审计、构建 LBO/DCF 模型、竞争格局 deck、用新数据更新演示文稿,以及投资银行 deck 审阅。为满足合规部署需求,这些 add-ins 现在可通过 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 使用。可用性:Mac 和 Windows,适用于付费方案(Pro、Max、Team、Enterprise)。

🔗 Claude for Excel 和 PowerPoint


NVIDIA Nemotron 3 Super、ComfyUI 与 GTC 2026

2026 年 3 月 11 日 — NVIDIA 在 GTC 2026 期间动作频繁。

Nemotron 3 Super 在 agentic AI 方面相较上一代提供 5 倍吞吐量。这是一个开源的 1200 亿参数 MoE(Mixture of Experts)模型,针对高频推理负载进行了优化。

NVIDIA 和 ComfyUI 在 GDC 2026(Game Developers Conference)期间宣布了一项集成,简化游戏开发者和创作者在本地进行 AI 视频生成的流程,并支持 FLUX 和 LTX-Video 模型。

NVIDIA 博客 GTC 2026 Live Updates 汇总了圣何塞会议的实时公告——Mistral AI 也在这一框架下展示其 frontier 模型。

🔗 Nemotron 3 Super 🔗 ComfyUI GDC 🔗 GTC 2026 直播


简讯

Runway Labs — Runway 推出一个内部孵化器,由 Alejandro Matamala Ortiz(联合创始人、创新总监)领导。Runway Labs 将为生成式视频和世界模拟模型(General World Models)在多个行业中原型化全新应用:电影、医疗、教育、电子游戏、广告、房地产。招聘已开放。

🔗 Runway Labs 介绍

Claude Code /btw — 新命令 /btw 可在任务执行期间进行侧链对话(side chain conversations),而不中断当前工作。

🔗 @bcherny 的 Tweet

NotebookLM Flashcards — Quiz 和 flashcards 更新:从上次停止的位置继续、跟踪答对或答错的 flashcards、可删除或打乱 flashcards。

🔗 NotebookLM 的 Tweet

Meta Canopy Height Maps v2 — Meta 与 World Resources Institute 发布 CHMv2,这是全球森林冠层高度地图的新版本。DINOv3 模型(Meta 的自监督视觉模型)提升了精度和全球覆盖范围。应用场景包括:气候迁移、森林恢复、城市规划。模型以开源形式提供。

🔗 Canopy Height Maps v2

Z.ai GLM-5 — GLM-5 现已向 Lite 用户(免费层级)开放,此前自 2026 年 2 月发布以来仅供 Pro 用户使用。

🔗 @ZixuanLi_ 的 Tweet


这意味着什么

2026 年 3 月 11 日体现了两条正在汇合的深层趋势。

第一是 agentic 的平台化:OpenAI、Perplexity 和 GitHub 在同一天发布了互补的基础组件(shell tools、sandboxes、agent hooks、code review)。生态系统正在围绕可复用模块成型——skills、容器、子 agent——让开发者无需重新发明基础设施,就能构建可靠的 agent。

第二是定制硅片竞赛:Meta 在两年内发布四代 MTIA 的细节,显示出其摆脱大众 GPU 依赖、并为大规模推理校准的清晰战略。同样的逻辑也推动 NVIDIA 在 GTC 当天发布 Nemotron 3 Super,而这场会议上公告密集发布。

Anthropic Institute 的成立则属于一种更低调但更持久的动向:随着能力持续进步,大型 AI 企业正在组织其公共影响团队——不再只是门面式沟通,而是一项独立完整的研究工作。


来源

本文档使用 gpt-5.5 模型从法语版本翻译为中文。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator