Anthropic Institute、Perplexity Everything is Computer、OpenAI Responses API：2026年3月11日

2026年3月11日 是信息密集的一天：Anthropic 创建一个跨学科研究所，以推动围绕 AI 的公共讨论；Perplexity 通过四个 API 同时部署其 “Computer” 愿景；OpenAI 发布 Responses API 的新智能体原语；Meta 详细介绍了两年内开发的四代自研 AI 芯片。

Anthropic Institute：Jack Clark 领导公共利益方向

2026年3月11日 — Anthropic 推出 The Anthropic Institute，这是一项新举措，旨在推进围绕强大 AI 所带来挑战的公共讨论。该倡议由联合创始人 Jack Clark 领导，他在 Anthropic 担任新的 “Head of Public Benefit”（公共利益负责人）职务。

该研究所将汇集一支跨学科团队——研究人员、经济学家、法学家、公共政策专家——并拥有对 Anthropic 前沿模型的独特访问权限。其使命是：随着 AI 的发展，分析并传达其社会、经济和安全影响。

首批三名成员已公布：

新成员	背景
Matt Botvinick	Yale Law School Resident Fellow；前 Google DeepMind Senior Director of Research
Anton Korinek	经济学教授（休假中），Economic Research 团队
Zoë Hitzig	前 OpenAI，专注于 AI 的社会和经济影响

该研究所依托 Anthropic 现有团队：Frontier Red Team、Societal Impacts、Economic Research。与此同时，Anthropic 宣布扩展其 Public Policy 团队，重点关注模型透明度、能源消费者保护、出口管制以及全球 AI 治理。

该研究所的成立标志着一个重要阶段：Anthropic 正式组织其公共参与，并由其联合创始人之一作为代表。

🔗 介绍 The Anthropic Institute

Perplexity：围绕 “Everything is Computer” 愿景的协调发布

2026年3月11日 — Perplexity 同时发布四项公告，构成围绕其 “Computer” 愿景的一次协调发布：把 AI 作为个人和专业计算机。

Personal Computer 与 Enterprise

Personal Computer 是一台专用 Mac mini，全天候运行，连接本地应用程序和 Perplexity 服务器。它作为用户的数字代理——敏感操作需要明确批准。等待名单已开放。

Computer for Enterprise 可连接 Snowflake、Salesforce、HubSpot 以及数百个平台。技能（skills）可自定义，Slack 集成允许在 DM 或共享频道中工作。它基于 SOC 2 Type II、SAML SSO 和审计日志（audit logs）。Perplexity 提出了一项来自 16,000 条请求内部研究的数据：节省 160 万美元人工成本，并在 4 周内完成 3.25 年的工作量。

Comet Enterprise 是一款原生 AI 浏览器，具备管理员控制（按域名设置权限、操作日志、MDM），并与 CrowdStrike 合作提供浏览器级保护。

Perplexity Finance 获得 40+ 个实时金融工具（SEC filings、FactSet、S&P Global、Coinbase、LSEG、Quartr、Polymarket），并可通过 Plaid 连接券商，用于分析真实投资组合。

Premium Sources 可在搜索流中直接访问 Statista、CB Insights 和 PitchBook——付费来源会自动引用。

🔗 Everything is Computer

Agent API：完整的 runtime 编排

Agent API 是一个托管 runtime，用于构建具备集成搜索、工具执行和多模型编排的智能体工作流。它以单一集成点取代模型路由器、搜索层、embeddings 提供方、sandbox 服务和监控堆栈（monitoring stack）。

内置工具	能力
`web_search`	按域名、时效性、日期范围、语言、内容预算进行过滤
`fetch_url`	直接获取 URL
自定义函数	完整支持

四个优化配置（presets）覆盖使用场景：快速事实搜索、平衡搜索、深入多来源分析，以及机构级搜索。Deep Research 2.0 可通过 advanced-deep-research 配置使用——它会针对每个请求启动数十次搜索，并处理数百份文档。

Agent API 不绑定特定模型，支持多模型回退链（fallback chains），以实现接近 100% 的可用性，并且今天即可使用，地址为 docs.perplexity.ai。

🔗 Agent API

Search API：改进 snippets 与 SEAL benchmark

Search API 的更新重点是摘录（snippets）质量和评估基础设施。

新的片段级标注（span-level labeling）pipeline 会识别源文档中哪些段落与请求相关。结果是：摘录更小、更精准，从而降低 token 成本，并改善下游模型的上下文管理。

SEAL benchmark 测试检索系统能否回答答案会随时间变化的问题。Perplexity 在 SEAL-Hard 上取得进步，而其他供应商则出现下降。search_evals framework 已在 GitHub 上以 open source 形式更新。

其他改进：支持多请求（单个 API 请求中最多 5 个）、按语言（ISO 639-1 代码）和国家过滤，以及带有对三个 API 原生支持的 Python SDK（pip install perplexityai）。

🔗 Search API 更新

Sandbox API：面向智能体的隔离代码执行

Perplexity 将其内部代码执行环境作为独立服务开放。每个会话都在隔离的 Kubernetes pod 中运行，并挂载持久文件系统。支持语言：Python、JavaScript、SQL。可以在运行时（at runtime）安装 packages。

会话是有持久状态的（stateful）：在某一步创建的文件可供后续步骤使用，长工作流可以暂停，然后在数小时后恢复。安全性基于零信任（zero-trust）模型：无直接网络访问，出站流量通过 proxy，代码永远无法访问原始 API 密钥。

Sandbox API 将能够使用相同的 API 密钥和相同的 credits 集成到 Agent API 中。状态：私有 beta 即将推出。

🔗 Sandbox API

OpenAI：Responses API 获得面向智能体的计算环境

2026年3月11日 — OpenAI 发布一篇工程文章，详细介绍 Responses API 用于构建可靠自主智能体的新原语：Unix shell tool、托管容器、原生上下文压缩以及可复用的 agent skills。

shell tool

shell tool 允许模型通过命令行与计算机交互，并访问经典 Unix 工具（grep、curl、awk）。不同于此前仅执行 Python 的代码解释器，shell tool 支持 Go、Java、Node.js 以及其他环境。GPT-5.2 及后续模型已接受训练，可提出 shell 命令。

Responses API 可以通过独立容器会话并行执行多个 shell 命令，并对每条命令应用输出上限，以避免撑满上下文窗口。

托管容器

容器构成模型的工作空间：

组件	描述
文件系统	通过 container 和 file APIs 上传、组织和管理资源
数据库	结构化存储（SQLite）——模型查询表，而不是加载全部内容
网络访问	带 allowlist 的集中式 egress proxy，按域注入 secrets

原生上下文压缩

对于长时间运行的任务，Responses API 集成了原生压缩机制：模型经过训练，可以生成对话状态的紧凑且加密的表示。可在服务器端使用（阈值可配置），也可通过 /compact endpoint 使用。Codex 使用该机制来维持长时间编码会话且不发生退化。

Agent skills

skills（智能体技能）将重复性工作流模式（workflow patterns）封装为可复用的 bundles：一个包含 SKILL.md 文件及相关资源的文件夹。Responses API 会在向模型发送 prompt 之前，自动将 skill 加载到上下文中。skills 通过 API 管理并进行版本控制。

与此同时，一篇开发者博客文章庆祝 Responses API 一周年，并包含五个客户案例研究。两篇发布共同呈现了平台向智能体方向演进的连贯图景。

🔗 Responses API + 计算环境 🔗 Responses API 一周年

OpenAI：抵御 prompt injection 的防御策略

2026年3月11日 — OpenAI 发布一篇关于 AI 智能体抵御 prompt injection 攻击的安全文章。

早期攻击是在外部内容（Wikipedia 页面、电子邮件）中插入直接指令。随着模型改进，这些攻击演变为社会工程（social engineering）：令人信服的职业语境、模拟紧急情况、声称已获授权。文章中描述的一个 2025 年示例显示，针对旧版 ChatGPT 的一次攻击在 50% 的情况下成功。

OpenAI 从三方系统（雇主 / 智能体 / 恶意第三方）的视角处理该问题，类似于一名人类客服代表面对操纵尝试。目标并不是完美识别每一次攻击，而是限制一次成功操纵所造成的影响。

对策	描述
source-sink 分析	检测不可信内容 + 危险操作的组合
Safe Url	检测对话中的信息是否会被传输给第三方——请求确认或阻止
应用 sandbox	Canvas 和 ChatGPT Apps 检测意外通信并请求同意

Safe Url 同样适用于 Atlas 中的浏览，以及 Deep Research 中的搜索和浏览。

🔗 设计能够抵御 prompt injection 的 AI 智能体

Meta MTIA：两年内推出四代 AI 芯片

2026年3月11日 — Meta 发布一篇技术文章，详细介绍其自研 AI 芯片家族 MTIA（Meta Training and Inference Accelerator）。两年内，Meta 连续开发了四代芯片，以更低成本服务数十亿用户。

“AI models are evolving faster than traditional chip development cycles.”

🇨🇳 AI 模型的演进速度快于传统芯片开发周期。

代际	主要创新
MTIA 300	第一款针对排序和推荐模型（Ranking & Recommendation）优化的芯片，可复用的模块化基础
MTIA 400	向 GenAI workloads 演进，在单一 scale-up 域中部署 72 芯片 rack
MTIA 450	HBM 带宽翻倍，MX4 FLOPS +75%，attention 和 FFN 硬件加速
MTIA 500	HBM 带宽较 MTIA 450 增加 50%，聚焦 GenAI inference

从 MTIA 300 到 MTIA 500 的进展：HBM 带宽提升 4.5 倍，FLOPS 提升 25 倍。Meta 的策略基于高速度开发（每年一款新芯片）、聚焦 inference 而非预训练，以及原生 PyTorch 集成。

“Mainstream GPUs are typically built for the most demanding workload — large-scale GenAI pre-training — while Meta’s primary need is inference.”

🇨🇳 主流 GPU 通常是为最严苛的 workload——大规模 GenAI 预训练——而构建的，而 Meta 的主要需求是 inference。

基础处理器架构（Processing Element）结合了两个向量 RISC-V 核心、一个点积引擎（Dot Product Engine）、一个特殊函数单元（Special Function Unit）、一个归约引擎和一个 DMA。软件栈基于 PyTorch、vLLM、Triton 和专用 MTIA 编译器，并通过 plugin 架构集成 vLLM。

🔗 Meta MTIA：为数十亿用户扩展 AI 芯片

Gemini CLI v0.33.0：增强版 Plan Mode 与 A2A 认证

2026 年 3 月 11 日 — Gemini CLI 发布 v0.33.0，距离引入 Plan Mode 的 v0.32.0 已过去两周。

类别	新功能
Agent 架构	面向远程 A2A agent 的 HTTP 认证、经过认证的 A2A agent 卡片发现
Plan Mode	集成研究子 agent、支持用户反馈注释、新的子命令 `copy`
CLI 界面	带 ASCII 图标的紧凑 header、上下文窗口反向显示、聊天历史默认保留 30 天

为 A2A（Agent-to-Agent）协议添加 HTTP 认证是主要技术新功能：Gemini CLI 现在可以发现远程 agent 并向其进行认证，为安全的多 agent 编排奠定基础。

🔗 Gemini CLI 更新日志

Chrome 中的 Gemini：扩展至印度、新西兰和加拿大

2026 年 3 月 11 日 — Google 将 Chrome 的 AI 功能扩展到三个新市场：印度、新西兰和加拿大。

Gemini in Chrome——基于 Gemini 3.1、位于侧边栏中的 AI 助手——现已在这些地区的 Mac、Windows 和 Chromebook Plus 上可用。此次上线的功能包括：从 Chrome 访问 Gmail、Maps、Calendar 和 YouTube，对多个已打开标签页进行交叉分析，以及通过 Nano Banana 2 直接在浏览器中进行图像转换。本次更新新增 50 多种语言，包括印地语、法语和西班牙语。

🔗 Chrome 扩展至印度、新西兰和加拿大

AlphaEvolve：为 5 个 Ramsey 数给出新界

2026 年 3 月 11 日 — Pushmeet Kohli（Google DeepMind）宣布，AlphaEvolve 在极值组合学中为 5 个经典 Ramsey 数确立了新的下界——这些问题难度极高，Erdős 本人也曾评论过其复杂性，而此前的最佳结果至少已是十年前的成果。

AlphaEvolve 像一个元算法，能够自动发现所需的搜索过程，而过去通常需要手动设计专门算法。这一结果展示了 AlphaEvolve 在 Google kernel 优化之外的能力，而它此前已因这些优化而闻名。

🔗 Pushmeet Kohli 的 Tweet

Gemini Embedding 2：Google 首个多模态 embedding

2026 年 3 月 10 日 — Google 宣布推出 Gemini Embedding 2，并称其为“our most capable and first fully multimodal embedding model”。这是 Google 首个原生多模态 embedding 模型，开发者可通过 Gemini API 和 AI Studio 使用。

🔗 @googleaidevs 的 Tweet

GitHub Copilot：从终端进行代码审查，以及 JetBrains 进展

2026 年 3 月 11 日 — GitHub Copilot 有两项值得关注的更新。

从 GitHub CLI v2.88.0 进行 Code Review

现在可以直接从终端请求 Copilot 进行代码审查。命令 gh pr edit --add-reviewer @copilot（非交互模式）和 gh pr create（交互模式）将 Copilot 与团队成员一起纳入流程。审阅者选择新增动态搜索，从而提升大型组织中的性能，并修复可访问性问题。适用于所有包含 Copilot code review 的方案——需要更新至 GitHub CLI v2.88.0。

🔗 从 GitHub CLI 进行 Code Review

JetBrains IDEs 的 agentic 改进

JetBrains plugin 更新带来正式可用（GA）功能：自定义 agent（custom agents）、子 agent 和规划 agent（plan agent），以及面向所有方案的模型自动选择。公开预览（public preview）功能包括：通过 .github/hooks/ 中的 hooks.json 文件配置的 agent hooks（userPromptSubmitted、preToolUse、postToolUse、errorOccurred），以及对 AGENTS.md 和 CLAUDE.md 文件的支持。

其他改进也补充了此次更新：可按 MCP 配置的 auto-approve、面向扩展推理模型的思考面板、上下文窗口使用量指示器，以及菜单中 Edit 模式的弃用。

🔗 JetBrains 改进

在网页版 Copilot 中浏览仓库

公开预览：现在可以直接从 Copilot 网页界面浏览 GitHub 仓库的目录树。所选文件会自动作为临时引用添加到聊天中，并可设为永久引用。

🔗 在 Copilot 中浏览仓库

Anthropic 悉尼与 Claude for Office

悉尼，亚太地区第 4 个办公室

2026 年 3 月 10 日 — Anthropic 宣布即将在悉尼开设办公室，这是其在亚太地区的第四个办公室（继东京、首尔和新加坡之后）。按人均 Claude.ai 使用量计算，澳大利亚位居全球第 4；根据同一指标（Anthropic Economic Index），新西兰位居第 8。该办公室初期将专注于企业客户、初创公司和研究领域。

🔗 悉尼，亚太地区第 4 个办公室

Claude for Excel 和 PowerPoint：共享上下文与 Office Skills

2026 年 3 月 11 日 — Claude for Excel 和 Claude for PowerPoint add-ins 获得两项重要更新：两个应用之间的上下文共享（一名分析师可以在一次对话中从 Excel 工作簿提取数据，并将其用于 PowerPoint 演示文稿），以及 Skills（可一键复用的 workflows）登陆这两个 add-ins。

预加载的 Skills 覆盖最常见的使用场景：公式审计、构建 LBO/DCF 模型、竞争格局 deck、用新数据更新演示文稿，以及投资银行 deck 审阅。为满足合规部署需求，这些 add-ins 现在可通过 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 使用。可用性：Mac 和 Windows，适用于付费方案（Pro、Max、Team、Enterprise）。

🔗 Claude for Excel 和 PowerPoint

NVIDIA Nemotron 3 Super、ComfyUI 与 GTC 2026

2026 年 3 月 11 日 — NVIDIA 在 GTC 2026 期间动作频繁。

Nemotron 3 Super 在 agentic AI 方面相较上一代提供 5 倍吞吐量。这是一个开源的 1200 亿参数 MoE（Mixture of Experts）模型，针对高频推理负载进行了优化。

NVIDIA 和 ComfyUI 在 GDC 2026（Game Developers Conference）期间宣布了一项集成，简化游戏开发者和创作者在本地进行 AI 视频生成的流程，并支持 FLUX 和 LTX-Video 模型。

NVIDIA 博客 GTC 2026 Live Updates 汇总了圣何塞会议的实时公告——Mistral AI 也在这一框架下展示其 frontier 模型。

🔗 Nemotron 3 Super 🔗 ComfyUI GDC 🔗 GTC 2026 直播

简讯

Runway Labs — Runway 推出一个内部孵化器，由 Alejandro Matamala Ortiz（联合创始人、创新总监）领导。Runway Labs 将为生成式视频和世界模拟模型（General World Models）在多个行业中原型化全新应用：电影、医疗、教育、电子游戏、广告、房地产。招聘已开放。

🔗 Runway Labs 介绍

Claude Code /btw — 新命令 /btw 可在任务执行期间进行侧链对话（side chain conversations），而不中断当前工作。

🔗 @bcherny 的 Tweet

NotebookLM Flashcards — Quiz 和 flashcards 更新：从上次停止的位置继续、跟踪答对或答错的 flashcards、可删除或打乱 flashcards。

🔗 NotebookLM 的 Tweet

Meta Canopy Height Maps v2 — Meta 与 World Resources Institute 发布 CHMv2，这是全球森林冠层高度地图的新版本。DINOv3 模型（Meta 的自监督视觉模型）提升了精度和全球覆盖范围。应用场景包括：气候迁移、森林恢复、城市规划。模型以开源形式提供。

🔗 Canopy Height Maps v2

Z.ai GLM-5 — GLM-5 现已向 Lite 用户（免费层级）开放，此前自 2026 年 2 月发布以来仅供 Pro 用户使用。

🔗 @ZixuanLi_ 的 Tweet

这意味着什么

2026 年 3 月 11 日体现了两条正在汇合的深层趋势。

第一是 agentic 的平台化：OpenAI、Perplexity 和 GitHub 在同一天发布了互补的基础组件（shell tools、sandboxes、agent hooks、code review）。生态系统正在围绕可复用模块成型——skills、容器、子 agent——让开发者无需重新发明基础设施，就能构建可靠的 agent。

第二是定制硅片竞赛：Meta 在两年内发布四代 MTIA 的细节，显示出其摆脱大众 GPU 依赖、并为大规模推理校准的清晰战略。同样的逻辑也推动 NVIDIA 在 GTC 当天发布 Nemotron 3 Super，而这场会议上公告密集发布。

Anthropic Institute 的成立则属于一种更低调但更持久的动向：随着能力持续进步，大型 AI 企业正在组织其公共影响团队——不再只是门面式沟通，而是一项独立完整的研究工作。

来源

本文档使用 gpt-5.5 模型从法语版本翻译为中文。有关翻译过程的更多信息，请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator