搜索

Anthropic Institute、Perplexity 的 Everything is Computer、OpenAI Responses API:2026年3月11日

Anthropic Institute、Perplexity 的 Everything is Computer、OpenAI Responses API:2026年3月11日

2026年3月11日是信息量很大的一天:Anthropic 成立了一个面向公众讨论的跨学科研究所,Perplexity 推出其“Computer”愿景并同时发布四个 API,OpenAI 发布了 Responses API 的新代理原语,Meta 详述了两年内开发的四代定制 AI 芯片。


Anthropic Institute:Jack Clark 担任公共利益负责人

2026年3月11日 — Anthropic 推出 The Anthropic Institute,这是一个推动关于强大人工智能所带来挑战的公众讨论的新项目。该倡议由联合创始人 Jack Clark 领导,他在 Anthropic 担任新的“Head of Public Benefit”(公共利益负责人)一职。

该研究所将汇集跨学科团队——研究人员、经济学家、法律专家、公共政策专家——并获得对 Anthropic 顶尖模型的独特访问权限。其使命是分析并传达人工智能在发展过程中对社会、经济和安全方面的影响。

已公布的前三位首批成员:

RecrueParcours
Matt BotvinickResident Fellow, Yale Law School ; ex-Senior Director of Research, Google DeepMind
Anton KorinekProfesseur d’économie (en congé sabbatique), équipe Economic Research
Zoë HitzigEx-OpenAI, spécialisée dans les impacts sociaux et économiques de l’IA

该研究所依托 Anthropic 现有团队:Frontier Red Team、Societal Impacts、Economic Research。与此同时,Anthropic 宣布扩充其 Public Policy 团队,关注模型透明度、能源消费者保护、出口管制以及全球 AI 治理。

该研究所的成立标志着一个重要步骤:Anthropic 正式构建其公共参与框架,并由其一位联合创始人将其面向公众。

🔗 介绍 The Anthropic Institute


Perplexity:协调发布“Everything is Computer”愿景

2026年3月11日 — Perplexity 同步发布了四项公告,形成围绕其“Computer”愿景的协调发布:把 AI 视为个人和职业用的计算机。

Personal Computer 与 Enterprise

Personal Computer 是一台全天候运行的 Mac mini,连接本地应用和 Perplexity 服务器。它充当用户的数字代理——敏感操作需要明确批准。现已开放排队名单。

Computer for Enterprise 可连接到 Snowflake、Salesforce、HubSpot 及数百个平台。技能(skills)可定制,Slack 集成允许在私信或共享频道中工作。其合规基于 SOC 2 Type II、SAML SSO 和审计日志(audit logs)。Perplexity 引用了来自其内部研究的一个数据点:在 16,000 次请求的研究中,节约了 160 万美元的人力成本,并在 4 周内完成了相当于 3.25 年工作的产出。

Comet Enterprise 是一个原生的 AI 浏览器,具有管理员控制(按域权限、操作日志、MDM)并与 CrowdStrike 合作提供浏览器级保护。

Perplexity Finance 实时接入 40+ 金融工具(SEC filings、FactSet、S&P Global、Coinbase、LSEG、Quartr、Polymarket),并通过 Plaid 提供券商连接以分析真实投资组合。

Premium Sources 将 Statista、CB Insights 和 PitchBook 的付费数据直接引入检索流——付费来源会被自动引用。

🔗 Everything is Computer

Agent API:完整的运行时编排

Agent API 是一个托管运行时,用于构建具有内置检索、工具执行和多模型编排的代理工作流。它在单一接入点替代了模型路由器、检索层、embeddings 提供方、沙箱服务和监控栈(monitoring stack)。

Outil intégréCapacités
web_searchFiltrage par domaine, récence, plage de dates, langue, budget de contenu
fetch_urlRécupération directe d’URL
Fonctions personnaliséesSupport complet

四个优化的预设(presets)覆盖常见用例:快速事实检索、均衡检索、多源深入分析和机构级检索。Deep Research 2.0 可通过配置文件 advanced-deep-research 使用——它为每个请求发起数十次检索并处理数百份文档。

Agent API 与模型无关,支持多模型回退链(fallback chains)以实现接近 100% 的可用性,并且已在 docs.perplexity.ai 上“今日可用”。

🔗 Agent API

Search API:改进的片段与 SEAL benchmark

Search API 的更新侧重于片段(snippets)的质量和评估基础设施。

新的片段级标注(span-level labeling)管道能识别文档源中哪些片段与查询相关。结果是更小更精确的片段,这降低了 token 成本并改善了下游模型的上下文管理。

SEAL benchmark 用于测试检索系统是否能回答随时间变化的问题。Perplexity 在 SEAL-Hard 上取得进展,而其他供应商有所退步。框架 search_evals 已在 GitHub 上开源更新。

其他改进包括:多查询支持(一次 API 请求最多 5 个查询)、按语言(ISO 639-1 代码)和国家过滤,以及带有三个 API 原生支持的 Python SDK(pip install perplexityai)。

🔗 Search API update

Sandbox API:为代理提供隔离代码执行

Perplexity 将其内部代码执行运行环境作为独立服务开放。每个会话在隔离的 Kubernetes pod 中运行,并挂载持久化文件系统。支持的语言:Python、JavaScript、SQL。运行时可安装包(at runtime)。

会话具有持久状态(stateful):在某一阶段创建的文件可在后续阶段访问,长流程可以暂停并在数小时后恢复。安全性基于零信任模型(zero-trust):无直接网络访问,外发流量通过代理,代码永远不能访问原始 API 密钥。

Sandbox API 将可与 Agent API 集成,使用相同的 API 密钥和相同的额度。状态:私测即将推出。

🔗 Sandbox API


OpenAI:Responses API 为代理提供计算环境

2026年3月11日 — OpenAI 发布了一篇工程文章,详述了 Responses API 的新原语,用于构建可靠的自主代理:Unix shell tool、托管容器、本地上下文压缩(compaction)以及可复用的 agent skills。

Shell tool

shell tool 允许模型通过命令行与一台计算机交互,访问常见的 Unix 工具(grep、curl、awk)。与此前仅能执行 Python 的代码解释器不同,shell tool 支持 Go、Java、Node.js 等环境。GPT-5.2 及更高版本的模型被训练为建议 shell 命令。

Responses API 可以通过独立的容器会话并行执行多条 shell 命令,并为每条命令施加输出上限以避免耗尽上下文窗口。

托管容器

容器构成了模型的工作空间:

ComposantDescription
Système de fichiersUpload, organisation et gestion des ressources via APIs container et file
Bases de donnéesStockage structuré (SQLite) — le modèle interroge les tables plutôt que de charger tout le contenu
Accès réseauProxy egress centralisé avec liste d’autorisations, injection de secrets par domaine

本地上下文压缩(Compaction native du contexte)

对于长期任务,Responses API 集成了本地压缩机制:模型被训练以生成对话状态的紧凑且加密的表示。该功能可在服务器端(阈值可配置)或通过一个端点 /compact 使用。Codex 使用此机制以在长时间的编码会话中维持状态而不出现退化。

Agent skills

skills(代理技能)将重复性的工作流模式(workflow patterns)打包为可复用的捆绑:一个包含文件 SKILL.md 及相关资源的文件夹。Responses API 会在向模型发送 prompt 前自动将 skill 加载到上下文中。skills 可通过 API 管理并进行版本控制。

与此同时,一篇开发者博客庆祝 Responses API 推出一周年并包含五个客户案例研究。这两篇发布共同描绘了平台向代理化演进的全貌。

🔗 Responses API + 环境计算 🔗 Responses API 一周年


OpenAI:应对 prompt injection 的防御策略

2026年3月11日 — OpenAI 发布了一篇关于 AI 代理抵御 prompt 注入(prompt injection)攻击的安全文章。

早期攻击是将直接指令嵌入外部内容(维基百科页面、电子邮件)。随着模型能力提升,这类攻击演化为社会工程(social engineering):伪造可信的职业上下文、模拟紧急情况、假冒授权。文章中举的一个 2025 年示例显示,在旧版 ChatGPT 上此类攻击成功率达 50%。

OpenAI 以三方系统(雇主 / 代理 / 恶意第三方)来审视该问题,类似于一个面对操纵企图的人类客服代理。目标不是完美识别每一次攻击,而是“限制一次操纵成功的影响”。

Contre-mesureDescription
Analyse source-sinkDétection des combinaisons contenu non fiable + action dangereuse
Safe UrlDétecte si des informations de la conversation seraient transmises à un tiers — demande confirmation ou bloque
Sandbox applicatifCanvas et ChatGPT Apps détectent les communications inattendues et demandent le consentement

Safe Url 同样适用于 Atlas 的导航以及 Deep Research 中的检索与浏览。

🔗 Designing AI agents to resist prompt injection


Meta MTIA:两年内推出四代 AI 芯片

2026年3月11日 — Meta 发布了一篇技术文章,详述其定制 AI 芯片家族 MTIA(Meta Training and Inference Accelerator)。两年内,Meta 开发了四代连续的芯片,以更低成本为数十亿用户提供服务。

“AI models are evolving faster than traditional chip development cycles.”

🇨🇳 AI 模型的发展速度超过了传统芯片开发周期。

GénérationInnovation principale
MTIA 300Première puce optimisée pour les modèles de classement et recommandation (Ranking & Recommendation), base modulaire réutilisable
MTIA 400Évolution vers les workloads GenAI, rack de 72 puces dans un domaine scale-up unique
MTIA 450Doublement de la bande passante HBM, +75 % de FLOPS MX4, accélération matérielle attention et FFN
MTIA 500+50 % de bande passante HBM vs MTIA 450, focus inference GenAI

从 MTIA 300 到 MTIA 500 的进展包括 HBM 带宽放大 4.5 倍,FLOPS 增长 25 倍。Meta 的策略依赖于高速迭代(每年一代芯片)、以推理为主而非预训练为主的设计,以及与 PyTorch 的原生集成。

“Mainstream GPUs are typically built for the most demanding workload — large-scale GenAI pre-training — while Meta’s primary need is inference.”

🇨🇳 主流 GPU 通常为最苛刻的工作负载设计——大规模 GenAI 的预训练——而 Meta 的主要需求是推理。

处理单元(Processing Element)架构结合了两个 RISC-V 向量核心、一个点积引擎(Dot Product Engine)、一个特殊功能单元(Special Function Unit)、一个归约引擎和一个 DMA。软件栈基于 PyTorch、vLLM、Triton 以及专用的 MTIA 编译器,并通过插件式架构集成 vLLM。

🔗 Meta MTIA:scale AI chips for billions


Gemini CLI v0.33.0:增强的 Plan Mode 与 A2A 认证

2026年3月11日 — Gemini CLI 发布了 v0.33.0,距引入 Plan Mode 的 v0.32.0 两周后。

CatégorieNouveautés
Architecture agentAuthentification HTTP pour agents A2A distants, découverte de cartes d’agents A2A authentifiés
Plan ModeSous-agents de recherche intégrés, support des annotations pour retours utilisateurs, nouvelle sous-commande copy
Interface CLIHeader compact avec icône ASCII, affichage inversé de la fenêtre de contexte, rétention 30 jours par défaut pour l’historique de chat

为 A2A(Agent-to-Agent)协议添加 HTTP 认证是主要的技术新增:Gemini CLI 现在可以发现并向远程代理进行认证,为安全的多代理编排奠定基础。

🔗 Changelog Gemini CLI


Gemini 在 Chrome:扩展至印度、新西兰和加拿大

2026年3月11日 — Google 将 Chrome 的 AI 功能扩展到三个新市场:印度、新西兰和加拿大。

Gemini in Chrome——基于 Gemini 3.1 的侧栏 AI 助手——现在在这些地区的 Mac、Windows 和 Chromebook Plus 上可用。部署的功能包括:从 Chrome 访问 Gmail、Maps、Calendar 和 YouTube、跨多个打开标签页的交叉分析,以及通过 Nano Banana 2 在浏览器内直接变换图像。更新新增 50+ 语言支持,包括印地语、法语和西班牙语。

🔗 Chrome 在印度、新西兰和加拿大扩展

--- ## AlphaEvolve:为 5 个 Ramsey 数建立新的下界

2026年3月11日 — Pushmeet Kohli(Google DeepMind)宣布,AlphaEvolve 为组合极值论中的5 个经典 Ramsey 数建立了新的下界——这些问题极其困难,连 Erdős 都曾评论过其复杂性,且先前的最好结果至少已有十年之久。

AlphaEvolve 作为一个元算法,能够自动发现所需的搜索程序,而历史上这些程序需要手工设计特定算法。该成果展示了 AlphaEvolve 在超越其已知用于 Google 内核优化能力方面的潜力。

🔗 Pushmeet Kohli 的推文


Gemini Embedding 2:Google 首个原生多模态 embedding

2026年3月10日 — Google 宣布 Gemini Embedding 2,被描述为“our most capable and first fully multimodal embedding model”。这是 Google 首个原生多模态的 embedding 模型,开发者可通过 Gemini API 和 AI Studio 访问。

🔗 @googleaidevs 的推文


GitHub Copilot:从终端进行代码审查与 JetBrains 的改进

2026年3月11日 — GitHub Copilot 有两项显著更新。

从 GitHub CLI v2.88.0 发起 Code Review

现在可以直接从终端请求 Copilot 进行代码审查。命令 gh pr edit --add-reviewer @copilot(非交互模式)和 gh pr create(交互模式)将 Copilot 与团队协同纳入同一流程。审阅者选择支持动态搜索,这提升了大组织中的性能并修复了可访问性问题。适用于包含 Copilot code review 的所有方案——需要更新到 GitHub CLI v2.88.0

🔗 从 GitHub CLI 发起代码审查

面向 JetBrains IDE 的 agent 能力改进

JetBrains 插件的更新在一般可用(GA)中带来了:自定义 agents(custom agents)、子代理(sub-agents)和计划代理(plan agent),以及对所有方案的模型自动选择。在公开预览(public preview)中:通过 hooks.json 文件在 .github/hooks/ 中提供的 agent hooksuserPromptSubmitted, preToolUse, postToolUse, errorOccurred),以及对 AGENTS.md 和 CLAUDE.md 文件的支持。

更新还包含其他改进:可由 MCP 配置的自动批准(auto-approve)、针对长推理模型的思维面板(panneau de pensée)、上下文窗口使用指示器,以及菜单中 Edit 模式的弃用。

🔗 JetBrains 的改进

在网页端的 Copilot 中浏览仓库

在公开预览中:可以直接从 Copilot 的网页界面浏览 GitHub 仓库树。所选文件会自动作为临时参考添加到聊天中,并可以将其设为永久参考。

🔗 在 Copilot 中浏览仓库


Anthropic:Sydney 与 Claude for Office

Sydney,第四个亚太办事处

2026年3月10日 — Anthropic 宣布即将在 悉尼 开设办事处,这是其在亚太地区的第四个办事处(继东京、首尔和新加坡之后)。按人均使用 Claude.ai 的情况,澳大利亚位列全球第四;新西兰同一指标位列第八(Anthropic Economic Index)。该办事处最初将聚焦企业客户、初创公司和研究。

🔗 悉尼:第四个亚太办事处

Claude for Excel 与 PowerPoint:共享上下文与 Office Skills

2026年3月11日 — Claude for Excel 和 Claude for PowerPoint 插件获得两项重要更新:两应用之间的上下文共享(分析师可以在一个会话中从 Excel 活页簿提取数据并在 PowerPoint 演示文稿中使用),以及在两个插件中引入 Skills(一次点击即可重用的工作流)。

预置的 Skills 覆盖常见用例:公式审计、构建 LBO/DCF 模型、竞争格局幻灯片、用新数据更新演示文稿,以及投行演示文稿的审阅。插件现在可通过 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 获得以满足合规部署。可用性:付费方案(Pro、Max、Team、Enterprise)下的 Mac 和 Windows。

🔗 Claude for Excel 与 PowerPoint


NVIDIA Nemotron 3 Super、ComfyUI 与 GTC 2026

2026年3月11日 — NVIDIA 在 GTC 2026 周边活动中动作频繁。

Nemotron 3 Super 在面向 agent 的 AI 工作负载上比上一代提供约 5 倍的吞吐量。它是一个 1200 亿参数的 MoE(Mixture of Experts)开源模型,针对高频推理负载进行了优化。

在 GDC 2026(游戏开发者大会)上,NVIDIA 与 ComfyUI 宣布了一项集成,简化了本地 AI 视频生成,面向游戏开发者与创作者,并支持 FLUX 与 LTX-Video 模型。

NVIDIA 的博客 GTC 2026 Live Updates 汇总了在圣何塞会议上的实时公告——Mistral AI 也在该场合展示了其 frontier 模型。

🔗 Nemotron 3 Super 🔗 ComfyUI 在 GDC 的内容 🔗 GTC 2026 实时更新


简讯

Runway Labs — Runway 推出由 Alejandro Matamala Ortiz(联合创始人、创新主管)领导的内部孵化器 Runway Labs。Runway Labs 将为生成视频和通用世界模型(General World Models)在电影、医疗、教育、游戏、广告、房地产等领域原型化激进的新应用。正在招聘。

🔗 推出 Runway Labs

Claude Code /btw — 新命令 /btw 允许在任务运行时进行侧链对话(side chain conversations),而不会中断当前工作。

🔗 @bcherny 的推文

NotebookLM Flashcards — 测验与抽认卡的更新:从中断处继续、记录成功或失败的抽认卡、可以删除或打乱抽认卡。

🔗 NotebookLM 的推文

Meta Canopy Height Maps v2 — Meta 与 World Resources Institute 发布 CHMv2,这是新版全球森林树冠高度地图。Meta 的自监督视觉模型 DINOv3 提升了精度与全球覆盖范围。应用场景包括气候迁徙、森林恢复、城市规划。模型已开源。

🔗 树冠高度地图 v2

Z.ai GLM-5 — GLM-5 现在向 Lite 用户(免费层)开放,此前自 2026 年 2 月推出后仅向 Pro 用户提供。

🔗 @ZixuanLi_ 的推文


这意味着什么

2026年3月11日反映了两条正在融合的长期趋势。

第一,是代理能力的“平台化”:OpenAI、Perplexity 和 GitHub 在同一天发布了互补的原语(shell tools、sandboxes、agent hooks、code review)。生态系统正在围绕可重用模块——skills、容器、子代理——构建,使开发者能够在不重复构建基础设施的情况下搭建可靠的 agents。

第二,是“定制硅片”的竞赛:Meta 在两年内公布其四代 MTIA 芯片细节,表明其在大规模推理上追求脱离消费级 GPU 的清晰战略。同样的逻辑促使 NVIDIA 在 GTC 当日发布 Nemotron 3 Super,会议上公告频出。

Anthropic Institute 的成立则属于一种更隐性的、但持久的动向:随着能力提升,大型 AI 公司正在构建面向公共影响的团队——不再仅仅是形象化的传播,而是一项独立的研究与行动努力。


来源

本文件已使用 gpt-5-mini 模型将 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator