GPT-5.5 Instant ChatGPT 新默认模型，xAI API 上的 Grok 4.3，Anthropic x Blackstone 企业服务

这一周相当忙碌：OpenAI 将 GPT-5.5 Instant 直接替换 GPT-5.3，作为所有 ChatGPT 用户的默认模型；xAI 在其 API 上推出拥有百万 tokens 上下文的 Grok 4.3；Anthropic 则宣布与 Blackstone、Hellman & Friedman 以及 Goldman Sachs 共同创办一家新的企业级 AI 服务公司。在工具方面，GitHub 通过其 MCP 服务器将安全相关的 GA/预览功能翻倍，Perplexity 为金融团队推出专用产品，Runway 则展示了可由单张图片生成的实时视频代理。

GPT-5.5 Instant — ChatGPT 新默认模型

5月5日 — OpenAI 将 GPT-5.3 Instant 替换为 GPT-5.5 Instant，作为所有 ChatGPT 用户的默认模型。部署将在两天内完成。

维度	相较 GPT-5.3 Instant 的改进
幻觉（医学、法律、金融）	-52.5 %
不准确声明（由用户举报）	-37.3 %
回答冗长度	平均少 30.2 % 的词

该模型还改进了图像分析、STEM 回答以及是否使用网络搜索的判断。回答更简洁但不损失实质内容，附带更少的多余格式和不必要的后续问题。

记忆来源 — OpenAI 在所有 ChatGPT 模型上引入“memory sources”：当回答基于已保存记忆、过往对话或已连接的 Gmail 进行个性化时，用户会准确看到所使用的来源，并可对其进行修正或删除。基于过往对话和文件的个性化功能首先仅对 Plus 和 Pro 订阅用户（网页端）开放，其他套餐随后跟进。

可用性：

两天内逐步向所有 ChatGPT 用户部署
通过别名 chat-latest 提供 API 访问
GPT-5.3 Instant 对付费订阅用户仍可使用 3 个月

🔗 GPT-5.5 Instant 官方公告

xAI API 上推出 Grok 4.3 — 100 万 tokens 上下文，#1 agentic tool calling

5月5日 — xAI 通过 X 宣布在 xAI API（console.x.ai）上推出 Grok 4.3。该模型被定位为迄今为止该系列中速度最快、智能最高的型号。

特性	数值
上下文窗口	100 万 tokens
agentic tool calling 基准	#1 (@ArtificialAnlys leaderboard)
instruction following 基准	#1 (@ArtificialAnlys leaderboard)
企业领域	#1 case law 和 corporate finance (@ValsAI)
可用性	xAI API（console.x.ai）— 尚未登陆 grok.com

Grok 4.3 is now live on the xAI API. It’s our fastest, most intelligent model to date. It tops the @ArtificialAnlys leaderboards in agentic tool calling and instruction following, and ranks #1 in @ValsAI enterprise domains like case law and corporate finance. Grok 4.3 supports a 1 million token context.

🇨🇳 Grok 4.3 现已在 xAI API 上提供。它是我们迄今为止速度最快、最智能的模型。它在 @ArtificialAnlys 的 agentic tool calling 和 instruction following 排行榜中位居榜首，并在 @ValsAI 的企业领域（如商事法律和企业金融）中排名第 1。Grok 4.3 支持一百万 tokens 的上下文。 — @xai 在 X 上

这条推文获得了 2570 万次浏览和 6029 个点赞。值得注意的是：在公告发布时，x.ai/news 上并没有专门页面——此次发布完全通过 X 进行。

Anthropic 与 Blackstone、Hellman & Friedman、Goldman Sachs — 新的企业级 AI 服务公司

5月4日 — Anthropic、Blackstone、Hellman & Friedman 和 Goldman Sachs 宣布成立一家新的企业级 AI 服务公司，并由额外的替代性资本机构组成的财团提供支持。

目标是：在大型企业的核心运营中部署 Claude，用于那些需要大量工程能力和深厚行业知识的任务。根据 Anthropic 的说法，Claude 的企业级需求已超出单一分发模式所能承载的范围。

典型的运营模式从一个小团队开始，与客户密切合作识别摩擦点，然后构建贴合业务的 Claude 代理。给出的具体例子是：一个跨多个地点的医疗机构网络，其中 Claude 负责临床文档、重复性行政任务以及专科间协调，使临床人员能够更专注于患者护理。

这家新公司将加入 Claude Partner Network，与 Accenture、Deloitte 和 PwC 并列。它标志着 Anthropic 企业分发战略中的一个结构性步骤：公司不再只是销售 API 许可证，而是开始与顶级金融伙伴一起参与复杂的运营部署。

🔗 官方公告

面向金融服务和保险的 Claude 代理

5月5日 — Anthropic 推出十个可直接使用的金融服务和保险代理模板（ready-to-run）。这些模板可作为 Claude Cowork 或 Claude Code 中的插件使用，也可作为 Claude 平台上的独立 Claude Managed Agents 使用。

研究与客户覆盖：

代理	角色
Pitch builder	目标名单、可比公司、推介材料
Meeting preparer	客户与对手方简报
Earnings reviewer	财报电话会议记录解读与模型更新
Model builder	基于 filings 和数据创建财务模型
Market researcher	行业监测与新闻摘要

金融与运营：

代理	角色
Valuation reviewer	估值核查
General ledger reconciler	总账对账与净值计算
Month-end closer	月末结账与会计分录
Statement auditor	财务报表审阅
KYC screener	实体档案汇编与合规筛查

Claude 现已通过插件（add-ins）集成到 Microsoft Excel、PowerPoint、Word 和 Outlook（进行中）中。Claude Cowork 的 Dispatch 功能可让用户通过文本或语音从任何地方分配任务。

新的数据连接器： Dun & Bradstreet、Fiscal AI、Financial Modeling Prep、Guidepoint、IBISWorld、SS&C IntraLinks、Third Bridge、Verisk，以及一个 Moody’s MCP（针对超过 6000 个实体的评级和数据）。

提到的客户包括：Citadel、FIS、BNY、Carlyle、Mizuho、Travelers、Walleye Capital（100% 员工都在使用 Claude Code）、Hg、Morningstar、FactSet。这些代理针对 Claude Opus 4.7 进行了优化，后者在 Vals AI Finance Agent 基准中排名第 1。

🔗 官方公告

Perplexity Computer for Professional Finance

5月5日 — Perplexity 推出面向专业金融的 Computer，这是专为分析和投资团队设计的 Computer 版本：买方和卖方分析师、对冲基金、私募股权。

维度	数值
包含的工作流	35（10 个细分领域）
集成数据提供商	14（包括 Quartr、Fiscal）
高级 MCP 连接器	Morningstar、PitchBook、Daloopa、Carbon Arc
可用平台	Microsoft Teams、Agent API
即将推出	Excel add-in
FinSearchComp T1 基准	第 1 名（准确性、成本、延迟）

拥有授权订阅的团队可以通过 MCP 连接器接入自己的凭据，以访问 Morningstar、PitchBook、Daloopa 和 Carbon Arc。其他用户则可使用基于 14 家数据提供商的内置金融工具。

每个数值都可追溯到其来源：对于来自 SEC 文档的数值，Computer 会展示计算过程并指向文档中的具体页面。在 FinSearchComp T1 基准（时间敏感数据提取）中，Perplexity 在准确性、每个正确答案成本和延迟方面排名第一——涵盖实时股价、加密货币价格和汇率。

🔗 Perplexity 博客 — Computer for Professional Finance

Runway Characters — 由单张图片生成的实时视频代理

4月5日 — Runway 宣布 Characters，这项技术可将单张图片转换为实时对话式视频代理。

指标	数值
端到端延迟	1.75 秒
视频质量	24 fps HD
所需图像来源	仅 1 张图片
冷启动	快 60×（GPU 点对点）

1.75 秒的延迟是从用户停止说话到角色做出首次回应之间的时间。Runway 同时发布了两篇工程文章：第一篇描述实时视频代理的架构，第二篇解释点对点（peer-to-peer）GPU 基础设施如何将冷启动时间缩短 60 倍。

目标用例包括对话代理、实时互动角色以及应用的视频界面。这项技术标志着视频渲染从离线生成转向同步交互。

🔗 Runway Characters 发布推文

GitHub MCP Server — 安全能力三连升级

5月5日 — GitHub 为其 MCP 服务器同时发布了三项安全更新，全部在同一天完成。

Secret scanning GA

通过 GitHub MCP Server 的 secret scanning 现已正式可用（自 2026 年 3 月起处于预览版）。在 GitHub Copilot CLI 中，安装方式为 /plugin install advanced-security@copilot-plugins；在 VS Code 中，插件 advanced-security 会暴露命令 /secret-scanning。

方面	详情
状态	GA（正式可用）
可用范围	启用 GitHub Secret Protection 的仓库
集成	Copilot CLI、VS Code、任意兼容 MCP 的 IDE

MCP 工具现在会遵循现有的 push protection 自定义设置——绕过（bypass）行为与仓库或组织配置保持一致。

🔗 更新日志 — Secret scanning GA

Dependency scanning 公共预览版

通过 MCP Server 的依赖漏洞检测现已进入公共预览。系统会查询 GitHub Advisory Database，并返回结构化结果，包括受影响的软件包、严重性以及建议修复版本。

方面	详情
状态	公共预览
可用范围	启用 Dependabot alerts 的仓库
CLI 激活	`copilot --add-github-mcp-toolset dependabot`

🔗 更新日志 — Dependency scanning

GitHub Advanced Security × Microsoft Defender for Cloud GA

GitHub Advanced Security × Microsoft Defender for Cloud 的集成也正式进入 GA。它会将云环境中部署的容器镜像与 GitHub 源代码进行关联，为安全视图提供运行时上下文。

组织视图中新可用的筛选器：has:deployment、runtime-risk:internet-exposed、runtime-risk:sensitive-data。安全活动可直接分配给 GitHub Copilot 编码代理。

🔗 更新日志 — Code-to-cloud GA

Model Spec Midtraining（MSM）— agentic 对齐失配从 68% 降至 5%

5月5日 — Anthropic 研究人员发布了“Model Spec Midtraining”（MSM），这是一种位于预训练与对齐微调（alignment fine-tuning, AFT）之间的对齐方法。

其原理是：模型先在一套合成语料上训练，这些语料讨论其 Model Spec 的内容，然后再学习如何遵循其中的规则。核心想法是：理解一条规则“为什么存在”，有助于提高其应用的稳健性。

模型	失配（仅 AFT）	采用 MSM + AFT
Qwen2.5-32B	68 %	5 %
Qwen3-32B	54 %	7 %

MSM 还让 AFT 在数据效率上高得多：达到可比性能所需的 AFT 数据量减少 40 到 60 倍。作者还展示了，解释规则背后的动机（而不是不断增加子规则）能改善分布外泛化。

🔗 MSM 文章 — alignment.anthropic.com

NotebookLM Mind Maps — 个性化、组织、导航

5月5日 — NotebookLM 为其思维导图（Mind Maps）增加了三项同步推出的功能。

功能	描述
个性化	使用特定的用户指令来引导思维导图
组织	立即重命名并分享 Mind Map
导航	节点之间的平滑过渡

部署将逐步面向所有用户展开。此次更新补全了 NotebookLM 自 4 月初以来的一系列快速改进：源自动组织（4 月 24 日，5 月 5 日完成 100% 部署）、集成到 Gemini 手机应用（4 月 30 日）。

🔗 NotebookLM 推文

Genspark sb-git — 为 AI 代理重写的 Git 服务器

5月5日 — Genspark 推出 sb-git，一个为 AI 代理从零重写的 Git 服务器。完整 Git 语义：版本控制、分支、diff、blame、rollback 和 push。

方面	详情
CLI	`gsk`（init、clone-url、cat、commit）
兼容性	Claude Code、OpenClaw、任何 Git 代理
存储	1 GB（免费）、10 GB（Plus/Pro）
需要账户	否 — 无需 GitHub 账户
可用性	立即可用（网页 + 移动端）

无需 GitHub 账户，也无需预先配置仓库。重点是与常见 AI 代理（Claude Code、OpenClaw）无缝兼容，避免安装摩擦。

🔗 Genspark sb-git 推文

NVIDIA + ServiceNow — Project Arc，自主长运行桌面代理

5月5日 — 在 ServiceNow Knowledge 2026 大会上，Jensen Huang 和 Bill McDermott 宣布扩大双方在企业自主 AI 代理方面的合作。

ServiceNow 推出 Project Arc，这是一款面向知识工作者的自主长运行桌面代理：开发者、IT 团队、管理员。该代理使用 NVIDIA OpenShell（开源沙盒）进行治理和安全控制，并通过 ServiceNow Action Fabric 原生连接到 ServiceNow 平台。

指标	数值
Blackwell 相比 Hopper 的效率	50× tokens/watt
每百万 tokens 成本降低	~35×
Nemotron 3 Super（开源）	#1 EnterpriseOps-Gym (NOWAI-Bench)
自主解决的工单	90 %（ServiceNow + Apriel/Nemotron）

🔗 NVIDIA 博客 — ServiceNow

NVIDIA NemoClaw + OpenClaw — GitHub 上超越 React 的持久开源智能体

4月30日 — 由 Peter Steinberger 创建的 OpenClaw 在 60 天内突破 25 万个 GitHub 星标，超越 React，成为该平台上最受星标的项目。NVIDIA 正与社区合作，以确保这个持久的自托管 AI 智能体项目的安全性。

NVIDIA 推出 NemoClaw，这是一个可一条命令安装的参考实现，将 OpenClaw + NVIDIA OpenShell + Nemotron 结合在一起，并默认采用增强的安全配置。

指标	数值
OpenClaw 的 GitHub stars	25 万+（2026年3月）
增长	60 天内的 #1 GitHub 项目（超越 React）
智能体推理 vs reasoning AI 的倍数	1,000×
NemoClaw 安装	只需 1 条命令

🔗 NVIDIA 博客 — OpenClaw/NemoClaw

Luma AI Uni-1.1 API — 面向创意简报的推理式图像生成

5月5日 — Luma AI 发布 Uni-1.1 API，这是一个图像生成模型，旨在对创意简报进行推理，而不是处理 token。与需要提示工程的传统 API 不同，Uni-1.1 理解每种视觉传统的美学上下文，并能在首次尝试时就产出可直接使用的结果。

提到的使用场景：时尚工具、建筑渲染、漫画流水线、电影内容。无需中间件。该 API 可在 lumalabs.ai/api 获取。

🔗 Luma AI Uni-1.1 推文

ChatGPT Ads Manager 自助服务与 CPC 出价

5月5日 — OpenAI 通过两项新功能扩展其广告计划：一个自助服务工具（Ads Manager，美国 beta 版）以及 CPC（按点击付费）竞价模式的上线。

模式	状态	描述
CPM（每千次展示成本）	现有	自项目启动以来一直可用
CPC（按点击付费）	新	广告主仅在实际点击时付费
Ads Manager 自助服务（beta）	新	面向美国广告主开放

代理商合作伙伴：Dentsu、Omnicom、Publicis、WPP。技术合作伙伴：Adobe、Criteo、Kargo、Pacvue、StackAdapt。OpenAI 还推出了 Conversions API 和像素跟踪，用于衡量点击后的行为，而不会向广告主暴露单个对话内容。

🔗 OpenAI 广告公告

Perplexity Premium Health Sources

5月5日 — Perplexity 推出高级健康来源。平台上每十次查询中就有超过一次与健康有关。上线时可用的来源包括 NEJM、BMJ Journals 和 BMJ Best Practice——这些医疗参考资料通常只向机构订阅开放。

在 Computer 中，这些来源会针对健康问题自动启用，无需手动选择。每个答案都包含可追踪的引用。即将加入的来源：Micromedex、EBSCOhost、Health Affairs、VisualDx、American Academy of Orthopaedic Surgeons、American Diabetes Association、Springer Publishing。

🔗 Perplexity 博客 — 高级健康来源

简讯

Manus — 推荐连接器自动化 — Manus 现在可以检测完成任务所需的连接器（Slack、Notion、Gmail、Google Drive），并在对话中推荐它，而无需离开当前讨论线程。启用仍需用户确认。🔗 来源
Black Forest Labs — FLUX Creator Program — BFL 为创作者开启一个精选计划，以提前访问即将推出的 FLUX 模型，并通过 BFL 渠道放大他们的作品。🔗 来源
GPT-5.5 Instant System Card — Instant 系列的首份 System Card 在 OpenAI Preparedness Framework 的“网络安全”和“生物与化学”类别中被评为“高能力”。相应地已实施更强的防护措施。🔗 来源
OpenAI — WebRTC relay+transceiver 架构 — OpenAI 发布了一篇工程文章，描述其用于实时语音（ChatGPT Voice、Realtime API）的 WebRTC 基础设施重构，该基础设施服务于超过 9 亿周活跃用户。该架构将数据包路由（轻量、无状态的 relay）与协议终止（有状态的 transceiver）分离，从而可以在标准 Kubernetes 部署上运行，并减少公网 UDP 占用。🔗 来源

这意味着什么

金融正在成为企业 AI 的优先试验场。 在 24 小时内，Anthropic、Perplexity 和 xAI 各自发布了明确面向金融团队的公告：十个 Claude 智能体模板（估值、KYC、月结）、Computer for Professional Finance（35 个工作流和 14 个数据提供商），以及在企业金融和案例法基准 Vals AI 上排名 #1 的 Grok 4.3。这个趋同并非偶然——金融结合了结构化文档的大量吞吐、对准确性的高要求，以及对高价工具成本的容忍度，这使它成为高价值自主智能体最早落地的理想场景。

默认模型之争。 GPT-5.5 Instant 将幻觉率相较其直接前代降低了 52.5%，而 Grok 4.3 达到了 100 万 token 的上下文长度，并发布了经过测量的 agentic 性能。这两个模型在同一天发布。重点已不再只是发布最好的学术基准，而是要成为默认加载在面向消费者界面中的模型（ChatGPT），或在开发者管线中优先启用的模型（xAI API）。

MCP 正成为开发者安全标准。 GitHub 通过其 MCP 服务器同步发布了三项安全更新（secret scanning GA、dependency scanning 预览版、code-to-cloud GA）。这一协调部署将 GitHub 的 MCP 服务器转变为代码智能体的原生安全集成通道——Copilot CLI、VS Code 以及任何兼容 MCP 的 IDE 现在都可以在每次提交之前，在智能体工作流中直接扫描密钥和存在漏洞的依赖项。

持久智能体与实时基础设施。 Runway Characters（从一张图像到视频的 1.75 秒延迟智能体）、ServiceNow 的 Project Arc（长时间运行的桌面智能体）、OpenClaw/NemoClaw（25 万 GitHub stars，推理需求比 reasoning AI 高 1,000×）以及 Genspark sb-git（为智能体重写的 Git）都在传达同一个转向：AI 智能体正从一次性请求时代走向持久流程时代，而这需要截然不同的基础设施——状态存储、实时低延迟、原生版本控制。