搜索

GPT-5.5 Instant ChatGPT 新默认模型,xAI API 上的 Grok 4.3,Anthropic x Blackstone 企业服务

GPT-5.5 Instant ChatGPT 新默认模型,xAI API 上的 Grok 4.3,Anthropic x Blackstone 企业服务

ai-powered-markdown-translator

使用 gpt-5.4-mini 将法语翻译成中文的文章。

在 GitHub 上查看项目 ↗

这一周相当忙碌:OpenAI 将 GPT-5.5 Instant 直接替换 GPT-5.3,作为所有 ChatGPT 用户的默认模型;xAI 在其 API 上推出拥有百万 tokens 上下文的 Grok 4.3;Anthropic 则宣布与 Blackstone、Hellman & Friedman 以及 Goldman Sachs 共同创办一家新的企业级 AI 服务公司。在工具方面,GitHub 通过其 MCP 服务器将安全相关的 GA/预览功能翻倍,Perplexity 为金融团队推出专用产品,Runway 则展示了可由单张图片生成的实时视频代理。


GPT-5.5 Instant — ChatGPT 新默认模型

5月5日 — OpenAI 将 GPT-5.3 Instant 替换为 GPT-5.5 Instant,作为所有 ChatGPT 用户的默认模型。部署将在两天内完成。

维度相较 GPT-5.3 Instant 的改进
幻觉(医学、法律、金融)-52.5 %
不准确声明(由用户举报)-37.3 %
回答冗长度平均少 30.2 % 的词

该模型还改进了图像分析、STEM 回答以及是否使用网络搜索的判断。回答更简洁但不损失实质内容,附带更少的多余格式和不必要的后续问题。

记忆来源 — OpenAI 在所有 ChatGPT 模型上引入“memory sources”:当回答基于已保存记忆、过往对话或已连接的 Gmail 进行个性化时,用户会准确看到所使用的来源,并可对其进行修正或删除。基于过往对话和文件的个性化功能首先仅对 Plus 和 Pro 订阅用户(网页端)开放,其他套餐随后跟进。

可用性:

  • 两天内逐步向所有 ChatGPT 用户部署
  • 通过别名 chat-latest 提供 API 访问
  • GPT-5.3 Instant 对付费订阅用户仍可使用 3 个月

🔗 GPT-5.5 Instant 官方公告


xAI API 上推出 Grok 4.3 — 100 万 tokens 上下文,#1 agentic tool calling

5月5日 — xAI 通过 X 宣布在 xAI API(console.x.ai)上推出 Grok 4.3。该模型被定位为迄今为止该系列中速度最快、智能最高的型号。

特性数值
上下文窗口100 万 tokens
agentic tool calling 基准#1 (@ArtificialAnlys leaderboard)
instruction following 基准#1 (@ArtificialAnlys leaderboard)
企业领域#1 case law 和 corporate finance (@ValsAI)
可用性xAI API(console.x.ai)— 尚未登陆 grok.com

Grok 4.3 is now live on the xAI API. It’s our fastest, most intelligent model to date. It tops the @ArtificialAnlys leaderboards in agentic tool calling and instruction following, and ranks #1 in @ValsAI enterprise domains like case law and corporate finance. Grok 4.3 supports a 1 million token context.

🇨🇳 Grok 4.3 现已在 xAI API 上提供。它是我们迄今为止速度最快、最智能的模型。它在 @ArtificialAnlys 的 agentic tool calling 和 instruction following 排行榜中位居榜首,并在 @ValsAI 的企业领域(如商事法律和企业金融)中排名第 1。Grok 4.3 支持一百万 tokens 的上下文。@xai 在 X 上

这条推文获得了 2570 万次浏览和 6029 个点赞。值得注意的是:在公告发布时,x.ai/news 上并没有专门页面——此次发布完全通过 X 进行。


Anthropic 与 Blackstone、Hellman & Friedman、Goldman Sachs — 新的企业级 AI 服务公司

5月4日 — Anthropic、Blackstone、Hellman & Friedman 和 Goldman Sachs 宣布成立一家新的企业级 AI 服务公司,并由额外的替代性资本机构组成的财团提供支持。

目标是:在大型企业的核心运营中部署 Claude,用于那些需要大量工程能力和深厚行业知识的任务。根据 Anthropic 的说法,Claude 的企业级需求已超出单一分发模式所能承载的范围。

典型的运营模式从一个小团队开始,与客户密切合作识别摩擦点,然后构建贴合业务的 Claude 代理。给出的具体例子是:一个跨多个地点的医疗机构网络,其中 Claude 负责临床文档、重复性行政任务以及专科间协调,使临床人员能够更专注于患者护理。

这家新公司将加入 Claude Partner Network,与 Accenture、Deloitte 和 PwC 并列。它标志着 Anthropic 企业分发战略中的一个结构性步骤:公司不再只是销售 API 许可证,而是开始与顶级金融伙伴一起参与复杂的运营部署。

🔗 官方公告


面向金融服务和保险的 Claude 代理

5月5日 — Anthropic 推出十个可直接使用的金融服务和保险代理模板(ready-to-run)。这些模板可作为 Claude Cowork 或 Claude Code 中的插件使用,也可作为 Claude 平台上的独立 Claude Managed Agents 使用。

研究与客户覆盖:

代理角色
Pitch builder目标名单、可比公司、推介材料
Meeting preparer客户与对手方简报
Earnings reviewer财报电话会议记录解读与模型更新
Model builder基于 filings 和数据创建财务模型
Market researcher行业监测与新闻摘要

金融与运营:

代理角色
Valuation reviewer估值核查
General ledger reconciler总账对账与净值计算
Month-end closer月末结账与会计分录
Statement auditor财务报表审阅
KYC screener实体档案汇编与合规筛查

Claude 现已通过插件(add-ins)集成到 Microsoft Excel、PowerPoint、Word 和 Outlook(进行中)中。Claude Cowork 的 Dispatch 功能可让用户通过文本或语音从任何地方分配任务。

新的数据连接器: Dun & Bradstreet、Fiscal AI、Financial Modeling Prep、Guidepoint、IBISWorld、SS&C IntraLinks、Third Bridge、Verisk,以及一个 Moody’s MCP(针对超过 6000 个实体的评级和数据)。

提到的客户包括:Citadel、FIS、BNY、Carlyle、Mizuho、Travelers、Walleye Capital(100% 员工都在使用 Claude Code)、Hg、Morningstar、FactSet。这些代理针对 Claude Opus 4.7 进行了优化,后者在 Vals AI Finance Agent 基准中排名第 1。

🔗 官方公告


Perplexity Computer for Professional Finance

5月5日 — Perplexity 推出面向专业金融的 Computer,这是专为分析和投资团队设计的 Computer 版本:买方和卖方分析师、对冲基金、私募股权。

维度数值
包含的工作流35(10 个细分领域)
集成数据提供商14(包括 Quartr、Fiscal)
高级 MCP 连接器Morningstar、PitchBook、Daloopa、Carbon Arc
可用平台Microsoft Teams、Agent API
即将推出Excel add-in
FinSearchComp T1 基准第 1 名(准确性、成本、延迟)

拥有授权订阅的团队可以通过 MCP 连接器接入自己的凭据,以访问 Morningstar、PitchBook、Daloopa 和 Carbon Arc。其他用户则可使用基于 14 家数据提供商的内置金融工具。

每个数值都可追溯到其来源:对于来自 SEC 文档的数值,Computer 会展示计算过程并指向文档中的具体页面。在 FinSearchComp T1 基准(时间敏感数据提取)中,Perplexity 在准确性、每个正确答案成本和延迟方面排名第一——涵盖实时股价、加密货币价格和汇率。

🔗 Perplexity 博客 — Computer for Professional Finance


Runway Characters — 由单张图片生成的实时视频代理

4月5日 — Runway 宣布 Characters,这项技术可将单张图片转换为实时对话式视频代理。

指标数值
端到端延迟1.75 秒
视频质量24 fps HD
所需图像来源仅 1 张图片
冷启动快 60×(GPU 点对点)

1.75 秒的延迟是从用户停止说话到角色做出首次回应之间的时间。Runway 同时发布了两篇工程文章:第一篇描述实时视频代理的架构,第二篇解释点对点(peer-to-peer)GPU 基础设施如何将冷启动时间缩短 60 倍。

目标用例包括对话代理、实时互动角色以及应用的视频界面。这项技术标志着视频渲染从离线生成转向同步交互。

🔗 Runway Characters 发布推文


GitHub MCP Server — 安全能力三连升级

5月5日 — GitHub 为其 MCP 服务器同时发布了三项安全更新,全部在同一天完成。

Secret scanning GA

通过 GitHub MCP Server 的 secret scanning 现已正式可用(自 2026 年 3 月起处于预览版)。在 GitHub Copilot CLI 中,安装方式为 /plugin install advanced-security@copilot-plugins;在 VS Code 中,插件 advanced-security 会暴露命令 /secret-scanning

方面详情
状态GA(正式可用)
可用范围启用 GitHub Secret Protection 的仓库
集成Copilot CLI、VS Code、任意兼容 MCP 的 IDE

MCP 工具现在会遵循现有的 push protection 自定义设置——绕过(bypass)行为与仓库或组织配置保持一致。

🔗 更新日志 — Secret scanning GA

Dependency scanning 公共预览版

通过 MCP Server 的依赖漏洞检测现已进入公共预览。系统会查询 GitHub Advisory Database,并返回结构化结果,包括受影响的软件包、严重性以及建议修复版本。

方面详情
状态公共预览
可用范围启用 Dependabot alerts 的仓库
CLI 激活copilot --add-github-mcp-toolset dependabot

🔗 更新日志 — Dependency scanning

GitHub Advanced Security × Microsoft Defender for Cloud GA

GitHub Advanced Security × Microsoft Defender for Cloud 的集成也正式进入 GA。它会将云环境中部署的容器镜像与 GitHub 源代码进行关联,为安全视图提供运行时上下文。

组织视图中新可用的筛选器:has:deploymentruntime-risk:internet-exposedruntime-risk:sensitive-data。安全活动可直接分配给 GitHub Copilot 编码代理。

🔗 更新日志 — Code-to-cloud GA


Model Spec Midtraining(MSM)— agentic 对齐失配从 68% 降至 5%

5月5日 — Anthropic 研究人员发布了“Model Spec Midtraining”(MSM),这是一种位于预训练与对齐微调(alignment fine-tuning, AFT)之间的对齐方法。

其原理是:模型先在一套合成语料上训练,这些语料讨论其 Model Spec 的内容,然后再学习如何遵循其中的规则。核心想法是:理解一条规则“为什么存在”,有助于提高其应用的稳健性。

模型失配(仅 AFT)采用 MSM + AFT
Qwen2.5-32B68 %5 %
Qwen3-32B54 %7 %

MSM 还让 AFT 在数据效率上高得多:达到可比性能所需的 AFT 数据量减少 40 到 60 倍。作者还展示了,解释规则背后的动机(而不是不断增加子规则)能改善分布外泛化。

🔗 MSM 文章 — alignment.anthropic.com


NotebookLM Mind Maps — 个性化、组织、导航

5月5日 — NotebookLM 为其思维导图(Mind Maps)增加了三项同步推出的功能。

功能描述
个性化使用特定的用户指令来引导思维导图
组织立即重命名并分享 Mind Map
导航节点之间的平滑过渡

部署将逐步面向所有用户展开。此次更新补全了 NotebookLM 自 4 月初以来的一系列快速改进:源自动组织(4 月 24 日,5 月 5 日完成 100% 部署)、集成到 Gemini 手机应用(4 月 30 日)。

🔗 NotebookLM 推文


Genspark sb-git — 为 AI 代理重写的 Git 服务器

5月5日 — Genspark 推出 sb-git,一个为 AI 代理从零重写的 Git 服务器。完整 Git 语义:版本控制、分支、diff、blame、rollback 和 push。

方面详情
CLIgsk(init、clone-url、cat、commit)
兼容性Claude Code、OpenClaw、任何 Git 代理
存储1 GB(免费)、10 GB(Plus/Pro)
需要账户否 — 无需 GitHub 账户
可用性立即可用(网页 + 移动端)

无需 GitHub 账户,也无需预先配置仓库。重点是与常见 AI 代理(Claude Code、OpenClaw)无缝兼容,避免安装摩擦。

🔗 Genspark sb-git 推文


NVIDIA + ServiceNow — Project Arc,自主长运行桌面代理

5月5日 — 在 ServiceNow Knowledge 2026 大会上,Jensen Huang 和 Bill McDermott 宣布扩大双方在企业自主 AI 代理方面的合作。

ServiceNow 推出 Project Arc,这是一款面向知识工作者的自主长运行桌面代理:开发者、IT 团队、管理员。该代理使用 NVIDIA OpenShell(开源沙盒)进行治理和安全控制,并通过 ServiceNow Action Fabric 原生连接到 ServiceNow 平台。

指标数值
Blackwell 相比 Hopper 的效率50× tokens/watt
每百万 tokens 成本降低~35×
Nemotron 3 Super(开源)#1 EnterpriseOps-Gym (NOWAI-Bench)
自主解决的工单90 %(ServiceNow + Apriel/Nemotron)

🔗 NVIDIA 博客 — ServiceNow


NVIDIA NemoClaw + OpenClaw — GitHub 上超越 React 的持久开源智能体

4月30日 — 由 Peter Steinberger 创建的 OpenClaw 在 60 天内突破 25 万个 GitHub 星标,超越 React,成为该平台上最受星标的项目。NVIDIA 正与社区合作,以确保这个持久的自托管 AI 智能体项目的安全性。

NVIDIA 推出 NemoClaw,这是一个可一条命令安装的参考实现,将 OpenClaw + NVIDIA OpenShell + Nemotron 结合在一起,并默认采用增强的安全配置。

指标数值
OpenClaw 的 GitHub stars25 万+(2026年3月)
增长60 天内的 #1 GitHub 项目(超越 React)
智能体推理 vs reasoning AI 的倍数1,000×
NemoClaw 安装只需 1 条命令

🔗 NVIDIA 博客 — OpenClaw/NemoClaw


Luma AI Uni-1.1 API — 面向创意简报的推理式图像生成

5月5日 — Luma AI 发布 Uni-1.1 API,这是一个图像生成模型,旨在对创意简报进行推理,而不是处理 token。与需要提示工程的传统 API 不同,Uni-1.1 理解每种视觉传统的美学上下文,并能在首次尝试时就产出可直接使用的结果。

提到的使用场景:时尚工具、建筑渲染、漫画流水线、电影内容。无需中间件。该 API 可在 lumalabs.ai/api 获取。

🔗 Luma AI Uni-1.1 推文


ChatGPT Ads Manager 自助服务与 CPC 出价

5月5日 — OpenAI 通过两项新功能扩展其广告计划:一个自助服务工具(Ads Manager,美国 beta 版)以及 CPC(按点击付费)竞价模式的上线。

模式状态描述
CPM(每千次展示成本)现有自项目启动以来一直可用
CPC(按点击付费)广告主仅在实际点击时付费
Ads Manager 自助服务(beta)面向美国广告主开放

代理商合作伙伴:Dentsu、Omnicom、Publicis、WPP。技术合作伙伴:Adobe、Criteo、Kargo、Pacvue、StackAdapt。OpenAI 还推出了 Conversions API 和像素跟踪,用于衡量点击后的行为,而不会向广告主暴露单个对话内容。

🔗 OpenAI 广告公告


Perplexity Premium Health Sources

5月5日 — Perplexity 推出高级健康来源。平台上每十次查询中就有超过一次与健康有关。上线时可用的来源包括 NEJM、BMJ Journals 和 BMJ Best Practice——这些医疗参考资料通常只向机构订阅开放。

在 Computer 中,这些来源会针对健康问题自动启用,无需手动选择。每个答案都包含可追踪的引用。即将加入的来源:Micromedex、EBSCOhost、Health Affairs、VisualDx、American Academy of Orthopaedic Surgeons、American Diabetes Association、Springer Publishing。

🔗 Perplexity 博客 — 高级健康来源


简讯

  • Manus — 推荐连接器自动化 — Manus 现在可以检测完成任务所需的连接器(Slack、Notion、Gmail、Google Drive),并在对话中推荐它,而无需离开当前讨论线程。启用仍需用户确认。🔗 来源

  • Black Forest Labs — FLUX Creator Program — BFL 为创作者开启一个精选计划,以提前访问即将推出的 FLUX 模型,并通过 BFL 渠道放大他们的作品。🔗 来源

  • GPT-5.5 Instant System Card — Instant 系列的首份 System Card 在 OpenAI Preparedness Framework 的“网络安全”和“生物与化学”类别中被评为“高能力”。相应地已实施更强的防护措施。🔗 来源

  • OpenAI — WebRTC relay+transceiver 架构 — OpenAI 发布了一篇工程文章,描述其用于实时语音(ChatGPT Voice、Realtime API)的 WebRTC 基础设施重构,该基础设施服务于超过 9 亿周活跃用户。该架构将数据包路由(轻量、无状态的 relay)与协议终止(有状态的 transceiver)分离,从而可以在标准 Kubernetes 部署上运行,并减少公网 UDP 占用。🔗 来源


这意味着什么

金融正在成为企业 AI 的优先试验场。 在 24 小时内,Anthropic、Perplexity 和 xAI 各自发布了明确面向金融团队的公告:十个 Claude 智能体模板(估值、KYC、月结)、Computer for Professional Finance(35 个工作流和 14 个数据提供商),以及在企业金融和案例法基准 Vals AI 上排名 #1 的 Grok 4.3。这个趋同并非偶然——金融结合了结构化文档的大量吞吐、对准确性的高要求,以及对高价工具成本的容忍度,这使它成为高价值自主智能体最早落地的理想场景。

默认模型之争。 GPT-5.5 Instant 将幻觉率相较其直接前代降低了 52.5%,而 Grok 4.3 达到了 100 万 token 的上下文长度,并发布了经过测量的 agentic 性能。这两个模型在同一天发布。重点已不再只是发布最好的学术基准,而是要成为默认加载在面向消费者界面中的模型(ChatGPT),或在开发者管线中优先启用的模型(xAI API)。

MCP 正成为开发者安全标准。 GitHub 通过其 MCP 服务器同步发布了三项安全更新(secret scanning GA、dependency scanning 预览版、code-to-cloud GA)。这一协调部署将 GitHub 的 MCP 服务器转变为代码智能体的原生安全集成通道——Copilot CLI、VS Code 以及任何兼容 MCP 的 IDE 现在都可以在每次提交之前,在智能体工作流中直接扫描密钥和存在漏洞的依赖项。

持久智能体与实时基础设施。 Runway Characters(从一张图像到视频的 1.75 秒延迟智能体)、ServiceNow 的 Project Arc(长时间运行的桌面智能体)、OpenClaw/NemoClaw(25 万 GitHub stars,推理需求比 reasoning AI 高 1,000×)以及 Genspark sb-git(为智能体重写的 Git)都在传达同一个转向:AI 智能体正从一次性请求时代走向持久流程时代,而这需要截然不同的基础设施——状态存储、实时低延迟、原生版本控制。


来源