ai-powered-markdown-translator使用 gpt-5.4-mini 将法语翻译成中文的文章。
这一周相当忙碌:OpenAI 将 GPT-5.5 Instant 直接替换 GPT-5.3,作为所有 ChatGPT 用户的默认模型;xAI 在其 API 上推出拥有百万 tokens 上下文的 Grok 4.3;Anthropic 则宣布与 Blackstone、Hellman & Friedman 以及 Goldman Sachs 共同创办一家新的企业级 AI 服务公司。在工具方面,GitHub 通过其 MCP 服务器将安全相关的 GA/预览功能翻倍,Perplexity 为金融团队推出专用产品,Runway 则展示了可由单张图片生成的实时视频代理。
GPT-5.5 Instant — ChatGPT 新默认模型
5月5日 — OpenAI 将 GPT-5.3 Instant 替换为 GPT-5.5 Instant,作为所有 ChatGPT 用户的默认模型。部署将在两天内完成。
| 维度 | 相较 GPT-5.3 Instant 的改进 |
|---|---|
| 幻觉(医学、法律、金融) | -52.5 % |
| 不准确声明(由用户举报) | -37.3 % |
| 回答冗长度 | 平均少 30.2 % 的词 |
该模型还改进了图像分析、STEM 回答以及是否使用网络搜索的判断。回答更简洁但不损失实质内容,附带更少的多余格式和不必要的后续问题。
记忆来源 — OpenAI 在所有 ChatGPT 模型上引入“memory sources”:当回答基于已保存记忆、过往对话或已连接的 Gmail 进行个性化时,用户会准确看到所使用的来源,并可对其进行修正或删除。基于过往对话和文件的个性化功能首先仅对 Plus 和 Pro 订阅用户(网页端)开放,其他套餐随后跟进。
可用性:
- 两天内逐步向所有 ChatGPT 用户部署
- 通过别名
chat-latest提供 API 访问 - GPT-5.3 Instant 对付费订阅用户仍可使用 3 个月
xAI API 上推出 Grok 4.3 — 100 万 tokens 上下文,#1 agentic tool calling
5月5日 — xAI 通过 X 宣布在 xAI API(console.x.ai)上推出 Grok 4.3。该模型被定位为迄今为止该系列中速度最快、智能最高的型号。
| 特性 | 数值 |
|---|---|
| 上下文窗口 | 100 万 tokens |
| agentic tool calling 基准 | #1 (@ArtificialAnlys leaderboard) |
| instruction following 基准 | #1 (@ArtificialAnlys leaderboard) |
| 企业领域 | #1 case law 和 corporate finance (@ValsAI) |
| 可用性 | xAI API(console.x.ai)— 尚未登陆 grok.com |
Grok 4.3 is now live on the xAI API. It’s our fastest, most intelligent model to date. It tops the @ArtificialAnlys leaderboards in agentic tool calling and instruction following, and ranks #1 in @ValsAI enterprise domains like case law and corporate finance. Grok 4.3 supports a 1 million token context.
🇨🇳 Grok 4.3 现已在 xAI API 上提供。它是我们迄今为止速度最快、最智能的模型。它在 @ArtificialAnlys 的 agentic tool calling 和 instruction following 排行榜中位居榜首,并在 @ValsAI 的企业领域(如商事法律和企业金融)中排名第 1。Grok 4.3 支持一百万 tokens 的上下文。 — @xai 在 X 上
这条推文获得了 2570 万次浏览和 6029 个点赞。值得注意的是:在公告发布时,x.ai/news 上并没有专门页面——此次发布完全通过 X 进行。
Anthropic 与 Blackstone、Hellman & Friedman、Goldman Sachs — 新的企业级 AI 服务公司
5月4日 — Anthropic、Blackstone、Hellman & Friedman 和 Goldman Sachs 宣布成立一家新的企业级 AI 服务公司,并由额外的替代性资本机构组成的财团提供支持。
目标是:在大型企业的核心运营中部署 Claude,用于那些需要大量工程能力和深厚行业知识的任务。根据 Anthropic 的说法,Claude 的企业级需求已超出单一分发模式所能承载的范围。
典型的运营模式从一个小团队开始,与客户密切合作识别摩擦点,然后构建贴合业务的 Claude 代理。给出的具体例子是:一个跨多个地点的医疗机构网络,其中 Claude 负责临床文档、重复性行政任务以及专科间协调,使临床人员能够更专注于患者护理。
这家新公司将加入 Claude Partner Network,与 Accenture、Deloitte 和 PwC 并列。它标志着 Anthropic 企业分发战略中的一个结构性步骤:公司不再只是销售 API 许可证,而是开始与顶级金融伙伴一起参与复杂的运营部署。
🔗 官方公告
面向金融服务和保险的 Claude 代理
5月5日 — Anthropic 推出十个可直接使用的金融服务和保险代理模板(ready-to-run)。这些模板可作为 Claude Cowork 或 Claude Code 中的插件使用,也可作为 Claude 平台上的独立 Claude Managed Agents 使用。
研究与客户覆盖:
| 代理 | 角色 |
|---|---|
| Pitch builder | 目标名单、可比公司、推介材料 |
| Meeting preparer | 客户与对手方简报 |
| Earnings reviewer | 财报电话会议记录解读与模型更新 |
| Model builder | 基于 filings 和数据创建财务模型 |
| Market researcher | 行业监测与新闻摘要 |
金融与运营:
| 代理 | 角色 |
|---|---|
| Valuation reviewer | 估值核查 |
| General ledger reconciler | 总账对账与净值计算 |
| Month-end closer | 月末结账与会计分录 |
| Statement auditor | 财务报表审阅 |
| KYC screener | 实体档案汇编与合规筛查 |
Claude 现已通过插件(add-ins)集成到 Microsoft Excel、PowerPoint、Word 和 Outlook(进行中)中。Claude Cowork 的 Dispatch 功能可让用户通过文本或语音从任何地方分配任务。
新的数据连接器: Dun & Bradstreet、Fiscal AI、Financial Modeling Prep、Guidepoint、IBISWorld、SS&C IntraLinks、Third Bridge、Verisk,以及一个 Moody’s MCP(针对超过 6000 个实体的评级和数据)。
提到的客户包括:Citadel、FIS、BNY、Carlyle、Mizuho、Travelers、Walleye Capital(100% 员工都在使用 Claude Code)、Hg、Morningstar、FactSet。这些代理针对 Claude Opus 4.7 进行了优化,后者在 Vals AI Finance Agent 基准中排名第 1。
🔗 官方公告
Perplexity Computer for Professional Finance
5月5日 — Perplexity 推出面向专业金融的 Computer,这是专为分析和投资团队设计的 Computer 版本:买方和卖方分析师、对冲基金、私募股权。
| 维度 | 数值 |
|---|---|
| 包含的工作流 | 35(10 个细分领域) |
| 集成数据提供商 | 14(包括 Quartr、Fiscal) |
| 高级 MCP 连接器 | Morningstar、PitchBook、Daloopa、Carbon Arc |
| 可用平台 | Microsoft Teams、Agent API |
| 即将推出 | Excel add-in |
| FinSearchComp T1 基准 | 第 1 名(准确性、成本、延迟) |
拥有授权订阅的团队可以通过 MCP 连接器接入自己的凭据,以访问 Morningstar、PitchBook、Daloopa 和 Carbon Arc。其他用户则可使用基于 14 家数据提供商的内置金融工具。
每个数值都可追溯到其来源:对于来自 SEC 文档的数值,Computer 会展示计算过程并指向文档中的具体页面。在 FinSearchComp T1 基准(时间敏感数据提取)中,Perplexity 在准确性、每个正确答案成本和延迟方面排名第一——涵盖实时股价、加密货币价格和汇率。
🔗 Perplexity 博客 — Computer for Professional Finance
Runway Characters — 由单张图片生成的实时视频代理
4月5日 — Runway 宣布 Characters,这项技术可将单张图片转换为实时对话式视频代理。
| 指标 | 数值 |
|---|---|
| 端到端延迟 | 1.75 秒 |
| 视频质量 | 24 fps HD |
| 所需图像来源 | 仅 1 张图片 |
| 冷启动 | 快 60×(GPU 点对点) |
1.75 秒的延迟是从用户停止说话到角色做出首次回应之间的时间。Runway 同时发布了两篇工程文章:第一篇描述实时视频代理的架构,第二篇解释点对点(peer-to-peer)GPU 基础设施如何将冷启动时间缩短 60 倍。
目标用例包括对话代理、实时互动角色以及应用的视频界面。这项技术标志着视频渲染从离线生成转向同步交互。
GitHub MCP Server — 安全能力三连升级
5月5日 — GitHub 为其 MCP 服务器同时发布了三项安全更新,全部在同一天完成。
Secret scanning GA
通过 GitHub MCP Server 的 secret scanning 现已正式可用(自 2026 年 3 月起处于预览版)。在 GitHub Copilot CLI 中,安装方式为 /plugin install advanced-security@copilot-plugins;在 VS Code 中,插件 advanced-security 会暴露命令 /secret-scanning。
| 方面 | 详情 |
|---|---|
| 状态 | GA(正式可用) |
| 可用范围 | 启用 GitHub Secret Protection 的仓库 |
| 集成 | Copilot CLI、VS Code、任意兼容 MCP 的 IDE |
MCP 工具现在会遵循现有的 push protection 自定义设置——绕过(bypass)行为与仓库或组织配置保持一致。
Dependency scanning 公共预览版
通过 MCP Server 的依赖漏洞检测现已进入公共预览。系统会查询 GitHub Advisory Database,并返回结构化结果,包括受影响的软件包、严重性以及建议修复版本。
| 方面 | 详情 |
|---|---|
| 状态 | 公共预览 |
| 可用范围 | 启用 Dependabot alerts 的仓库 |
| CLI 激活 | copilot --add-github-mcp-toolset dependabot |
GitHub Advanced Security × Microsoft Defender for Cloud GA
GitHub Advanced Security × Microsoft Defender for Cloud 的集成也正式进入 GA。它会将云环境中部署的容器镜像与 GitHub 源代码进行关联,为安全视图提供运行时上下文。
组织视图中新可用的筛选器:has:deployment、runtime-risk:internet-exposed、runtime-risk:sensitive-data。安全活动可直接分配给 GitHub Copilot 编码代理。
Model Spec Midtraining(MSM)— agentic 对齐失配从 68% 降至 5%
5月5日 — Anthropic 研究人员发布了“Model Spec Midtraining”(MSM),这是一种位于预训练与对齐微调(alignment fine-tuning, AFT)之间的对齐方法。
其原理是:模型先在一套合成语料上训练,这些语料讨论其 Model Spec 的内容,然后再学习如何遵循其中的规则。核心想法是:理解一条规则“为什么存在”,有助于提高其应用的稳健性。
| 模型 | 失配(仅 AFT) | 采用 MSM + AFT |
|---|---|---|
| Qwen2.5-32B | 68 % | 5 % |
| Qwen3-32B | 54 % | 7 % |
MSM 还让 AFT 在数据效率上高得多:达到可比性能所需的 AFT 数据量减少 40 到 60 倍。作者还展示了,解释规则背后的动机(而不是不断增加子规则)能改善分布外泛化。
🔗 MSM 文章 — alignment.anthropic.com
NotebookLM Mind Maps — 个性化、组织、导航
5月5日 — NotebookLM 为其思维导图(Mind Maps)增加了三项同步推出的功能。
| 功能 | 描述 |
|---|---|
| 个性化 | 使用特定的用户指令来引导思维导图 |
| 组织 | 立即重命名并分享 Mind Map |
| 导航 | 节点之间的平滑过渡 |
部署将逐步面向所有用户展开。此次更新补全了 NotebookLM 自 4 月初以来的一系列快速改进:源自动组织(4 月 24 日,5 月 5 日完成 100% 部署)、集成到 Gemini 手机应用(4 月 30 日)。
Genspark sb-git — 为 AI 代理重写的 Git 服务器
5月5日 — Genspark 推出 sb-git,一个为 AI 代理从零重写的 Git 服务器。完整 Git 语义:版本控制、分支、diff、blame、rollback 和 push。
| 方面 | 详情 |
|---|---|
| CLI | gsk(init、clone-url、cat、commit) |
| 兼容性 | Claude Code、OpenClaw、任何 Git 代理 |
| 存储 | 1 GB(免费)、10 GB(Plus/Pro) |
| 需要账户 | 否 — 无需 GitHub 账户 |
| 可用性 | 立即可用(网页 + 移动端) |
无需 GitHub 账户,也无需预先配置仓库。重点是与常见 AI 代理(Claude Code、OpenClaw)无缝兼容,避免安装摩擦。
NVIDIA + ServiceNow — Project Arc,自主长运行桌面代理
5月5日 — 在 ServiceNow Knowledge 2026 大会上,Jensen Huang 和 Bill McDermott 宣布扩大双方在企业自主 AI 代理方面的合作。
ServiceNow 推出 Project Arc,这是一款面向知识工作者的自主长运行桌面代理:开发者、IT 团队、管理员。该代理使用 NVIDIA OpenShell(开源沙盒)进行治理和安全控制,并通过 ServiceNow Action Fabric 原生连接到 ServiceNow 平台。
| 指标 | 数值 |
|---|---|
| Blackwell 相比 Hopper 的效率 | 50× tokens/watt |
| 每百万 tokens 成本降低 | ~35× |
| Nemotron 3 Super(开源) | #1 EnterpriseOps-Gym (NOWAI-Bench) |
| 自主解决的工单 | 90 %(ServiceNow + Apriel/Nemotron) |
NVIDIA NemoClaw + OpenClaw — GitHub 上超越 React 的持久开源智能体
4月30日 — 由 Peter Steinberger 创建的 OpenClaw 在 60 天内突破 25 万个 GitHub 星标,超越 React,成为该平台上最受星标的项目。NVIDIA 正与社区合作,以确保这个持久的自托管 AI 智能体项目的安全性。
NVIDIA 推出 NemoClaw,这是一个可一条命令安装的参考实现,将 OpenClaw + NVIDIA OpenShell + Nemotron 结合在一起,并默认采用增强的安全配置。
| 指标 | 数值 |
|---|---|
| OpenClaw 的 GitHub stars | 25 万+(2026年3月) |
| 增长 | 60 天内的 #1 GitHub 项目(超越 React) |
| 智能体推理 vs reasoning AI 的倍数 | 1,000× |
| NemoClaw 安装 | 只需 1 条命令 |
🔗 NVIDIA 博客 — OpenClaw/NemoClaw
Luma AI Uni-1.1 API — 面向创意简报的推理式图像生成
5月5日 — Luma AI 发布 Uni-1.1 API,这是一个图像生成模型,旨在对创意简报进行推理,而不是处理 token。与需要提示工程的传统 API 不同,Uni-1.1 理解每种视觉传统的美学上下文,并能在首次尝试时就产出可直接使用的结果。
提到的使用场景:时尚工具、建筑渲染、漫画流水线、电影内容。无需中间件。该 API 可在 lumalabs.ai/api 获取。
ChatGPT Ads Manager 自助服务与 CPC 出价
5月5日 — OpenAI 通过两项新功能扩展其广告计划:一个自助服务工具(Ads Manager,美国 beta 版)以及 CPC(按点击付费)竞价模式的上线。
| 模式 | 状态 | 描述 |
|---|---|---|
| CPM(每千次展示成本) | 现有 | 自项目启动以来一直可用 |
| CPC(按点击付费) | 新 | 广告主仅在实际点击时付费 |
| Ads Manager 自助服务(beta) | 新 | 面向美国广告主开放 |
代理商合作伙伴:Dentsu、Omnicom、Publicis、WPP。技术合作伙伴:Adobe、Criteo、Kargo、Pacvue、StackAdapt。OpenAI 还推出了 Conversions API 和像素跟踪,用于衡量点击后的行为,而不会向广告主暴露单个对话内容。
Perplexity Premium Health Sources
5月5日 — Perplexity 推出高级健康来源。平台上每十次查询中就有超过一次与健康有关。上线时可用的来源包括 NEJM、BMJ Journals 和 BMJ Best Practice——这些医疗参考资料通常只向机构订阅开放。
在 Computer 中,这些来源会针对健康问题自动启用,无需手动选择。每个答案都包含可追踪的引用。即将加入的来源:Micromedex、EBSCOhost、Health Affairs、VisualDx、American Academy of Orthopaedic Surgeons、American Diabetes Association、Springer Publishing。
简讯
-
Manus — 推荐连接器自动化 — Manus 现在可以检测完成任务所需的连接器(Slack、Notion、Gmail、Google Drive),并在对话中推荐它,而无需离开当前讨论线程。启用仍需用户确认。🔗 来源
-
Black Forest Labs — FLUX Creator Program — BFL 为创作者开启一个精选计划,以提前访问即将推出的 FLUX 模型,并通过 BFL 渠道放大他们的作品。🔗 来源
-
GPT-5.5 Instant System Card — Instant 系列的首份 System Card 在 OpenAI Preparedness Framework 的“网络安全”和“生物与化学”类别中被评为“高能力”。相应地已实施更强的防护措施。🔗 来源
-
OpenAI — WebRTC relay+transceiver 架构 — OpenAI 发布了一篇工程文章,描述其用于实时语音(ChatGPT Voice、Realtime API)的 WebRTC 基础设施重构,该基础设施服务于超过 9 亿周活跃用户。该架构将数据包路由(轻量、无状态的 relay)与协议终止(有状态的 transceiver)分离,从而可以在标准 Kubernetes 部署上运行,并减少公网 UDP 占用。🔗 来源
这意味着什么
金融正在成为企业 AI 的优先试验场。 在 24 小时内,Anthropic、Perplexity 和 xAI 各自发布了明确面向金融团队的公告:十个 Claude 智能体模板(估值、KYC、月结)、Computer for Professional Finance(35 个工作流和 14 个数据提供商),以及在企业金融和案例法基准 Vals AI 上排名 #1 的 Grok 4.3。这个趋同并非偶然——金融结合了结构化文档的大量吞吐、对准确性的高要求,以及对高价工具成本的容忍度,这使它成为高价值自主智能体最早落地的理想场景。
默认模型之争。 GPT-5.5 Instant 将幻觉率相较其直接前代降低了 52.5%,而 Grok 4.3 达到了 100 万 token 的上下文长度,并发布了经过测量的 agentic 性能。这两个模型在同一天发布。重点已不再只是发布最好的学术基准,而是要成为默认加载在面向消费者界面中的模型(ChatGPT),或在开发者管线中优先启用的模型(xAI API)。
MCP 正成为开发者安全标准。 GitHub 通过其 MCP 服务器同步发布了三项安全更新(secret scanning GA、dependency scanning 预览版、code-to-cloud GA)。这一协调部署将 GitHub 的 MCP 服务器转变为代码智能体的原生安全集成通道——Copilot CLI、VS Code 以及任何兼容 MCP 的 IDE 现在都可以在每次提交之前,在智能体工作流中直接扫描密钥和存在漏洞的依赖项。
持久智能体与实时基础设施。 Runway Characters(从一张图像到视频的 1.75 秒延迟智能体)、ServiceNow 的 Project Arc(长时间运行的桌面智能体)、OpenClaw/NemoClaw(25 万 GitHub stars,推理需求比 reasoning AI 高 1,000×)以及 Genspark sb-git(为智能体重写的 Git)都在传达同一个转向:AI 智能体正从一次性请求时代走向持久流程时代,而这需要截然不同的基础设施——状态存储、实时低延迟、原生版本控制。
来源
- GPT-5.5 Instant — OpenAI
- GPT-5.5 Instant System Card
- ChatGPT Ads — OpenAI
- OpenAI WebRTC 架构
- Grok 4.3 — @xai 在 X 上
- Anthropic Finance Agents
- Anthropic Enterprise AI Services Company
- Model Spec Midtraining — Anthropic
- Perplexity Computer for Professional Finance
- Perplexity Premium Health Sources
- Runway Characters — @runwayml 在 X 上
- NVIDIA + ServiceNow Project Arc
- NVIDIA NemoClaw + OpenClaw
- Luma AI Uni-1.1 — @LumaLabsAI 在 X 上
- GitHub MCP Secret Scanning GA
- GitHub MCP Dependency Scanning
- GitHub + Microsoft Defender for Cloud GA
- Genspark sb-git — @genspark_ai 在 X 上
- NotebookLM Mind Maps — @NotebookLM 在 X 上
- Manus Recommended Connectors
- Black Forest Labs FLUX Creator Program — @bfl_ml 在 X 上