بحث

أطلقت OpenAI GPT-5.5، وفتحت Anthropic الذاكرة لـ Managed Agents، وKimi K2.6 Agent Swarm

أطلقت OpenAI GPT-5.5، وفتحت Anthropic الذاكرة لـ Managed Agents، وKimi K2.6 Agent Swarm

في 23 أبريل 2026 يومٌ حافل: تطلق OpenAI ‏GPT-5.5 مع 85% على ARC-AGI-2 وتسعيرة API تبلغ $5/M tokens للإدخال، بينما تفتح Anthropic الذاكرة المستمرة في beta لـ Managed Agents وتنشر post-mortem عن Claude Code. وبالتوازي، يقدّم GitHub Copilot سبعة تحديثات في ثلاثة أيام، وينشر Kimi K2.6 سربًا (swarm) من 300 sous-agents، وتبرم SpaceX شراكة برمجية مع Cursor.


GPT-5.5 : le modèle frontier d’OpenAI

23 avril — OpenAI lance GPT-5.5, son modèle le plus puissant à ce jour, conçu pour le travail réel et les agents. Il améliore significativement le codage agentique, l’utilisation de l’ordinateur (computer use), le travail de la connaissance et la recherche scientifique, tout en conservant la latence de GPT-5.4.

Disponibilité et tarification

GPT-5.5 est disponible immédiatement pour les abonnés ChatGPT Plus, Pro, Business et Enterprise, ainsi que dans Codex. L’accès API arrive “très bientôt”.

OffreAccès APIEntréeSortie
GPT-5.5 standardBientôt$5 / M tokens$30 / M tokens
GPT-5.5 ProBientôt$30 / M tokens$180 / M tokens

La fenêtre de contexte dans Codex atteint 400K tokens. Un mode Fast — 1,5× plus rapide, 2,5× le coût — est disponible.

Benchmarks

ÉvaluationGPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE (interne)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench (bioinformatique)80.5%74.0%

GPT-5.5 est en tête sur la majorité des benchmarks, avec une exception notable : SWE-Bench Pro où Claude Opus 4.7 conserve l’avantage (64.3% vs 58.6%).

Infrastructure et sécurité

Le modèle a été co-conçu avec NVIDIA GB200/GB300 NVL72. Codex a utilisé GPT-5.5 pour optimiser sa propre infrastructure, gagnant +20% de vitesse de génération de tokens. Côté cybersécurité, GPT-5.5 est classé High dans le Preparedness Framework d’OpenAI (pas Critical) ; le programme Trusted Access Cyber lui est étendu.

Recherche scientifique

Au-delà du code, GPT-5.5 a aidé à prouver un nouveau théorème sur les nombres de Ramsey (combinatoire), vérifié formellement en Lean. Il a également analysé un jeu de données génomiques de 62 échantillons et 28 000 gènes en quelques minutes — une tâche qui aurait demandé des mois à une équipe de chercheurs.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇸🇦 GPT-5.5 أذكى بشكل ملحوظ وأكثر إصرارًا من GPT-5.4، مع أداء أفضل في البرمجة واستخدام أكثر موثوقية للأدوات. — Michael Truell, co-fondateur et CEO de Cursor

🔗 Annonce GPT-5.5


La vague des agents persistants

Trois annonces majeures convergent ce 23 avril autour de l’agent persistant, capable d’agir de façon autonome sur de longues durées et de retenir le contexte d’une session à l’autre.

OpenAI Workspace Agents dans ChatGPT

22 avril — OpenAI présente les agents d’espace de travail (Workspace Agents) : des agents partagés qu’une équipe crée une fois, utilise ensemble dans ChatGPT ou Slack, et améliore progressivement. Alimentés par Codex dans le cloud, ils peuvent exécuter des tâches complexes même quand l’utilisateur est déconnecté. Les Workspace Agents remplacent progressivement les GPT, qui restent disponibles pendant la transition.

Type d’agentFonctionnalité
Vérificateur logicielExamine requêtes, compare politiques, crée tickets IT
Routeur retours produitSurveille Slack/support/forums → tickets priorisés
Générateur de rapportsExtrait données vendredi, crée graphiques, synthèse
Agent de prospectionRecherche leads, évalue, rédige emails, met à jour CRM
Responsable risques tiersÉvalue fournisseurs, produit rapport structuré

Disponibles en research preview pour Business, Enterprise, Edu et Teachers ; gratuits jusqu’au 6 mai 2026, puis facturation en crédits.

Selon Ankur Bhatt (AI Engineering, Rippling), ce qui prenait auparavant 5 à 6 heures par semaine aux commerciaux s’exécute désormais automatiquement en arrière-plan sur chaque opportunité.

🔗 Workspace Agents


Anthropic — Mémoire pour les Claude Managed Agents

23 avril — La mémoire pour les Claude Managed Agents est disponible en bêta publique sur la Claude Platform. Les agents peuvent désormais apprendre d’une session à l’autre grâce à une couche mémoire montée directement sur un système de fichiers : les agents utilisent les mêmes capacités bash et d’exécution de code qu’ils emploient déjà pour les tâches agentiques.

FonctionnalitéDétail
Stores partageablesPlusieurs agents, périmètres d’accès différents (lecture seule / lecture-écriture)
Accès concurrentSans écrasement entre sessions parallèles
Journal d’auditQuelle session, quel agent, quelle mémoire
Retour en arrièreSur n’importe quelle version précédente
ExportabilitéMémoires gérables via l’API

Les résultats clients illustrent l’impact concret :

ClientRésultat
Rakuten-97% d’erreurs en premier passage, -27% de coût, -34% de latence
Wisedocs+30% de vitesse de vérification documentaire
NetflixContinuité du contexte entre sessions sans mise à jour manuelle
AndoMémoire de plateforme sans infrastructure dédiée

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇸🇦 تتيح لنا الذاكرة في Managed Agents من Claude إدخال التعلّم المستمر إلى الإنتاج على نطاق واسع. تستخلص agents لدينا الدروس من كل جلسة، ما يحقق 97% أقل من الأخطاء في المحاولة الأولى، مع تكلفة أقل بنسبة 27% وزمن انتقال أقل بنسبة 34%. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Mémoire Managed Agents


Claude Code : post-mortem qualité et deux nouvelles versions

Post-mortem et remise à zéro des limites

23 avril — L’équipe Claude Code a publié un post-mortem sur trois problèmes de qualité signalés au cours du mois passé. Tous sont corrigés en v2.1.116+. Les limites d’usage ont été remises à zéro pour tous les abonnés.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇸🇦 خلال الشهر الماضي، أبلغ بعضكم أن جودة Claude Code قد تراجعت. لقد أجرينا تحقيقًا ونشرنا post-mortem عن المشكلات الثلاث التي وجدناها. جميعها تم إصلاحها في v2.1.116+ وقد أعدنا ضبط حدود الاستخدام لجميع المشتركين.@ClaudeDevs

v2.1.117 et v2.1.118

VersionFonctionnalités principales
v2.1.118Mode visuel Vim (v/V) avec sélection et opérateurs ; /usage unifié (fusionne /cost et /stats) ; thèmes personnalisés dans /theme ; hooks invoquant des outils MCP via type: "mcp_tool" ; DISABLE_UPDATES strict ; héritage managed settings Windows via WSL
v2.1.117Effort par défaut passé à high pour Pro/Max sur Opus 4.6 et Sonnet 4.6 (était medium) ; fork de sous-agents activable sur builds externes ; glob/Grep remplacés par bfs/ugrep embarqués pour recherches plus rapides ; fix sessions Opus 4.7 (contexte 1M calculé correctement) ; fix Bedrock+Opus 4.7 avec thinking désactivé

🔗 CHANGELOG Claude Code


Nouveaux connecteurs Claude pour la vie quotidienne

23 avril — Anthropic élargit son répertoire de connecteurs aux applications grand public. Depuis juillet 2025, plus de 200 connecteurs pour outils professionnels étaient disponibles ; cette mise à jour ajoute 15 services du quotidien.

ApplicationCatégorie
AllTrailsRandonnée
AudibleLivres audio
Booking.comVoyages
InstacartCourses en ligne
Intuit Credit KarmaFinance
Intuit TurboTaxFiscalité
ResyRéservations restaurant
SpotifyMusique
StubHubBilletterie
TaskrabbitServices à domicile
ThumbtackProfessionnels locaux
TripAdvisorVoyages
UberTransport
Uber EatsLivraison repas
ViatorActivités touristiques

Claude suggère désormais automatiquement les connecteurs pertinents selon le contexte de la conversation. Disponibles sur tous les plans (gratuit inclus), web, desktop et mobile (mobile en bêta). Aucun placement payant ni réponse sponsorisée ; les données d’une app ne servent pas à entraîner les modèles.

🔗 Connecteurs vie quotidienne


GitHub Copilot — Sept mises à jour en trois jours

GitHub Copilot a publié sept entrées dans son changelog entre le 22 et le 23 avril.

Chat pour les pull requests (3 nouvelles capacités)

23 avril — Copilot Chat intègre désormais trois capacités pour les pull requests, accessibles via github.com/copilot ou le bouton Copilot sur les diffs (preview publique) :

  • Compréhension de PR (pull request understanding) : commentaires, changements, commits et revues intégrés comme contexte
  • Revue de PR : revue structurée à la demande
  • Résumé de PR : résumé concis des changements

🔗 Copilot Chat PR improvements

Sessions d’agent pilotables depuis issues et projets

23 avril — Le cloud agent est désormais pilotable directement depuis les issues et les boards de projets GitHub : indicateur de session en en-tête d’issue, panneau latéral de progression, sessions activées par défaut dans toutes les vues de projets.

🔗 Agent sessions depuis issues

Débogage structuré des stack traces sur le web

23 avril — Copilot Chat sur github.com guide désormais l’analyse des stack traces en six étapes structurées : ce qui a échoué, pourquoi, la cause racine, les preuves issues du code, le niveau de confiance et les vérifications suivantes.

🔗 Débogage stack traces

BYOK VS Code disponible (GA)

22 avril — Bring Your Own Key (apportez votre propre clé API) est en disponibilité générale pour les utilisateurs Copilot Business et Enterprise dans VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure sont supportés, ainsi que les modèles locaux via Ollama et Foundry Local. La facturation est directe par le fournisseur choisi, hors quotas Copilot.

🔗 BYOK VS Code GA

C++ Language Server en preview publique pour Copilot CLI

22 avril — Le Microsoft C++ Language Server (moteur IntelliSense de Visual Studio/VS Code) est disponible en preview publique pour Copilot CLI. Il fournit des données sémantiques précises (définitions de symboles, références, hiérarchies d’appels, types) en remplacement de la recherche grep itérative. Prérequis : authentification Copilot CLI + compile_commands.json.

🔗 C++ Language Server

Nouvelles inscriptions Business self-serve suspendues

22 avril — GitHub suspend les nouvelles inscriptions en self-serve pour Copilot Business sur les plans GitHub Free et GitHub Team. Les clients existants ne sont pas affectés.

🔗 Pause Business self-serve

Champ used_copilot_cloud_agent dans les métriques API

23 avril — Suite au rebranding “coding agent” → “cloud agent”, l’API métriques ajoute le champ used_copilot_cloud_agent dans les rapports utilisateurs (1 jour et 28 jours glissants). L’ancien champ used_copilot_coding_agent est maintenu jusqu’au 1er août 2026.

🔗 Métriques cloud agent


Gemini CLI v0.39.0 et Deep Think pour tous les Ultra

Gemini CLI v0.39.0

23 avril — Google publie Gemini CLI v0.39.0, version stable marquée “Latest”. Le point fort est la nouvelle commande /memory inbox pour revoir et valider les skills extraits automatiquement par le CLI lors des sessions de travail.

FonctionnalitéDescription
/memory inboxRévision des skills extraits automatiquement
invoke_subagent unifiéOutil sous-agent refactorisé en interface unique
Formatage compactMeilleure lisibilité en mode compact
Plan Mode — confirmationsValidation requise avant activation de skills
Démarrage allégéProcessus parent léger pour démarrage plus rapide
Migration JSONL streamingEnregistrement de sessions chat en JSONL

Raccourcis claviers ajoutés : Ctrl+Backspace pour suppression mot par mot (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think ouvert à tous les abonnés Ultra

22 avril — Google ouvre le mode Deep Think (raisonnement approfondi, extended thinking) à l’ensemble des abonnés Gemini Ultra. Ce mode était précédemment en accès limité ; il est maintenant disponible directement depuis le menu outils de l’app Gemini (web et mobile).

🔗 Tweet @GeminiApp


Kimi K2.6 : essaim de 300 sous-agents et benchmarks open-weights

Agent Swarm — 300 sous-agents parallèles

23 avril — Moonshot AI lance Kimi K2.6 Agent Swarm : un système capable de déployer 300 sous-agents en parallèle sur 4 000 étapes par exécution, contre 100 agents et 1 500 étapes pour K2.5.

CapacitéK2.5K2.6
Sous-agents parallèles100300
Étapes par exécution1 5004 000
Types d’outputsTexte chat100+ fichiers réels, reviews 100 000 mots, datasets 20 000 lignes

Les sous-agents combinent des compétences hétérogènes : recherche web, analyse de données, codage, rédaction longue forme et génération visuelle. Disponible sur kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks : numéro 1 open-weights

23 avril — Kimi K2.6 atteint la première place des modèles open-weights sur deux benchmarks : - Design Arena : نفس شريط الأداء الخاص بـ Claude Opus 4.7

  • MathArena open (وضع Think) : أمام GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor و Grok Imagine

شراكة SpaceXAI × Cursor

22 أبريل — تعلن SpaceXAI (كيان ناتج عن التقارب بين xAI وSpaceX) وCursor عن شراكة لإنشاء “أقوى الذكاء الاصطناعي للبرمجة والعمل المعرفي في العالم”. توفّر SpaceX الحاسوب الفائق Colossus (ما يعادل مليون H100)؛ ويمنحها Cursor الحق في الاستحواذ على الشركة لاحقًا في 2026 مقابل $60 مليار، أو دفع $10 مليار مقابل التعاون وحده.

🔗 تغريدة @SpaceX

Grok Imagine — قوالب مخصصة قابلة للمشاركة

22 أبريل — يمكن الآن لمشتركي SuperGrok وPremium+ إنشاء قوالب مخصصة في Grok Imagine ومشاركتها علنًا.

🔗 تغريدة @imagine


NVIDIA × Google Cloud Next

22 أبريل — في Google Cloud Next (لاس فيغاس)، تعلن NVIDIA وGoogle Cloud عن عدة تقدّمات كبيرة حول بنية الذكاء الاصطناعي الوكالي (agentic).

الإعلانالتفاصيل
Instances A5X (Vera Rubin NVL72)حتى 960,000 GPU من Rubin في عنقود متعدد المواقع، أرخص 10× لكل token، ومعدل نقل أعلى 10× لكل ميغاواط
Gemini على Google Distributed Cloudمعاينة مع GPUs Blackwell وBlackwell Ultra — سيادة البيانات
Confidential VMs Blackwellأول عرض للحوسبة السرّية (confidential computing) من Blackwell في السحابة العامة
Nemotron 3 Superمتاح على Gemini Enterprise Agent Platform
NeMo RL APIالتعلّم التعزيزي (Reinforcement Learning) المُدار على نطاق واسع

🔗 مدونة NVIDIA × Google Cloud


Kling AI Video 3.0 — وضع 4K أصلي

23 أبريل — تطلق Kling AI وضع 4K أصلي في سلسلة Video 3.0. يتم توليد 4K بنقرة واحدة، من دون خطوة upscaling إضافية. وتُضمن الاتساق البصري (الشخصيات، النصوص، الأساليب، الإضاءة) بدقة أصلية للإنتاج عالي المستوى. متاح أيضًا عبر fal.ai للشركات.

وتنظم Kling AI بالتزامن 4K Short Film Creative Contest، وهي مسابقة عالمية تدعو المبدعين إلى تقديم أفلام قصيرة أُنجزت باستخدام الوضع الجديد.

🔗 تغريدة @Kling_ai


ChatGPT for Clinicians و OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 أبريل — تطلق OpenAI خدمة ChatGPT for Clinicians، وهي نسخة مجانية للمهنيين الصحيين الموثّقين في الولايات المتحدة (الأطباء، الممرضون الممارسون، المساعدون الطبيون، الصيادلة). تشمل الخدمة الوصول إلى النماذج frontier للأسئلة السريرية المعقدة، وskills لسير العمل المتكررة (خطابات الإحالة، الموافقات المسبقة)، والبحث السريري المقتبس في الوقت الحقيقي، والتوليد التلقائي لاعتمادات التعليم المستمر (CME). المعالجة وفق HIPAA متاحة اختياريًا عبر اتفاق.

وتنشر OpenAI أيضًا HealthBench Professional، وهو benchmark مفتوح يقيم الذكاء الاصطناعي على مهام سريرية حقيقية (أكثر من 700,000 إجابة جرى تقييمها من أطباء). يتفوق GPT-5.4 في ChatGPT for Clinicians على الأطباء البشريين على هذا benchmark في ظروف غير محدودة زمنيًا مع الوصول إلى الويب.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 أبريل — تنشر OpenAI نموذج Privacy Filter، وهو نموذج open-weight (Apache 2.0) لاكتشاف وإخفاء المعلومات الشخصية القابلة للتعرّف (Personally Identifiable Information, PII) في النص. يعمل النموذج محليًا (من دون إرسال أي بيانات إلى خادم)، ويدعم 128K token من السياق، ويحقق درجة F1 تبلغ 97.43% على benchmark PII-Masking-300k.

الخاصيةالقيمة
البنيةمصنّف token ثنائي الاتجاه (فك ترميز Viterbi مقيّد)
الحجم1.5B إجمالي المعاملات، 50M فعّالة
السياق128,000 token
الترخيصApache 2.0 (Hugging Face + GitHub)
F197.43% على PII-Masking-300k المصحح

فئات PII المشمولة: private_person، private_address، private_email، private_phone، private_url، private_date، account_number، secret (كلمات المرور ومفاتيح API).

🔗 OpenAI Privacy Filter


Perplexity و Cohere

Perplexity تدمج Kimi K2.6

23 أبريل — أصبح Kimi K2.6 من Moonshot AI متاحًا الآن لجميع مشتركي Pro وMax في Perplexity.

🔗 تغريدة @perplexity_ai

Cohere — W4A8 جاهز للإنتاج في vLLM

22 أبريل — تعلن Cohere عن دمج استدلالها W4A8 (تكميم 4 بت للأوزان، و8 بت للتفعيلات) في vLLM. النتائج على GPU Hopper مقارنةً بـ W4A16: +58% في الزمن حتى أول token (Time To First Token) و+45% في الزمن لكل token مخرَج (Time Per Output Token). يركّز الدمج أولًا على نماذج MoE Command A واسعة النطاق في الإنتاج.

🔗 مدونة Cohere W4A8


أخبار قصيرة

Suno في المركز الأول في App Store للموسيقى

21 أبريل — تصل Suno، منصة توليد الموسيقى بالذكاء الاصطناعي، إلى المركز الأول في App Store ضمن فئة الموسيقى. يعلن الرئيس التنفيذي Mikey Shulman: «The future of music is one where everyone enjoys creating. »

🔗 تغريدة @suno

Anthropic Economic Index Survey

22 أبريل — تطلق Anthropic استطلاع Anthropic Economic Index Survey، وهو استطلاع شهري يُجرى عبر Anthropic Interviewer على عينة عشوائية من مستخدمي Claude. الهدف هو جمع بيانات نوعية حول الأثر الاقتصادي للذكاء الاصطناعي: المهام المفوضة، مكاسب الإنتاجية، وتطور الأدوار. ستغذي النتائج التقارير المستقبلية لـ Anthropic Economic Index.

🔗 إعلان الاستطلاع

Anthropic — وكلاء MCP في الإنتاج: الأرقام

22 أبريل — توثق مقالة تقنية من Anthropic فوائد MCP لوكلاء الإنتاج: تتجاوز SDK MCP 300 مليون تنزيل شهريًا، ويقلل البحث عن الأدوات (tool search) من tokens تعريف الأدوات بنسبة 85%، ويقلل استدعاء الأدوات البرنامجي (programmatic tool calling) من استخدام tokens بنسبة 37% في سير عمل معقدة متعددة الخطوات.

🔗 مدونة MCP لوكلاء الإنتاج

OpenAI — WebSockets في API Responses: مكسب 40% في الكمون

22 أبريل — مقال استرجاعي من OpenAI يشرح كيف يقلل وضع WebSocket في API Responses من كمون حلقات الوكلاء بنسبة 40%. يحافظ الاتصال المستمر على ذاكرة مخبئية في الذاكرة لحالة الردود السابقة، ما يتجنب إعادة معالجة السجل الكامل في كل طلب. مستخدم بالفعل في الإنتاج: Codex، وVercel AI SDK، وCline (+39%)، وCursor (+30%).

🔗 مقال WebSockets

Perplexity Research — تدريب نماذج البحث المعزّز

22 أبريل — تنشر Perplexity بحثًا حول خطّتها SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) لتحسين جودة إجابات البحث. النتيجة الأساسية: النماذج المبنية على Qwen بعد التدريب اللاحق تحقق دقة factuality لنماذج GPT بتكلفة أقل.

🔗 أبحاث Perplexity


ما الذي يعنيه ذلك

يرسم 23 أبريل 2026 اتجاهين متقاربين. من جهة، تؤكد GPT-5.5 أن OpenAI استعادت الصدارة في benchmarks الوكلاء (Terminal-Bench، ARC-AGI-2، OSWorld) بعد عدة أشهر كانت فيها Claude Opus 4.7 مهيمنة. ولا تزال الفجوة ضيقة في SWE-Bench Pro، حيث تحتفظ Anthropic بالأفضلية — وهو ما يدل على أن المختبرين يتفقان على حالات الاستخدام ذات الأولوية نفسها.

ومن جهة أخرى، تَعلَم اليوم دخول عصر الوكلاء المستمرين ذوي الذاكرة: حيث تصل OpenAI Workspace Agents وAnthropic Managed Agents Memory وKimi K2.6 Agent Swarm في الوقت نفسه وبمقاربات مختلفة (تكامل Slack، قائم على filesystem، وسرب من الوكلاء الفرعيين)، لكن بهدف واحد — أن يتذكر الوكيل ويتعلم ويتصرف من دون إشراف دائم. تعطي أرقام Rakuten (-97% من الأخطاء، -27% من التكلفة) أول قياس صناعي للأثر.

تواصل GitHub Copilot استراتيجيتها المتمثلة في التكامل العميق داخل GitHub.com (PR chat، وجلسات الوكلاء انطلاقًا من issues، وstack traces مُهيكلة) مع الانفتاح إلى الخارج عبر BYOK. يشير BYOK VS Code GA إلى أن Copilot يتموضع بقدر ما كواجهة بقدر ما هو نموذج.


المصادر

تمت ترجمة هذا المستند من النسخة fr إلى اللغة ar باستخدام النموذج gpt-5.4-mini. لمزيد من المعلومات حول عملية الترجمة، راجع https://gitlab.com/jls42/ai-powered-markdown-translator