Claude Code 자동 모드, ChatGPT의 비주얼 쇼핑, Grok Imagine 멀티이미지-비디오

23일과 24일은 소식이 빽빽했다: Anthropic은 사용자의 승인 결정을 대신 수행하는 액션 분류기인 auto mode를 Claude Code에 배포하고, GAN에서 영감을 받은 멀티 에이전트 아키텍처에 관한 엔지니어링 글을 공개했다. OpenAI는 Agentic Commerce Protocol과 함께 ChatGPT에 비주얼 쇼핑을 도입했고, xAI는 API에서 Grok Imagine의 멀티이미지 비디오를 개방했다. GitHub Copilot, Google DeepMind, Anthropic Science Blog이 이 개요를 완성한다.

Claude Code : auto mode, 명령과 여러분 사이의 분류기

3월 24일 — Claude Code가 세 번째 권한 수준인 auto mode를 추가한다. 지금까지는 파일 쓰기와 bash 명령 하나하나를 수동으로 승인하거나, 아니면 권한 검사를 완전히 비활성화하는 방식뿐이었다. auto mode는 중간 경로를 도입한다. Claude가 실행 전에 각 작업을 분석하는 분류기(classifier)의 통제를 받으며 스스로 승인 결정을 내린다.

메커니즘은 간단하다. 각 도구 호출 전에 분류기가 해당 작업이 잠재적으로 파괴적인지 평가한다. 안전하다고 판단된 작업은 자동으로 실행된다. 위험한 작업은 차단되고, Claude는 사용자를 방해하지 않으면서 대체 접근법을 찾는다.

Anthropic은 이 모드가 위험을 줄이지만 없애지는 못한다고 설명하며, 격리된 환경에서의 사용을 권장한다. 활성화하려면: claude --enable-auto-mode, 그런 다음 Shift+Tab로 이 모드로 이동한다.

이 기능은 Team 플랜에서 연구 프리뷰(research preview)로 제공된다. Enterprise와 API 배포는 며칠 뒤로 예고되었다.

New in Claude Code: auto mode. Instead of approving every file write and bash command, or skipping permissions entirely, auto mode lets Claude make permission decisions on your behalf. Safeguards check each action before it runs.

🇰🇷 Claude Code의 새로운 기능: auto mode. 모든 파일 쓰기와 bash 명령을 하나하나 승인하거나, 권한을 완전히 건너뛰는 대신, auto mode는 Claude가 여러분을 대신해 권한 결정을 내리도록 합니다. 보호 장치가 실행되기 전에 각 작업을 확인합니다. — @claudeai on X

🔗 X에서의 발표

멀티 에이전트 아키텍처: Anthropic Engineering의 GAN식 접근

3월 24일 — Anthropic Engineering Blog에 게시된 글에서 Prithvi Rajasekaran(Labs 팀)은 인터페이스 디자인과 장기 자율 애플리케이션 개발이라는 두 영역에서 Claude의 한계를 넓히기 위한 멀티 에이전트 아키텍처를 설명한다.

이 접근은 생성적 적대 신경망(Generative Adversarial Networks, GAN)에서 영감을 받았다. 생성 에이전트가 코드나 디자인을 만들고, 별도의 평가 에이전트가 결과를 채점하며 비판적 피드백을 제공한다. 이러한 분리는 알려진 문제를 해결한다. Claude는 자기 평가를 지나치게 관대하게 하는 경향이 있다. 예제로 점차 보정된 전용 평가자는 효과적인 개선 수단이 된다.

프론트엔드 디자인에서는 평가자가 MCP Playwright 접근 권한을 받아 페이지를 직접 탐색한다. 네 가지 기준이 사용된다: 디자인의 품질과 일관성, 독창성(“AI slop”이라 불리는 일반적인 패턴에 감점), 기술적 완성도, 그리고 기능성. 10~15번의 반복만으로 생성기는 눈에 띄게 더 독특한 인터페이스를 만들어낸다.

애플리케이션 개발에서는 이 아키텍처에 플래너가 추가된다. 플래너는 한 문장짜리 프롬프트를 완전한 제품 명세로 바꾼다. 생성기와 평가자는 각 구현 전에 “스프린트 계약”을 협상하며 성공 기준을 정의한다. 평가자는 Playwright를 통해 애플리케이션을 테스트하고 스프린트를 실패시킬 수 있으며, 그 결과 수정이 강제된다.

접근 방식	기간	비용	결과
단독 Opus 4.5 에이전트	20분	9달러	깨진 애플리케이션
전체 허니스	6시간	200달러	동작하는 애플리케이션
Opus 4.6을 사용한 허니스	4시간	124.70달러	동작하는 애플리케이션 + Claude 통합 에이전트

더 이상 “컨텍스트 불안”을 겪지 않는 Opus 4.6으로, 저자는 아키텍처를 단순화하고 세션 리셋을 제거하며 비용을 줄일 수 있었다. 핵심 원칙은 여전히 같다. 모델이 이제 혼자 할 수 있는 것을 제거하기 위해 허니스를 정기적으로 감사하라는 것이다.

🔗 전체 기사 🔗 X에서의 발표

Cowork와 Claude Code의 Computer Use (macOS, Pro/Max)

3월 23일 — 이제 Claude가 컴퓨터를 사용해 작업을 직접 수행할 수 있다. 프리뷰에서 이 기능은 macOS 전용으로 Claude Cowork와 Claude Code에서 제공된다.

Claude는 애플리케이션을 열고, 브라우저를 탐색하고, 스프레드시트를 채울 수 있다. 의도는 전화로 작업을 맡긴 뒤 다른 일을 하고, 완료된 작업으로 돌아오는 것이다. 반복 작업을 정의하는 것도 가능하다. 예를 들어 매일 아침 이메일을 스캔하거나 매주 금요일 보고서를 생성할 수 있다.

Computer Use 기능은 Pro와 Max 플랜에서 데스크톱 앱을 업데이트하고 모바일 앱과 연결하면 사용할 수 있다.

🔗 X에서의 발표 🔗 Cowork 제품 페이지

Anthropic Economic Index : “Learning curves” (5번째 보고서)

3월 24일 — Anthropic이 Anthropic Economic Index의 다섯 번째 보고서인 **“Learning curves”**를 발표했다. 이 보고서는 2026년 2월의 Claude 사용 데이터(약 100만 건의 대화, 2월 5일부터 12일까지)를 기반으로 한다.

보고서는 2025년 11월 이후 두 가지 주요 변화를 기록한다. 첫째, 사용의 다변화다. Claude.ai에서 가장 빈번한 10개 작업이 더 이상 트래픽의 19%만 차지하며, 이는 3개월 전 24%에서 감소한 수치다. 이 추세는 부분적으로 코딩 작업이 API로 이동한 데서 비롯되며, Claude Code의 성장에 의해 뒷받침된다.

둘째, “학습 곡선” 효과다. 장기 사용자(6개월 이상)는 성공률이 4~5퍼센트포인트 더 높다. 이들은 더 복잡한 문제를 다루고, 더 많이 협업하며, 자동 모드에서 덜 위임한다. 저자들은 이를 실행을 통한 학습(learning-by-doing)의 신호로 해석하지만, 생존 편향 가능성도 남아 있다고 본다.

모델 선택 측면에서 데이터는 사용자가 가치가 높은 작업에 Opus를 선호함을 확인시켜 준다. 작업의 추정 가치가 10달러/시간 증가할 때마다 Claude.ai에서 Opus 사용 비중은 1.5포인트 상승하고, API에서는 2.8포인트 상승한다.

🔗 전체 보고서 🔗 X에서의 발표

Anthropic Science Blog : 과학 연구용 AI를 위한 새 블로그

3월 23일 — Anthropic이 AI와 과학 연구의 교차점에 초점을 맞춘 Anthropic Science Blog를 시작한다. 목표는 AI가 연구자의 작업을 어떻게 가속하는지 기록하고, 이 변환이 제기하는 질문을 탐구하는 것이다.

블로그는 세 가지 유형의 콘텐츠를 게시한다: 특정 결과와 AI의 역할을 자세히 다루는 심층 기사(Features), 과학 분야별 실용 가이드(Workflows), 그리고 분야의 최신 동향을 정리한 리뷰(Field notes).

출시와 함께 두 편의 첫 글이 공개된다. Matthew Schwartz의 “Vibe physics: The AI grad student” (실제 계산을 Claude가 지도하는 물리학자)와, 다일에 걸친 과학 작업을 위한 Claude Code 오케스트레이션 튜토리얼이다.

이 블로그는 Anthropic의 기존 이니셔티브 위에 자리한다: AI for Science 프로그램(연구자를 위한 API 크레딧), Claude for Life Sciences(제약 및 바이오테크와의 파트너십), 그리고 Genesis Mission이다.

🔗 출시 기사 🔗 X에서의 발표

ChatGPT의 비주얼 쇼핑과 Agentic Commerce Protocol

3월 24일 — OpenAI가 ChatGPT 안에서 바로 사용할 수 있는 시각적이고 몰입적인 쇼핑 경험을 출시한다. 사용자는 제품을 시각적으로 둘러보고, 가격·리뷰·특징 같은 세부 정보와 함께 나란히 비교하며, 대화로 검색을 다듬을 수 있다. ChatGPT를 벗어나지 않고서도 가능하다. 영감이 되는 사진을 업로드해 비슷한 상품을 찾는 것도 가능하다.

이 기능을 뒷받침하기 위해 OpenAI는 **Agentic Commerce Protocol(ACP)**를 제품 탐색까지 확장한다. 이 프로토콜은 상인과 사용자 사이를 연결하는 계층이 된다. 상인은 ACP를 통해 카탈로그를 공유하고, 데이터는 직접 ChatGPT로 올라온다. Salesforce와 Stripe는 이미 제3자 제공업체로 통합되어 있다.

세부사항	정보
제공 대상	모든 Free, Go, Plus, Pro 사용자 — 이번 주 배포
이미지 업로드	비슷한 상품을 찾기 위한 영감 사진
통합 상인	Target, Sephora, Nordstrom, Lowe’s, Best Buy, The Home Depot, Wayfair
Shopify	상인 조치 없이 이미 카탈로그 통합 완료

Walmart는 최초로 네이티브 ChatGPT 앱을 제공하는 상인이다. ChatGPT에서의 발견부터 계정 연결, 멤버십 프로그램, 결제까지 Walmart 환경으로 이어진다. 웹 브라우저에서 사용 가능하며, iOS와 Android는 추후 제공된다. 참고: OpenAI는 초기의 “Instant Checkout” 기능을 포기했다. 이는 상인에게 충분히 유연하지 않다고 판단했으며, 현재는 탐색에 집중한다.

🔗 공식 발표

OpenAI : 청소년용 안전 정책 오픈 소스 공개

3월 24일 — OpenAI가 개발자가 청소년에 적합한 경험을 만들 수 있도록 돕는 안전 정책 세트를 오픈 소스로 공개한다. 이 정책은 OpenAI의 오픈 웨이트 안전 모델인 gpt-oss-safeguard와 직접 함께 사용할 수 있는 프롬프트 형태로 제공된다.

목표는 개발자가 추상적인 안전 목표를 구체적인 운영 규칙으로 바꾸도록 돕는 것이다. 6개 영역이 포함된다:

영역	설명
그래픽 폭력 콘텐츠	노골적인 폭력 필터링
그래픽 성적 콘텐츠	노골적인 성적 내용 필터링
위험한 신체 이상	섭식 장애, 위험 행동
위험한 활동과 도전 과제	위험한 바이럴 챌린지
로맨틱 또는 폭력적 역할극	부적절한 상호작용
성인 전용 재화 및 서비스	알코올, 담배, 도박

이 정책은 Common Sense Media와 everyone.ai와 함께 개발되었다. ROOST Model Community(RMC GitHub)를 통해 공개되었으며, 완전한 해결책이 아니라 출발점이라고 명시적으로 제시된다.

🔗 공식 발표

OpenAI Foundation : 최소 10억 달러 집행 예정

3월 24일 — OpenAI 이사회 의장 Bret Taylor는 Foundation이 2025년 가을의 자본 재구성에서 나온 자원을 집행하기 시작한다고 발표한다. 올해 최소 10억 달러가 네 분야에 투자된다: 생명과학(알츠하이머, 높은 사망률 질환), 고용 및 경제적 영향, AI 회복력(아동 안전, 생물보안), 그리고 지역사회 프로그램.

🔗 공식 발표

ChatGPT의 파일 관리를 위한 Library 탭

3월 23일 — OpenAI가 ChatGPT에 새로운 파일 관리 기능을 추가한다. 최근 파일을 도구 모음에서 바로 접근할 수 있고, 이미 업로드한 문서에 질문할 수 있으며, 웹 사이드바의 Library 탭에서 모든 파일을 찾을 수 있다. Plus, Pro, Business 구독자에게 제공되며, 유럽경제지역, 스위스, 영국에는 추후 배포된다.

🔗 X에서의 발표

Gemini 3.1 Flash-Lite : 실시간으로 페이지를 생성하는 브라우저

3월 24일 — Google DeepMind가 Gemini 3.1 Flash-Lite 시연을 공개했다. 이 실험적 브라우저는 클릭, 검색, 탐색이 진행될 때마다 각 웹페이지를 즉석에서 생성한다. 사전에 존재하는 HTML 페이지는 없으며, 모든 콘텐츠는 모델에 의해 실시간으로 만들어진다. 데모는 Google AI Studio에서 바로 접근할 수 있으며 강한 관심을 끌었다(몇 시간 만에 조회수 85,000회).

🔗 AI Studio 데모 🔗 X에서의 발표

Google DeepMind × Agile Robots : 로보틱스 파트너십

3월 24일 — Google DeepMind가 휴머노이드 로보틱스 전문 기업 Agile Robots와 연구 파트너십을 발표한다. 이번 협약은 Google DeepMind의 Gemini Robotics 전략의 일환으로, Gemini 기반 모델을 Agile Robots의 로봇 하드웨어에 통합하는 것을 포함한다.

🔗 X에서의 발표

Grok Imagine : API에서 멀티이미지 비디오(#1 Arena Elo 1342)

3월 24일 — xAI가 Grok Imagine API에 두 가지 새 기능을 발표한다. 여러 이미지를 바탕으로 비디오를 생성하는 기능(multi-image to video)과 기존 비디오를 연장하는 기능(video extension)이다.

개발자는 입력으로 최대 7장의 이미지를 제출해 grok-imagine-video 모델을 통해 일관된 비디오를 생성할 수 있다. API는 비동기적으로 동작한다. 요청을 제출한 뒤, 상태가 done가 될 때까지 조회한다. 출력은 720p의 16:9 비율을 지원한다.

Design Arena에 따르면 Grok Imagine은 즉시 Multi Image to Video Arena 순위에서 1342의 Elo 점수로 1위를 차지했다.

🔗 @grok 발표 🔗 Imagine API 문서

GitHub Copilot : @copilot으로 PR을 직접 수정하기

3월 24일 — GitHub Copilot이 이제 요청만 하면 어떤 pull request든 직접 수정할 수 있다. 댓글에서 @copilot를 자연어 지시와 함께 언급하면 된다. 예: 실패한 테스트 수정, 리뷰 댓글 대응, 단위 테스트 추가. 에이전트는 클라우드 환경에서 작업하고, 테스트와 린터로 검증한 뒤, 변경 사항을 브랜치에 푸시한다. 이전 동작(새 PR 열기)도 명시적으로 요청하면 그대로 사용할 수 있다. 모든 유료 Copilot 플랜에서 제공된다.

🔗 GitHub 변경 로그

GitHub Copilot : JetBrains, Xcode, Eclipse에서 Gemini 3.1 Pro

3월 23일 — GitHub Copilot이 Gemini 3.1 Pro의 제공 범위를 JetBrains, Xcode, Eclipse IDE로 확장한다. Le modèle est désormais accessible via le sélecteur de modèles Copilot dans tous les modes (agent, ask, edit) sur ces environnements, en plus des plateformes déjà prises en charge. En preview publique pour les plans Enterprise, Business, Pro et Pro+.

🔗 Changelog GitHub

GitHub Copilot : gestion de l’accès de l’agent par dépôt via API

24 mars — GitHub publie en preview publique une API REST pour gérer l’accès du Copilot coding agent au niveau des dépôts d’organisation. Les administrateurs peuvent autoriser l’agent sur aucun, tous, ou certains dépôts spécifiques de manière programmatique — utile pour les déploiements à grande échelle en entreprise.

🔗 Changelog GitHub

GitHub Copilot : logs en direct dans Raycast

20 mars — L’extension GitHub Copilot pour Raycast (le launcher macOS/Windows) permet désormais de surveiller en direct les logs du coding agent sans quitter le launcher. Via la commande “View Tasks”, puis sélection de la session, les développeurs suivent l’avancement de l’agent en temps réel. Disponible pour tous les abonnés Copilot payants.

🔗 Changelog GitHub

Ce que ça signifie

L’auto mode de Claude Code est le changement le plus structurant de cette période. Il déplace la charge cognitive de l’utilisateur — plus besoin d’approuver chaque commande — tout en maintenant un filet de sécurité via le classifieur. C’est une étape vers des agents de développement plus autonomes, mais dans un cadre explicitement recommandé pour les environnements isolés. L’article d’ingénierie sur le harness multi-agents complète ce tableau : la trajectoire d’Anthropic est clairement vers des agents qui travaillent longtemps et de manière autonome, avec des structures de supervision internes (évaluateur dédié, contrats de sprint) plutôt qu’une supervision humaine à chaque étape.

Du côté d’OpenAI, le shopping visuel dans ChatGPT marque un pivot vers les cas d’usage commerciaux grand public. L’Agentic Commerce Protocol positionne ChatGPT comme une couche d’intermédiation entre marchands et consommateurs — une stratégie différente de l’API pure, qui cible directement la valeur transactionnelle.

Grok Imagine qui atteint la première place du classement Arena dès son lancement sur le multi-image to video illustre la vitesse à laquelle xAI itère sur la génération vidéo. GitHub Copilot, de son côté, renforce systématiquement l’autonomie de son coding agent : la capacité à modifier directement une PR existante réduit encore les allers-retours entre l’agent et le développeur.

Sources

이 문서는 fr 버전에서 gpt-5.4-mini 모델을 사용하여 ko 언어로 번역되었습니다. 번역 과정에 대한 자세한 내용은 https://gitlab.com/jls42/ai-powered-markdown-translator 를 참조하세요.