ChatGPT Images 2.0 avec thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

2026년 4월 21일, 세 가지 주요 발표가 AI 업계를 주도합니다. OpenAI는 추론이 가능한 첫 이미지 모델과 함께 ChatGPT Images 2.0을 출시하고, Google DeepMind는 Gemini 3.1 Pro로 구동되는 두 개의 자율 검색 에이전트를 공개했으며, NVIDIA는 Adobe 및 WPP와의 3자 파트너십을 강화해 기업 마케팅용 크리에이티브 에이전트를 선보였습니다. Claude Code, Codex, Git 2.54도 도구 업데이트로 가득한 하루를 완성합니다.

ChatGPT Images 2.0 및 gpt-image-2

4월 21일 — OpenAI가 ChatGPT Images 2.0을 출시했으며, ChatGPT와 Codex의 모든 사용자에게 즉시 제공됩니다. 기반 모델인 gpt-image-2는 동시에 API를 통해서도 사용할 수 있습니다.

이번 새 버전은 이전 세대와의 분기점을 보여줍니다. 자세한 지시 따르기(instruction following)가 크게 개선되었고, 객체의 배치와 정확한 관계 설정이 더 신뢰할 수 있게 되었으며, 밀도 높은 텍스트 렌더링이 개선되었고, 여러 형식(세로, 가로, 정사각형)을 기본적으로 지원합니다.

**추론 모드(thinking)**가 가장 큰 새 기능입니다. ChatGPT Images 2.0은 추론 기능을 갖춘 OpenAI의 첫 이미지 모델입니다. Plus, Pro, Business 구독자에게 제공되며(Enterprise는 곧), thinking 모드에서 모델은 다음을 수행할 수 있습니다.

최신 정보를 위해 실시간으로 웹 검색
하나의 프롬프트에서 여러 개의 서로 다른 이미지 생성
자체 출력 결과를 자동 검증하고 수정

OpenAI 연구팀은 멀티링구얼 렌더링과 정확한 텍스트, 전문적인 슬라이드와 인포그래픽, 다양한 형식과 해상도, 복잡한 지시 사항 처리 등 활용 사례를 스레드로 설명했습니다.

기능	제공 여부
ChatGPT Images 2.0 (기본)	모든 ChatGPT 및 Codex 사용자
thinking 모드	ChatGPT Plus, Pro, Business (Enterprise 곧 제공)
API gpt-image-2	지금 즉시 사용 가능

이번 출시에 대한 OpenAI의 방향성은 모델이 “이미지 생성에서 전략적 디자인으로, 도구에서 시각 시스템으로” 이동한다는 것입니다.

🔗 ChatGPT Images 2.0 소개 🔗 @OpenAI 트윗

Google Deep Research 및 Deep Research Max

4월 21일 — Google DeepMind가 Gemini 3.1 Pro로 구동되는 두 개의 자율 검색 에이전트인 Deep Research와 Deep Research Max를 출시합니다.

이 에이전트들은 공개 웹과 맞춤형 데이터 — 내부 문서, 전문 금융 정보 — 를 함께 탐색해 완전한 인용이 포함된 전문 보고서를 생성합니다.

Deep Research는 속도와 낮은 지연시간에 최적화되어 빠른 응답이 필요한 인터페이스에 적합합니다. Deep Research Max는 확장된 테스트 시간 계산(extended test-time compute)을 활용해 반복적으로 추론하고, 검색을 정교화하며, 고품질 보고서를 생성합니다. 비동기 백그라운드 처리에 맞게 설계되었습니다.

기능	상세
MCP 지원	자체 또는 외부 데이터 소스에 대한 안전한 연결
기본 시각 자료 생성	그래프와 인포그래픽을 생성하는 첫 에이전트(HTML 또는 Nano Banana 2)
협업형 계획 수립	실행 전에 사용자가 검색 계획을 다듬을 수 있음
멀티모달	PDF, CSV, 이미지, 오디오, 비디오 입력 지원
제공 여부	Gemini API, 유료 제3자, 공개 미리보기

기본 시각 자료 생성은 특히 주목할 만합니다. Deep Research Max는 외부 도구 없이 HTML 또는 Nano Banana 2를 통해 보고서 내에 그래프와 인포그래픽을 직접 생성할 수 있습니다. Google Cloud의 스타트업과 기업 고객은 곧 예정된 제공 시점을 안내받게 됩니다.

🔗 @GoogleDeepMind 발표 🔗 blog.google 기사

NVIDIA × Adobe × WPP — 기업 마케팅을 위한 크리에이티브 에이전트

4월 20일 — NVIDIA가 Adobe와 WPP와의 전략적 협력을 확대해 기업 마케팅 운영에 자율 AI 에이전트를 배포합니다. 발표는 4월 21일 Adobe Summit에서 Jensen Huang(NVIDIA CEO)과 Shantanu Narayen(Adobe CEO)이 참여하는 라이브 데모와 함께 진행됩니다.

새 솔루션 Adobe CX Enterprise Coworker는 다음을 기반으로 하는 AI 에이전트가 조율합니다.

NVIDIA OpenShell: 에이전틱 워크플로우를 위한 안전하고 관찰 가능하며 감사 가능한 실행 환경
NVIDIA Agent Toolkit 및 오픈소스 Nemotron 모델
NVIDIA AI 인프라로 가속되는 Adobe Firefly Foundry

실제로는 이제 전 세계 리테일러가 몇 달이 걸리던 수백만 개의 제품/오디언스/채널 조합을 몇 분 만에 생성할 수 있습니다. 3D 디지털 트윈(Omniverse + OpenUSD)은 대규모 고충실도 콘텐츠 제작을 자동화하기 위한 지속적인 제품 정체성 역할을 합니다.

🔗 blogs.nvidia.com 기사 🔗 @NVIDIAAI 트윗

Claude Code v2.1.116

4월 19~21일 — Claude Code v2.1.116은 성능, 안정성, 터미널 경험에 초점을 맞춘 일련의 개선 사항을 제공합니다.

가장 체감되는 업데이트는 /resume 명령이 대형 세션(40MB+)에서 최대 67% 더 빨라졌고, “dead-fork” 입력 처리도 개선되었다는 점입니다. 여러 stdio 서버가 구성된 경우 MCP 시작도 더 빨라졌습니다.

사용자 경험:

생각 표시기는 이제 별도의 힌트 라인 대신, 진행 상황을 인라인으로 표시합니다(“still thinking”, “thinking more”, “almost done thinking”)
/config가 옵션 값으로 검색할 수 있습니다(예: “vim”을 검색하면 Editor mode 파라미터를 찾음)
/doctor는 Claude가 응답 중일 때도, 턴이 끝나기를 기다리지 않고 열 수 있습니다

보안: 자동 허용 sandbox가 더 이상 rm/rmdir가 /, $HOME 또는 기타 중요한 시스템 디렉터리를 대상으로 할 때 위험한 경로 검사를 우회하지 않습니다.

8가지 터미널 수정에는 Kitty 키보드 프로토콜(Ctrl+-, Cmd+왼쪽/오른쪽), Devanagari 스크립트 렌더링, 래퍼 프로세스를 통한 Ctrl+Z 차단, 인라인 모드에서의 scrollback 중복, 그리고 여러 VS Code/Warp/Ghostty 수정이 포함됩니다.

카테고리	주요 변경 사항
성능	`/resume`가 40MB+ 세션에서 67% 더 빨라짐
UX	점진적 thinking 스피너, `/config` 값 검색
보안	sandbox가 중요 경로 보호를 준수
터미널	8가지 수정(Kitty, VS Code, Warp, Ghostty, WezTerm)
플러그인	누락된 의존성 자동 설치

🔗 Claude Code 변경 로그

Claude Cowork의 Live Artifacts

4월 20일 — Anthropic이 Claude Cowork에 “Live Artifacts”를 출시합니다. 사용자의 앱과 파일에 직접 연결된 동적 대시보드와 추적기입니다.

기존의 정적 아티팩트와 달리, Live Artifacts는 열릴 때마다 현재 데이터로 자동 새로고침됩니다. 버전 기록이 있는 새 전용 탭에 저장되며, 어떤 세션에서든 접근할 수 있습니다.

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇰🇷 “Cowork에서 Claude는 이제 애플리케이션과 파일에 연결된 대시보드와 추적기 같은 동적 아티팩트를 만들 수 있습니다. 언제든지 하나를 열면 현재 데이터로 새로고침됩니다.” — @claudeai on X

이 기능은 Claude 앱 업데이트를 통해 모든 유료 요금제에서 사용할 수 있습니다.

🔗 @claudeai 발표

기업용 Codex: Codex Labs 및 7개 통합 파트너

4월 21일 — OpenAI가 Codex의 enterprise 배포에서 새로운 단계를 밟습니다. 400만 명의 개발자가 매주 이를 사용하고 있으며(4월 초 300만 명에서, 2주 만에 +33%), 동시에 Codex Labs와 7개 글로벌 통합 파트너 프로그램도 시작합니다.

Codex Labs는 OpenAI 전문가를 조직에 직접 투입해 실습 워크숍과 작업 세션을 진행하며, 팀이 실험적 사용에서 재현 가능한 배포로 전환하도록 돕는 것을 목표로 합니다.

7개 통합 파트너(GSI): Accenture, Capgemini, CGI, Cognizant, Infosys, PwC, Tata Consultancy Services.

기업	Codex 활용
Virgin Atlantic	테스트 커버리지, 기술 부채 감소
Ramp	코드 리뷰 속도 향상
Notion	새로운 기능의 신속한 개발
Cisco	상호 연결된 대규모 저장소 이해
Rakuten	사고 대응(incident response)

Codex는 이제 소프트웨어 개발을 넘어 확장됩니다. 브라우저 탐색, 이미지 생성, 메모리, 교차 작업 조율까지 포함됩니다.

🔗 전 세계 기업으로 Codex 확장

Google AI Studio의 Nano Banana Pro

4월 20일 — Google AI Pro 및 Ultra 구독자는 이제 API 키 없이도 Google AI Studio에 더 넓게 접근할 수 있습니다. Nano Banana Pro와 Gemini Pro 모델을 더 큰 사용 한도와 함께 이용할 수 있습니다.

구독 계정으로 로그인하기만 하면 프로토타입에서 프로덕션으로 넘어갈 수 있습니다. 이 변화는 요청당 과금의 복잡성 없이 실험하려는 개발자들에게 Google AI 구독을 실용적인 다리 역할로 위치시킵니다.

🔗 @GoogleAI 발표 🔗 blog.google 기사

오픈소스 Kimi FlashKDA

4월 21일 — Moonshot AI가 Kimi Delta Attention(KDA) 커널의 고성능 CUTLASS 구현체인 FlashKDA를 오픈소스로 공개합니다.

지표	값
baseline 대비 prefill 속도 향상	H20에서 1.72×~2.22×
통합	flash-linear-attention용 drop-in backend
요구 사항	SM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA는 flash-linear-attention을 위한 교체 가능한(drop-in) 백엔드로 동작합니다. 통합은 PR fla-org/flash-linear-attention#852을 통해 제공됩니다.

🔗 FlashKDA GitHub 저장소 🔗 @Kimi_Moonshot 트윗

Git 2.54

4월 20일 — Git 2.54가 세 가지 구조적 변화와 함께 제공됩니다.

git history(실험적) — git rebase -i를 거치지 않고 히스토리를 다시 쓰기 위한 새로운 서브커맨드:

git history reword <commit> : 커밋 메시지를 수정하고 브랜치를 인플레이스에서 다시 작성
git history split <commit> : 커밋을 두 개로 대화형 분할

Config-based hooks — 이제 hooks는 .git/hooks뿐 아니라 Git 설정 파일에서도 정의할 수 있습니다. 이를 통해 ~/.gitconfig를 통한 여러 저장소 간 공유, 동일 이벤트에 대한 여러 hooks, 그리고 hook.<name>.enabled = false를 통한 개별 비활성화가 가능합니다.

기본 geometric repacking — git maintenance가 이제 기본적으로 기하학적 전략을 사용해, 추가 설정 없이 성능이 향상됩니다.

🔗 Git 2.54 하이라이트 🔗 @github 트윗

공개 미리보기의 Genspark Build

4월 21일 — Genspark가 Genspark Build를 공개 미리보기(public preview)로 출시합니다. Claude Opus 4.7로 구동되는 앱 및 웹사이트 제작 도구로, 아이디어에서 목업, 디자인, 프로토타입, 작동 코드에 이르는 전체 과정을 포괄합니다.

Plus와 Pro 사용자는 4월 21일부터 24일까지(PT 9시) 3일간 크레딧 없이 이용할 수 있습니다. Genspark는 “rough edges and all”로 출시한다고 밝혔으며, 도구는 적극적으로 구축 중입니다.

같은 날 Genspark는 AI Music Agent에 Lyria 3 Music을, AI Audio Agent에 Gemini 3.1 Flash TTS를 통합합니다.

🔗 Genspark Build 트윗 🔗 Lyria 3 + TTS 트윗

Cohere — MoE 모델의 speculative decoding 연구

4월 21일 — Cohere가 speculative decoding을 사용한 Mixture-of-Experts(MoE) 모델 최적화에 대한 기술 연구 글을 공개합니다.

팀은 프로덕션 MoE 모델 — 그중 Command A(1110억 파라미터) — 에서 배치 크기에 따라 비단조적인 이득 곡선을 확인했습니다. 먼저 이득이 증가하다가 이후 감소합니다. 두 가지 핵심 메커니즘이 확인되었습니다. 전문가 라우팅의 시간적 상관관계가 메모리에 로드해야 하는 고유 전문가 수를 20~31% 줄이고, 고정 비용의 상각 효과가 BS=1에서 높은 이득을 설명합니다.

🔗 Cohere 기사

Genspark Claw: 출시 첫날 Kimi K2.6

4월 21일 — Genspark가 Fireworks AI와의 파트너십을 통해 사전 출시 및 테스트 단계에서 지원을 받아, 출시 당일(Day 0)에 Kimi K2.6을 Claw 도구에 통합합니다.

🔗 @genspark_ai 트윗

Anthropic STEM Fellows Program

4월 21일 — Anthropic이 샌프란시스코를 기반으로 몇 달간 진행되는 프로젝트에서 연구팀과 함께 일할 과학 및 공학 분야 전문가를 대상으로 하는 STEM Fellows 프로그램을 시작합니다.

🔗 @AnthropicAI 발표

의미하는 바

4월 21일은 추론과 멀티모달 생성이 만나는 지점입니다. gpt-image-2는 분명한 흐름을 보여줍니다. 생성형 모델이 품질 개선만이 아니라 오케스트레이션 계층으로서 추론을 통합하고 있습니다. 그 결과 하나의 세션에서 검색, 생성, 검증, 수정을 수행할 수 있는 모델이 탄생합니다.

Deep Research Max는 연구 측면에서 같은 논리를 한 단계 더 밀어붙입니다. MCP 지원을 통해 에이전트는 구조화된 자체 데이터에 접근할 수 있어, 민감한 데이터를 제3자 서비스로 내보내지 않고도 자율적인 분석 워크플로우를 열어줍니다.

NVIDIA × Adobe × WPP 파트너십은 창의적 AI의 기업 도입이 파일럿 단계를 벗어났음을 보여줍니다. 감사 가능한 런타임으로서의 OpenShell은 대기업의 실제 제약에 대응합니다. 자율 에이전트는 단순히 성능이 좋아야 하는 것이 아니라, 관찰 가능하고 추적 가능해야 합니다.

도구 측면에서 Git 2.54의 config-based hooks는 조용하지만 중요한 구조적 진화입니다. ~/.gitconfig를 통한 저장소 간 공유 hooks는 로컬 CI 워크플로우 표준화에 있어 팀의 관행을 바꿀 것입니다.

출처 - ChatGPT Images 2.0 소개

이 문서는 gpt-5.4-mini 모델을 사용하여 fr 버전에서 ko 언어로 번역되었습니다. 번역 프로세스에 대한 자세한 정보는 https://gitlab.com/jls42/ai-powered-markdown-translator 를 참조하세요.