GPT-5.4 및 computer use 기본 지원, NotebookLM 시네마틱 비디오, Codex의 Windows 지원

한 주가 여러 중요한 발표로 마무리되었습니다. OpenAI의 GPT-5.4는 computer use 기본 지원을 강화해 OSWorld에서 75%를 기록하고 컨텍스트 창을 100만 token으로 확장했으며, NotebookLM은 Gemini를 감독자로 하는 Cinematic Video Overviews를 도입했고, Codex는 Windows 지원과 네이티브 샌드박스(sandbox)를 제공하기 시작했습니다. 개발자 도구 측면에서는 Anthropic이 skill-creator를 개선하고 Claude Code에 HTTP hooks를 도입했으며, GitHub는 모든 Pro 사용자를 대상으로 Copilot Memory를 기본 활성화했습니다.

GPT-5.4 — computer use 기본 지원, 1M tokens, 도구 검색

2026-03-05 — OpenAI가 전문 작업용 프론티어 모델인 GPT-5.4를 공개했습니다. ChatGPT에서는 GPT-5.4 Thinking이라는 이름으로, API(식별자 gpt-5.4)와 Codex에서도 이용 가능하며, 이 모델은 이전 모델에서 도입된 추론, 코딩, 그리고 에이전트형 워크플로(agentic workflows) 기능을 하나의 아키텍처로 통합합니다.

가장 중요한 기술적 신기능은 computer use의 네이티브 통합입니다: GPT-5.4는 써드파티 플러그인 없이 스크린샷과 키보드/마우스를 통해 GUI를 조작할 수 있습니다. 실제 소프트웨어 인터페이스와의 상호작용을 측정하는 레퍼런스 benchmark인 OSWorld-Verified에서 GPT-5.4는 **75.0 %**를 달성했으며, 이는 GPT-5.2의 47.3 %에 비해 크게 향상된 수치입니다. Codex와 API에서는 컨텍스트 창이 1 million tokens로 확장됩니다.

또 다른 주목할 점은 tool search입니다: 호출 시 사용 가능한 전체 도구 목록을 전달하는 대신, 모델이 경량화된 목록을 받고 필요에 따라 도구를 검색합니다. OpenAI는 다수 도구를 사용하는 워크플로에서 token 소비를 47 % 절감했다고 보고합니다(Scale MCP Atlas에서 테스트). Codex의 /fast 모드는 동일한 지능 수준에서 속도가 1.5× 향상됩니다.

벤치마크:

평가	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (전문 작업)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (웹 검색)	82,7 %	77,3 %	65,8 %
Toolathlon (도구 사용)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (추상적 추론)	73,3 %	—	52,9 %

API 요금:

모델	Entrée	Sortie
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking은 오늘부터 ChatGPT Plus, Team 및 Pro 구독자들이 이용할 수 있습니다. GPT-5.2 Thinking은 2026-06-05까지 “Legacy Models”로 유지됩니다. 보안 관점에서 OpenAI는 GPT-5.4를 준비성 프레임워크(Preparedness Framework) 상에서 “High cyber capability”로 분류했습니다. 또한 OpenAI는 13개 프론티어 모델의 사고 과정(controllable chain of thought)을 측정하는 오픈소스 평가 도구 CoT-Control을 동시에 공개했습니다 — 점수는 낮게(0.1 %에서 15.4 %) 나왔으며, 이는 사고 과정의 모니터링이 여전히 신뢰할 수 있는 보안 수단임을 시사합니다.

🔗 GPT-5.4 소개 | OpenAI

NotebookLM — Cinematic Video Overviews

2026-03-04 — NotebookLM이 Studio에 Cinematic Video Overviews를 도입했습니다. 이 비디오는 2024년 도입된 Audio Overviews(팟캐스트 형식)와 표준 비디오 템플릿을 넘어서는 기능을 제공합니다.

원리: Gemini가 감독 역할을 수행합니다. 모델은 사용자의 소스들을 분석하고, 가장 적절한 형식(튜토리얼, 다큐멘터리 등)을 결정하고, 시각적 스타일을 선택하고, 이미지를 생성한 뒤 자체 비평을 거쳐 최종 버전을 제작합니다. 결과는 각 소스 세트마다 고유한 몰입형 맞춤 비디오입니다.

이 기능은 2026-03-04부터 영어로 Google AI Ultra 구독자에게 제공됩니다. 같은 날 Ultra 사용자들에 대한 전체 배포가 확인되었습니다. Pro 구독자 접근은 로드맵에 명시되어 있으나 정확한 일정은 공개되지 않았습니다. 발표 트윗은 300만 뷰를 기록했습니다.

🔗 NotebookLM 발표 (X)

OpenAI — Codex의 Windows 지원, CoT-Control 연구

Codex가 Windows에 제공

2026-03-04 — Codex 애플리케이션이 이제 Windows에서 사용 가능하며, 에이전트 네이티브 샌드박스와 PowerShell을 통한 Windows 개발 환경 지원을 포함합니다. 두 가지 신규 스킬이 제공됩니다: Blazor, ASP.NET MVC 및 Razor Pages용 $aspnet-core와 WinUI 3 기반 네이티브 Windows 애플리케이션용 $winui-app.

🔗 X의 @OpenAIDevs

연구 — 사고 과정의 통제성

2026-03-05 — OpenAI는 “Reasoning models struggle to control their chains of thought, and that’s good”(추론 모델은 사고 과정을 통제하는 데 어려움을 겪으며, 이는 긍정적이다)라는 제목의 연구를 공개했습니다. 오픈소스 평가 도구 CoT-Control은 13개 프론티어 모델의 사고 과정 통제성을 측정합니다. 점수는 0.1 %에서 15.4 % 사이로 변동하며, 이는 현재 모델들이 의도적으로 자신의 추론을 조작해 감시 시스템을 회피하기 어렵다는 것을 나타냅니다 — 이 결과는 보안 측면에서 긍정적으로 제시됩니다. OpenAI는 향후 모델의 시스템 카드(system cards)에 이러한 메트릭을 포함할 계획이라고 밝혔습니다.

🔗 CoT-Control 연구 | OpenAI

Anthropic — Skill-creator와 HTTP hooks

Skill-creator 개선

2026-03-03 — Anthropic이 Claude Code 및 Claude.ai용 skill-creator 도구의 주요 업데이트를 발표했습니다. 이번 발표는 두 가지 공식적인 에이전트 스킬(Agent Skills) 유형을 도입합니다:

유형	설명	지속성
Capability uplift	Claude가 아직 잘 하지 못하는 작업을 수행하도록 돕는 기능	모델이 향상되면 구식이 될 수 있음
Encoded preference	팀의 프로세스와 선호를 인코딩	워크플로우에 충실할수록 지속적

새로운 기능으로는 스킬이 기대한 결과를 산출하는지 확인하는 evals(자동화된 테스트), 성공률·시간·token 소비를 측정하는 벤치마크 모드, 테스트 간 오염 없이 병렬 실행할 수 있는 멀티에이전트 지원이 포함됩니다. A/B 비교 모드도 추가되어 두 버전의 스킬을 대조할 수 있습니다. skill-creator는 지금 바로 Claude.ai와 Cowork에서 이용 가능하며, Claude Code에서는 플러그인으로 설치됩니다.

🔗 skill-creator 개선: 에이전트 스킬 테스트, 측정 및 개선

Claude Code의 HTTP hooks

2026-03-04 — Claude Code가 기존의 command hooks에 대한 대안으로 HTTP hooks를 출시했습니다. 로컬 셸 스크립트를 실행하는 대신 Claude Code는 사용자가 지정한 URL로 이벤트를 전송하고 응답을 기다립니다. 사용 사례: 진행 상태를 시각화하는 웹 애플리케이션 구축, 권한 관리, 여러 Claude Code 인스턴스 간 상태 동기화를 위한 데이터베이스 연동 등입니다. HTTP hooks는 플러그인, 커스텀 에이전트 및 관리되는 엔터프라이즈 설정에서 작동합니다.

🔗 트윗 @dickson_tsai

Gemini CLI v0.32.0 — 기본값으로 Generalist Agent

2026-03-03 — Gemini CLI 0.32.0 버전은 task 위임 및 라우팅을 개선하기 위해 기본적으로 Generalist Agent를 활성화했습니다. 업데이트는 workspace 내에서 직접 모델 조정(Model Steering)을 가능하게 하고, Plan Mode 개선(외부 편집기에서 플랜 열기 및 수정, 복잡한 작업을 위한 다중 선택 처리), 셸 내 대화형 자동완성, 시작 성능 향상을 위한 확장 병렬 로딩 등을 포함합니다.

🔗 Gemini CLI 변경로그

GitHub Copilot — Memory 기본 활성화, 모바일 알림 및 지표

Copilot Memory 기본 활성화

2026-03-04 — GitHub는 모든 Pro 및 Pro+ 이용자를 대상으로 Copilot Memory를 기본 활성화했습니다. 이전에 선택형 프리뷰였던 이 기능은 Copilot이 리포지토리 수준에서 지속적인 정보를 기억하도록 허용합니다: 코딩 규약, 아키텍처 패턴, 중요한 의존성 등입니다.

메모리는 엄격히 단일 리포지토리로 제한되며 적용 전에 현재 코드와 검증되어 오래된 컨텍스트 사용을 방지합니다. 메모리는 28일 후 자동 만료됩니다. 이 기능은 코딩 에이전트, 코드 리뷰, CLI Copilot에서 활성화되며 — 에이전트가 발견한 지식은 즉시 다른 에이전트에서도 사용 가능합니다. 사용자는 설정(Settings > Features > Copilot Memory)에서 Copilot Memory를 비활성화할 수 있고, Enterprise 관리자에게는 완전한 제어 권한이 유지됩니다.

🔗 Copilot Memory가 Pro 및 Pro+ 사용자에 기본으로 활성화됨

GitHub Mobile의 에이전트 실시간 알림

2026-03-04 — GitHub Mobile은 Copilot 에이전트 세션에 대한 실시간 알림을 수신합니다. 개발자는 에이전트가 데스크톱에서 시작되었든 휴대폰에서 시작되었든 세션 진행 상황을 추적할 수 있습니다.

🔗 GitHub Mobile | X의 발표

Copilot Free Auto의 Grok Code Fast 1

2026-03-04 — GitHub는 xAI의 Grok Code Fast 1을 Copilot Free의 자동 모델 선택(Auto)에 추가했습니다. 이 모델은 이제 Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode 및 Eclipse에서의 채팅 세션에서 Copilot이 선택할 수 있습니다.

🔗 Grok Code Fast 1이 Copilot Free 자동 모델 선택에 추가됨

사용자 수준의 Copilot CLI 지표

2026-03-05 — GitHub는 Copilot 사용 지표를 사용자 수준의 CLI 활동까지 확장했습니다. 이번 업데이트는 지난주에 도입된 엔터프라이즈 수준 릴리스를 확장한 것으로, 관리자는 이제 CLI에서 활동하는 활성 사용자를 식별하고 요청 수와 세션 수를 확인하며 사용자별 token 소비를 추적할 수 있습니다.

🔗 Copilot 사용 지표 — 사용자 수준 CLI 활동

Perplexity — GPT-5.4 및 Computer의 Voice Mode

Perplexity에서 이용 가능한 GPT-5.4 Thinking

2026-03-05 — GPT-5.4 및 GPT-5.4 Thinking이 Perplexity의 Pro 및 Max 구독자에게 제공됩니다. Thinking 버전은 GPT-5.4의 확장된 추론 기능을 활성화해 복잡한 질의에 대해 더 심층적인 응답을 생성합니다.

🔗 X의 발표

Perplexity Computer의 Voice Mode

2026-03-04 — Perplexity는 Perplexity Computer에 음성 모드(Voice Mode)를 도입했습니다. 이미 검색, 코딩 및 프로젝트 배포가 가능했던 인터페이스가 이제 직접 음성 명령을 허용합니다.

🔗 X의 발표

Cohere × Aston Martin F1 — 다년간 파트너십

2026-03-04 — Cohere는 Aston Martin Aramco F1 팀과 다년간 파트너십을 발표했습니다. 팀의 모든 구성원은 기업용 모델과 Cohere의 에이전트형 AI 플랫폼(North)에 접근할 수 있게 되어, 세계 스포츠에서 가장 까다로운 데이터 환경 중 하나에서 작업할 수 있습니다. Cohere 로고는 2026 호주 그랑프리부터 머신에 부착됩니다.

🔗 Cohere의 발표 (X)

Black Forest Labs — Self-Flow, 멀티모달 연구

2026-03-04 — Black Forest Labs(FLUX 제작팀)는 연구 프리뷰로 Self-Flow를 발표했습니다. 이 접근법은 외부 표현 모델에 의존하지 않고 자기지도형 flow matching을 통해 멀티모달(이미지, 비디오, 오디오, 텍스트) 생성 모델을 학습시킵니다.

제시된 결과: 교차 모달 수렴 속도 최대 2.8× 향상, 비디오의 시간적 일관성 개선, 더 선명한 타이포그래피 렌더링. 데모에는 6M 비디오로 학습된 4B 파라미터 비디오 모델, 200M 이미지로 학습된 4B 파라미터 이미지 모델, 오디오-비디오 통합 모델이 포함됩니다. BFL은 Self-Flow를 시각적 확장성과 의미적 추상을 결합해 계획 및 이해를 위한 world models로 가는 경로로 제시합니다: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 트윗 @bfl_ml

짧게 정리

Runway는 3월 3일에 이미지, 비디오, 오디오 및 언어의 타사 모델 접근을 플랫폼 안으로 중앙화한 통합 모델 허브를 출시했습니다. 🔗 발표

Claude는 3월 5일 한 번에 14개국의 iOS App Store에서 1위를 차지했습니다 — 호주, 오스트리아, 벨기에, 캐나다, 프랑스, 독일, 아일랜드, 이탈리아, 뉴질랜드, 노르웨이, 싱가포르, 스위스, 영국, 미국. 🔗 트윗

Manus는 첫 번째 생일을 맞아 3월 5일 연례 편지를 발표했으며, 사용자 증언(한 어머니, 86세 언어학자, 꽃집 사장 등)을 강조했습니다. 🔗 연례 편지

Grok은 미국 App Store에서 백만 개 이상의 리뷰를 돌파했습니다. 🔗 트윗 @grok

의미

GPT-5.4는 computer use가 실험적 기능 단계를 벗어나 범용 모델에 통합된 기능으로 자리잡고 있음을 확인시켜 줍니다. OSWorld-Verified에서의 75 % 점수와 tool search를 통한 token 소비 47 % 절감은 실질적인 패러다임 전환의 지표입니다: 이제 에이전트 AI는 특수 인프라 없이도 복잡한 소프트웨어 인터페이스를 조작할 수 있습니다.

개발자 도구 측면에서는 수렴이 관찰됩니다: Anthropic은 에이전트 스킬의 테스트와 감독을 개선했고, GitHub는 코딩 에이전트에 지속 메모리를 기본 제공했으며, Perplexity는 Computer 에이전트에 음성 상호작용을 추가했습니다. 에이전트 실행 환경(agentic runtimes)은 메모리 계층, 관측성(HTTP hooks, 모바일 알림) 및 자연스러운 상호작용(음성)을 중심으로 성장하고 있습니다.

NotebookLM의 Cinematic Video Overviews는 다른 축을 보여줍니다: 개인 소스에서 장편 교육용 콘텐츠를 생성하는 방향입니다. Gemini가 감독자로서 분석하고 비평하며 재구성하는 방식은 단순한 생성 보조를 넘어 창작의 메타 툴로서의 AI 활용을 보여줍니다.

출처 - GPT-5.4 소개 | OpenAI

이 문서는 gpt-5-mini 모델을 사용하여 fr 버전에서 ko 언어로 번역되었습니다. 번역 과정에 대한 자세한 정보는 https://gitlab.com/jls42/ai-powered-markdown-translator를 참조하세요.