Pesquisar

DiffusionGemma 4x mais rápido, fluxos de trabalho dinâmicos do Claude Code em GA, Grok Voice #1 EVA-Bench

DiffusionGemma 4x mais rápido, fluxos de trabalho dinâmicos do Claude Code em GA, Grok Voice #1 EVA-Bench

ai-powered-markdown-translator

Artigo traduzido do fr para o pt com gpt-5.4-mini.

Ver projeto no GitHub ↗

10 de junho de 2026 marca um dia intenso: Google DeepMind lança DiffusionGemma, uma nova arquitetura de geração de texto por difusão que atinge 1 000 tokens por segundo em H100, imediatamente otimizada pela NVIDIA para hardware local. No lado das ferramentas para desenvolvedores, Anthropic coloca os fluxos de trabalho dinâmicos do Claude Code em disponibilidade geral com recursividade de agentes de até 5 níveis, e a xAI posiciona o Grok Voice Think Fast 1.0 como número um no benchmark EVA-Bench. GitHub, OpenAI, Perplexity e Cohere completam um dia rico em anúncios.


DiffusionGemma: geração paralela de blocos de 256 tokens, 4x mais rápido em GPU

10 de junho — Google DeepMind lança DiffusionGemma, um modelo aberto experimental de 26 bilhões de parâmetros (arquitetura Mistura de Especialistas, Mixture of Experts) publicado sob a licença Apache 2.0. Sua particularidade: em vez de gerar um token de cada vez como todo modelo autorregressivo clássico, ele gera blocos inteiros de 256 tokens simultaneamente aplicando o mesmo princípio iterativo de remoção de ruído usado pelos modelos de difusão de imagens.

Resultado: até 4x mais rápido em GPU dedicada. O modelo ativa apenas 3,8 bilhões de parâmetros durante a inferência, o que lhe permite caber em 18 Go de VRAM depois de quantificado — acessível em GPUs de consumo de alta gama. A atenção bidirecional abre usos difíceis para modelos autorregressivos: edição em linha, conclusão de código, sequências de aminoácidos, grafos matemáticos.

A NVIDIA otimizou imediatamente o DiffusionGemma para suas GPUs, aproveitando os núcleos de computação tensorial (Tensor Cores), enquanto as arquiteturas autorregressivas são limitadas pela largura de banda de memória. Os desempenhos medidos em diferentes hardwares:

HardwareDesempenho
NVIDIA H100 (servidor)1 000 tokens/s
NVIDIA DGX Stationaté 800 tokens/s
NVIDIA DGX Spark (local)150 tokens/s
GeForce RTX 5090 (quantificado)700+ tokens/s
GeForce RTX 4090 (quantificado)suporte ao llama.cpp em breve

Os pesos estão disponíveis no Hugging Face com suporte imediato em HF Transformers, vLLM e Unsloth. O modelo também pode ser testado gratuitamente em build.nvidia.com.

Importante: o Google especifica explicitamente que a qualidade da saída continua inferior à dos modelos Gemma 4 padrão. DiffusionGemma mira desenvolvedores que exploram fluxos de trabalho locais interativos — iteração rápida, edição em linha — e não produção.

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇵🇹 DiffusionGemma é o nosso novo modelo aberto experimental, oferecendo uma saída até 4 vezes mais rápida em GPU dedicada. Em vez de prever as palavras uma a uma, ele gera blocos inteiros de texto simultaneamente.@GoogleDeepMind no X

🔗 Anúncio Google DeepMind · 🔗 Otimização NVIDIA


Claude Code v2.1.172: fluxos de trabalho dinâmicos em disponibilidade geral, subagentes recursivos de até 5 níveis

10 de junho — Anthropic anuncia que os fluxos de trabalho dinâmicos (dynamic workflows) do Claude Code passam para disponibilidade geral. Apresentados em preview de pesquisa em 28 de maio, eles permitem que o Claude projete sua própria orquestração e lance dezenas a centenas de subagentes em paralelo para tratar tarefas complexas de ponta a ponta.

A versão v2.1.172 do CLI, publicada no mesmo dia, introduz a capacidade-chave associada: os subagentes agora podem criar seus próprios subagentes, até 5 níveis de aninhamento. É a base técnica que torna os fluxos dinâmicos operacionais em grande escala.

Principais casos de uso:

  • Caça a bugs em escala de um repositório inteiro, auditorias de segurança
  • Migrações de código envolvendo milhares de arquivos (ex.: portagem Zig→Rust do Bun em 11 dias)
  • Verificação adversarial de um resultado antes da entrega

Disponibilidade e condições:

ElementoDetalhe
PlanosMax, Team, Enterprise (se ativado pelo admin), API Claude
Plataformas cloudAmazon Bedrock, Vertex AI, Microsoft Foundry
AtivaçãoComando Create a workflow ou parâmetro ultracode (esforço xhigh)
Profundidade dos subagentesAté 5 níveis
Versão CLIv2.1.172

A notar: os fluxos de trabalho dinâmicos consomem significativamente mais tokens do que uma sessão padrão do Claude Code. O Claude Code exibe uma confirmação antes da primeira execução. Os admins Enterprise podem desativar o recurso por meio das configurações gerenciadas.

Outras mudanças da v2.1.172: correção do bug de sessões definitivamente bloqueadas com o contexto 1M sem créditos, barra de pesquisa no navegador /plugin, Amazon Bedrock agora lê a região AWS a partir de ~/.aws se AWS_REGION não estiver definido, inúmeros corretivos de estabilidade para os agentes em segundo plano.

🔗 Anúncio @claudeai · 🔗 Blog Dynamic Workflows · 🔗 CHANGELOG


Grok Voice Think Fast 1.0 — número um no EVA-Bench

10 de junho — xAI anuncia Grok Voice Think Fast 1.0, seu modelo de voz que se posiciona na fronteira de Pareto do ranking EVA-Bench da ServiceNow AI Research. A fronteira de Pareto significa que nenhum outro sistema na avaliação supera simultaneamente sua precisão e a qualidade da experiência do usuário.

A xAI destaca três características: um timing natural, uma entonação adequada ao contexto e um calor percebido semelhante ao humano. O modelo está disponível via a API de voz da xAI em x.ai/api/voice, a um preço apresentado como sensivelmente inferior ao dos concorrentes.

MétricaValor
Classificação EVA-BenchFronteira de Pareto (número 1)
DisponibilidadeAPI x.ai/api/voice
Posicionamento de preçoFração do preço dos concorrentes (segundo a xAI)

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇵🇹 Grok Voice oferece desempenho de ponta com timing, tom e calor semelhantes aos humanos. E seu preço é uma fração do dos concorrentes.@xai no X

🔗 Resultados EVA-Bench


NVIDIA Confidential Computing no Apple Private Cloud Compute (WWDC 2026)

9 de junho — Anunciada durante a WWDC 2026, esta integração tripartida Apple–NVIDIA–Google marca um passo estruturante para a confidencialidade da IA em cloud. As GPUs NVIDIA Blackwell com Confidential Computing agora estão integradas na infraestrutura Private Cloud Compute (PCC) da Apple, que se estende além dos data centers da Apple para o Google Cloud.

O objetivo: processar as requisições do Apple Intelligence no lado do servidor com uma garantia de confidencialidade criptográfica absoluta — ninguém, nem mesmo os fabricantes do sistema, pode acessar os dados, conversas ou chats dos usuários.

Mecanismos de proteção:

  • Confiança ancorada no hardware (hardware-rooted trust): verificação de que a infraestrutura não foi adulterada
  • Canais de comunicação criptografados entre os componentes
  • Attestation remota (remote attestation): o software verifica o estado de segurança da plataforma antes de qualquer transferência de dados sensíveis
  • Suporte à inferência acelerada sem compromisso para o desempenho das GPUs

Essa arquitetura permite à Apple expandir o Apple Intelligence no Google Cloud enquanto mantém seus compromissos de privacidade — uma combinação rara na indústria. Para a NVIDIA, trata-se de uma adoção em larga escala do Confidential Computing Blackwell em uma implantação voltada ao grande público.

🔗 Blog NVIDIA


Anthropic: agentes agendados, cofres de segredos e quadro regulatório

Claude Managed Agents — implantações agendadas e cofres de variáveis

9 de junho — Duas novas funcionalidades chegam em beta pública no Claude Managed Agents, anunciadas durante o Code with Claude Tokyo:

Implantações agendadas (scheduled deployments): os agentes agora podem ser executados automaticamente segundo um cronograma, sem intervenção manual — relatórios diários, verificações periódicas, pipelines de dados regulares.

Variáveis em cofres (vaults): os agentes acessam seus segredos e configurações por meio de um cofre gerenciado, sem expor as chaves no código ou nas configurações da sessão.

FuncionalidadeStatus
Implantações agendadasBeta pública
Variáveis em cofresBeta pública
PlataformaClaude Managed Agents

🔗 O que há de novo no Claude Managed Agents

Policy on the AI Exponential — quadro regulatório da Anthropic

10 de junho — Anthropic publica Policy on the AI Exponential, um quadro de política pública acompanhado de um ensaio de Dario Amodei. O diagnóstico: as capacidades da IA avançam a um ritmo exponencial que o processo legislativo não foi concebido para acompanhar.

O documento mira modelos treinados com mais de 10²⁵ operações em ponto flutuante (FLOP), desenvolvidos por empresas gerando mais de USD 500 milhões em receitas ligadas à IA ou gastando mais de USD 1 bilhão em P&D de IA. Ele identifica quatro categorias de riscos catastróficos: risco biológico, cibernético, perda de controle sobre sistemas de IA e automação da própria P&D de IA.

Obrigação propostaDescrição
TransparênciaTestes obrigatórios, publicação dos resultados
Avaliação independentePelo menos um avaliador externo qualificado
SegurançaProteção dos pesos contra atores estatais
Autoridade governamentalPoder de bloquear ou adiar modelos perigosos

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇵🇹 A IA avança a um ritmo para o qual nossas instituições legislativas não foram concebidas — e a distância entre as duas coisas está se tornando o desafio central imposto por essa tecnologia.@AnthropicAI no X

🔗 Policy on the AI Exponential


GitHub Copilot: app aberta a todos, sessões de agente visíveis e revisão de segurança em CLI

Copilot App — technical preview aberta sem lista de espera

10 de junho — A technical preview do aplicativo GitHub Copilot agora está disponível para todos os assinantes Copilot Pro, Pro+, Max, Business e Enterprise, sem lista de espera. Este aplicativo de desktop criado para agentes centraliza o gerenciamento das sessões de agente, a criação de pull requests e o controle das tarefas de desenvolvimento a partir do desktop — do ticket à PR em um único lugar.

🔗 Anúncio @github

Copilot Chat agora vê as sessões de agente

10 de junho — GitHub melhora a transição entre o Copilot Chat e a nuvem de agentes. Duas novas ferramentas estão disponíveis no Copilot Chat: Get agent logs (logs de uma sessão de agente em uma pull request, consultáveis diretamente na conversa) e Session search (busca e síntese das sessões passadas por assunto, título ou data). O status de uma sessão em andamento agora é refletido em tempo real no chat.

🔗 Changelog

Copilot CLI — comando /security-review (public preview experimental)

10 de junho — Um novo comando slash /security-review está disponível em public preview experimental no GitHub Copilot CLI. Ele analisa as alterações locais de código diretamente do terminal: injeções (SQL, comandos), XSS, tratamento inseguro de dados, path traversal, criptografia fraca. Os resultados são pontuados por severidade e confiança, com sugestões que podem ser aplicadas sem sair do terminal. O comando é independente do GitHub code scanning e do Dependabot — ele os complementa com uma análise leve sob demanda.

🔗 Changelog

Manus — Zoom Connector

9 de junho — Manus lança o conector Zoom, permitindo que o agente analise automaticamente o conteúdo das reuniões acessíveis pela conta conectada: resumos, transcrições, gravações, notas, agendas, quadros brancos, informações dos participantes. Três principais casos de uso: análise sob demanda de uma reunião, revisão recorrente automática com relatório no Slack ou por e-mail, e análise de tendências em várias reuniões. Limitação: Manus só acessa os recursos que a conta Zoom conectada tem permissão para ver.

🔗 Blog Manus


xAI e Kimi: parcerias e agentes swarm

Grok + eToro — Agente Tori alimentado por dados do X em tempo real

10 de junho — xAI e eToro anunciam que Tori, o agente de IA da eToro (40 milhões de usuários em 75 países), agora integra os modelos xAI e os dados em tempo real da plataforma X para analisar o sentimento de mercado (market sentiment). Tori pode ler a evolução do sentimento em tempo real, acompanhar sinais ao vivo e analisar a informação. A mesma inteligência em tempo real está disponível para todos os desenvolvedores por meio da console API xAI.

🔗 xAI News

Kimi Agent Swarm — Predição das 104 partidas da Copa do Mundo de 2026

9 de junho — Kimi (Moonshot AI) mobiliza 300 subagentes em paralelo para prever as 104 partidas da Copa do Mundo FIFA 2026. Cada agente tem seu próprio ângulo analítico: táticas, forma dos jogadores, dados históricos, sentimento público, clima, psicologia, movimentação das odds. O sistema usa modelos Elo/FIFA, Poisson/Dixon-Coles, simulações Monte-Carlo e atualização bayesiana dinâmica. Sinal identificado: probabilidade de título da Alemanha estimada em ~11,3 % contra ~7,4 % nos mercados de apostas.

🔗 Anúncio @Kimi_Moonshot


OpenAI Codex: migração a partir do Claude Code e showcase Ableton

Codex app 26.608 — Migração a partir do Claude Code e reformulação de plugins

9 de junho — A atualização Codex app 26.608 introduz um fluxo de migração (Migrate to Codex) permitindo importar automaticamente a configuração a partir do Claude Code e do Claude Cowork, inclusive no primeiro início do aplicativo. A interface de plugins foi totalmente reformulada com abas separadas, um marketplace com filtros por categoria e navegação por teclado aprimorada. A busca nas configurações se estende a Git e às personalizações visuais.

FuncionalidadeDetalhe
Migração Claude Code/CoworkImportação automática, inclusive no onboarding
Tela de pluginsAbas, marketplace, filtros de categorias
Busca nas configuraçõesEstendida a Git, personalizações visuais

🔗 Codex Changelog


Perplexity e Cohere: orquestração multimodelo e benchmark vocal

Perplexity Computer integra Claude Fable 5 como orquestrador

10 de junho — Perplexity anuncia a integração do Claude Fable 5 como modelo orquestrador no Perplexity Computer, sua interface agentiva de múltiplas etapas. Essa integração é reservada aos assinantes Pro e Max.

🔗 Anúncio @perplexity_ai

Cohere Transcribe número 1 no benchmark Far-Field ASR do Hugging Face

10 de junhoCohere Transcribe, o modelo de reconhecimento de voz open source da Cohere, ocupa o primeiro lugar no novo benchmark Far-Field ASR do Hugging Face, projetado para testar a robustez em ambientes de áudio reais (salas de reunião, centrais de atendimento, chamadas telefônicas).

ModeloWER Far-Field ASR
Cohere Transcribe17,9
IBM Granite Speech~19,8
NVIDIA Parakeet~21,5

O modelo continua sob licença Apache 2.0 e pode ser executado localmente. Ele já havia ficado em primeiro lugar no leaderboard geral OpenASR em março de 2026.

🔗 Anúncio @cohere


Gemini App: novas funcionalidades para pequenas empresas

10 de junho — Durante o evento Google for Brazil em São Paulo, o Google anuncia duas funcionalidades do Gemini App voltadas para pequenas empresas, com lançamento global previsto para junho de 2026.

Conexão com o Google Business Profile: os usuários conectam seu perfil diretamente no app Gemini. Uma vez conectado, o Gemini acessa avaliações de clientes, perguntas e dados de desempenho para propor recomendações personalizadas: análise mensal de desempenho, redação de respostas às avaliações na voz da marca, atualização de horários e do perfil.

Business notebooks: um espaço centralizado onde a empresa organiza suas conversas, fontes e perfil do Google Business. O Gemini usa isso como base de conhecimento para manter a continuidade das conversas e propor alertas proativos (pergunta de cliente sem resposta, horários de feriado não informados).

🔗 Blog do Google


Breves

  • Falha do Gemini em 10 de junho — O diretor de produto Josh Woodward relata uma indisponibilidade do serviço às 19h31, com correções parciais já implementadas. 🔗 @joshwoodward
  • GitHub Enterprise — 500 centros de custo — O limite de centros de custo por empresa passa de 250 para 500, automaticamente, sem necessidade de configuração. 🔗 Changelog
  • Dependabot suporta Deno — As atualizações de versão do Deno passam a ser suportadas por meio de uma entrada deno em .github/dependabot.yml (atualizações de segurança ainda não cobertas por enquanto). 🔗 Changelog
  • npm v12 — mudanças incompatíveis em julho de 2026 — Scripts de instalação, dependências Git e URLs remotas serão bloqueados por padrão. Recomenda-se atualizar para npm 11.16.0+ para se antecipar. 🔗 Changelog
  • Alibaba Wan — Fisheye Lens — Nova ferramenta que transforma imagens padrão em visualizações circulares ultra grande-angular no estilo fish-eye, adicionada à galeria de habilidades visuais do Wan. 🔗 @Alibaba_Wan
  • Z-Image-Engineer-V6 — Codificador de texto intercambiável para Z-Image-Turbo (Tongyi Lab / Alibaba), transformando prompts simples em descrições cinematográficas. Disponível no Hugging Face. 🔗 @Ali_TongyiLab
  • Qwen-Image-Edit-2511 + LoRA — Novo espaço comunitário do Hugging Face para Qwen-Image-Edit-2511 com matriz LoRA versátil (troca de rosto, poses, prova virtual, renderização multiângulo). 🔗 @Ali_TongyiLab
  • ChatGPT for iOS 1.2026.153 — Novas funcionalidades do Codex Mobile — worktrees, /goal.
  • Codex no Ableton Live — @OpenAIDevs destaca o músico @sound4movement, que usa o Codex para configurar automaticamente o Ableton Live a partir de uma descrição da faixa. 🔗 @OpenAIDevs
  • Cohere Labs — IA e futuro do trabalho — Publicação de um relatório sobre as lacunas de evidências no debate sobre o impacto da IA no emprego, inaugurando uma nova direção de pesquisa. 🔗 @cohere

O que isso significa

Novas arquiteturas de inferência: o fim do token por token? DiffusionGemma é a primeira demonstração pública em larga escala de uma arquitetura aberta de difusão textual, e o interesse imediato da NVIDIA — que otimizou o modelo no mesmo dia do lançamento — confirma que essa direção é levada a sério no nível industrial. O ganho de 4x em GPU dedicada não é anecdótico: ele desloca o gargalo da largura de banda de memória (calcanhar de Aquiles do autorregressivo) para os núcleos de computação tensorial. A limitação atual (qualidade inferior à do Gemma 4) e o foco explícito nos desenvolvedores em vez da produção indicam que se trata de uma linha de pesquisa, não de uma substituição imediata — mas o benchmark Pareto de Grok Voice no EVA-Bench, em um domínio diferente (voz), mostra que a corrida pela eficiência agora acontece em várias frentes arquiteturais em paralelo.

Autonomia agêntica: da promessa à infraestrutura. A GA dos fluxos de trabalho dinâmicos do Claude Code com recursividade em 5 níveis, combinada aos deploys agendados e cofres de segredos do Claude Managed Agents, materializa uma mudança de paradigma: os agentes deixam de ser ferramentas de uso único para se tornarem processos persistentes, agendáveis, com acesso seguro a segredos. A iniciativa Kimi Agent Swarm (300 subagentes em 104 partidas) ilustra o mesmo movimento do lado da Moonshot AI. E o Perplexity Computer, que integra o Claude Fable 5 como orquestrador, sinaliza que a competição entre agentes acontece tanto no nível das ferramentas quanto dos próprios modelos.

Privacidade e confiança: o eixo Apple–NVIDIA–Google. A integração do NVIDIA Confidential Computing no Apple PCC no Google Cloud é estruturalmente significativa: ela mostra que uma implantação voltada ao grande público pode combinar aceleração por GPU, garantias criptográficas de privacidade e infraestrutura de nuvem de terceiros. Não é um nicho — o Apple Intelligence alcança centenas de milhões de dispositivos. Se essa arquitetura se normalizar, poderá se tornar um padrão de fato para serviços de IA que tratam dados pessoais sensíveis.

Ecossistema de desenvolvedores: consolidação e competição em ferramentas. O fato de o Codex 26.608 oferecer um fluxo de migração a partir do Claude Code não é trivial: é um reconhecimento de que os desenvolvedores investiram sua configuração em ferramentas concorrentes e de que é preciso reduzir o custo de transição. O GitHub Copilot, por sua vez, acelera na abordagem “agent-native” (app sem lista de espera, sessões de agente visíveis no chat, revisão de segurança na CLI). O dia 10 de junho desenha um ecossistema em que a diferenciação acontece menos nas capacidades brutas dos modelos e mais na profundidade da integração nos fluxos de trabalho diários dos desenvolvedores.


Fontes