O LLM de raciocínio mais rápido, alimentado por difusão
Hoje, estamos apresentando o Mercury 2 — o modelo de linguagem de raciocínio mais rápido do mundo, criado para tornar a IA de produção instantânea.
Por que a velocidade é mais importante agora
A IA de produção não é mais uma solicitação e uma resposta. São loops: agentes, pipelines de recuperação e trabalhos de extração executados em segundo plano em volume. Em loops, a latência não aparece nenhuma vez. It compounds across every step, every user, every retry.
No entanto, os LLMs atuais ainda compartilham o mesmo gargalo: decodificação autorregressiva e sequencial. Um token de cada vez, da esquerda para a direita.
Uma nova base: Difusão para raciocínio em tempo real
Mercury 2 não decodifica sequencialmente. Ele gera respostas por meio de refinamento paralelo, produzindo vários tokens simultaneamente e convergindo em um pequeno número de etapas. Menos máquina de escrever, mais editor revisando um rascunho completo de uma só vez. O resultado: geração >5x mais rápida com uma curva de velocidade fundamentalmente diferente.
That speed advantage also changes the reasoning trade-off. Hoje, maior inteligência significa mais computação em tempo de teste – cadeias mais longas, mais amostras, mais tentativas – adquiridas às custas diretas da latência e do custo. O raciocínio baseado em difusão oferece qualidade de raciocínio dentro de orçamentos de latência em tempo real.
Mercúrio 2 em resumo
Velocidade: 1.009 tokens/seg em GPUs NVIDIA Blackwell
Preço: Tokens de entrada de US$ 0,25/1 milhão · Tokens de saída de US$ 0,75/1 milhão
Qualidade: competitivo com os principais modelos com otimização de velocidade
Características: raciocínio ajustável · Contexto de 128K · uso de ferramenta nativa · saída JSON alinhada ao esquema
Otimizamos a velocidade que os usuários realmente sentem: capacidade de resposta nos momentos que os usuários experimentam – latência p95 sob alta simultaneidade, comportamento consistente entre curvas e rendimento estável quando os sistemas ficam ocupados.
“O Mercury 2 da Inception demonstra o que é possível quando a arquitetura de um novo modelo atende à infraestrutura de IA da NVIDIA. Ultrapassar 1.000 tokens por segundo em GPUs NVIDIA ressalta o desempenho, a escalabilidade e a versatilidade de nossa plataforma para alimentar todo o espectro de cargas de trabalho de IA.”
Shruti Koparkar, gerente sênior de produto, Accelerated Computing Group da NVIDIA
O que Mercury 2 desbloqueia na produção
O Mercury 2 é excelente em aplicações sensíveis à latência, nas quais a experiência do usuário não é negociável.
1. Codificação e edição
Preenchimento automático, sugestões de próxima edição, refatoradores, agentes de código interativos – fluxos de trabalho em que o desenvolvedor está atualizado e qualquer pausa interrompe o fluxo.
Max Brunsfeld, cofundador, Zed
2. Loops de agente
Os fluxos de trabalho Agentic encadeiam dezenas de chamadas de inferência por tarefa. Cortar a latência por chamada não apenas economiza tempo, mas também altera quantas etapas você pode executar e quão bom será o resultado final.
“Agora estamos aproveitando o modelo mais recente da Mercury para otimizar de forma inteligente a execução de campanhas em grande escala. Ao revelar insights e melhorar dinamicamente a entrega em tempo real, estamos gerando um desempenho mais forte, maior eficiência e um ecossistema de publicidade mais resiliente e alimentado por IA. Esse avanço reforça nosso compromisso com a publicidade autônoma, onde sistemas inteligentes refinam continuamente a execução para fornecer resultados mensuráveis para nossos clientes.”
Adrian Witas, vice-presidente sênior, arquiteto-chefe, Viant
“Estamos avaliando o Mercury 2 por causa de sua latência e qualidade incomparáveis, especialmente valiosas para limpeza de transcrições em tempo real e aplicações HCI interativas. Nenhum outro modelo chegou perto da velocidade que o Mercury pode fornecer!”
Sahaj Garg, CTO e cofundador, Wispr Flow
“O Mercury 2 é pelo menos duas vezes mais rápido que o GPT-5.2, o que é uma virada de jogo para nós.”
Suchintan Singh, CTO e cofundador, Skyvern
3. Voz e interação em tempo real
As interfaces de voz têm o orçamento de latência mais restrito em IA. O Mercury 2 torna viável a qualidade do nível de raciocínio em cadências naturais de fala.
“Construímos avatares de vídeo de IA realistas que mantêm conversas em tempo real com pessoas reais, portanto, baixa latência não é algo agradável de se ter, é tudo. O Mercury 2 foi um grande desbloqueio em nossa pilha de voz: geração de texto rápida e consistente que mantém toda a experiência natural e humana.”
Max Sapo, CEO e cofundador, Happyverse AI
“A qualidade do Mercury 2 é excelente e a baixa latência do modelo permite agentes de voz mais responsivos.”
Oliver Silverstein, CEO e cofundador, OpenCall
4. Pipelines de pesquisa e RAG
As latências de recuperação, reclassificação e resumo de vários saltos se acumulam rapidamente. O Mercury 2 permite adicionar raciocínio ao ciclo de pesquisa sem estourar seu orçamento de latência.
“Nossa parceria com a Inception torna prática a IA em tempo real para nosso produto de pesquisa. Cada cliente do SearchBlox, em suporte ao cliente, conformidade, risco, análise e comércio eletrônico, se beneficia da inteligência em segundos em todos os seus dados.”
Timo Selvaraj, diretor de produtos, SearchBlox
Comece
Mercúrio 2 já está disponível.
Solicite acesso antecipado
Experimente o Mercury 2 no bate-papo
Mercury 2 é compatível com API OpenAI. Entre na sua pilha existente – não é necessário reescrever.
Se você estiver fazendo uma avaliação empresarial, faremos parceria com você no ajuste da carga de trabalho, no design da avaliação e na validação de desempenho de acordo com as restrições de serviço esperadas.
Mercúrio 2 está ativo. Bem-vindo à difusão.
Fonte: theverge

