Reviews

Apresentando Mercúrio 2 – Início

O LLM de raciocínio mais rápido, alimentado por difusão

Hoje, estamos apresentando o Mercury 2 — o modelo de linguagem de raciocínio mais rápido do mundo, criado para tornar a IA de produção instantânea.

Por que a velocidade é mais importante agora

A IA de produção não é mais uma solicitação e uma resposta. São loops: agentes, pipelines de recuperação e trabalhos de extração executados em segundo plano em volume. Em loops, a latência não aparece nenhuma vez. It compounds across every step, every user, every retry.

No entanto, os LLMs atuais ainda compartilham o mesmo gargalo: decodificação autorregressiva e sequencial. Um token de cada vez, da esquerda para a direita.

Uma nova base: Difusão para raciocínio em tempo real

Mercury 2 não decodifica sequencialmente. Ele gera respostas por meio de refinamento paralelo, produzindo vários tokens simultaneamente e convergindo em um pequeno número de etapas. Menos máquina de escrever, mais editor revisando um rascunho completo de uma só vez. O resultado: geração >5x mais rápida com uma curva de velocidade fundamentalmente diferente.

That speed advantage also changes the reasoning trade-off. Hoje, maior inteligência significa mais computação em tempo de teste – cadeias mais longas, mais amostras, mais tentativas – adquiridas às custas diretas da latência e do custo. O raciocínio baseado em difusão oferece qualidade de raciocínio dentro de orçamentos de latência em tempo real.

Mercúrio 2 em resumo

Velocidade: 1.009 tokens/seg em GPUs NVIDIA Blackwell
Preço: Tokens de entrada de US$ 0,25/1 milhão · Tokens de saída de US$ 0,75/1 milhão
Qualidade: competitivo com os principais modelos com otimização de velocidade
Características: raciocínio ajustável · Contexto de 128K · uso de ferramenta nativa · saída JSON alinhada ao esquema

Otimizamos a velocidade que os usuários realmente sentem: capacidade de resposta nos momentos que os usuários experimentam – latência p95 sob alta simultaneidade, comportamento consistente entre curvas e rendimento estável quando os sistemas ficam ocupados.

“O Mercury 2 da Inception demonstra o que é possível quando a arquitetura de um novo modelo atende à infraestrutura de IA da NVIDIA. Ultrapassar 1.000 tokens por segundo em GPUs NVIDIA ressalta o desempenho, a escalabilidade e a versatilidade de nossa plataforma para alimentar todo o espectro de cargas de trabalho de IA.”

Shruti Koparkar, gerente sênior de produto, Accelerated Computing Group da NVIDIA

O que Mercury 2 desbloqueia na produção

O Mercury 2 é excelente em aplicações sensíveis à latência, nas quais a experiência do usuário não é negociável.

1. Codificação e edição

Preenchimento automático, sugestões de próxima edição, refatoradores, agentes de código interativos – fluxos de trabalho em que o desenvolvedor está atualizado e qualquer pausa interrompe o fluxo.

Max Brunsfeld, cofundador, Zed

2. Loops de agente

Os fluxos de trabalho Agentic encadeiam dezenas de chamadas de inferência por tarefa. Cortar a latência por chamada não apenas economiza tempo, mas também altera quantas etapas você pode executar e quão bom será o resultado final.

“Agora estamos aproveitando o modelo mais recente da Mercury para otimizar de forma inteligente a execução de campanhas em grande escala. Ao revelar insights e melhorar dinamicamente a entrega em tempo real, estamos gerando um desempenho mais forte, maior eficiência e um ecossistema de publicidade mais resiliente e alimentado por IA. Esse avanço reforça nosso compromisso com a publicidade autônoma, onde sistemas inteligentes refinam continuamente a execução para fornecer resultados mensuráveis para nossos clientes.”

Adrian Witas, vice-presidente sênior, arquiteto-chefe, Viant

“Estamos avaliando o Mercury 2 por causa de sua latência e qualidade incomparáveis, especialmente valiosas para limpeza de transcrições em tempo real e aplicações HCI interativas. Nenhum outro modelo chegou perto da velocidade que o Mercury pode fornecer!”

Sahaj Garg, CTO e cofundador, Wispr Flow

“O Mercury 2 é pelo menos duas vezes mais rápido que o GPT-5.2, o que é uma virada de jogo para nós.”

Suchintan Singh, CTO e cofundador, Skyvern

3. Voz e interação em tempo real

As interfaces de voz têm o orçamento de latência mais restrito em IA. O Mercury 2 torna viável a qualidade do nível de raciocínio em cadências naturais de fala.

“Construímos avatares de vídeo de IA realistas que mantêm conversas em tempo real com pessoas reais, portanto, baixa latência não é algo agradável de se ter, é tudo. O Mercury 2 foi um grande desbloqueio em nossa pilha de voz: geração de texto rápida e consistente que mantém toda a experiência natural e humana.”

Max Sapo, CEO e cofundador, Happyverse AI

“A qualidade do Mercury 2 é excelente e a baixa latência do modelo permite agentes de voz mais responsivos.”

Oliver Silverstein, CEO e cofundador, OpenCall

4. Pipelines de pesquisa e RAG

As latências de recuperação, reclassificação e resumo de vários saltos se acumulam rapidamente. O Mercury 2 permite adicionar raciocínio ao ciclo de pesquisa sem estourar seu orçamento de latência.

“Nossa parceria com a Inception torna prática a IA em tempo real para nosso produto de pesquisa. Cada cliente do SearchBlox, em suporte ao cliente, conformidade, risco, análise e comércio eletrônico, se beneficia da inteligência em segundos em todos os seus dados.”

Timo Selvaraj, diretor de produtos, SearchBlox

Comece

Mercúrio 2 já está disponível.

Solicite acesso antecipado
Experimente o Mercury 2 no bate-papo

Mercury 2 é compatível com API OpenAI. Entre na sua pilha existente – não é necessário reescrever.

Se você estiver fazendo uma avaliação empresarial, faremos parceria com você no ajuste da carga de trabalho, no design da avaliação e na validação de desempenho de acordo com as restrições de serviço esperadas.

Mercúrio 2 está ativo. Bem-vindo à difusão.

Fonte: theverge

Mais recentes

KitKat fala em 'boa notícia' e diz que abastecimento não será afetado após roubo de 12 toneladas do chocolate na Europa

Mais sobre controle de versão – por Bram Cohen

Sobras com gosto estranho? Pode ser armazenamento incorreto

Como os corretores de hipotecas podem aumentar sua competência em um mercado difícil

McLaren está de volta? Os fatores por trás do pódio no Japão

Amplie o poder dos seus cristais: veja como limpar e ativar

MENU

CASAES

Apresentando Mercúrio 2 – Início

O LLM de raciocínio mais rápido, alimentado por difusão

Por que a velocidade é mais importante agora

Uma nova base: Difusão para raciocínio em tempo real

Mercúrio 2 em resumo

O que Mercury 2 desbloqueia na produção

1. Codificação e edição

2. Loops de agente

3. Voz e interação em tempo real

4. Pipelines de pesquisa e RAG

Comece

Mercúrio 2 está ativo. Bem-vindo à difusão.

Mais recentes

CASAES

Fique sempre bem informado!

Siga-nos