Apresentando Mercúrio 2 – Início

PUBLICIDADE

Apresentando Mercúrio 2 – Início

O LLM de raciocínio mais rápido, alimentado por difusão

Hoje, estamos apresentando o Mercury 2 — o modelo de linguagem de raciocínio mais rápido do mundo, criado para tornar a IA de produção instantânea.

Por que a velocidade é mais importante agora

A IA de produção não é mais uma solicitação e uma resposta. São loops: agentes, pipelines de recuperação e trabalhos de extração executados em segundo plano em volume. Em loops, a latência não aparece nenhuma vez. It compounds across every step, every user, every retry.

No entanto, os LLMs atuais ainda compartilham o mesmo gargalo: decodificação autorregressiva e sequencial. Um token de cada vez, da esquerda para a direita.

Uma nova base: Difusão para raciocínio em tempo real

Mercury 2 não decodifica sequencialmente. Ele gera respostas por meio de refinamento paralelo, produzindo vários tokens simultaneamente e convergindo em um pequeno número de etapas. Menos máquina de escrever, mais editor revisando um rascunho completo de uma só vez. O resultado: geração >5x mais rápida com uma curva de velocidade fundamentalmente diferente.

That speed advantage also changes the reasoning trade-off. Hoje, maior inteligência significa mais computação em tempo de teste – cadeias mais longas, mais amostras, mais tentativas – adquiridas às custas diretas da latência e do custo. O raciocínio baseado em difusão oferece qualidade de raciocínio dentro de orçamentos de latência em tempo real.

Mercúrio 2 em resumo

  • Velocidade: 1.009 tokens/seg em GPUs NVIDIA Blackwell

  • Preço: Tokens de entrada de US$ 0,25/1 milhão · Tokens de saída de US$ 0,75/1 milhão

  • Qualidade: competitivo com os principais modelos com otimização de velocidade

  • Características: raciocínio ajustável · Contexto de 128K · uso de ferramenta nativa · saída JSON alinhada ao esquema

Otimizamos a velocidade que os usuários realmente sentem: capacidade de resposta nos momentos que os usuários experimentam – latência p95 sob alta simultaneidade, comportamento consistente entre curvas e rendimento estável quando os sistemas ficam ocupados.

“O Mercury 2 da Inception demonstra o que é possível quando a arquitetura de um novo modelo atende à infraestrutura de IA da NVIDIA. Ultrapassar 1.000 tokens por segundo em GPUs NVIDIA ressalta o desempenho, a escalabilidade e a versatilidade de nossa plataforma para alimentar todo o espectro de cargas de trabalho de IA.”

Shruti Koparkar, gerente sênior de produto, Accelerated Computing Group da NVIDIA

O que Mercury 2 desbloqueia na produção

O Mercury 2 é excelente em aplicações sensíveis à latência, nas quais a experiência do usuário não é negociável.

1. Codificação e edição

Preenchimento automático, sugestões de próxima edição, refatoradores, agentes de código interativos – fluxos de trabalho em que o desenvolvedor está atualizado e qualquer pausa interrompe o fluxo.

Max Brunsfeld, cofundador, Zed

2. Loops de agente

Os fluxos de trabalho Agentic encadeiam dezenas de chamadas de inferência por tarefa. Cortar a latência por chamada não apenas economiza tempo, mas também altera quantas etapas você pode executar e quão bom será o resultado final.

“Agora estamos aproveitando o modelo mais recente da Mercury para otimizar de forma inteligente a execução de campanhas em grande escala. Ao revelar insights e melhorar dinamicamente a entrega em tempo real, estamos gerando um desempenho mais forte, maior eficiência e um ecossistema de publicidade mais resiliente e alimentado por IA. Esse avanço reforça nosso compromisso com a publicidade autônoma, onde sistemas inteligentes refinam continuamente a execução para fornecer resultados mensuráveis ​​para nossos clientes.”

Adrian Witas, vice-presidente sênior, arquiteto-chefe, Viant

“Estamos avaliando o Mercury 2 por causa de sua latência e qualidade incomparáveis, especialmente valiosas para limpeza de transcrições em tempo real e aplicações HCI interativas. Nenhum outro modelo chegou perto da velocidade que o Mercury pode fornecer!”

Sahaj Garg, CTO e cofundador, Wispr Flow

“O Mercury 2 é pelo menos duas vezes mais rápido que o GPT-5.2, o que é uma virada de jogo para nós.”

Suchintan Singh, CTO e cofundador, Skyvern

3. Voz e interação em tempo real

As interfaces de voz têm o orçamento de latência mais restrito em IA. O Mercury 2 torna viável a qualidade do nível de raciocínio em cadências naturais de fala.

“Construímos avatares de vídeo de IA realistas que mantêm conversas em tempo real com pessoas reais, portanto, baixa latência não é algo agradável de se ter, é tudo. O Mercury 2 foi um grande desbloqueio em nossa pilha de voz: geração de texto rápida e consistente que mantém toda a experiência natural e humana.”

Max Sapo, CEO e cofundador, Happyverse AI

“A qualidade do Mercury 2 é excelente e a baixa latência do modelo permite agentes de voz mais responsivos.”

Oliver Silverstein, CEO e cofundador, OpenCall

4. Pipelines de pesquisa e RAG

As latências de recuperação, reclassificação e resumo de vários saltos se acumulam rapidamente. O Mercury 2 permite adicionar raciocínio ao ciclo de pesquisa sem estourar seu orçamento de latência.

“Nossa parceria com a Inception torna prática a IA em tempo real para nosso produto de pesquisa. Cada cliente do SearchBlox, em suporte ao cliente, conformidade, risco, análise e comércio eletrônico, se beneficia da inteligência em segundos em todos os seus dados.”

Timo Selvaraj, diretor de produtos, SearchBlox

Comece

Mercúrio 2 já está disponível.

  • Solicite acesso antecipado

  • Experimente o Mercury 2 no bate-papo

Mercury 2 é compatível com API OpenAI. Entre na sua pilha existente – não é necessário reescrever.

Se você estiver fazendo uma avaliação empresarial, faremos parceria com você no ajuste da carga de trabalho, no design da avaliação e na validação de desempenho de acordo com as restrições de serviço esperadas.

Mercúrio 2 está ativo. Bem-vindo à difusão.

Fonte: theverge

Mais recentes

PUBLICIDADE

WP Twitter Auto Publish Powered By : XYZScripts.com