dr.: Interfaze é uma nova arquitetura de modelo que supera modelos como Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini e Grok-4.3 em 9 benchmarks comparativos em OCR, visão, STT e saída estruturada.
Os humanos são ineficientes em tarefas de computador. Cometemos erros, mas somos ótimos na tomada de decisões e na compreensão de nuances.
Imagine dizer a um humano para ler um PDF de 50 páginas, mapear cada palavra para outro documento com sua posição XY e traduzir tudo para o chinês. Você cometeria muitos erros, pagaria muito para manter aquele humano na folha de pagamento e esperaria muito tempo pelo resultado.
Os modelos de transformadores são semelhantes. Eles são incríveis em nuances e tarefas de nível humano e cometem erros como humanos, mas é também isso que os mantém criativos.
Temos usado os modelos errados para as tarefas erradas.
CNNs/DNNs existem desde o início dos anos 90, do LeNet-5 ao ResNet e, mais recentemente, ao CRNN-CTC.
Essas são arquiteturas de redes neurais profundas específicas para tarefas como OCR, tradução ou detecção de GUI. A maneira como eles consomem e veem os dados é treinada para ser específica da tarefa, o que os torna até 100 vezes mais precisos em suas tarefas específicas. Eles também produzem metadados úteis, como caixas delimitadoras e pontuações de confiança, permitindo que os desenvolvedores criem fluxos de trabalho previsíveis nos quais possam confiar.
Então, por que tantos de nós ainda optamos por transformadores/LLMs para tarefas determinísticas?
DNNs não são flexíveis. Eles são tão bons quanto seus dados de treinamento e não são bons em nuances de nível humano.
Eles podem ser baratos para servir, mas caros para manter e reciclar para novas tarefas. Pegue um passaporte: a CNN pode extrair a data de nascimento com caixas delimitadoras e uma pontuação de confiança, mas não consegue calcular a idade da pessoa.
Apresentando a Interfaze
Uma nova arquitetura de modelo que mescla a especialização dos modelos DNN/CNN com transformadores omni, oferecendo o melhor dos dois mundos.
Isso significa alta precisão e baixo custo em tarefas determinísticas:
- Visão (detecção de imagem e documento, objeto e GUI)
- Extração e pesquisa na web
- Áudio (STT e diarização de alto-falante)
- Tradução
- Vídeo (em breve)
Especificações do modelo
| Janela de contexto | 1 milhão de tokens |
| Máximo de tokens de saída | 32 mil fichas |
| Modalidades de entrada | Texto, imagens, áudio, arquivo |
| Raciocínio | Disponível (padrão: desabilitado) |
Referência
Embora os modelos de nível Pro, como Claude Opus 4.7 e GPT 5.5, sejam os melhores modelos generalistas no mercado atualmente para coisas como codificação e tarefas complexas de raciocínio, eles não são comumente usados para tarefas de alto volume, como OCR ou tradução, devido ao alto custo e aos tempos de resposta lentos.
O Interfaze é comparado com modelos em níveis de preços e conjuntos de recursos semelhantes que são otimizados para extrair o máximo desempenho do modelo na velocidade mais rápida, enquanto mantém os custos baixos em escala.
Hoje, a maioria das pessoas busca duas categorias de modelos para tarefas determinísticas de desenvolvedor:
- Modelos flash/mini como Gemini-3-Flash, GPT-5.4-Mini e Claude Sonnet 4.6. O melhor equilíbrio que você pode obter entre desempenho e preço em grande escala.
- Fornecedores especializados como Reducto, Mistral OCR ou Whisper.
Discriminação
| OCRBench V2 | 70,7% | 55,8% | 54,7% | 52,7% | 54,7% |
| olmOCR | 85,7% | 75,3% | 73,9% | 80,1% | 81,9% |
| RefCOCO | 82,1% | 75,2% | 75,5% | 67,0% | 25,0% |
| VoxPopuli (WER) ↓ | 2,4% | 4,0% | – | – | – |
| Aranha 2.0-Lite | 52,9% | 45,2% | 49,6% | 26,7% | 45,9% |
| Diamante GPQA | 89,9% | 88,5% | 89,9% | 82,8% | 73,6% |
| MMMLU | 90,9% | 88,7% | 84,9% | 75,3% | 89,7% |
| MMMU-Pro | 71,1% | 67,6% | 46,3% | 40,4% | 68,7% |
| Conta de valor SOB | 79,5% | 77,3% | 77,9% | 75,1% | 78,4% |
↓ = quanto menor, melhor (taxa de erro de palavras). — = não pontuado (o modelo não possui entrada de áudio nativa). Todas as outras linhas: quanto maior, melhor.
Cada modelo é comparado frente a frente em nove benchmarks: OCRBench V2, olmOCR, RefCOCO, VoxPopuli-Cleaned-AA, SOB Value, Spider-2.0-Lite, GPQA Diamond, MMMLU e MMMU-Pro.
Veja a tabela de classificação completa →
A Interfaze lidera em quase todos os benchmarks, tanto em relação aos modelos especializados em cada categoria quanto aos modelos flash/mini generalistas.
Nosso objetivo não é substituir os LLMs. É se especializar em tarefas determinísticas. Os benchmarks se concentram em categorias como OCR, detecção de objetos e saída estruturada, com alguns benchmarks gerais como GPQA Diamond para mostrar o nível de resolução de problemas e compreensão que você esperaria de qualquer modelo de transformador.
O Interfaze tem um preço semelhante ao Gemini-3-Flash, em US$ 1,50 por milhão de tokens de entrada e US$ 3,50 por milhão de tokens de saída.
OCR é nosso caso de uso número um
Nosso principal caso de uso por parte dos usuários tem sido o OCR para imagens e PDFs longos e complexos.
A Interfaze supera provedores de OCR como Chandra OCR e Reducto, e modelos generalistas como Gemini-3-Flash e GPT-5.4-Mini.
Não é apenas o codificador CNN específico da tarefa que faz um bom trabalho. É a capacidade de contar com a detecção de objetos para figuras e gráficos, ou contar com as camadas de tradução do transformador, tudo em um espaço vetorial compartilhado.
Veja os benchmarks completos do olmOCR →
A produção estruturada é uma grande parte do determinismo
A maioria dos LLMs hoje são ótimos em seguir um esquema JSON, mas muito ruins em preenchê-lo com valores precisos. Nenhum benchmark público mede a precisão desses valores, por isso lançamos o SOB (o Structured Output Benchmark) na semana passada.
DR: SOB fornece ao modelo a resposta correta em seu contexto e, em seguida, solicita que ele gere uma saída JSON com os dados que já possui. Medimos quem é mais preciso, com menos erros e alucinações, nas modalidades de texto, imagem e áudio (todos normalizados para texto).
Comparado com o mesmo flash/mini conjunto usado neste post. Veja a tabela de classificação SOB completa para todos os 28 modelos, incluindo modelos de nível Pro de fronteira como Gemini-3.1-Pro, GPT-5.5 e Claude-Opus-4.7.
Ainda há muito espaço para melhorar a produção estruturada sem aumentar custos ou computação. Siga-nos no X ou LinkedIn para acompanhar nossa jornada de pesquisa.
Desempenho multilíngue além do inglês
Interfaze tem excelente desempenho multilíngue em uma ampla variedade de idiomas.
Veja benchmarks MMMLU completos →
Conversão de voz para texto no mesmo nível de provedores especializados de ASR
No VoxPopuli-Cleaned-AA, o Interfaze vem em segundo lugar na taxa de erro de palavras.
Velocidade de inferência de fala para texto
Interfaze transcreve 209 segundos de áudio por segundo de computação, ~1,5× mais rápido que Deepgram Nova-3, ~8× mais rápido que Scribe v2 e mais de 11× mais rápido que Gemini-3-Flash.
Veja os benchmarks completos do VoxPopuli →
Veja como você começa
Configure seu SDK
A Interfaze fala o padrão da API Chat Completions, portanto, qualquer AI SDK que suporte OpenAI funciona imediatamente: basta apontá-lo para https://api.interfaze.ai/v1. Pegue sua chave de API no painel do Interfaze e insira-a.
import OpenAI from "openai";
const interfaze = new OpenAI({
baseURL: "https://api.interfaze.ai/v1",
apiKey: "" ,
});O mesmo interfaze client é reutilizado em todos os exemplos abaixo.
Leia o guia de configuração completo →
OCR complexo + detecção de objetos
Uma página de revista com texto denso de várias colunas e três ilustrações. Interfaze executa OCR e detecção de objetos na mesma imagem em uma solicitação, retornando o texto completo mais as coordenadas de pixel para cada figura, tudo sob seu esquema.
import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
const OCRObjectDetectionSchema = z.object({
text: z.string().describe("all text in the image"),
graphic_objects: z
.array(
z.object({
description: z.string(),
top_left_x: z.number(),
top_left_y: z.number(),
bottom_right_x: z.number(),
bottom_right_y: z.number(),
})
)
.describe("graphics objects found in the image"),
});
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{
role: "user",
content: [
{ type: "text", text: "Extract the text and graphics from the image based on the schema." },
{
type: "image_url",
image_url: {
url: "https://r2public.jigsawstack.com/interfaze/examples/dense_text_ocr_figures.png",
},
},
],
},
],
response_format: zodResponseFormat(OCRObjectDetectionSchema, "ocr_object_detection_schema"),
});
console.log(response.choices[0].message.content);
//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("OCR bounding boxes + confidence:", precontext[0]?.result);Saída JSON
object carrega a resposta do esquema: texto da página inteira mais um graphic_objects matriz com uma descrição e coordenadas de pixel para cada ilustração. precontext carrega o OCR bruto (caixas delimitadoras por linha e por palavra, pontuações de confiança) na mesma resposta.
{
"object": {
"text": "cane stopped on the corner and yelled... acter named Dick Manly. He was so observant... STOMPING GROUND ... \"The Adding Machine,\" from 1923, is about Mr. Zero, a repressed number cruncher who gets replaced by an adding machine... 12 THE NEW YORKER, APRIL 27, 2026",
"graphic_objects": [
{
"description": "A drawing located at the top left under the \"STOMPING GROUND\" heading, featuring a cityscape with a moon and a whimsical character.",
"top_left_x": 84,
"top_left_y": 484,
"bottom_right_x": 394,
"bottom_right_y": 630
},
{
"description": "A detailed line drawing of Daphne Rubin-Vega in front of a building facade, matching the main profile story.",
"top_left_x": 77,
"top_left_y": 1367,
"bottom_right_x": 517,
"bottom_right_y": 1878
},
{
"description": "A drawing in the bottom right corner depicting a person interacting with a device, situated above the spray-on condom text.",
"top_left_x": 985,
"top_left_y": 1581,
"bottom_right_x": 1264,
"bottom_right_y": 1737
}
]
},
"precontext": [
{
"name": "ocr",
"result": {
"extracted_text": "cane stopped on the corner and yelled he wrote science fiction-and observant. acter named Dick Manly. He was so\nout, \"What is that?\" \"I remember my mother coming home...",
"sections": [
{
"lines": [
{
"text": "cane stopped on the corner and yelled he wrote science fiction-and observant. acter named Dick Manly. He was so",
"bounds": {
"top_left": { "x": 83, "y": 80 },
"top_right": { "x": 1406, "y": 78 },
"bottom_right": { "x": 1406, "y": 111 },
"bottom_left": { "x": 83, "y": 110 },
"width": 1323,
"height": 30
},
"average_confidence": 0.99
}
// ... hundreds more lines with per-word boxes and confidences
]
}
]
}
}
]
}Documentos de OCR →
OCR com ativação parcial do modelo
Com nossa arquitetura híbrida, você pode ativar partes do modelo para executar uma tarefa específica sem usar todos os pesos.
É mais rápido e barato, com algumas compensações, você obtém uma saída estruturada fixa que é determinística e consistente em cada execução, e só pode executar uma tarefa por solicitação.
Usando o tag no prompt do sistema, você controla qual parte do modelo é ativada. Abaixo, executamos OCR puro em um poema manuscrito.
import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{ role: "system", content: "ocr " },
{
role: "user",
content: [
{ type: "text", text: "Extract all text from this image" },
{
type: "image_url",
image_url: {
url: "https://r2public.jigsawstack.com/interfaze/examples/handwriting.jpeg",
},
},
],
},
],
response_format: zodResponseFormat(z.any(), "empty_schema"),
});
console.log(response.choices[0].message.content);Saída JSON
A resposta é o resultado bruto da tarefa com name e resultpronto para consumir diretamente.
{
"name": "ocr",
"result": {
"extracted_text": "The lovely Song night may song linen shined\nWelcome and faint wei my heart was beating\nthe reseach on the moon the violet beautifull\nThe artist's evening song our love new life\n...",
"sections": [
{
"lines": [
{
"text": "The lovely Song night may song linen shined",
"bounds": {
"top_left": { "x": 27, "y": 22 },
"top_right": { "x": 422, "y": 21 },
"bottom_right": { "x": 423, "y": 47 },
"bottom_left": { "x": 27, "y": 51 },
"width": 395.5,
"height": 27.5
},
"average_confidence": 0.78
}
// ... more lines with per-word boxes and confidences
]
}
]
}
}Saiba mais sobre como executar tarefas →
Acessando a internet
O Interfaze vem integrado com seu próprio índice da web a partir da coleta de vários índices SERP e de nosso próprio rastreador.
import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
const GarryTanSchema = z.object({
linkedin_url: z.string(),
x_url: z.string(),
first_name: z.string(),
last_name: z.string(),
location: z.string(),
latest_education: z.string(),
current_job: z.string(),
followers: z.number(),
experience: z.array(
z.object({
company: z.string(),
title: z.string(),
start_date: z.string(),
end_date: z.string(),
})
),
});
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [{ role: "user", content: "Enrichment information of Garry Tan, Y Combinator" }],
response_format: zodResponseFormat(GarryTanSchema, "garry_tan_enrichment_schema"),
});
console.log(response.choices[0].message.content);
//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("Web search results:", precontext[0]?.result);Saída JSON
object retorna o perfil enriquecido digitado exatamente no esquema, enquanto precontext inclui os resultados brutos da pesquisa na web que a Interfaze obteve para fundamentar a resposta.
{
"object": {
"linkedin_url": "https://linkedin.com/in/garrytan",
"x_url": "https://x.com/garrytan",
"first_name": "Garry",
"last_name": "Tan",
"location": "San Francisco, California, United States",
"latest_education": "Stanford University (1999-2003), BS in Computer Systems Engineering",
"current_job": "President & CEO at Y Combinator, Founder at Garry's List, Board Partner & Advisor at Initialized Capital",
"followers": 319863,
"experience": [
{
"company": "Garry's List",
"title": "Founder",
"start_date": "Jan 2026",
"end_date": "Present"
},
{
"company": "Y Combinator",
"title": "President & CEO",
"start_date": "Jan 2023",
"end_date": "Present"
},
{
"company": "Initialized Capital",
"title": "Founder & Managing Partner",
"start_date": "Jan 2012",
"end_date": "Dec 2022"
},
{
"company": "Posterous.com",
"title": "Cofounder",
"start_date": "Jan 2008",
"end_date": "Jan 2011"
},
{
"company": "Palantir Technologies",
"title": "Lead Engineer, Designer",
"start_date": "Sep 2005",
"end_date": "Oct 2007"
}
// ... more roles
]
},
"precontext": [
{
"name": "search",
"result": [
{
"title": "Garry Tan - President & CEO, Y Combinator - LinkedIn",
"description": "President & CEO of Y Combinator. Y Combinator funds hundreds of companies per year...",
"url": "https://www.linkedin.com/in/garrytan"
}
// ... more search results
]
}
]
}Transcrição de áudio longa
O clipe abaixo é 1 hora e 35 minutos de um episódio de podcast. A Interfaze transcreve-o em ~50 segundos com carimbos de data/hora por bloco.
import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{ role: "system", content: "speech_to_text " },
{
role: "user",
content: [
{ type: "text", text: "Transcribe the audio file https://r2public.jigsawstack.com/interfaze/examples/stt_long_audio_sample_3.mp3" },
],
},
],
response_format: zodResponseFormat(z.any(), "empty_schema"),
});
console.log(response.choices[0].message.content);Saída JSON
A resposta é o resultado bruto da tarefa, conforme mostrado abaixo.
{
"name": "speech_to_text",
"result": {
"text": "We don't teach leaders how to have uncomfortable conversations. We don't teach students how to have uncomfortable conversations. You tell me which is going to be more valuable for the rest of your life. How to have a difficult conversation or trigonometry?...",
"chunks": [
{ "timestamp": [0, 3.39], "text": "We don't teach leaders how to have uncomfortable conversations. We don't teach students how" },
{ "timestamp": [3.39, 6.79], "text": "to have uncomfortable conversations. You tell me which is going to be more valuable" },
{ "timestamp": [6.79, 10.18], "text": "for the rest of your life. How to have a difficult conversation or trigonometry?" }
// ... thousands more timestamped chunks across the full 1h 35m
]
}
}Documentos de fala para texto →
Conclusão
Estamos entusiasmados em continuar experimentando, crescendo e descobrindo novas pesquisas que tornam a IA determinística mais eficiente e acessível a todos os desenvolvedores!
Comece gratuitamente e experimente em seus próprios documentos, imagens e prompts. Estamos entusiasmados para ver o que você constrói!
Comece
Mergulhe mais fundo
Fique em contato
Fonte: theverge

