[2606.04032] Os transformadores precisam de três projeções? Estudo Sistemático de Variantes de QKV

PUBLICIDADE

[2606.04032] Os transformadores precisam de três projeções? Estudo Sistemático de Variantes de QKV

[Submitted on 1 Jun 2026]

Veja um PDF do artigo intitulado Do Transformers Need Three Projections? Estudo Sistemático de Variantes de QKV, por Ali Kayyam e 2 outros autores

Ver PDF HTML (experimental)

Resumo:Os transformadores se tornaram a solução padrão para várias tarefas de IA, com a formulação de atenção de consulta, chave e valor (QKV) desempenhando um papel central. Contudo, a contribuição individual destas três projecções e o impacto da omissão de algumas permanecem pouco compreendidos. Avaliamos sistematicamente três restrições de compartilhamento de projeção: a) QK=V (valor-chave compartilhado), b) Q=KV (chave de consulta compartilhada) ec) Q=K=V (projeção única). As duas últimas variantes produzem mapas de atenção simétricos; para resolver isso, também exploramos a atenção assimétrica por meio de codificações posicionais 2D. Por meio de experimentos que abrangem tarefas sintéticas, visão (MNIST, CIFAR, TinyImageNet, anomalia) e modelagem de linguagem (modelos de parâmetros 300M e 1,2B em tokens 10B), descobrimos que nossos transformadores têm desempenho igual ou ocasionalmente melhor que o transformador QKV. Na modelagem de linguagem, o compartilhamento de projeção QK=V atinge 50% de redução de cache KV com apenas 3,1% de degradação de perplexidade. Crucialmente, o compartilhamento de projeção é complementar ao compartilhamento de head (GQA/MQA): combinar QK=V com GQA-4 produz 87,5% de redução de cache, enquanto QK=V + MQA atinge 96,9%, permitindo inferência prática no dispositivo. Mostramos que QK=V preserva a qualidade porque chaves e valores podem ocupar espaços representacionais semelhantes e a atenção opera em um regime de baixo escalão, enquanto Q=KV quebra a direcionalidade da atenção. Nossos resultados caracterizam sistematicamente o compartilhamento de projeção como um exemplo subexplorado de vinculação de peso na atenção, com benefícios diretos e quantificáveis ​​de memória de inferência, particularmente valiosos para implantação de borda. O código está disponível publicamente neste URL https

Histórico de envio

De: Anusha Madan Gopal [view email]
[v1]

Segunda-feira, 1º de junho de 2026 20:59:05 UTC (2.017 KB)

Fonte: theverge

Mais recentes

PUBLICIDADE

WP Twitter Auto Publish Powered By : XYZScripts.com