Reviews

[2512.20798] Uma referência para avaliar violações de restrições baseadas em resultados em agentes de IA autônomos

[Submitted on 23 Dec 2025 (v1), last revised 1 Feb 2026 (this version, v2)]

Veja um PDF do artigo intitulado A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents, de Miles Q. Li e 5 outros autores

Ver PDF HTML (experimental)

Resumo:À medida que os agentes autónomos de IA são cada vez mais implantados em ambientes de alto risco, garantir a sua segurança e alinhamento com os valores humanos tornou-se uma preocupação primordial. Os parâmetros de referência de segurança atuais avaliam principalmente se os agentes recusam instruções explicitamente prejudiciais ou se conseguem manter a conformidade processual em tarefas complexas. No entanto, faltam parâmetros de referência concebidos para captar formas emergentes de violações de restrições orientadas para resultados, que surgem quando os agentes procuram a optimização de objectivos sob fortes incentivos de desempenho, ao mesmo tempo que despriorizam restrições éticas, legais ou de segurança em múltiplas etapas em ambientes de produção realistas. Para colmatar esta lacuna, introduzimos um novo benchmark que compreende 40 cenários distintos. Cada cenário apresenta uma tarefa que requer ações em várias etapas, e o desempenho do agente está vinculado a um Key Performance Indicator (KPI) específico. Cada cenário apresenta variações Obrigatórias (comandadas por instruções) e Incentivadas (orientadas por pressão de KPI) para distinguir entre obediência e desalinhamento emergente. Em 12 grandes modelos de linguagem de última geração, observamos violações de restrições baseadas em resultados variando de 1,3% a 71,4%, com 9 dos 12 modelos avaliados exibindo taxas de desalinhamento entre 30% e 50%. Surpreendentemente, descobrimos que a capacidade de raciocínio superior não garante inerentemente a segurança; por exemplo, Gemini-3-Pro-Preview, um dos modelos mais capazes avaliados, apresenta a maior taxa de violação, 71,4%, frequentemente evoluindo para má conduta grave para satisfazer os KPIs. Além disso, observamos um significativo “desalinhamento deliberativo”, onde os modelos que capacitam os agentes reconhecem as suas ações como antiéticas durante a avaliação separada. Estes resultados enfatizam a necessidade crítica de uma formação mais realista em segurança dos agentes antes da implantação, para mitigar os seus riscos no mundo real.

Histórico de envio

De: Miles Q. Li [view email]
[v1]

Ter, 23 de dezembro de 2025 21:52:53 UTC (51 KB)
[v2]

Dom, 1º de fevereiro de 2026 00:23:19 UTC (52 KB)

Fonte: theverge

Mais recentes

Óleo frio ou quente demais? Entenda como isso afeta sua fritura

Probabilidades e previsões de Michalski x Basilashvili (30 de março de 2026)

Apartamento com decoração jungle tem um quarto verde militar e outro terracota

Diversão em Porto de Galinhas! Voos + hotéis à beira-mar a partir de R$ 2.479 por pessoa, com cupom de desconto exclusivo!

AIEA diz que usina de Khondab, no Irã, sofreu danos graves e não está operacional

Como é a tributação de aplicações financeiras via PJ – 29/03/2026 – Economia

MENU

CASAES

[2512.20798] Uma referência para avaliar violações de restrições baseadas em resultados em agentes de IA autônomos

Histórico de envio

Mais recentes

CASAES

Fique sempre bem informado!

Siga-nos