Veja um PDF do artigo intitulado A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents, de Miles Q. Li e 5 outros autores
Ver PDF HTML (experimental)
Resumo:À medida que os agentes autónomos de IA são cada vez mais implantados em ambientes de alto risco, garantir a sua segurança e alinhamento com os valores humanos tornou-se uma preocupação primordial. Os parâmetros de referência de segurança atuais avaliam principalmente se os agentes recusam instruções explicitamente prejudiciais ou se conseguem manter a conformidade processual em tarefas complexas. No entanto, faltam parâmetros de referência concebidos para captar formas emergentes de violações de restrições orientadas para resultados, que surgem quando os agentes procuram a optimização de objectivos sob fortes incentivos de desempenho, ao mesmo tempo que despriorizam restrições éticas, legais ou de segurança em múltiplas etapas em ambientes de produção realistas. Para colmatar esta lacuna, introduzimos um novo benchmark que compreende 40 cenários distintos. Cada cenário apresenta uma tarefa que requer ações em várias etapas, e o desempenho do agente está vinculado a um Key Performance Indicator (KPI) específico. Cada cenário apresenta variações Obrigatórias (comandadas por instruções) e Incentivadas (orientadas por pressão de KPI) para distinguir entre obediência e desalinhamento emergente. Em 12 grandes modelos de linguagem de última geração, observamos violações de restrições baseadas em resultados variando de 1,3% a 71,4%, com 9 dos 12 modelos avaliados exibindo taxas de desalinhamento entre 30% e 50%. Surpreendentemente, descobrimos que a capacidade de raciocínio superior não garante inerentemente a segurança; por exemplo, Gemini-3-Pro-Preview, um dos modelos mais capazes avaliados, apresenta a maior taxa de violação, 71,4%, frequentemente evoluindo para má conduta grave para satisfazer os KPIs. Além disso, observamos um significativo “desalinhamento deliberativo”, onde os modelos que capacitam os agentes reconhecem as suas ações como antiéticas durante a avaliação separada. Estes resultados enfatizam a necessidade crítica de uma formação mais realista em segurança dos agentes antes da implantação, para mitigar os seus riscos no mundo real.
Histórico de envio
De: Miles Q. Li [view email]
[v1]
Ter, 23 de dezembro de 2025 21:52:53 UTC (51 KB)
[v2]
Dom, 1º de fevereiro de 2026 00:23:19 UTC (52 KB)
Fonte: theverge

![[2512.20798] Uma referência para avaliar violações de restrições baseadas em resultados em agentes de IA autônomos](https://casaes.canalterra.com/wp-content/uploads/2026/02/arxiv-logo-fb-1024x597.png)