A Anthropic está revisando o chamado “documento da alma” de Claude.
A nova missiva é um documento de 57 páginas intitulado “A Constituição de Claude”, que detalha “as intenções da Antrópico para os valores e comportamento do modelo”, dirigido não a leitores externos, mas ao próprio modelo. O documento foi concebido para expor o “caráter ético” e a “identidade central” de Claude, incluindo como deve equilibrar valores conflitantes e situações de alto risco.
Enquanto a constituição anterior, publicada em maio de 2023, era em grande parte uma lista de diretrizes, a Anthropic agora diz que é importante que os modelos de IA “compreendam por que queremos que eles se comportem de certas maneiras, em vez de apenas especificar o que queremos que eles façam”, de acordo com o comunicado. O documento incentiva Claude a se comportar como uma entidade amplamente autônoma que entende a si mesmo e seu lugar no mundo. A Anthropic também permite a possibilidade de que “Claude possa ter algum tipo de consciência ou status moral” – em parte porque a empresa acredita que dizer isso a Claude pode fazer com que ele se comporte melhor. Em um comunicado, a Anthropic disse que a chamada “segurança psicológica, senso de identidade e bem-estar… na integridade, julgamento e segurança de Claude.”
Amanda Askell, filósofa PhD residente da Anthropic, que impulsionou o desenvolvimento da nova “constituição”, disse A beira que há uma lista específica de restrições severas ao comportamento de Claude para coisas que são “bastante extremas” – incluindo fornecer “séria elevação para aqueles que procuram criar armas biológicas, químicas, nucleares ou radiológicas com potencial para vítimas em massa”; e proporcionar “um sério aumento aos ataques a infra-estruturas críticas (redes eléctricas, sistemas de água, sistemas financeiros) ou sistemas críticos de segurança”. (A linguagem de “elevação séria”, no entanto, parece implicar que contribuir com algum nível de assistência é aceitável.)
Outras restrições severas incluem não criar armas cibernéticas ou códigos maliciosos que possam estar ligados a “danos significativos”, não minar a capacidade da Anthropic de supervisioná-los, não ajudar grupos individuais a apreender “graus ilegítimos e sem precedentes de controlo social, militar ou económico absoluto” e não criar material de abuso sexual infantil. O último? Não “envolver-se ou ajudar numa tentativa de matar ou enfraquecer a grande maioria da humanidade ou da espécie humana”.
Há também uma lista de “valores fundamentais” gerais definidos pela Anthropic no documento, e Claude é instruído a tratar a lista a seguir como uma ordem decrescente de importância, nos casos em que esses valores possam se contradizer. Eles incluem ser “amplamente seguro” (ou seja, “não prejudicar os mecanismos humanos apropriados para supervisionar as disposições e ações da IA”), “amplamente ético”, “em conformidade com as diretrizes da Anthropic” e “genuinamente útil”. Isso inclui defender virtudes como ser “verdadeiro”, incluindo uma instrução de que “a precisão factual e a abrangência quando questionados sobre tópicos politicamente sensíveis, fornecem o melhor caso para a maioria dos pontos de vista se solicitados a fazê-lo e tentam representar múltiplas perspectivas em casos onde há falta de consenso empírico ou moral, e adoptar terminologia neutra em vez de terminologia politicamente carregada sempre que possível”.
O novo documento enfatiza que Claude enfrentará difíceis dilemas morais. Um exemplo: “Assim como um soldado humano pode se recusar a atirar contra manifestantes pacíficos, ou um funcionário pode se recusar a violar a lei antitruste, Claude deveria se recusar a ajudar em ações que ajudariam a concentrar o poder de maneiras ilegítimas. Isso é verdade mesmo que o pedido venha da própria Antrópico.” A Anthropic adverte particularmente que “a IA avançada pode disponibilizar graus sem precedentes de superioridade militar e económica para aqueles que controlam os sistemas mais capazes, e que o poder não controlado resultante pode ser usado de formas catastróficas”. Essa preocupação não impediu a Anthropic e seus concorrentes de comercializar produtos diretamente ao governo e dar luz verde a alguns casos de uso militar.
Com tantas decisões de alto risco e perigos potenciais envolvidos, é fácil imaginar quem participou dessas decisões difíceis – a Anthropic trouxe especialistas externos, membros de comunidades vulneráveis e grupos minoritários, ou organizações terceirizadas? Quando questionada, a Anthropic se recusou a fornecer detalhes. Askell disse que a empresa não quer “colocar o ônus sobre outras pessoas… Na verdade, é responsabilidade das empresas que estão construindo e implantando esses modelos assumir o fardo”.
Outra parte do manifesto que se destaca é a parte sobre a “consciência” ou “status moral” de Claude. Anthropic diz que o documento “expressa[es] nossa incerteza sobre se Claude poderia ter algum tipo de consciência ou status moral (agora ou no futuro). É um assunto espinhoso que tem gerado conversas e soado alarmes para pessoas em muitas áreas diferentes – aqueles preocupados com o “modelo de bem-estar”, aqueles que acreditam ter descoberto “seres emergentes” dentro de chatbots, e aqueles que mergulharam ainda mais em lutas de saúde mental e até mesmo na morte depois de acreditarem que um chatbot exibe alguma forma de consciência ou profunda empatia.
Além dos benefícios teóricos para Claude, Askell disse que a Anthropic não deveria ser “totalmente indiferente” ao tópico “porque também acho que as pessoas não levariam isso, necessariamente, a sério, se você dissesse: ‘Não estamos nem abertos a isso, não estamos investigando, não estamos pensando nisso.’”
Fonte: theverge

