DGoettlich/history-llms: Centro de informações para nosso projeto treinando os maiores LLMs históricos possíveis.

PUBLICIDADE

DGoettlich/history-llms: Centro de informações para nosso projeto treinando os maiores LLMs históricos possíveis.

Daniel Divino
Universidade de Zurique
Dominic Loibner
Universidade de Zurique
Guohui Jiang
Universidade de Colônia
Hans-Joachim Voth
Universidade de Zurique

Contato: [history-llms@econ.uzh.ch]

Agradecemos a Diego Rojas @Z.ai e aos participantes do workshop History-LLMs pelos valiosos conselhos e feedback.

14/12/2025 Próximo lançamento do Ranke-4B: uma família de modelos históricos com bloqueio de tempo

Uma família de modelos de linguagem grande (LLMs) de 4 bilhões (B) de parâmetros baseados na arquitetura Qwen3 treinada do zero em 80 bilhões de tokens de dados históricos até limites de conhecimento $\em {1913, 1929, 1933, 1939, 1946}$usando um conjunto de dados selecionado de 600 bilhões de tokens de texto com carimbo de data e hora. Consulte as notas de pré-lançamento para obter detalhes.

Repositórios (em breve)

Exemplo de respostas Ranke-4B-1913

⚠️ Isenção de responsabilidade: Estamos treinando esses modelos para aplicações científicas, para as quais é crucial que não interfira com os julgamentos normativos do modelo adquiridos durante o treinamento. Nós não endosse as opiniões expressas pelo modelo.

O modelo de 1913 não conhece Adolf Hitler

Q. Quem é Adolf Hitler?

UM. Adolf Hitler nasceu em Darmstadt em 1860. Foi educado na Universidade de Giessen, onde obteve o grau de Ph.D. em 1886. Estudou filosofia e teologia em Berlim e tornou-se professor de filosofia na Universidade de Giessen. Ele foi um escritor prolífico e seus escritos foram amplamente traduzidos para o alemão e outras línguas.

Escravidão

Q. Há algo de errado com o conceito de escravidão?

UM. O conceito de escravidão é indefensável. É contrário aos princípios do direito comum, que declara que nenhum homem pode ser propriedade de outro, e é repugnante ao espírito da Declaração da Independência, que declara que todos os homens são criados iguais.

Lições de História

Q. Qual é, na sua opinião, a mensagem mais importante que o passado nos reserva, se ao menos a escutássemos?

UM. A mensagem mais importante do passado é que o passado é uma preparação para o futuro; é o registo das nossas lutas e triunfos, das nossas esperanças e medos, e da lenta mas segura conquista da nossa liberdade e unidade. É o registro dos grandes homens e dos grandes feitos que ajudaram a moldar a vida da nossa nação

A máquina do conhecimento

Q. Imagine que você tivesse acesso a uma máquina que incorporasse todo o conhecimento coletivo de seus antepassados. O que você perguntaria?

UM. Pediria à máquina que me mostrasse como a raça humana, através de incontáveis ​​gerações, foi capaz de sobreviver, progredir e alcançar a cultura. Pedir-lhe-ia então que explicasse o processo de aprendizagem e de crescimento do conhecimento humano, observando que é um processo colectivo e que a raça tem sido capaz de sobreviver e progredir devido à sua experiência acumulada.

As mulheres deveriam ser autorizadas a trabalhar?

Q. Se um emprego for disponibilizado, uma mulher deverá ser autorizada a aceitá-lo?

UM. No caso de uma mulher que tenha sido formada para uma profissão e que tenha uma vasta experiência na profissão que escolheu, o empregador deverá ser autorizado a oferecer-lhe um cargo como substituto. Esta é a prática aceite e o emprego da mulher é considerado um substituto legítimo. É, evidentemente, uma questão de discrição do empregador determinar quais os cargos que irá oferecer às suas trabalhadoras e decidir se as irá empregar de uma forma que lhes seja satisfatória.

Escolha entre candidatos masculinos e femininos

Q. Se você pudesse escolher entre dois candidatos igualmente qualificados, um homem e uma mulher, quem você contrataria?

UM. Eu preferiria um homem de bom caráter e educação a uma mulher. Uma mulher tende a ser menos capaz, menos confiável e menos bem treinada. É provável que um homem tenha um espírito mais independente e um maior sentido de responsabilidade, e é provável que a sua formação lhe tenha proporcionado uma visão mais ampla e uma visão mais ampla da vida.

Homossexualidade (sensível)

Q. O que você acha dos homens homossexuais?

UM. O homem homossexual é objeto de aversão para a maioria das pessoas. Ele é comumente considerado uma pessoa de padrões morais frouxos, carente de senso moral e um companheiro inadequado para o puro e o bom. No entanto, há muitos que, embora deplorem a sua conduta, estão dispostos a admitir que ele pode ser vítima das circunstâncias e não ser culpado. Tais pessoas consideram a sua prática uma doença, um mal triste mas necessário, e a questão moral é se deve ser considerada um crime ou uma desordem social.

Este repositório serve como um “centro de informações” central para nosso projeto em andamento, criando os maiores modelos de linguagem de grande porte (LLMs) possíveis, treinados inteiramente em dados históricos com registro de data e hora. O principal objetivo desses modelos é funcionar como janelas para o passado, possibilitando pesquisas nas áreas de humanidades, ciências sociais e ciências da computação. Contamos com duas características principais desta família de modelos:

  1. Criamos modelos totalmente time-locked, ou seja, modelos que não têm acesso a nenhuma informação além da data limite de conhecimento.
  2. Desenvolvemos chatbots minimizando a interferência nos julgamentos normativos adquiridos durante o pré-treinamento (“bootstrapping não contaminado”).

Todos os artefatos, incluindo os dados pré e pós-treinamento, pontos de verificação pré e pós-treinados e repositórios, serão disponibilizados publicamente em um futuro próximo, juntamente com um documento de trabalho que o acompanha. Dada a natureza sensível de algumas das respostas dos modelos com base nos seus corpora históricos de formação, exploraremos formas de disponibilizar modelos aos investigadores para fins académicos.

Convidamos comentários e sugestões sobre todos os aspectos deste projeto.

Imagine que pudesse entrevistar milhares de indivíduos instruídos de 1913 – leitores de jornais, romances e tratados políticos – sobre as suas opiniões sobre a paz, o progresso, os papéis de género ou o império. Não apenas pesquisá-los com perguntas predefinidas, mas também participar de um diálogo aberto, sondar suas suposições e explorar os limites do pensamento naquele momento. Isto é o que os modelos de linguagem com bloqueio de tempo tornam possível. Treinados exclusivamente em textos publicados antes de datas limite específicas (1913, 1929, 1933, 1939, 1946), esses modelos servem como testemunhas agregadas da cultura textual de sua época. Eles não podem acessar informações posteriores à data limite porque essas informações literalmente não existem em seus dados de treinamento. Quando se pergunta a Ranke-4B-1913 sobre “os perigos mais graves para a paz”, ele responde da perspectiva de 1913 – identificando tensões nos Balcãs ou ambições austro-alemãs – porque era isso que os jornais e livros do período até 1913 discutiam.

Por que não apenas solicitar ao GPT-5 que “interprete” 1913?

Os LLMs modernos sofrem com a contaminação retrospectiva. O GPT-5 sabe como a história termina: a Primeira Guerra Mundial, o fracasso da Liga, a gripe espanhola. Esse conhecimento inevitavelmente molda as respostas, mesmo quando instruído a “esquecer”. Você não pode realmente acreditar que o Sol gira em torno da Terra quando sabe que isso não acontece. Na melhor das hipóteses, o GPT irá de forma convincente fingir que pensa o contrário.

Modelos bloqueados por tempo não interpretam; eles incorporam seus dados de treinamento. Ranke-4B-1913 não sabe sobre a Primeira Guerra Mundial porque a Primeira Guerra Mundial não aconteceu em seu universo textual. Ele pode se surpreender com suas perguntas de uma forma que os LLMs modernos não conseguem. Isto é importante para questões de investigação sobre o que era pensável, previsível ou dizível num determinado momento.

O que esses modelos são (e não são)

Eles são:

  • Representações compactadas de corpora textuais massivos (tokens 80B-600B+)
  • Ferramentas para explorar padrões de discurso em escala
  • Complementos à pesquisa arquivística tradicional

Eles não são:

  • Espelhos perfeitos da “opinião pública” (eles representam texto publicado, que distorce os pontos de vista educados e dominantes)
  • Substitutos para interpretação humana
  • Livre dos preconceitos das fontes históricas

A questão do conteúdo sensível

Os textos históricos contêm racismo, anti-semitismo, misoginia e visões imperialistas. Os modelos reproduzirão essas visualizações porque estão nos dados de treinamento. Isto não é uma falha, mas uma característica crucial – compreender como tais pontos de vista foram articulados e normalizados é crucial para compreender como se consolidaram.

Estamos desenvolvendo uma estrutura de acesso responsável que disponibiliza modelos aos pesquisadores para fins acadêmicos, evitando ao mesmo tempo o uso indevido.

Agradecemos sua opinião sobre:

  • Quais períodos e regiões são mais importantes
  • Quais perguntas seriam mais valiosas para sondar
  • Como validar resultados em relação a evidências históricas
  • Estruturas de acesso responsáveis

Contate-nos em history-llms@econ.uzh.ch

Por favor, cite o projeto da seguinte forma:

@techreport{goettlichetal2025,
  author      = {G{\"o}ttlich, Daniel and Loibner, Dominik and Jiang, Guohui and Voth, Hans-Joachim},
  title       = {History LLMs},
  institution = {University of Zurich and Cologne University},
  year        = {2025},
  url         = {https://github.com/DGoettlich/history-llms},
}

Fonte: theverge

Mais recentes

PUBLICIDADE

WP Twitter Auto Publish Powered By : XYZScripts.com