На современном этапе изучения отечественной истории перед исследователями встала проблема работы с огромными массивами документов по истории конца XIX – нач. XXI в. Материалы архивных фондов могут содержать сотни тысяч листов делопроизводственной документации. Ограниченность временных возможностей исследователя иногда не позволяет даже на уровне беглого чтения охватить все имеющееся документы, относящиеся к его специализации. Данную проблему хотя бы частично могло бы решить качественное аннотирование, но для этого требуются масштабные программы по описанию документов со стороны государственных архивов. И на данный момент во многих крупных архивах подобная работа продвигается медленно.
Аспирант исторического факультета МГУ им. М.В. Ломоносова, победитель конкурса молодых ученых МГУ-2024 Илья Галушко занимается исследованием на тему: «Автоматизация процесса аннотирования архивных документов с помощью больших языковых моделей (LLM)».
«В рамках данного исследования мы планируем изучить перспективы применения моделей искусственного интеллекта для решения задач автоматической генерации аннотаций к архивным документам: датировка рассматриваемых в документе событий; краткое содержание документа; к какому разделу отечественной истории относится данный документ; какие исторически значимые личности и топонимы в нем упоминаются»,— отмечает молодой ученый.
Подобная постановка задач исследования предполагает не только изучение прикладных аспектов использования искусственного интеллекта для организации архивного дела, но и разбор теоретических деталей применения больших языковых моделей (LLM — Large Language Models) для анализа исторических текстов. Данное исследование находится в русле изучения специфики взаимодействия современных LLM с текстами исторического домена. Поскольку языковые модели (такие как, например, BERT, GPT, LLaMA) обучаются и дообучаются преимущественно на современных русскоязычных текстах, закономерно встает вопрос о том, насколько эти модели применимы к текстам XIX или начала XX века; и какие стратегии дообучения моделей на работу с историческими документами оказываются наиболее продуктивными.
В этом контексте одним из продуктивных направлений исследования видится анализ механизмов внимания моделей для оценки того, насколько семантические зависимости, выявляемые языковыми моделями в ходе обучения на конкретную задачу, соответствуют нашим представлениям о рассматриваемых исторических периодах.
«Например, если взять простую задачу классификации текстов начала XX-го века по политической принадлежности и проанализировать веса модели после обучения, то окажется, что многие слова, которые LLM выделяет в качестве маркера политической окраски, в целом схожи с тем, на что бы ориентировался историк. Так, определяя текст к классу «белая армия», модель придает большой вес слову «главнокомандующий». И это же слово занижает вероятность отнесения документа к классу «меньшевики», «большевики» или «кадеты». Это связано с тем, что этот термин действительно употреблялся преимущественно в документах белого движения. И довольно любопытно, что классификатор уловил значимость этого слова. Подобным образом в рамках нашего исследования мы планируем всесторонне изучить, как языковые модели взаимодействуют с историческим контекстом»,— рассказал Илья Галушко.
Напомним, ранее Илья Галушко занял первое место в конкурсе молодых ученых в рамках всероссийской конференции по исторической информатике.
Рисунок 1. Предсказания модели, класс «Белая армия»
Рисунок 2. Предсказания модели, класс «Меньшевики»