Аспирант исторического факультета МГУ им. М.В. Ломоносова, победитель конкурса молодых ученых-2024 Илья Галушко выступил с докладом «Классификация исторических документов по политическому признаку с помощью языковой модели BERT» в секции «Методы Data Science в исторических исследованиях: аналитика данных, сетевой анализ, искусственный интеллект». В рамках этой конференции был проведен конкурс докладов среди молодых ученых, где он занял 1 место.
«Мое выступление было посвящено одному из направлений моего исследования – специфике взаимодействия LLM c историческим доменом. Можно с уверенностью сказать, что историческое сообщество озабочено проблемой обучения языковых моделей преимущественно на современных текстах. И как раз часть моей работы посвящена попытке проанализировать, насколько хорошо современные LLM способны справляться с классификацией исторических текстов. Для начала я взял документы начала 20 века и попробовал классифицировать их по политической принадлежности с помощью Bert. И, конечно, модель ожидаемо показала отличный результат. Все нужные классы были угаданы с очень высокой точностью. Но основная идея была в другом: проанализировать, на какие слова модель обращает внимание при прогнозировании класса документа и насколько это соответствует нашим представлениям об этом историческом периоде. И надо сказать, что в процессе классификации модель в целом выбирает те же слова, маркирующие политическую окраску документа, какие бы выбрал специалист-историк. В следующем году у меня должна выйти статья, где будут описаны результаты этого исследования», – отметил молодой ученый.
Кроме того, Илья Галушко принял участие в панельной дискуссии, которая посвящена вопросам применения технологий искусственного интеллекта в исторической науке, в качестве эксперта-исследователя.
«Мы говорили о том, какие новые методы исследований появились за последние 10 лет в работе историка и что изменилось с тех пор благодаря достижениям нейронных сетей. В первую очередь, конечно, все согласились, что технологии оцифровки и распознавания исторических документов сегодня находятся на принципиально ином уровне. Мы много говорили о специфике данных в исторической науке, какие ограничения это накладывает на применение моделей машинного обучения и искусственного интеллекта. Безусловно, звучала и аргументированная критика, мы разбирали разделы исторического знания, где моделирование на данный момент слабо применимо. Много говорили о необходимости внедрения ИИ в практику архивного дела. Я остался доволен дискуссией, было очень интересно послушать коллег. Они натолкнули меня на ряд идей, которые можно попробовать реализовать в рамках грантового исследования. Ну и просто было приятно узнать, что у исторического сообщества есть реальный запрос как на проведение исследования самого ИИ, так и на применение методов AI/ML для получения новых содержательных результатов», – подытожил Илья Галушко.