Илья Галушко - аспирант исторического факультета МГУ им. М.В. Ломоносова, победитель конкурса молодых ученых МГУ-2024. В 2024 году он прошел обучение по программе «Нейронные сети и их применение в научных исследованиях», которая была разработана при поддержке Фонда «Интеллект», и затем вошел в число победителей конкурса научных публикаций 5 потока курса.
Мы с интересом наблюдаем за тем, как развивается жизненная и научная траектория выпускников наших программ, и расспросили Илью о том, чем он занимается сегодня ― и как использует полученные знания.

– Я завершаю обучение в аспирантуре исторического факультета МГУ, где учился с первого курса бакалавриата. Параллельно с работой над грантовым проектом дописываю кандидатскую диссертацию по теме «Регулирование фондового рынка Российской империи в начале XX века: источники и методы исследования» у Леонида Иосифовича Бородкина. Я думаю, что моя жизнь определилась именно поступлением на кафедру исторической информатики и научным руководством Леонида Иосифовича. Мне всегда была интересна социально-экономическая история и история фондового рынка в частности, но здесь я начал изучать всё это специализированно.
По мере погружения в тему я увлекся математическим моделированием и эконометрикой (по этой теме были и кафедральные курсы), что постепенно привело меня к программированию. Я занимался сам, ходил на межфакультетские курсы. Потом я смог поступить на программу ДПО от Фонда «Интеллект» «Нейронные сети и их применение в научных исследованиях». Там я занимался профильным программированием, математикой и машинным обучением в самых разных его проявлениях (распознавание изображений, NLP, моделирование на основе табличных данных).
Сейчас с этим связан мой основной академический интерес, я пытаюсь осмысленно применить это в своей кандидатской. В широком смысле я стараюсь больше заниматься прикладными исследованиями – я вижу огромный потенциал в применении методов ML в исторической науке. Кстати, пользуясь возможностью, хотел вновь сказать огромное спасибо команде преподавателей этого курса – это было отличное образование.
В 2024 году я стал победителем конкурса молодых ученых от Фонда «Интеллект» и получил двухлетний грант на проведение исследования «Автоматизация процесса аннотирования архивных документов с помощью больших языковых моделей (LLM)». Мое исследование посвящено изучению возможностей применения больших языковых моделей в архивном деле. Тогда я опубликовал небольшую статью с анализом весов внимания моделей в контексте исторических задач, а сейчас заканчиваю большой блок работы, связанный с разработкой системы применения нейронок для посткоррекции оптического распознавания исторических документов.
– Когда и как вы заинтересовались нейросетями? Как пришла идея пойти учиться этому и работать с ними?
– К этому меня привело увлечение социально-экономической историей. Профильные журналы (такие как, например, Cliometrica) наполнены эконометрическими моделями и классическим ML (особенно популярна кластеризация). В истории фондового рынка моделирования еще больше: это изучение временных рядов, анализ исторической отчётности, оценка волатильности ценных бумаг, трендов, корреляций. Я думаю, можно в целом сказать, что специализация в этой области невозможна без освоения эконометрики. А здесь уже довольно легко совершается переход от интерфейсных статистических пакетов к программированию, а там уже и к нейронкам. Хотя, что интересно, сугубо в анализе табличных данных нейросети применяются редко, классический ML (особенно деревья решений) там оказывается эффективнее.
– Ваша основная специальность - гуманитарная. Было ли сложно учиться? Что было самое сложное/интересное/неожиданное в процессе обучения?
– Обучение и правда было сложным. У меня были большие пробелы в математике, и, как выяснилось впоследствии, очень многое в школе нам давали на уровне заучивания правил, поэтому мне приходилось формировать целостное представление уже самостоятельно. Но это было крайне интересно, да и в сети сегодня можно найти сотни высококачественных обучающих роликов. С особой благодарностью я вспоминаю курсы 3Blue1Brown. В принципе я уверен, что большинство «чистых гуманитариев» на деле как минимум вполне способны освоить ключевые концепты высшей математики. И оценить красоту этой науки. Вопрос состоит в правильной подаче материала.
– Расскажите о своем проекте. Как к Вам пришла сама идея, как шла работа над ним, были ли сложности, какие потребовались дополнительные ресурсы?
– Идея моего проекта возникла из практических потребностей – я сам много работаю в архивах для кандидатской. И эта работа крайне осложняется тем, что у многих архивных коллекций нет аннотаций на сайте – помимо названия дела, у нас нет заведомого представления, что за материалы лежат внутри – будут ли они полезны для нашего исследования? Какие там упоминаются организации и исторические фигуры? Какие данные оттуда можно собрать? Всё это я узнаю, когда дело придет на руки. А количество дел в заказе ограничено, да и ждать их нужно несколько дней. Глобально мой проект посвящен всестороннему изучению перспектив использования нейросетей в архивном деле – в частности, для потокового создания архивных аннотаций.
Сейчас одним из главных направлений моего проекта стала оптимизация оптического распознавания (OCR) сканов исторических документов. Здесь уже решается другая проблема – многие электронные коллекции, выставленные на сайты электронных библиотек и архивов, содержат только сканы, что не дает использовать автоматический текстовый поиск по ключевым словам. А это было бы крайне удобно. Но современное ПО для распознавания все еще далеко от идеала, какое-то количество символов почти всегда распознается неправильно. И эту проблему я как раз и решаю в рамках текущего этапа проекта.

– В рамках кандидатской я дописываю ключевую главу, в которой как раз применяется event-анализ – я пытаюсь оценить статистически, как действия Государственного банка Российской империи влияли на динамику котировок акций промышленных компаний (и наблюдается ли это влияние вообще). В целом хотелось больше поработать с event-study в рамках социально-экономической истории – эмпирическая оценка влияния событий на динамику временных рядов выглядит крайне заманчиво для многих исторических задач. В рамках грантовой работы я сейчас провожу социальный опрос, в котором респондентам предлагается оценить, насколько вероятно, что представленное им описание исторического документа было сгенерировано ИИ. Кстати, приглашаю всех принять участие!
– Расскажите, пожалуйста, где сейчас научный фронтир в вашей области?
– Я думаю, что одной из важнейших проблем остается explainability моделей. И в контексте истории все еще остается туманным вопрос о том, как и насколько модели понимают временной контекст; как мы можем влиять на это понимание в процессе первичного обучения или последующего дообучения. Если говорить о применении классического ML, то здесь открывается целое раздолье: в социально-экономической истории до сих крайне редко используют ML-модели. А ведь есть, например, довольно очевидный подход, при котором мы обучаем модель предсказывать динамику какого-либо социального процесса – скажем, учим случайный лес предсказывать результаты выборов в парламент на уровне отдельных регионов; в рамках этой задачи стараемся получить наилучшее качество, а затем смотрим на важность признаков и пытаемся их проинтерпретировать в контексте эпохи. Немногие подобные исследования показывают, что это может быть очень продуктивно (подчеркну – мало исследований именно с ML-моделями, те же логистические регрессии в подобном контексте используются довольно часто). Определенные надежды возлагают на языковое моделирование больших нарративов – в последние несколько лет многие коллективы исследователей пытаются предложить эффективный подход для моделирования дискурсов с помощью текстовых эмбеддингов. И надо сказать, что эти попытки вызывают обоснованный скептицизм со стороны сугубо гуманитарных специалистов, но сама по себе эта полемика тоже, конечно, продуктивна как для NLP, так и для методологии гуманитарного знания.
Образовательные программы реализуются при поддержке Фонда Олега Дерипаска «Вольное дело».