Международный конкурс по биоинженерии проводится в Шэнчжене в Китае. В команду Team Moscow вошли 7 студентов бакалавриата и магистратуры кафедры биоинженерии биологического факультета МГУ: Михаил Бельский, Арина Блинова, Арина Авакянц, Максим Бова, Павел Олейников, Егор Пивоваров, Дмитрий Рябов во главе с Елизаветой Богдановой, автором курса от фонда «Интеллект» «Машинное обучение в биоинженерии» и Алексеем Константиновичем Шайтаном, д. ф.-м.н., профессор кафедры биоинженерии биологического факультета МГУ, чл.-корр. РАН решали трек Protein Design. В нем нужно с использованием методов ИИ предложить мутации в аминокислотной последовательности зеленого флуоресцентного белка GFP дикого типа, которые увеличат интенсивность его флуоресценции и термостабильность (он должен светиться не менее 5 мин при 68 С). По итогу команде участников необходимо было предложить 6 вариантов последовательности этого белка со внесенными мутациями. Далее в Китае организаторы конкурса в лаборатории будут синтезировать предсказанные нами белки и проверять их на флуоресценцию.
«На решение задачи у нас было меньше месяца. Мы начали с брейншторма и анализа исследований на тему флуоресценции GFP, термостабильности, существующих алгоритмов для рационального дизайна белков. На основе данного анализа мы подобрали 25 потенциальных позиций для внесения мутаций. В результате комбинаций всех возможных мутаций мы получили несколько миллионов вариантов последовательностей белка GFP, среди которых нужно было отобрать 6 лучших: с самой высокой интенсивностью флуоресценции и с достаточно высокой термостабильностью», – рассказала Елизавета Богданова, кандидат биологических наук, автор курса «Машинное обучение в биоинженерии».
Для решения этой задачи командой Team Moscow была написана нейронная сеть с ResNet подобной архитектурой, которая по итогу тестирования хорошо показала себя на данных, предоставленных организаторами конкурса. Для оценки функциональной термостабильности сгенерированных последовательностей GFP использовался комбинированный подход, включающий в себя как уже существующие передовые алгоритмы (TemBERTure и TemStaPRo), так и написанный нами ML-классификатор на основе анализа молекулярных дескрипторов, извлеченных из последовательности белка. Таким образом, команде удалось создать комплексный подход, который:
- учитывает экспериментальные данные, накопившиеся за всё время исследования GFP;
- адаптирует под конкретную научную задачу современные ИИ-алгоритмы;
- интегрирует в себе новые предсказательные модели (разработаны нами на основе подходов ИИ) для точной оценки флуоресценции и термостабильности всех предложенных мутантных вариантов последовательности GFP.
Команда Team Moscow отправила организаторам варианты последовательностей, написанный ими код для предсказания в архиве и описание работы. Результаты и победителей объявят в начале августа 2025 года.