Фонд «Интеллект»

Ученые МГУ создали платформу для расшифровки управляющих последовательностей ДНК

15.10.2024

Для победы в международных соревнованиях по машинному обучению DREAM 2022 по применению ИИ в биологии авторы применили методы глубокого обучения и выявили сложные связи между последовательностями ДНК и уровнем активности генов. Вместе с организаторами призеры соревнования провели исчерпывающий анализ решений, созданных в ходе конкурса, чтобы определить наиболее эффективный комбинированный подход.

Эта работа открывает новые возможности для ученых и биотехнологов в решении задач синтетической биологии и генной терапии, в том числе, дает возможность конструировать искусственные последовательности, определяющие активность генов.

Результаты исследования опубликованы в престижном журнале Nature Biotechnology. 

Расшифровка механизмов, управляющих активностью генов, остается одной из ключевых проблем современной молекулярной биологии и генетики. Например, до сих пор не до конца ясна «грамматика» регуляторных районов ДНК, включающих или выключающих гены при в различных условиях.

Прогресс в этой области сегодня исследователи связывают с развитием высокопроизводительных экспериментальных методов, генерирующих большие объемы данных, и методов искусственного интеллекта, позволяющими обобщать такие данные и выделять в них сложные закономерности.

За счет этого становится возможной детальная расшифровка правил грамматики - структуры «регуляторного кода», управляющего работой генов. В перспективе это позволит улучшить раннюю диагностику сложных заболеваний на основе индивидуальной последовательности генома пациента и разработать новые, более эффективные и безопасные подходы генной терапии.

Пока же вычислительное предсказание того, как определенные последовательности ДНК влияют на «экспрессию» (активность работы) генов, остается непростой задачей. Даже на базовом уровне на синтез РНК при прочтении гена совместно влияет множество факторов, в том числе, комбинаторные взаимодействия белков с ДНК и другими молекулами внутри клетки. Традиционные методы статистического анализа плохо справляются с выявлением сложных связей и зависимостей в нуклеотидных «текстах». Чтобы решить эту проблему, ученые обратились к использованию методов искусственного интеллекта, в частности, глубокого обучения. Эти подходы позволяют анализировать огромные объемы данных и учитывать сложные контекст-специфичные взаимодействия регуляторных белков - факторов транскрипции - и других механизмов.

«Используемые сейчас в геномике нейросети недостаточно оптимизированы под задачи предметной области. Используются либо слишком простые и устаревшие архитектуры и методы их обучения, игнорирующие современные достижения в области, либо наоборот, лишь недавно разработанные архитектуры, оптимизированные для решения узких задач компьютерного зрения и обработки естественных языков, и плохо учитывающие особенности геномного текста. Мы продвигаем идею, что для анализа управляющих областей генома лучше всего подходят компактные сверточные нейросети с современными оптимизациями. Мы разработали полносверточную архитектуру LegNet на основе сети EfficientNetV2, знаменитой минимализмом и вычислительной эффективностью. Для этой архитектуры мы подобрали правильный режим обучения и внимательно отнеслись к природе данных – совокупно это позволило далеко оторваться от конкурирующих решений. В ходе дальнейшего анализа удалось показать, что использование нашего подхода к обучению модели значительно улучшает и работу методов, предложенных другими участниками», — рассказал Дмитрий Пензар, преподаватель магистерской программы ФББ МГУ «Машинное обучение в биологии», поддерживаемой фондом «Интеллект» и научный сотрудник AIRI.

Нейросеть LegNet была разработана российскими учеными для предсказания экспрессии генов по регуляторным последовательностям ДНК во время участия в конкурсе DREAM 2022. В состав команды из России вошли студенты и преподаватели МГУ им. Ломоносова и академических институтов, включая Институт белка РАН (Пущино) и Институт общей генетики РАН (Москва).

Нейросеть обучали на большом массиве данных, содержащем миллионы коротких последовательностей «промоторов», т.е. некодирующих участков, управляющих началом синтеза матричной РНК с последовательности ДНК гена. Месяцы интенсивной работы позволили найти оптимальное решение для всего спектра задач конкурса.

Модель LegNet заняла первое место в конкурсе, обогнав конкурентов как в общем зачете, так и во всех отдельных номинациях, включая оценку эффектов однонуклеотидных мутаций, что особенно важно с точки зрения перспектив использования таких нейросетей в задачах для персонализированной медицины.

После подведения итогов конкурса авторам лучших решений из России, Южной Кореи и США совместно с канадскими организаторами потребовалось два года чтобы провести детальный анализ результатов. Каждую из предложенных нейросетей разобрали на отдельные блоки, изолировали ключевые идеи по обучению моделей и подготовке данных, и собрали различные комбинации из элементов решений различных участников. Выяснилось, что определенные сборки из конструктора - различные комбинации модулей - действительно помогают в решении конкретных задач по анализу регуляторных районов генома, хотя в изначальной задаче конкурса превзойти российскую разработку - LegNet - так и не удалось.