Аспирант факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова, победитель конкурса молодых ученых-2024 Юлий Васильев занимается исследованием и разработкой методов машинного обучения анализа выживаемости.
С момента получения грантовой поддержки от фонда «Интеллект» получено свидетельство о регистрации ПО - открытой библиотеки анализа выживаемости survivors.
Библиотека может быть использована широким кругом специалистов для анализа событий, а также экспертами конкретных прикладных областей.
Библиотека имеет открытый исходный код и предназначена для решения задач анализа выживаемости. В частности, на основе встроенных в библиотеку методов можно прогнозировать время и вероятность наступления события (для медицинских данных событием является летальный исход, рецидив болезни или выписка пациента), а также функцию выживания и риска (прогноз вероятности события для всех моментов времени).
Сейчас в библиотеку встроено 9 открытых медицинских наборов данных по анализу выживаемости (позже планируется добавить наборы и из других доменов: анализ надежности, CRM, биология, социология).
Для анализа данных реализованы существующие и предложенные методы построения прогнозных моделей (статистические и методы машинного обучения). Особенностью методов является применимость к реальным данным (с непрерывными и категориальными признаками, пропусками и цензурированием). Предложенные древовидные методы (деревья выживаемости и их ансамблей) позволяют строить качественные прогнозные модели без необходимости предварительной обработки данных. Сами методы можно разделить по целям: деревья выживаемости имеют меньшее качество, но позволяют интерпретировать зависимости в данных, а ансамбли нацелены на улучшение качества.
Еще в библиотеку встроено множество метрик качества: разделяются на точечные (оценивают качество точечных величин: времени и вероятности события) и интегральные (оценивают функции выживания и риска по всей временной шкале). В целом, в библиотеку встроены порядка 20 метрик, включая классические метрики и их модификации, определяющие равный вклад для всех событий.
Кроме того, в библиотеке реализованы классы для проведения экспериментальных исследований и сравнению качества моделей (с различными стратегиями валидации, метриками качества). В рамках исследования можно использовать как встроенные модели, так и собственные модели (обернутые в соответствующий интерфейс).
Построенные модели деревьев выживаемости могут быть использованы экспертами прикладных областей (врачами, системными администраторами, сотрудниками аналитического отдела банков и т.д.) для интерпретации зависимостей в данных без использования профессиональных знаний об искусственном интеллекте и машинного обучения.