Фонд «Интеллект»

Победитель конкурса грантовой поддержки молодых ученых фонда «Интеллект» зарегистрировал ПО - открытой библиотеки анализа выживаемости survivors

02.12.2024

Аспирант факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова, победитель конкурса молодых ученых-2024 Юлий Васильев занимается исследованием и разработкой методов машинного обучения анализа выживаемости.

Область анализа выживаемости основана на идее описания и прогнозирования наступления событий. В такой постановке можно решать множество интересных и необычных прикладных задач. Например, в качестве события часто рассматривается исход болезни пациента, поломка оборудования или отказ клиента от услуг. Главная задача - на основе первичных признаков определить, как будет изменяться риск наступления события с течением времени. Также модели выживаемости работают с цензурированными наблюдениями, для которых не известно точное время наступления события.

С момента получения грантовой поддержки от фонда «Интеллект» получено свидетельство о регистрации ПО - открытой библиотеки анализа выживаемости survivors

Библиотека может быть использована широким кругом специалистов для анализа событий, а также экспертами конкретных прикладных областей.

Библиотека имеет открытый исходный код и предназначена для решения задач анализа выживаемости. В частности, на основе встроенных в библиотеку методов можно прогнозировать время и вероятность наступления события (для медицинских данных событием является летальный исход, рецидив болезни или выписка пациента), а также функцию выживания и риска (прогноз вероятности события для всех моментов времени).

Сейчас в библиотеку встроено 9 открытых медицинских наборов данных по анализу выживаемости (позже планируется добавить наборы и из других доменов: анализ надежности, CRM, биология, социология).

Для анализа данных реализованы существующие и предложенные методы построения прогнозных моделей (статистические и методы машинного обучения). Особенностью методов является применимость к реальным данным (с непрерывными и категориальными признаками, пропусками и цензурированием). Предложенные древовидные методы (деревья выживаемости и их ансамблей) позволяют строить качественные прогнозные модели без необходимости предварительной обработки данных. Сами методы можно разделить по целям: деревья выживаемости имеют меньшее качество, но позволяют интерпретировать зависимости в данных, а ансамбли нацелены на улучшение качества.

Еще в библиотеку встроено множество метрик качества: разделяются на точечные (оценивают качество точечных величин: времени и вероятности события) и интегральные (оценивают функции выживания и риска по всей временной шкале). В целом, в библиотеку встроены порядка 20 метрик, включая классические метрики и их модификации, определяющие равный вклад для всех событий.

Кроме того, в библиотеке реализованы классы для проведения экспериментальных исследований и сравнению качества моделей (с различными стратегиями валидации, метриками качества). В рамках исследования можно использовать как встроенные модели, так и собственные модели (обернутые в соответствующий интерфейс).

Построенные модели деревьев выживаемости могут быть использованы экспертами прикладных областей (врачами, системными администраторами, сотрудниками аналитического отдела банков и т.д.) для интерпретации зависимостей в данных без использования профессиональных знаний об искусственном интеллекте и машинного обучения.