«Доверенный ИИ» — это некий недостижимый в реальном мире идеал»

27.09.2024

Евгений Ильюшин, преподаватель магистерской программы «Искусственный интеллект в кибербезопасности», поддерживаемой фондом на ВМК МГУ, выступил на IV встрече экспертного сообщества по криптографии и большим данным, организованной компанией «Криптонит» и посвященной доверенному ИИ.

В ходе встречи эксперты обсудили множество направлений разработки, обучения и ответственного использования систем искусственного интеллекта. Сотрудник кафедры информационной безопасности факультета ВМК МГУ Евгений Ильюшин выразил мнение, что «доверенный искусственный интеллект» — это некий недостижимый в реальном мире идеал. Для его создания пришлось бы доверять всем элементам ИИ на всех уровнях. Оснований для такого безоговорочного доверия нет, и вряд ли они вообще возможны за пределами абстрактной модели. Поэтому на практике целесообразнее оценивать надежность ИИ по каким-то исчисляемым и проверяемым параметрам.

Сейчас ИИ оценивают, используя статистические, формальные и эмпирические критерии. В большинстве случаев применяют статистические оценки, такие как точность, полнота, F-мера и т. д. Однако в последнее время стало очевидно, что таких оценок недостаточно. Необходимо дополнительно применять формальные оценки, а также эмпирические (AI Red Teams). То есть, необходимо выполнять комплексную оценку надежности ИИ-систем, которая включает в себя все вышеперечисленные подходы.

Именно такую и разработал эксперт. Она состоит из шести тестов, по каждому из которых результат можно выразить в долях единицы (или в процентах):

оценка качества на исходном распределении;
оценка устойчивости к сдвигам в распределении;
оценка устойчивости к состязательным атакам;
оценка неопределенности (энтропии);
оценка интерпретируемости;
способность системы детектировать выход из распределения.

В зависимости от конкретной задачи результатам по каждому тесту присваиваются разные весовые коэффициенты, а затем вычисляется общий показатель надежности оцениваемой системы ИИ. Предположим, «надежность» означает способность ИИ предсказуемо работать и корректно обрабатывать возникающие в процессе ее работы ошибки. Последнее свойство часто называют устойчивостью (robustness). Очевидно, что никакая система не может быть устойчива к возникновению любых ошибок. Поэтому в функциональной безопасности определение свойства устойчивости похоже на те определения, которые нам известны из математики: устойчивость по Лившицу, или по Ляпунову. Его суть заключается в том, что небольшие изменения данных на входе не должны приводить к значимым искажениям на выходе.

Имеющиеся на рынке продукты с ИИ не всегда удовлетворяют этим требованиям. Например, некоторые системы кредитного скоринга можно заставить выдать ошибочный кредитный рейтинг, осуществив небольшую манипуляцию с входными данными, заметить которую сложно.

Почему так происходит? Большая часть атак на системы ИИ выполняется именно на уровне данных. При этом надежность модели машинного обучения оценивается исходя из заведомо ложного условия: данные в тренировочной, валидационной, тестовой и рабочей выборках распределены одинаково и независимо. В реальности модели, как правило, обучаются на данных с одним распределением, а работают уже с другим, и этот сдвиг распределения никак не учитывается.

«При оценке надежности систем ИИ нужно смотреть, как они сохраняют устойчивость при разных типах сдвига и способны ли вообще детектировать выход из распределения. Он отметил, что на сегодня в машинном обучении нет надежных способов обнаружить ошибку. Если классическое ПО в случае сбоя выдаст исключение или перестанет работать, то ИИ попытается продолжить работу с любыми данными, которые вы ему дадите», — считает Евгений Ильюшин.