Обработка естественного языка включает различные задачи: информационный поиск, анализ тональности, машинный перевод, построение вопросно-ответных систем, определение эмоций, исправление опечаток. Наиболее современным подходом для их решения является использование методов машинного обучения: классических алгоритмов (логистическая регрессия, метод случайного леса), рекуррентных нейронных сетей (долгой краткосрочной памяти, с управляемым рекуррентным блоком), моделей на основе архитектуры Трансформер (автоэнкодерных, генеративных). Современные исследования в области обработки текстов обязательно содержат сравнение нескольких методов. Большие языковые модели ожидаемо показывают более высокое качество, чем алгоритмы классического машинного обучения. Однако вместе с качеством возрастает и требуемый объем вычислительных мощностей. Выбор оптимального метода для решения практической задачи зависит от множества факторов, таких как постановка задачи, метрики оценивания, доступность вычислительных ресурсов, объем обучающих данных.
Таким образом, умение всесторонне проанализировать задачу и выбрать предпочтительный метод машинного обучения является незаменимым навыком для специалиста по автоматической обработке текста.
Цель курса – сформировать практические навыки применения машинного обучения в задачах обработки текстов. Он состоит из двух модулей, в каждом из которых будет подробно рассмотрена определенная задача компьютерной лингвистики. Синтаксический модуль посвящен автоматической оценке приемлемости предложений, семантический – автоматическому распознаванию эмоций в тексте. Мы проанализируем, как эти задачи решаются в существующих исследованиях, разберем предложенные в статьях наборы данных и методы. В конце каждого модуля необходимо будет выполнить проектное задание: для одного из рассмотренных исследований предложить и применить новый метод решения задачи.
Требования к студентам:
- автоматической обработки текста
- программирования на Python
- линейной алгебры и математического анализа.
Темы, изучаемые в рамках курса
- Задачи автоматического анализа текстов
- Алгоритмы машинного обучения для обработки текстов
- Классификация предложений по приемлемости
- Корреляция между приемлемостью и вероятностью
- Прицельная синтаксическая оценка языковых моделей
- Пробинг языковых моделей
- Классификация эмоций в тексте
- Распознавание эмоций в контексте диалога
- Классификация эмоций для русского языка
- Генерации текста с эмоциональной окраской
Занятия проводятся в ауд. 953 (1 ГУМ) на филологическом факультете МГУ им. М. В. Ломоносова
В программе курса 16 занятий (по 2 ак/ч): 8 лекций и 8 семинаров
Формат проведения: возможно как очное, так и дистанционное участие
Старт курса: 13 сентября
Занятия будут проходить 1 раз в неделю по средам в 9:00
Записаться на курс и задать вопросы можно по почте xeanst@gmail.com (Ксения Андреевна Студеникина)
Набор на курс 2023 года закрыт