Цель курса — это интеграция знаний, полученных студентами в ходе изучения теоретических и компьютерных дисциплин в единую систему, развитие практических навыков работы с современными инструментами компьютерной лингвистики, формирование опыта научно-исследовательской работы.
Планируемые результаты обучения:
1. Студенты научатся выявлять актуальные проблемы в области компьютерной лингвистики и формулировать проектные задачи.
2. Пройдут полный цикл реализации проектов: от первоначальной предобработки данных до анализа результатов и их интерпретации.
3. Получат опыт работы с большими наборами данных и анализу текстовой информации с использованием современных инструментов.
4. Сформируют навыки критической оценки как собственных проектов, так и результатов других исследователей, проводить тестирование, оценивать качество и точность разработанных систем.
5. Разовьют навыки публичного выступления и научной коммуникации в процессе презентации и защиты собственных проектов.
Курс разделен на три модуля:
- Первый модуль сфокусирован на описании задач, с которыми предстоит работать студентам.
- Целью второго модуля является создание базовой модели для решаемой задачи.
- Третий модуль направлен на улучшение базовой модели.
Для успешного прохождения курса, требуются знания:
- автоматической обработки текста
- линейной алгебры и математического анализа
- теории вероятности и математической статистики
- методов классического машинного обучения
- основ глубокого обучения
От слушателей также ожидается умение программировать на Python.
Темы, изучаемые в рамках курса
Тема 1. Введение в машинное обучение.
Тема 2. Обучение с подкреплением и глубокое обучение.
Тема 3. Обучающий датасет: принципы сбора данных и генерация синтетических данных.
Тема 4. Базовая модель и анализ ошибок.
Тема 5. Выбор модели: конвейеры.
Тема 6. Генерация признаков и дообучение.
Тема 7. Метрики и критерии оценки моделей.
Тема 8. Методы оптимизации модели.
Занятия проводятся на филологическом факультете МГУ им. М. В. Ломоносова, 1-й гуманитарный корпус, ауд. 950
В программе курса 18 занятий: 10 лекций и 8 семинаров
Формат проведения: оффлайн
Старт курса: 10 февраля 2025 года
График проведения занятий:
- третья и четвертая пары (с 13:00 до 16:10) 10, 24 февраля; 10, 17, 24, 31 марта и 7 апреля,
- пятая и шестая пары (с 16:20 до 18:30) 18 февраля и 4 марта.
Telegram курса