Цель курса – дать интегральное представление о методах и технологиях автоматической обработки текстов на естественном языке, включая традиционные инженерные и современные нейросетевые методы, применяемые для решения широкого круга прикладных задач компьютерной лингвистики (КЛ). Рассматриваемые задачи охватывают: машинный перевод, генерацию и реферирование текстов, анализ тональности, моделирование человеко-машинного диалога, извлечение информации и знаний из текста. Изучение теоретического материала подкрепляется семинарскими занятиями, а также домашними заданиями на изучение компьютерных моделей и инструментальных средств, а также по программированию на их основе прикладных систем.
В ходе курса слушатели:
- ознакомятся с проблемами, возникающими при создании систем анализа и синтеза текстов, и путями их решения на базе современных технологий;
- получат представление о лингвистических ресурсах (текстовых коллекциях и корпусах, машинных словарях), необходимых для построения приложений КЛ;
- познакомятся в теории и на практике с основными методами и инструментами поуровневой обработки текста, включая модели морфологического, синтаксического и семантического анализа;
- узнают принципы обучения и применения нейросетевых языковых моделей и особенностями порождаемых ими векторных представлений слов языка;
- познакомятся с различными подходами к решению типичных прикладных задач КЛ и получат практический опыт в применении программных средств и лингвистических ресурсов для разработки конкретной прикладной системы.
Курс предусматривает несколько домашних заданий на изучение современных инструментов и систем компьютерной лингвистики и их применение для программирования выбранной прикладной задачи обработки текстов. Также курс включает одну письменную контрольную работу по теоретическим вопросам.
Требования к студентам:
- базовые знания в области дискретной математики, теории вероятностей и математической статистики;
- знание основ языка программирования Питон
Темы, изучаемые в рамках курса:
Основы обработки текстов на естественном языке
1) Вводные сведения об особенностях естественного языка, этапах и сложностях обработки текста, применяемых подходах. Сегментация и токенизация текста: методы и средства, виды токенизации.
2) Автоматический морфологический анализ и синтез словоформ. Виды морфоанализа, разрешение морфологической омонимии. Современные морфологические процессоры и их функции.
3) Статистика текстов и статистическая языковая модель. Корпуса текстов, их особенности и применение. N-граммная языковая модель: построение, оценка качества и возможные приложения. Понятие коллокации, меры ассоциации для их распознавания.
4) Основные подходы к синтаксическому анализу предложений. Виды синтаксических связей. Синтаксическая сегментация. Синтаксические парсеры на правилах и на базе машинного обучения, способы их построения и оценки.
5) Локальный семантический анализ, модели представления семантики предложений. Задача разметки семантических ролей и методы ее решения. Дискурсивный анализ связного текста и его средства.
6) Модели дистрибутивной семантики, векторные представления слов. Построение счетной модели, разреженные вектора слов, особенности векторного пространства слов. Нейросетевые модели Word2vec и FastText: принципы обучения, свойства векторного пространства слов.
Прикладные задачи и технологии их решения
7) Векторизация текстов на базе статистики для классификации и кластеризации документов текстовой коллекции. Показатель tf-idf. Меры близости (схожести) текстов. Машинное обучение для классификации и кластеризации текстов и текстовых объектов, способы оценки качества.
8) Машинный перевод (МП) как ключевая прикладная задача: стратегии и поколения систем. Технологии статистического МП. Применение нейросетевой модели seq2seq, возникновение архитектуры Transformer. Оценки качества систем МП.
9) Рекуррентные нейронные сети для построения контекстуализированных векторных представлений слов и их недостатки. Нейросетевые языковые модели на основе архитектуры Transformer. Энкодерная модель BERT: особенности обучения и применения.
10) Автоматическая генерация текстов документов: стратегии и возможности. Генерация текстов на основе шаблонов и правил. Генеративные нейросетевые модели семейства GPT, их применение для генерации текстов.
11) Задачи извлечения информации из текстов: подходы и виды извлекаемых данных. Решение задачи как разметки последовательностей на базе машинного обучения. Особенности задачи оценки тональности текста, аспектный анализ мнений.
12) Автоматическое реферирование и аннотирование документов. Виды аннотаций и рефератов, стратегии их построения: экстрагирование и абстрагирование. Статистические методы экстрагирования. Абстрагирование на основе нейросетевых моделей.
13) Вопросно-ответные системы и разговорные агенты (чат-боты). Виды вопросно-ответных систем, стратегии анализа вопросов, ведения диалога и построения ответов. Методы построения чат-ботов. ChatGPT: особенности обучения и применения.
Набор 2024
Занятия проводятся в ауд. 526-б, 524 (2ой ГУМ) на факультете вычислительной математики и кибернетики МГУ им. М. В. Ломоносова
В программе курса 15 занятий: 13 лекций и 12 семинаров
Формат проведения: офлайн
Старт курса: 8 февраля 2024 года
Занятия будут проходить по четвергам: лекция с 12:50 до 14.20, семинар с 14.35 до 16:10
Набор на курс 2023/2024 года закрыт
Занятия проводятся в ауд. 526-б, 524 (2ой ГУМ) на факультете вычислительной математики и кибернетики МГУ им. М. В. Ломоносова
В программе курса 15 занятий: 13 лекций и 12 семинаров
Формат проведения: офлайн
Старт курса: 8 февраля 2024 года
Занятия будут проходить по четвергам: лекция с 12:50 до 14.20, семинар с 14.35 до 16:10
Набор на курс 2023/2024 года закрыт