1) Вводные сведения об особенностях естественного языка, этапах и сложностях обработки текста, применяемых подходах. Сегментация и токенизация текста: методы и средства, виды токенизации.
2) Автоматический морфологический анализ и синтез словоформ. Виды морфоанализа, разрешение морфологической омонимии. Современные морфологические процессоры и их функции.
3) Статистика текстов и статистическая языковая модель. Корпуса текстов, их особенности и применение. N-граммная языковая модель: построение, оценка качества и возможные приложения. Понятие коллокации, меры ассоциации для их распознавания.
4) Основные подходы к синтаксическому анализу предложений. Виды синтаксических связей. Синтаксическая сегментация. Синтаксические парсеры на правилах и на базе машинного обучения, способы их построения и оценки.
5) Локальный семантический анализ, модели представления семантики предложений. Задача разметки семантических ролей и методы ее решения. Дискурсивный анализ связного текста и его средства.
6) Модели дистрибутивной семантики, векторные представления слов. Построение счетной модели, разреженные вектора слов, особенности векторного пространства слов. Нейросетевые модели Word2vec и FastText: принципы обучения, свойства векторного пространства слов.