Цель курса «Основы обработки естественного языка технологиями искусственного интеллекта» - погружение бакалавров в актуальное для дальнейшего трудоустройства и изучения сферу. Курс рассчитан на студентов гуманитарных факультетов МГУ имени М.В. Ломоносова. Выпускники Курса (весна 2023 года) приняли участие во встрече c представителями разработчиков отечественных GPT технологий для студентов-гуманитариев, по итогам которой несколько человек прошли стажировку в компании Яндекс летом 2023 года. Например, 15 ноября 2023 года в рамках МФК «Большие языковые модели в гуманитарных исследованиях» (Авраменко А.П.) выпускница Курса 2023 года Загладила Ольга рассказала свою историю трудоустройства AI-тренером летом 2023 года. В ходе курса слушатели:
- получат знания о принципах оценки от Теста Тьюринга к современным бенчмаркам; основаниях философского эксперимента «Китайская комната»; принципах машинного перевода; принципах психометрического анализа поведения пользователя (в том числе в интерактивной среде обучения); техниках токенизации, лемматизации и векторизации текста; особенностях организации и инфраструктуры программного кода на Python; специфических характеристиках двух основных задач обработки текстов (классификации и распознавания именных сущностей, NER); особенностях архитектуры больших языковых моделей формата предобученных трансформеров;
- научатся осуществлять семантический анализ с помощью электронных корпусов; осуществлять базовые задачи по очистке текста (преобразование в нижний или верхний регистр, проверка орфографии, разметка частей речи); обращаться к открытому коду доступных языковых моделей для обработки текстов; интерпретировать результаты обработки текстов нейтронными сетями; оценивать инструменты машинного письменного и устного перевода;
- получат опыт работы со следующими программами и сайтами: Национальным корпусом русского языка; в среде программирования от Яндекс; с открытыми репозиториями отечественных разработчиков на github; с алгоритмами машинного перевода, а также инструментами Skell от SketchEngine, MyStem, GephiLite, etc.
Требования к студентам:
- знание основ языкознания;
- знание основ применения цифровых технологий в лингвистике.
Контроль осуществляется методом портфолио, состоящего из результатов практических заданий курса.
Темы, изучаемые в рамках курса
Тема 1. Технологии ИИ в корпусной лингвистике: новые возможности НКРЯ от 2023 года.
Тема 2. Технологии ИИ в когнитивной лингвистике: перспективы AGI (Artificial General Intelligence, Сильный искусственный интеллект).
Тема 3. Введение в программирование на Python: организация кода и использование виртуальных помощников для правки кода.
Тема 4. Базовая инфраструктура для обработки естественного языка и подготовка текстовых данных: токенизация, лемматизация, разметка частей речи и морфологический анализ.
Тема 5. Представление текста в многомерном пространстве: векторизация и визуализация.
Тема 6. Дистрибутивная семантика: задачи классификации текста (сравнение больших языковых моделей с открытым кодом).
Тема 7. Обучение без учителя: письменный машинный перевод и автоматизированный устный синхронный перевод.
Тема 8. Типы нейронных сетей, предобученные модели и трансформеры: особенности отечественных моделей.
Набор 2024
Занятия проводятся на факультете иностранных языков и регионоведения МГУ им. М. В. Ломоносова
В программе курса 16 занятий: 8 лекций и 8 семинаров-практикумов, а также 8 практических домашних заданий
Формат проведения: офлайн
Старт курса: 13 февраля 2024 года
Занятия будут проходить по вторникам с 13.00 до 14.30
Telegram
Набор на курс 2023/2024 года закрыт
Занятия проводятся на факультете иностранных языков и регионоведения МГУ им. М. В. Ломоносова
В программе курса 16 занятий: 8 лекций и 8 семинаров-практикумов, а также 8 практических домашних заданий
Формат проведения: офлайн
Старт курса: 13 февраля 2024 года
Занятия будут проходить по вторникам с 13.00 до 14.30
Telegram
Набор на курс 2023/2024 года закрыт