Большие языковые модели (LLM) стали важным направлением в области искусственного интеллекта и компьютерной лингвистики. Они используются для генерации текста, перевода, ответов на вопросы и многих других задач обработки естественного языка. Современные LLM, такие как GPT-3, LLaMa, Mistral могут генерировать связные и качественные тексты. Одним из типичных сценариев использования LLM являются вопросно-ответные системы, в которых языковая модель выступает в качестве эксперта для ответа на вопросы пользователя. Однако, в порожденных моделью ответах на вопросы встречаются так называемые галлюцинации - случаи генерации выдуманных фактов, событий и концепций. Помимо этого существует взаимосвязанная проблема отсутствия нужных знаний в модели. Одним из способов борьбы с этими проблемами является использование информационно-поисковых систем, из которых извлекаются релевантные вопросу фрагменты текста, которые подаются в качестве подсказки / помощи в языковые модели. По этим причинам, в курсе будут рассмотрены современные подходы к информационному поиску и поиску ответов на вопросы на основе LLM, а также современная технология комбинирования LLM и информационного поиска Retrieval Augmented Generation (RAG).
Основная цель курса — предоставить студентам знания как в теоретических основах, архитектуре, так и методах обучения и применении больших языковых моделей. Курс содержит существенную практическую составляющую и направлен на то, чтобы студенты смогли:
1. Понять принципы работы трансформеров;
2. Освоить методы применения, обучения и тонкой настройки LLM на различных задачах обработки естественного языка;
3. Изучить способы комбинирования информационного поиска и LLM в задаче генерации ответов на вопросы, в частности технологию Retrieval Augmented Generation (RAG);
4. Разработать собственные проекты с использованием LLM и оценить их эффективность.
Требования к студентам:
- Базовые знания machine learning;
- Базовые знания deep learning, pytorch;
- Базовые знания natural language processing;
- Python.
Темы, изучаемые в рамках курса
Занятие 1: Предпосылки появления механизма attention: lstm, seq2seq, задача перевода (лекция)
Занятие 2: Механизм attention, архитектура трансформер (лекция)
Занятие 3: BERT и методы работы с ним (лекция)
Занятие 4: Эмбеддинги предложений, Sentence BERT (лекция)
Занятие 5: Векторные базы данных (лекция)
Занятие 6: От GPT до ChatGPT (лекция)
Занятие 7: Методы работы с llm: промптинг, prompt-tuning, адаптеры, квантизация (лекция)
Занятие 8: Методы дообучения LLM: finetuning, LoRa (лекция)
Занятие 9: Методы обучения LLM: виды параллелизма, deepspeed, fsdp (лекция)
Занятие 10: Retrieval Augmented Generation (RAG) (лекция)
Занятие 11: RAG на примере создания чатбота по материалам курса (лекция)
Занятие 12: Практическое занятие по созданию собственного чатбота по выбранной предметной области (семинар)
Набор 2024
Занятия проводятся в ауд. 607 (2ой ГУМ) на факультете вычислительной математики и кибернетики МГУ им. М. В. Ломоносова
В программе курса 12 занятий: 11 лекций, 1 семинар, а также 5 практических домашних заданий
Формат проведения: офлайн
Старт курса: 15 февраля 2024 года
Занятия будут проходить по четвергам с 18:00 до 19:35
Набор на курс 2023/2024 года закрыт
Занятия проводятся в ауд. 607 (2ой ГУМ) на факультете вычислительной математики и кибернетики МГУ им. М. В. Ломоносова
В программе курса 12 занятий: 11 лекций, 1 семинар, а также 5 практических домашних заданий
Формат проведения: офлайн
Старт курса: 15 февраля 2024 года
Занятия будут проходить по четвергам с 18:00 до 19:35
Набор на курс 2023/2024 года закрыт