1. Знакомство с R и RStudio. Организация рабочего пространства: создание проектов, скриптов, отчетов в RMarkdown, работа с переменными. Основной тип данных - вектор, индексация. Способы создания векторов, срезы. Типы данных. Матрицы. Базовые показатели описательной статистики (min, max, mean, median). Индексы и значения. Получение справочной информации
2. Данные прямоугольного типа - таблицы. Создание таблиц из командной строки. Структура и особенности табличных данных. Чтение таблиц из файлов разных форматов. Запись таблиц в файлы. Манипуляция с данными с помощью базового R. Which. Работа с пропущенными данными. Списки. Циклы. Функции семейства apply
3. Установка пакетов и подключение библиотек. Tidyverse. Логика пакетов tidyverse, отличие от базового R. tibble vs data.frame. Создание tibble. Основные манипуляции с данными табличного типа с помощью dplyr. Работа с группами. Чтение и запись tibble в файлы разного формата. Использование конвейера в базовом варианте и в tidyverse
4. Работа со строками - stringr. Регулярные выражения. Работа с факторами - forcats. Ggplot2 - логика построения послойного графика. График рассеяния, столбчатая диаграмма. Настройки параметров графика. Широкий и длинный формат данных. Работа с цветом, формой, прозрачностью. Сохранение графика в файлы разного формата
5. Ggplot2 - продолжение. Типы графиков - линейный, гистограмма, круговая диаграмма, пузырьковая диаграмма, распределение плотности, “ящик с усами”, скрипичная диаграмма, raincloud. Добавление на график дополнительных данных. Объединение нескольких таблиц. Использование метаданных. Продвинутые методы работы с табличными данными с dplyr и tidyr
6. Свойства нормального распределения и центральная предельная теорема. Что такое статистика и зачем она нужна. Генеральная совокупность и выборка. Разница между оценкой параметра и его реальным значением. Репрезентативность выборки. Что такое разведочный анализ данных и как его делать. Гипотеза H0 и альтернатива. Отличия. Как при помощи вычислительных симуляций оценить достоверность гипотезы. Ошибка первого и второго рода. P-value и уровень значимости. z-тест и тест Стьюдента. Условия применения. Одновыборочный и двухвыборочные тест Стьюдента
7. Разница между парным и двухвыборочным тестом Стьюдента. Тест хи-квадрат, тест Фишера. Непараметрические тесты
8. Написание собственных функций. Построение функций, параметры функций, значения по умолчанию. Функциональное программирование (семейство функций map). Обработка исключений (handling exceptions/errors). Импорт функций из файла. Создание R скриптов, принимающих на вход несколько переменных
9. Ggplot2 и не только. Гистограмма с несколькими осями. Сетка графиков. Составление панелей из графиков. Теплокарты простые и сложные. Визуализация потоков. Визуализация сетей. Особенности подготовки рисунка к публикации или презентации
10. Основы и логика Quarto. Создание интерактивных визуализаций и настраиваемых отчетов
11. Создание и использование интерактивных дашбордов
12. Проблема множественного тестирования. Методы борьбы с проблемой множественного тестирования. FDR и FWER. Чем является и чем не является корреляция. Корреляция
13. ANOVA. Введение в регрессионный анализ