С. Крыжевич, "Методы регрессионного анализа и основы теории машинного обучения"

Телеграм канал курса
В рамках этого курса планируется рассказать ряд дополнительных глав
математической статистики (знание базового курса теории вероятностей и
математической статистики является желательным, но не обязательным).
В первую очередь, внимание будет уделяться разделам, имеющим отношение к
теории машинного обучения.
Предполагается также изложить введение в язык R и обсудить ряд пакетов этого
языка, связанных с обсуждаемыми в рамках курса методами регрессии.
Начальная часть курса рассчитана на 10 лекций, однако при наличии
заинтересованных слушателей возможно продолжение (ориентировочно, ещё 10
лекций). Планируется изложить следующий материал - он соответствует двум семестрам.
Желательное время начала курса - первая или вторая неделя октября. Формат - онлайн в Zoom или MSTeams.
Можно обсудить и другие возможности. Планируется организовать телеграмм - канал, куда будут выкладываться записи и слайды лекций, там же возможно обсуждение.
Теоретическая часть курса.
- Задачи статистики и условные распределения.
- Теория Вапника - Червоненкиса, размерность VC, примеры, меры сложности.
- Деревья решений (классификационные и регрессионные деревья).
Оценочные функции для деревьев решений и из конструкции. Случайные леса. - Теорема Гливенко-Кантелли и её обобщения с точки зрения размерности
Вапника-Червоненкиса. - Функции регрессии. Оценивающие функции.
- Неравенство Хёфдинга. Независимые выборки.
- Неравенства Беннета, Прохорова и Бернштейна.
- Теоремы о распределении матриц и их применения.
- Пространства состояний и статистические пространства, их примеры.
- Статистика: случайные величины, терминология и основные факты.
- Неравенство Шварца.
- Неравенство Крамера - Рао.
- Информация Фишера.
- Достаточные статистики и их связь с информацией Фишера.
- Лемма Неймана - Пирсона.
- Информационное неравенство.
- Метод максимального правдоподобия и соответствующие уравнения.
- Связь между информационным неравенством и методом максимального
правдоподобия. - Свойства метода максимального правдоподобия (центральная предельная
теорема и слабая сходимость). - Дивергенция (информационное расхождение) Кулбака - Лейблера.
Практическая часть курса
- Методы для нормально распределенных наблюдений. Смешанные методы.
- Отбор переменных в методе линейной регрессии. Объясняющие
переменные. - Перекрёстная проверка (cross validation).
- Дилемма смещения-дисперсии (bias-variance tradeoff).
- Обобщённые линейные модели.
- Логистическая регрессия. Алгоритм Ньютона - Рафсона.
- Гребнёвая регрессия (ridge regression).
- Регрессия LASSO.
- Регрессия эластичной сети (elastic net regression).
- Линейная регрессия - методы максимального правдоподобия и наименьших
квадратов. - Методы MANOWA и GMANOWA.
- Метод LARS.
- Алгоритм EM (Expectation - Maximalization).
- Вейвлеты и непараметрические оценки.
- Нейросети.
- Алгоритм t-SNE.
- Методы неконтролируемого обучения: анализ главных компонент (PCA).
- Обобщённые аддитивные модели (GAM): сплайн-функции, кубические
сплайны. - Алгоритм MARS, сглаживающие сплайны, локальная регрессия.
- Критерий Акаике.