Задание выполнил(а): (впишите свои фамилию и имя)
Внимание! Домашнее задание выполняется самостоятельно. При попытке сдать хотя бы частично списанный текст, или текст, полученный в результате совместного решения задач, вся работа будет оценена на 0 баллов. Мы также уведомим администрацию факультета и попросим применить дисциплинарное взыскание (предупреждение, выговор, отчисление) ко всем вовлеченным студентам.
Пусть дана выборка $x_1, \ldots, x_n$, все $x_i \in \mathbb R$ распределены как случайная величина $X$ и независимы в совокупности. $\mathbb E[X]<\infty$, $\mathbb D[X]<\infty$. Для фиксированного вектора $w\in \mathbb R^n$ и вектора $x=(x_1, \ldots, x_n)$ рассмотрим функцию $$\varphi_w(x)=\langle w, x \rangle.$$
(впишите решение сюда)
Рассмотрим следующую модель. Значения $x_1, \ldots, x_n \in \mathbb R^d$ фиксированы. Вектор $w \in \mathbb R^d$ фиксирован. Также фиксирован вектор $\sigma = (\sigma_1, \ldots, \sigma_n) \in \mathbb R^n$. Значения $y_i$ определяются следующим образом:
$$\newcommand{\eps}{\varepsilon}y_i = \langle w, x_i \rangle + \eps_i,$$где $\eps_i$ — независимые случайные величины, распределённые по нормальному закону, $\eps_i \sim \mathcal N(0, \sigma_i^2)$ (то есть у каждого $\eps_i$ своя дисперсия, равная $\sigma_i^2$, все $\sigma_i$ фиксированы и известны).
Подсказка. Для самопроверки можеет подставить в качестве вектора $\sigma$ постоянный вектор (все компоненты равны одному и тому же числу). Должны получиться формулы, которые доказывались на лекциях.
(впишите решение сюда)
Рассмотрим такую модель. Значения $x_1, \ldots, x_n \in \mathbb R$ — фиксированные числа, $\beta \in \mathbb R$ — фиксированное число, $\eps_i \sim \mathcal N(0, 1)$ — независимые случайные ошибки,
$$y_i = \beta x_i + \eps_i, \quad i = 1, \ldots, n.$$Пусть $\widehat \beta$ — МНК-оценка $\beta$ для данной модели. Для предсказания значения $y$ в точке $x_{new}$ используется следующий алгоритм:
$$\widehat y_{new} = \gamma \cdot \widehat \beta x_{new},$$где $\gamma \in \mathbb R$ — некоторая константа (не зависящая от $x_1, \ldots, x_n$ и $y_1, \ldots, y_n$).
(впишите решение сюда)
Гарри Поттер хочет найти философский камень, расположенный в точке минимума функции $f(x_1, x_2)=x_1^2 + x_2^2$. В момент времени 0 он стартует из точки $x^{(0)}=(2, 2)$. На $i$-й минуте Гарри мгновенно перемещается (аппарирует) из точки $x^{(i)}$ в точку
$$x^{(i+1)} = x^{(i)} - \eta \nabla f(x^{(i)}),$$где $\nabla f(x^{(i)})$ — градиент $f$ в точке $x^{(i)}$, $\eta \ge 0$ — фиксированное число. Опишите судьбу Гарри в зависимости от значения $\eta$. При каких значениях $\eta$ Гарри подойдёт к философскому камню сколь угодно близко? Сколько времени ему понадобится, чтобы подойти к философскому камню на расстояние не больше $\eps$?
(впишите решение сюда)
Маша, Неля и Катя решают задачу линейной регрессии. Данные у них одинаковые, в них $n$ наблюдений и два признака $x^{(1)}$ и $x^{(2)}$, а также вектор ответов $y$. Признаки имеют нулевое выборочное среднее и нулевую выборочную ковариацию. Маша находит вектор весов $(w^{М}_1, w^{М}_2)$ как МНК-оценку для задачи $y_i=w_1 x^{(1)}_i+w_2 x^{(2)}_i+\eps_i$. Неля решила выбросить второй признак и находит вес $w^{Н}_1$ как МНК-оценку для задачи $y_i=w_1 x^{(1)}_i + \eps_i$. Катя выбросила первый признак и находит вес $w^{К}_2$ как МНК-оценку для задачи $y_i = w_2 x^{(2)}_i + \eps_i$. Докажите, что $w^{М}_1 = w^{Н}_1$ и $w^{К}_2 = w^{М}_2$. Будет ли это верно в случае, если признаки будут по-прежнему иметь нулевое среднее, но окажутся скоррелированными (то есть не будут иметь нулевую ковариацию)?
(впишите решение сюда)
Николай решает задачу линейной регрессии $y_i=w_0 + w_1 x_i + \eps_i$. У него есть четыре наблюдения: $(1, 2)$, $(2, 3)$, $(4, 5)$ и $(5, 4)$ (в каждом наблюдении первая компонента — это x, вторая — y). Он решил исползовать hold-out кросс-валидацию, разбив свои данные на обучающую и тестовую выборку, в обучающую выборку попали первые два наблюдения, в тестовую — третье и четвёртое.
(впишите решение сюда)
Маша и Катя решают задачу линейной регрессии. Изначально у них одинаковый набор данных, состоящий из $n$ наблюдений $x_i$, $i=1, \ldots, n$ по $d$ признаков и вектора ответов $y=(y_1, \ldots, y_n)$. Признаки линейно независимы. Маша записала линейную модель
$$y_i = x^{(1)}_i w_1 + \ldots + x^{(d)}_i w_d + \eps_i.$$и стала искать МНК-оценку для $(w_1, \ldots, w_d)$. А Катя считает, что реальная зависимость между $y$ и признаками является нелинейной, поэтому она добавила новые признаки в модель (но не стала убирать старые). В качестве новых признаков она использовала различные линейные и нелинейные функции от старых признаков, которые ей приходили в голову. Таким образом, Катина модель выглядит так:
$$y_i = x^{(1)}_i w_1 + \ldots + x^{(d)}_i w_d + x^{(d+1)}_i w_{d+1} +\ldots + x^{(d+k)}_i w_{d+k}+\eps_i,$$где $x^{(d+1)}, \ldots, x^{(d+k)}$ — новые признаки, добавленные Катей. Она также ищет вектор весов с помощью метода наименьших квадратов.
После нахождения вектора весов каждая девушка вычислила RSS для своей модели (по обучающей выборке).
(впишите решение сюда)
У Александра есть вектор ответов $(y_1, \ldots, y_n)$, состоящий из $n$ различных чисел, причём $n$ нечётное число. Он хочет научиться предсказывать $y$ таким образом, чтобы минимизировать эмпирический риск для функции потерь $L(y, \widehat y)=|y-\widehat y|$, то есть минимизировать величину
$$Q(\widehat y)=\sum_{i=1}^n |y_i - \widehat y|.$$Одна проблема: Александр потерял матрицу признаков, поэтому вынужден использовать алгоритм, обучающийся только по ответам и предсказывающий во всех точках одно и то же число $\widehat y$. Как найти $\widehat y$ по набору чисел $y_1, \ldots, y_n$?
(впишите решение сюда)
Пусть числа $y_1, \ldots, y_n$ получены как выборка из нормального распределения $\mathcal N(\mu, \sigma^2)$ с неизвестными параметрами $\mu$ и $\sigma^2$. Мы хотим найти оценку наибольшего правдоподобия для $\mu$ и $\sigma^2$, то есть такие значения этих параметров, при которых функция правдоподобия
$$p(y_1, \ldots, y_n \mid \mu, \sigma^2)$$будет максимальной. На лекциях была найдена функция правдоподобия и показано, что оптимальное $\mu$ можно найти независимо от $\sigma^2$ и оно равно выборочному среднему. Завершите нахождение оценки наибольшего правдоподобия: найдите теперь оптимальное $\sigma^2$. Является ли полученная оценка несмещённой?
(впишите решение сюда)