Notebook

Лабораторная работа 2¶

Общая информация¶

Дата выдачи: 09.02.2016

Срок сдачи: 1.03.2016 09:00MSK

О задании¶

Лабораторная работа №2 направлена на реализацию одного из методов решения задачи линейной регрессии.

Оценивание и штрафы¶

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 10 баллов. Обратите внимание, что только за реализацию функций без подтверждения их корректной работы оценка выставляться не будет.

Сдавать задание после указанного срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить задание на указанных в ответном письме условиях.

Задание выполняется САМОСТОЯТЕЛЬНО. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий в открытом источнике, необходимо прислать ссылку на этот источник (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Если вы будете решать задание на виртуальной машине, учтите, что его могут видеть все. К тому же недоступность виртуальной машины не является уважительной причиной для продления дедлайна.

Формат сдачи¶

Для сдачи задания переименуйте получившийся файл *.ipynb в соответствии со следующим форматом: Username_(group)_Lab2.ipynb, где Username — ваша фамилия на латинице, group — название группы (например, Kozlova_IAD-11_Lab1.ipynb). Далее отправьте этот файл на используемую в Вашей группе почту курса (hse.minor.dm@gmail.com) c темой письма [ИАД-NN] - Лабораторная работа 2 - Фамилия Имя Отчество.

Задание¶

Постановка задачи¶

В данном задании вам будет предложено реализовать метод градиентного спуска для задачи линейной регрессии. Подробное описание самого метода можно найти в материалах лекций и семинаров.

Задание будет состоять из двух частей: вам будет необходимо реализовать градиентный спуск и протестировать его на небольших данных, после чего решить задачу линейной регрессии для реальных данных.

Во всех частях задания будет использоваться квадратичный функционал качества:

$$Q(w) = \sum_{i=1}^l(\langle w, x_i \rangle - y_i)^2$$

Вспомогательные функции¶

Для начала вам необходимо будет реализовать вспомогательные функции:

q_grad(X, y, w) — функция, принимающая на вход X — матрицу "объекты-признаки", y — столбец ответов, и w — вектор весов и возвращающая усредненное по всем элементам выборки значение градиента для квадратичной функции потерь
const_step(iter) — функция, возвращающая констатный размер шага
decreasing_step(iter) — функция, которой передается номер итерации и размер шага, обратно пропорциональный номеру итерации (обратите внимание, чтобы в данном месте не происходило деления на 0)

Далее реализуйте функцию градиентного спуска grad_descent(X, y, w, step, grad, iters), параметры которой:

X — матрица "объекты-признаки"
y — ответы на объектах
w — начальное значение вектора весов
step — одна из функций const_step или decreasing_step.
grad — функция q_grad
iters — максимальное число итераций

Функция должна находить последовательно оптимальный вектор методом градиентного спуска, пока не будет выполнено хотя бы одно из условий:

достигнуто заданное количество итераций
евклидова норма разности текущего и нового векторов весов стала меньше чем 1e-5

Функиця должна возвращать два параметра:

обученный вектор весов
качество модели на каждой итерации обучения

Обратите внимание, что реализация не должна напрямую зависеть от числа признаков (чтобы ее можно было использовать в дальнейшем).

Задачи¶

(4 балла) Линейная регрессия. Отладка градиентного метода

Сгенерируйте 200 точек с помощью функции generate_linear_data, на вход которой передается количество точек.

 def generate_linear_data(n):
     np.random.seed(42)
     x = np.linspace(0, 10, n) + np.random.normal(0, 3, n)
     y = 2 * x + 5 + np.random.normal(0, 2, n)
     return x, y

Протестируйте вашу реализацию на сгенерированных точках. Не забудьте добавить констатный признак к данным (вы же помните, что мы хотим найти уравнение вида y = ax + b?). Ограничьте количество итераций 10000. Начальный вектор весов — нулевой. Протестируйте обе функции: const_step и decreasing_step что они работают корректно. Для функции const_step подберите оптимальный шаг из списка [1.0, 0.1, 0.01, 0.001]. Оптимальным шагом в данном случае будем считать тот, на котором достигается наименьшее значение квадратичного функционала качества. Обратите внимание, что в решении должны присутствовать код и комментарии, по которым можно понять как вы подобрали оптимальный шаг.
Для оптимального шага из предыдущего пункта постройте два графика:

зависимость качества модели от номера итерации (обратите внимание, что качество должно убывать)
на котором будут изображены сгенерированные точки, а так же предсказанная линия

Для построения графиков можно воспользоваться функциями scatter и plot.

Как понять что ваша реализация работает корректно?

значение функционала качества с ростом числа итераций уменьшается
получается адекватный график, который очень похож на график выше
вектор весов +/-напоминает вектор (2, 5) (скорее всего вы не получите точно этого значения, однако получившийся вектор весов должен быть примерно близок к нему)

Если не выполнено хотя бы одно из этих условий, то рекомендуется больше времени уделить этой части задания, пока все пункты не будут выполнены.

Выставление баллов по этому заданию:

написанная реализация работает корректно и не зависит напрямую от количества признаков — 2 балла
подобран оптимальный шаг и есть код и комментарии, подтверждающие это — 1 балл
построен график зависимости качества от номера итерации — 0.5 балла
построен график предсказанной линии — 0.5 балла

(6 баллов) Предсказание качества вина

Загрузите с помощью pandas набор данных wines_quality.csv. Этот датасет содержит некоторые химические свойства вина, а также оценку качества, данную экспертом. Список признаков, с которыми вам нужно будет работать:

type — тип вина (красное/белое)
volatile acidity
citric acid
residual sugar
chlorides
free sulfur dioxide
other sulfur dioxide
total sulfur dioxide
density
pH
sulphates
alcohol

А также quality — эмпирическая оценка (от 0 до 10), которую необходимо предсказать. 2. Преобразуйте данные к типу numpy.array (поле values у датафрейма) и сразу же к типу np.float32 (функция astype(np.float32)). 3. Выделите целевую переменную, которая находится в последней колонке, в переменную y, а все признаки — в numpy.array X. 4. Убедитесь, что среди признаков нет зависимых. Если вы нашли такие признаки, то удалите их. 5. Запустите градиентный спуск для данной выборке при максимальном числе итераций 10000. Начальный вектор весов — нулевой. Попробуйте разный шаг: константный в интервале [0.001, 0.0001, 0.00001, 0.000001], а так же убывающий с номером итерации. 6. Найдите при каком шаге достигается наименьшее значение функционала качества и постройте график зависимости качества от номера итерации. 7. Какой признак имеет наибольший вес для наилучшей модели? 8. Посчитайте корреляцию Пирсона для исходных данных (для этого можно воспользоваться функциями numpy или методами датафрейма). Какой признак лучше всего коррелирует с целевой переменной? Согласуется ли это с тем, что вы получили в предыдущем пункте? Верно ли, что признаки, имеющие больший вес, имеют более высокую корреляцию с целевой переменной? Если вы пропустили пункт 4, попробуйте посмотреть внимательней на коэффициенты корреляции и в случае чего вернитесь к пункту 4.

Выставление баллов по этому заданию:

работа с признаками — 1 балл
градиентный метод из предыдущего пункта по-прежнему работает корректно (см. первый критерий корректности) — 1 балл
подобран оптимальный шаг и есть код и комментарии, подтверждающие это — 1.5 балла
построен график зависимости качества от номера итерации — 0.5 балла
найден признак, имеющий больший вес — 0.5 балла.
проанализированы результаты коэффициентов корреляции Пирсона и дан подробный ответ на 8 пункт — 1.5 балла.