Срок выполнения этого задания (HW-03) – 22 марта 2017 24:00. После этого срока работы не будут приниматься.

Работу надо выслать на e-mail преподавателям Н.Ю.Золотых, Д.В.Грибанову (ставим каждого в копию)

Практические задания, в которых надо что-то посчитать или доказать, пишем на бумаге, фотографируем и присылаем. Можете, конечно, набрать в вашем любимом редакторе. Практические задания, где надо писать код, оформляем как ipython Notebook. Пишем комментарии (используем Markdown).

Вы можете использовать другой язык программирования и другие библиотеки. В этом случае заранее свяжитесь со мной.

Задание № 3

Вы продолжаете работать с вашими данными. Задание выполняете в том же NoteBook'е: дополняете его. Необхоимо явно указать (например, сделав соответствующий заголовок), какой кусок NoteBook'а относится к 3-му заданию.

Задание посвящено процедуре отбора модели с помощью перекрестного контроля. Вы должны сами его запрограммировать или воспользоваться функцией `GridSearchCV'

  1. Необходимо данные разбить на обучающую и тестовую выборку (уже было сделано). С обучающей выборкой провести процедуру перекрестного контроля (5-fold, 10-fold, LOO). Если LOO занимает слишком много времени, эту процедуру можно не выполнять. Построить графики CV-ошибки в зависимости от числа используемых соседей (должно быть 3 графика). Каждый раз должна быть вычислена стандартная ошибка и нанесены на график соответствующие error bar. Выберите наилучшую модель и проверьте ее качество на тестовой выборке.

  2. Проделайте то же самое, что записанов п.1 с другой функцией измерения расстояния. Сравните результаты.

  3. Сделайте выводы.

Напоминаю, что ваш ipython Notebook должен содержать комментарии (оформленные в Markdown). Текста и кода должно быть примерно поровну.