Срок выполнения этого задания (HW-10) – 18 мая 2017 24:00.

После этого срока работы не будут приниматься.

Работу надо выслать на e-mail преподавателям Н.Ю.Золотых, Д.В.Грибанову (ставим каждого в копию)

  • Практические задания, в которых надо что-то посчитать или доказать, пишем на бумаге, фотографируем и присылаем. Можете, конечно, набрать в вашем любимом редакторе.

  • Практические задания, где надо писать код, оформляем как ipython Notebook. Пишем комментарии (используем Markdown).

Вы можете использовать другой язык программирования и другие библиотеки. В этом случае заранее свяжитесь со мной.

Задание № 10-1

Вы продолжаете работать с вашими данными. Задание выполняете в том же NoteBook'е: дополняйте его!. Необходимо явно указать (например, сделав соответствующий заголовок), какой кусок NoteBook'а относится к 8-му заданию.

Нужно на ваших данных обучить следующие классификаторы:

  1. Постройте графики зависимости ошибки на обучающей выборке и тестовой выборке (или кросс-валидационной ошибки) от количества используемых деревьев. Для этого используйте методы staged_predict или staged_score. Сделайте выводы.

  2. Определите важность признаков (см. атрибут feature_importances_). Отсортируйте признаки по этому параметру. Сделайте выводы

Напоминаю, что ваш ipython Notebook должен содержать комментарии (оформленные в Markdown). Текста и кода должно быть примерно поровну.

Задание № 10-2

Это практическое задание. Его нужно решать вручную, оформляя решение на бумаге. Графики можно нарисовать на компьютере.

Дана выборка $$ \begin{array}{|c|rrrrr|} \hline x_1 & 2 & -1 & 0 & 3 & -1 & 3 \\\hline x_2 & 4 & 2 & -2 & 0 & 3 & 5 \\\hline \end{array} $$

  1. найти главные компоненты и объясненные дисперсии по главным компонентам;

  2. изобразить точки и векторы, соответствующие главным компонентам.