<hr> Общая информация
Срок сдачи: 12 февраля 2017, 23:59 <br>
При отправлении ДЗ на почту hse.minor.dm+2@gmail.com
указывайте фамилию в названии файла, а тему письма оформляйте в следующем виде:<br>
** [ИАД-2] {Фамилия} {Имя} ДЗ{Номер} **<br>
Сопровождайте ваш код изображеними, комментариями и выводами. <br> Иммейте ввиду, что на некоторые задачи нет единственного верного и полного ответа. Чем больше информации вы сможете извлечь, аргументированных выводов сформулировать, тем лучше.
Используйте данный Ipython Notebook при оформлении домашнего задания. <hr>
Загрузите датасет с информацией о характеристиках вина и его качестве.
## Your code herezz
## Your code here
Создайте новый столбец quality_cat
, которая будет иметь значение 1
если quality > 5
и 0
- иначе.
## Your code here
С помощью метода .hist()
нарисуйте гистрограммы признака alcohol
в группах с quality_cat == 1
и quality_cat == 0
. Добавьте в hist()
аргумент alpha=0.3
для прозрачности.
## Your code here
Можете ли вы придумать правило для классификации вина на хорошее и плохое по рисунку выше? Пусть это будет нашей первой моделью)
Напишите функцию theta = brute_clf_train(df)
которая бы перебирала пороговое значение $\theta$ по признаку alcohol
, делало предсказание и выводило наилучшее $\theta$.
Т.е. если alcohol
$\geq \theta$, то prediction = 1
и 0
- иначе.
Оптимальность $\theta$ будем определять по доле совпадения значений prediction
и quality_cat
которое оно дает.
## Your code here
Напишите функцию prediction = brute_clf_predict(df, theta)
которая бы по значению признака alcohol
и найденному выше $\theta$ говорила какое качество у вина.
Проверим, как обобщается наша модель на другие данные.
quality
## Your code here