#!/usr/bin/env python
# coding: utf-8
# # Проект по анализу данных
#
# ## Общая информация
#
# Дата выдачи: 22.03.2016
#
# Согласование состава группы и набора данных: 25.03.2016 23:59
#
# Срок сдачи первой части: 11.04.2016 23:59
#
# Срок сдачи второй части: 10 дней до даты защиты проекта
#
# ### О задании
# В рамках курса "Интеллектуальный анализ данных" помимо выполнения контрольных и практических заданий вам также нужно выполнить проект. За каждый модуль ставится отдельная оценка. В этом модуле вам предстоит познакомиться с данными, сделать их описание, поискать закономерности. В следующем модуле вы продолжите работу с этими данными, но уже будете строить непосредственные модели, работающие с ними.
#
# ### Оценивание и штрафы
# Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 10 баллов.
#
# **Сдавать задание после указанного срока сдачи нельзя.** При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить задание на указанных в ответном письме условиях.
#
# Можно присылать предварительные версии отчетов для комментариев со стороны проверяющих.
#
# Задание выполняется САМОСТОЯТЕЛЬНО. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий в открытом источнике, необходимо прислать ссылку на этот источник (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).
#
# Если вы будете решать задание на виртуальной машине, учтите, что его могут видеть все. К тому же недоступность виртуальной машины не является уважительной причиной для продления дедлайна.
#
# Обратите внимание, что на устном зачете в конце семестра некотоые вопросы могут быть связаны с проектом.
#
# **!Не выдавайте наружу «грязный» отчет: объяснения должны быть понятно сформулированы, а код лаконичен, откомментирован и исполняем!**
#
# ### Доп. баллы
# Если вы обнаружите что-то интересное в данных, либо у вас есть идеи как можно работать с данным датасетом — присылайте, это будет поощряться дополнительными баллами. Кроме того, вы можете выступить со своим личным исследованием на семинаре, это также не останется незамеченным.
#
# ### Формат сдачи
# При отправлении Проекта на почту указывайте фамилию в названии файла, а тему письма оформляйте в следующем виде:
# ** [Майнор ИАД 2016] *{Фамилия}* *{Имя}* ПРОЕКТ-ЧАСТЬ{1 или 2}* **
#
# ### Список возможных источников данных
# * UC Irvine Machine Learning Repository
# * http://www.kaggle.com/competitions, например [1](https://www.kaggle.com/c/digit-recognizer), [2](https://www.kaggle.com/c/sf-crime), [3](https://www.kaggle.com/c/random-acts-of-pizza), [4](https://www.kaggle.com/c/telstra-recruiting-network)
# * http://www.openml.org/
# * http://www-stat.stanford.edu/~tibs/ElemStatLearn/
# * http://lib.stat.cmu.edu/datasets
# * http://www.statsci.org/datasets.html
# * http://www.amstat.org/publications/jse/jse_data_archive.htm
# * http://www.physionet.org/physiobank/database
# * http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/DataSets.
# * https://github.com/caesar0301/awesome-public-datasets
# * http://data.gov.ru/
#
# [Краткий(!) пример анализа](https://www.dropbox.com/s/o18vntu6fa5ht9v/example.zip?dl=0)
# # Общий план проекта
# ## Часть 1
#
# * Описание набора данных и признаков с визуализацией - 0.5 балла
# * Постановка задачи. Что предсказываем? Зачем? - 0.5 балла
# * Первичный анализ признаков. Типы шкал. Пропуски значений - 0.5 балла
# * Первичный визуальный анализ признаков - 1 балл
# * Усли пришли к каким-то "инсайтам", обнаружили закономерности - изложите - 0.5 балла
# * Описание предобработки данных (замена пропусков, шкалирование и изменение признаков и т.д.) - 1 балла
#
# ## Часть 2
#
# * Если создаются признаки, то описание этого процесса - 1 балл
# * Описание процесса отбора признаков - 0.5 балла
# * Обоснование выбора модели(-ей) - 0.5 балла
# * Выбор меры качества. Кросс-валидация. Оценка гипер-параметров - 1 балл
# * Построение кривых валидации и обучения - 1.5 балла
# * Оценка модели(-ей) с описанием выбранной меры качества (+ объяснение) - 1 балла
# * Выводы - 0.5 балла