Проект по анализу данных

Общая информация

Дата выдачи: 15.03.2016

Срок сдачи: 27.03.2016 09:00MSK

О задании

В рамках курса "Интеллектуальный анализ данных" помимо выполнения контрольных и практических заданий вам также нужно выполнить проект. За каждый модуль ставится отдельная оценка. В этом модуле вам предстоит познакомиться с данными, сделать их описание, поискать закономерности. В следующем модуле вы продолжите работу с этими данными, но уже будете строить непосредственные модели, работающие с ними.

Там, где требуется написать код, будет указано:

######################
### YOUR CODE HERE ###
######################

Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 10 баллов. Помимо кода вам также требуется написать развернутые ответы на вопросы.

Сдавать задание после указанного срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить задание на указанных в ответном письме условиях.

Задание выполняется САМОСТОЯТЕЛЬНО. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий в открытом источнике, необходимо прислать ссылку на этот источник (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Если вы будете решать задание на виртуальной машине, учтите, что его могут видеть все. К тому же недоступность виртуальной машины не является уважительной причиной для продления дедлайна.

Обратите внимание, что на устном зачете в конце семестра некотоые вопросы могут быть связаны с проектом.

Доп. баллы

В данном проекте вам будет предложено рассмотреть некоторые интересные закономерности в данных. Если вы обнаружите что-то интересное (например, в последнем пункте), либо у вас есть идеи как можно работать с данным датасетом — присылайте, это будет поощряться дополнительными баллами. Кроме того, вы можете выступить со своим личным исследованием на семинаре, это также не останется незамеченным.

Формат сдачи

Для сдачи задания переименуйте получившийся файл *.ipynb в соответствии со следующим форматом: Username_(group)_Project.ipynb, где Username — ваша фамилия на латинице, group — название группы (например, Kozlova_IAD-11_Project.ipynb). Далее отправьте этот файл на используемую в Вашей группе почту курса ([email protected]) c темой письма [ИАД-NN] - Проект - Фамилия Имя Отчество.

Определение итоговой оценки студента

В качестве данных мы будем рассматривать два датасета, а именно предсказание оценки по португальскому языку или математике. С какими именно данными нужно будет работать вам можно узнать вызвав функцию get_dataset_name, на вход ей передав ваш адрес электронной почты.

In [ ]:
def get_dataset_name(email):
    return 'student-mat.csv' if sum(ord(c) for c in email) % 2 else 'student-por.csv'

Выполните код ниже, передав на вход строку с адресом электронной почты:

In [ ]:
get_dataset_name('')

По набору и типу признаков эти даннык никак не отличаются, поэтому на все вопросы ниже вам нужно ответить в рамках вашего датасета.

In [ ]:
import numpy as np
import pandas as pd
import scipy as sp
import pylab as plt

%matplotlib inline

Для начала загрузите данные. Обратите внимание, чтобы данные были загружены верно (был указан верный разделитель, а так же корректно отображались названия столбцов). Чтобы это проверить, а также посмотреть что представляют из себя данные, можно вывести первые несколько строк загруженного датасета на экран.

In [ ]:
######################
### YOUR CODE HERE ###
######################

(0.5 балла) Что в данной задаче является объектом?

In [ ]:
 

Как можно видеть, признаков много и они все разной природы. Вот более подробная расшифровка признаков:

  • school - тип школы ("GP" - Gabriel Pereira или "MS" - Mousinho da Silveira)
  • sex - пол ("F" - female или "M" - male)
  • age - возраст (от 15 до 22)
  • address - откуда студент ("U" - urban или "R" - rural)
  • famsize - размер семьи ("LE3" - меньше или равно 3 или "GT3" - больше 3)
  • Pstatus - в каких отношениях родители ("T" - живут вместе "A" - раздельно)
  • Medu - образование матери (0 - никакого, 1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
  • Fedu - образование отца (0 - никакого, 1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
  • Mjob - работа матери ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
  • Fjob - работа отца ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
  • reason - причина выбора школы (близко к дому — "home", репутация школы — "reputation", "course" предпочтение некоторым предметам или "other")
  • guardian - опекун ("mother", "father" или "other")
  • traveltime - время от дома до школы (1 - меньше 15 мин., 2 - 15 до 30 мин., 3 - 30 мин. до 1 часа, или 4 - больше 1 часа)
  • studytime - количество часов обучения в неделю (1 - меньше 2 часов, 2 - от 2 до 5 часов, 3 - от 5 до 10 часов, или 4 - больше 10 часов)
  • failures - колисечтво ранее не сданных предметов (n if 1 <= n < 3, else 4)
  • schoolsup - дополнительные занятия (yes or no)
  • famsup - помощь от семьи при выполнении заданий (yes or no)
  • paid - дополнительные платные занятия (yes or no)
  • activities - внеклассная деятельность (yes or no)
  • nursery - посещал детский сад (yes or no)
  • higher - желание высшего образования (yes or no)
  • internet - домашний интернет (yes or no)
  • romantic - состоит в романтических отношениях (yes or no)
  • famrel - насколько хорошо отношения в семье (от 1 - очень плохие до 5 - превосходные)
  • freetime - наличие свободного времени после школы (от 1 - очень мало до 5 - очень много)
  • goout - гуляет с друзьями (от 1 - редко до 5 - очень часто)
  • Dalc - употребление алкоголя в будние дни (от 1 - очень редко до 5 - очень часто)
  • Walc - употребление алкоголя в выходные (от 1 - очень редко до 5 - очень часто)
  • health - текущее состояние здоровья (от 1 - очень плохое до 5 - очень хорошее)
  • absences - количество школьных пропусков (от 0 до 93)

Признаки ниже связаны с курсом (математика/португальский)

  • G1 - оценка за первый семестр (от 0 до 20)
  • G2 - оценка за второй семестр (от 0 до 20)
  • [целевая переменная] G3 - итоговая оценка (от 0 до 20)

(0.5 балла) Какое количество признаков есть в данной задаче (целевая переменная не является признаком)?

In [ ]:
######################
### YOUR CODE HERE ###
######################

(1 балл) Определите к какому из указанных ниже типов относится каждый признак:

  • бинарный
  • числовой
  • категориальный
  • порядковый
  • множественный

Если признаков некоторого типа нет, укажите это.

In [ ]:
######################
### YOUR CODE HERE ###
######################

(0.5 балла) Есть ли в данных пропуски? Если да, назовите какие признаки имеют пропуски и удалите все объекты с пропусками.

In [ ]:
 

(1 балл) Теперь посмотрите на целевую переменную. К какому типу задач относится данная? Поясните свой ответ.

In [ ]:
 

(1 балл) Постройте гистограмму значений целевой переменной с количеством бинов (bins) равным 20. Какое самое частое значение? Есть ли студенты, получисшие 0? 20? Постройте аналогичный гистограммы для признаков G1 и G2. Есть ли различие между ними и целевой переменной и в чем оно состоит?

In [ ]:
######################
### YOUR CODE HERE ###
######################

(1 балл) Посчитайте корреляцию Пирсона между целевой переменной и значениями G1 и G2. Можно ли сказать, что между ними есть линейная зависимость? Для вычисления корреляции Пирсона можно воспользоваться функцией pearsonr из модуля scipy.stats или методом corr датафрейма.

In [ ]:
######################
### YOUR CODE HERE ###
######################

(0.5 балла) Найдите самую частую причину выбора школы.

In [ ]:
######################
### YOUR CODE HERE ###
######################

(1 балл) В данных есть несколько интересных признаков. Например, школа. Постройте на одной гистограмме распределение целевой переменной в зависимости от школы. Верно или нет, что у студенты одной школы имеют оценки выше, чем другой? Кроме того, интересно также узнать, сказывается ли причина выборка школы на оценках. Постройте аналогичную гистограмму для тех, у кого в поле причины указана самая частая причина (она должна быть найдена в предыдущем пункте) и всех остальных. Верно ли, что студентны, выбравшие данную школу по этой причине более успешны?

(Примеры как можно строить такие гистограммы можно посмотреть в материалах к семинарам или здесь и здесь).

In [ ]:
######################
### YOUR CODE HERE ###
######################

(0.5 балла) Сделайте описание числовых признаков: какое среднее, медиана, дисперсия, минимальное и максимальное значение. Для всех ли признаков эти величины имеют смысл? Если нашлись такие признаки, то поясните почему.

In [ ]:
######################
### YOUR CODE HERE ###
######################

(0.75 балла) Верно ли, что студенты имеющие больше 10 пропусков учатся хуже, чем все остальные? На этот вопрос вы можете ответить, посмотрев на данные любым удобным для вас способом (например, аналогично предыдущим пунктам, либо сравнив средние оценки и т.д.).

In [ ]:
######################
### YOUR CODE HERE ###
######################

(0.75 балла) Верно ли, что студенты желающие получить высшее образование учатся лучше, чем все остальные?

In [ ]:
######################
### YOUR CODE HERE ###
######################

(1 балл) Выберете признаки из не рассмотренных ранее. Какие на ваш взгляд влияют на итоговую оценку? Попробуйте найти закономерности, аналогичные рассмотренным ("студенты желающие получить высшее образование учатся лучше, чем все остальные").

In [ ]:
######################
### YOUR CODE HERE ###
######################