Проект по анализу данных

Общая информация

Дата выдачи: 22.03.2016

Согласование состава группы и набора данных: 25.03.2016 23:59

Срок сдачи первой части: 11.04.2016 23:59

Срок сдачи второй части: 10 дней до даты защиты проекта

О задании

В рамках курса "Интеллектуальный анализ данных" помимо выполнения контрольных и практических заданий вам также нужно выполнить проект. За каждый модуль ставится отдельная оценка. В этом модуле вам предстоит познакомиться с данными, сделать их описание, поискать закономерности. В следующем модуле вы продолжите работу с этими данными, но уже будете строить непосредственные модели, работающие с ними.

Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 10 баллов.

Сдавать задание после указанного срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить задание на указанных в ответном письме условиях.

Можно присылать предварительные версии отчетов для комментариев со стороны проверяющих.

Задание выполняется САМОСТОЯТЕЛЬНО. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий в открытом источнике, необходимо прислать ссылку на этот источник (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Если вы будете решать задание на виртуальной машине, учтите, что его могут видеть все. К тому же недоступность виртуальной машины не является уважительной причиной для продления дедлайна.

Обратите внимание, что на устном зачете в конце семестра некотоые вопросы могут быть связаны с проектом.

!Не выдавайте наружу «грязный» отчет: объяснения должны быть понятно сформулированы, а код лаконичен, откомментирован и исполняем!

Доп. баллы

Если вы обнаружите что-то интересное в данных, либо у вас есть идеи как можно работать с данным датасетом — присылайте, это будет поощряться дополнительными баллами. Кроме того, вы можете выступить со своим личным исследованием на семинаре, это также не останется незамеченным.

Формат сдачи

При отправлении Проекта на почту указывайте фамилию в названии файла, а тему письма оформляйте в следующем виде:
[Майнор ИАД 2016] {Фамилия} {Имя} ПРОЕКТ-ЧАСТЬ{1 или 2}*

Список возможных источников данных

Краткий(!) пример анализа

Общий план проекта

Часть 1

  • Описание набора данных и признаков с визуализацией - 0.5 балла
  • Постановка задачи. Что предсказываем? Зачем? - 0.5 балла
  • Первичный анализ признаков. Типы шкал. Пропуски значений - 0.5 балла
  • Первичный визуальный анализ признаков - 1 балл
  • Усли пришли к каким-то "инсайтам", обнаружили закономерности - изложите - 0.5 балла
  • Описание предобработки данных (замена пропусков, шкалирование и изменение признаков и т.д.) - 1 балла

Часть 2

  • Если создаются признаки, то описание этого процесса - 1 балл
  • Описание процесса отбора признаков - 0.5 балла
  • Обоснование выбора модели(-ей) - 0.5 балла
  • Выбор меры качества. Кросс-валидация. Оценка гипер-параметров - 1 балл
  • Построение кривых валидации и обучения - 1.5 балла
  • Оценка модели(-ей) с описанием выбранной меры качества (+ объяснение) - 1 балла
  • Выводы - 0.5 балла