Шестаков А.В. Майнор по анализу данных 2016
<hr> Общая информация
Срок сдачи: 2 февраля 2016 <br> Штраф за опоздание: -0.5 за каждый день
При отправлении ДЗ на почту указывайте фамилию в названии файла, а тему письма оформляйте в следующем виде: <br> ** [Майнор ИАД 2016] {Фамилия} {Имя} ДЗ{Номер} **<br>
Сопровождайте ваш код изображеними, комментариями и выводами. <br> Иммейте ввиду, что на некоторые задачи нет единственного верного и полного ответа. Чем больше информации вы сможете извлечь, аргументированных выводов сформулировать, тем лучше.
Используйте данный Ipython Notebook при оформлении домашнего задания. <hr>
Задание 1: Рассчитать топ-10 массовых перевозчиков.
# Your code here..
Задание 2: Построить распределение причин отмены рейсов
# Your code here..
Задание 3: Найти самый популярный маршрут, выдать статистику по данному маршруту.
# Your code here..
Задание 4: Найти топ-5 рейсов по каждому из типов delay. Каким перевозчикам они принадлежат?
# Your code here..
Задание 5: Определить, как распределено количество рейсов от времени дня?
# Your code here..
Задание 6: Определить "сезонность" во временных рядах по количеству вылетов на каждый день.
# Your code here..
Ввиду ограниченности времени, мы не успеваем рассмотреть всё на семинарах. Поэтому часть работы ложится на вас..
Загрузите две csv таблицы отсюда и импортируйте через Pandas. В них содержатся агрегированные данные по различным организациям\городам США, содержащие количество обращений по тем или иным случаям нарушения закона. В одной таблице (table13.csv) перечислены управления, которые сообщали об этих случаях, в другой - которые не сообщали.
Задание 1: Изучите документации для методов unique_values
, isin
. С помощью этой функции, определите, содержатся ли в двух таблицах одни и те же штаты.
# Your code here..
Задание 2: Изучите документации для методов append
, merge
и concat
. Совместите две таблицы в одну.
# Your code here..
Задание 3: Изучите документации для методов drop_dublicates
и dropna
. Используйте метод dropna
для очистки большой таблицы от пропусков. Что произошло? Почему? Исправьте таблицы, чтобы получить корректный ответ.
# Your code here..
Задание 4: Изучите документации для методов set_index
, reset_index
и pivot_table
. Проиндексируйте общую таблицу по переменным State и Agency Type (одновременно). У вас должен появиться мультииндекс.
# Your code here..
Задание 5: В Pandas можно идерировать по DataFrame! Ищучите документации для методов iteritems
, iterrows
, а так же посмотрите, как можно итерировать по сгруппированным DataFrame'ам. Выделите подтаблицу, состаящую из данных по 3 произвольным штатам и сгруппируйте её по переменным State и Agency Type. С помощью изученных методов (то есть итеративно) выведите суммарную популяцию по каждой паре <Штат>-<Тип>
# Your code here..