#!/usr/bin/env python # coding: utf-8 # # Python для сбора данных # # ## Домашнее задание # 1. Сгрузить с помощью библиотек `requests` и `BeautifulSoup` данные с html-страницы. В каком формате сохранять данные на предварительном этапе (список списков, кортежей, словарь, совершенно не важно). # 2. Сохранить сгруженные данные в формате датафрейма `pandas`. Присвоить столбцам таблицы внятные названия. При необходимости преобразовать типы данных в столбцах (чтобы числовые данные имели формат `float` или `integer`). Если в таблице присутствует «мусор», отфильтровать ненужные строки. # 3. Выгрузить получившийся датафрейм в csv-файл, назвать `html-<>.csv`, где вместо `<>` вставить свою фамилию. # 4. Загрузить ipynb-файл с кодом и полученный csv-файл [сюда](https://www.dropbox.com/request/R3hE0IjYfZxN0far03WM), на Dropbox. # **Вариант 1 (на 10 – сложный)** # # Результаты президентских выборов 2018 года в Бурятии. [Ссылка](http://www.vybory.izbirkom.ru/region/region/izbirkom?action=show&root=1000004&tvd=100100084849070&vrn=100100084849062®ion=0&global=true&sub_region=0&prver=0&pronetvd=null&vibid=100100084849070&type=227) на страницу. Каждая строка в итоговом датафрейме должна соответствовать одной территориальной избирательной комиссии (одному району), по которой представлены все 20 показателей (проценты за кандидатов не нужны, достаточно абсолютного числа голосов). В таблице должен быть 21 столбец (название ТИК и 20 показателей). # # **Вариант 2 (на 9 – средний)** # # Данные по Международному индексу счастья и его компонент за 2012 год. [Ссылка](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B6%D0%B4%D1%83%D0%BD%D0%B0%D1%80%D0%BE%D0%B4%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81_%D1%81%D1%87%D0%B0%D1%81%D1%82%D1%8C%D1%8F) на страницу. Каждая строка в итоговом датафрейме должна соответствовать одной стране. В таблице должно быть 5 столбцов: *название страны*, *HPI*, *Удовлетворенность жизнью*, *Ожидаемая продолжительность жизни, Экологический след*. # # **Вариант 3 (на 8 – простой)** # # Список курсов образовательной программы «Политология». Ссылки на страницы [1](https://www.hse.ru/ba/political/courses), [2](https://www.hse.ru/ba/political/courses/page2.html?year=2018), [3](https://www.hse.ru/ba/political/courses/page3.html?year=2018), [4](https://www.hse.ru/ba/political/courses/page4.html?year=2018) (так как все курсы не умещаются на одной). Каждая строка в итоговом датафрейме должна соответствовать одному курсу. В таблице должно быть 4 столбца: название курса, ссылка на страницу курса, статус курса (обязательный, по выбору и проч.), язык курса.