Основы программирования в Python

Домашнее задание 8 (часть 1)

  1. Сгрузить с помощью библиотек requests и BeautifulSoup данные с html-страницы. В каком формате сохранять данные на предварительном этапе (список списков, кортежей, словарь, совершенно не важно).
  2. Сохранить сгруженные данные в формате датафрейма pandas. Присвоить столбцам таблицы внятные названия. При необходимости преобразовать типы данных в столбцах (чтобы числовые данные имели формат float или integer). Если в таблице присутствует «мусор», отфильтровать ненужные строки.
  3. Выгрузить получившийся датафрейм в csv-файл, назвать html-<>.csv, где вместо <> вставить свою фамилию.
  4. Загрузить ipynb-файл с кодом и полученный csv-файл сюда, на Dropbox.

Вариант 1 (на 10)

Результаты президентских выборов 2018 года в Бурятии. Ссылка на страницу. Каждая строка в итоговом датафрейме должна соответствовать одной территориальной избирательной комиссии (одному району), по которой представлены все 20 показателей (проценты за кандидатов не нужны, достаточно абсолютного числа голосов). В таблице должен быть 21 столбец (название ТИК и 20 показателей).

Вариант 2 (на 8-9)

Данные по Международному индексу счастья и его компонент за 2012 год. Ссылка на страницу. Каждая строка в итоговом датафрейме должна соответствовать одной стране. В таблице должно быть 5 столбцов: название страны, HPI, Удовлетворенность жизнью, Ожидаемая продолжительность жизни, Экологический след.

Вариант 3 (на 7)

Список курсов образовательной программы «Политология». Ссылки на страницы 1, 2, 3, 4 (так как все курсы не умещаются на одной). Каждая строка в итоговом датафрейме должна соответствовать одному курсу. В таблице должно быть 4 столбца: название курса, ссылка на страницу курса, статус курса (обязательный, по выбору и проч.), язык курса.