Введение в анализ данных¶

Семинар 2. Знакомство с библиотеками для анализа данных¶

Полезная информация¶

Страница курса на вики
Таблица с оценками
Почта курса hse.minor.dm@gmail.com (Формат темы: "[ИАД-NN] - Вопрос - Фамилия Имя Отчество")

Что было в прошлый раз¶

Примеры задач

Анализ тональности текст
Найти наиболее подходящее место для ресторана

Обозначения

x — объект
$\mathbb{X}$ — множество объектов
y — ответ на объекте x
$\mathbb{Y}$ — пространство ответов

Обучающая выборка В зависимости от задачи $X = (x_i, y_i)_{i=1}^l$, если известный $y_i$

Признаки Описание объекта $x = (x^1, ..., x^d)$ (вектор)

Алгоритм Функция, предсказывающая ответ для любого объекта

Функция потерь Способ измерить корректность ответов алгоритма

Функционал качества Способ измерить качество алгоритма на выборке

Библиотека Numpy¶

Библиотека языка Python, позволяющая [удобно] работать с многомерными массивами и матрицами, содержащая математические функции.

In [2]:

import numpy as np

Массив — тип данных (numpy.array). Способ задания — передать последовательность в качестве первого параметра

In [9]:

print np.array([1,2,3,4,5,6])  
print np.array([[1,2,3], [4,5,6]])

[1 2 3 4 5 6]
[[1 2 3]
 [4 5 6]]

Обратите внимание, что следующий код работать не будет:

In [3]:

print np.array(1,2,3,4,5,6)  

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-3-f4b008f13bf6> in <module>()
----> 1 print np.array(1,2,3,4,5,6)

ValueError: only 2 non-keyword arguments accepted

При необходимости можно явно указать тип хранимых значений (dtype):

In [2]:

print np.array([1,2,3,4,5,6], dtype=float)

[ 1.  2.  3.  4.  5.  6.]

Иногда бывает полезно быстро обратиться к документации функции, чтобы посмотреть параметры, которые она принимает на вход. Для этого в ipython-notebook встроен удобный интерфейс, а именно следующая команда:

In [3]:

?np.array

покажет docstring данной функции ___

Функции numpy обычно возвращают np.array

In [132]:

a = np.arange(0, 10, 0.5) 
a

Out[132]:

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5])

np.arange - аналог range в Python, которому можно передать нецелочисленный шаг

Могут возникнуть более сложные ситуации: когда вам необходимо разделить некоторый отрезок на $n$ частей. Зная функцию arange и вычислив правильный шаг можно это сделать, однако это не всегда удобно. Поэтому в numpy есть функция linspace:

In [125]:

np.linspace(0, 10, num=13)

Out[125]:

array([  0.        ,   0.83333333,   1.66666667,   2.5       ,
         3.33333333,   4.16666667,   5.        ,   5.83333333,
         6.66666667,   7.5       ,   8.33333333,   9.16666667,  10.        ])

In [121]:

?np.linspace

Чтобы посмотреть какой размер имеет наш массив, можно воспользоваться полем shape:

In [28]:

a.shape

Out[28]:

(20,)

Обратите внимание на различие в строчках ниже. Если вы хотите задать матрицу размера n x m, то в каждой последовательности должно быть строго m элементов.

In [128]:

np.array([[1,2,3], [4,5,6], [1, 1]]).shape

Out[128]:

(3,)

In [129]:

np.array([[1,2,3], [4,5,6], [1, 1, 1]]).shape

Out[129]:

(3, 3)

Чтобы узнать размерность вашего массива, можно воспользоваться полем ndim:

In [21]:

a.ndim

Out[21]:

Если необходимо изменить размеры массива, в numpy есть функция reshape:

In [133]:

b = np.reshape(a, (2, 10))
b

Out[133]:

array([[ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5],
       [ 5. ,  5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5]])

In [134]:

b = np.reshape(a, (10, 2))
b

Out[134]:

array([[ 0. ,  0.5],
       [ 1. ,  1.5],
       [ 2. ,  2.5],
       [ 3. ,  3.5],
       [ 4. ,  4.5],
       [ 5. ,  5.5],
       [ 6. ,  6.5],
       [ 7. ,  7.5],
       [ 8. ,  8.5],
       [ 9. ,  9.5]])

При этом всегда можно перейти к "одномерному" представлению массива, а именно создать одномерный массив из всех элементов матрицы с помощью одной функции:

In [135]:

b.flatten()

Out[135]:

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5])

In [31]:

b.shape

Out[31]:

(2, 10)

In [32]:

b.ndim

Out[32]:

Для того чтобы понять, какого типа элементы элементы в массиве, есть поле dtype

In [35]:

b.dtype.name

Out[35]:

'float64'

Также можно создавать array специального вида при помощи функций zeros(), ones(), empty(), identity() (тип данных по умолчанию — float64):

In [37]:

np.zeros((3, 3))

Out[37]:

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [38]:

np.ones((3, 3))

Out[38]:

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [39]:

np.empty((3, 3))

Out[39]:

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

Здесь важно помнить что функция empty() создает "пустой" массив, то есть в качестве значений может лежать какой-то мусор.

In [41]:

np.identity(3)

Out[41]:

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

Базовые операции с матрицами

Все арифметические операции над матрицами производятся поэлементно

In [4]:

A = np.arange(0, 9).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)

In [68]:

Out[68]:

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [55]:

A + B

Out[55]:

array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17]])

In [56]:

A * B

Out[56]:

array([[ 0,  2,  6],
       [12, 20, 30],
       [42, 56, 72]])

In [57]:

A - B

Out[57]:

array([[-1, -1, -1],
       [-1, -1, -1],
       [-1, -1, -1]])

In [58]:

A / B

Out[58]:

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [59]:

A + 1

Out[59]:

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Если же хочется выполнить привычное матричное умножение, необходимо воспользоваться функцией dot:

In [60]:

np.dot(A, B)

Out[60]:

array([[ 18,  21,  24],
       [ 54,  66,  78],
       [ 90, 111, 132]])

Еще одно большое преимущество numpy — над матрицами определены многие стандартные операции (нахождение минимума, максимума и пр.) Важно помнить, что все эти функции находятся в пакете numpy:

In [61]:

np.min(A), np.max(A), np.sum(A)

Out[61]:

(0, 8, 36)

Когда требуется выполнить аналогичные операции, но по некоторой размерности (например, найти минимальный элемент в каждой строке), можно указать параметр axis:

In [67]:

np.min(A, axis=1), np.max(A, axis=1), np.sum(A, axis=1)

Out[67]:

(array([0, 3, 6]), array([2, 5, 8]), array([ 3, 12, 21]))

In [6]:

np.min(A, axis=0), np.max(A, axis=0), np.sum(A, axis=0)

Out[6]:

(array([0, 1, 2]), array([6, 7, 8]), array([ 9, 12, 15]))

Помимо привычный функций, в пакете numpy есть много и математических функций, которые можно выполнять над матрицами:

In [69]:

np.sqrt(A)

Out[69]:

array([[ 0.        ,  1.        ,  1.41421356],
       [ 1.73205081,  2.        ,  2.23606798],
       [ 2.44948974,  2.64575131,  2.82842712]])

Индексация

Одномерные массивы осуществляют операции индексирования, срезов и итераций очень схожим образом с обычными списками и другими последовательностями Python.

In [99]:

a = np.arange(1, 28)
a

Out[99]:

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27])

In [100]:

a[0]

Out[100]:

In [101]:

a[-1]

Out[101]:

In [102]:

a[1:-1]

Out[102]:

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
       19, 20, 21, 22, 23, 24, 25, 26])

Но в numpy появляется новый тип индексации, а именно индексация с помощью массивов (которая работает по всем размерностям):

In [103]:

a[[0, 2, 3]]

Out[103]:

array([1, 3, 4])

In [104]:

b = np.reshape(a, (3, 9))
b

Out[104]:

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24, 25, 26, 27]])

In [105]:

b[0]

Out[105]:

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [106]:

b[:, 1]

Out[106]:

array([ 2, 11, 20])

In [112]:

c = np.reshape(a, (3, 3, 3))
c

Out[112]:

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]],

       [[19, 20, 21],
        [22, 23, 24],
        [25, 26, 27]]])

In [113]:

c[0]

Out[113]:

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [114]:

c[:,:,1]

Out[114]:

array([[ 2,  5,  8],
       [11, 14, 17],
       [20, 23, 26]])

In [115]:

c[:, :, [1, 2]]

Out[115]:

array([[[ 2,  3],
        [ 5,  6],
        [ 8,  9]],

       [[11, 12],
        [14, 15],
        [17, 18]],

       [[20, 21],
        [23, 24],
        [26, 27]]])

А что еще более интересно — можно делать булевую индексацию. То есть вам необходимо передать массив из True/False, соответствующий какие элементы брать:

In [116]:

a = np.arange(10)
good = np.array([True, False, False, True, True, True, False, False, True, False])
a[good]

Out[116]:

array([0, 3, 4, 5, 8])

В начале может показаться что это долго (в обычной индексации нам необходимо было передать несколько индексов, а здесь — целый массив), однако отвлечемся немного на numpy. Вспомним, что к массивам можно применять обычные операции. Логические операции не являются исключением:

In [118]:

a % 2 == 0

Out[118]:

array([ True, False,  True, False,  True, False,  True, False,  True, False], dtype=bool)

Таким образом получаем, что чтобы найти в массиве только четные числа, нужно выполнить следующую строчку:

In [117]:

a[a % 2 == 0]

Out[117]:

array([0, 2, 4, 6, 8])

Библиотека Scipy¶

scipy (import scipy as sp)

Библиотека Pandas¶

"...fast, flexible, and expressive data structures designed to make working with “relational” or “labeled” data both easy and intuitive"

In [2]:

import pandas as pd

Попробуем начать работать с модельными данными. Для начала посмотрим как можно загрузить данные с помощью Python.

In [4]:

print(open('data.txt').read())

Feature1,Weight,Height,Bla-bla,Size,Class
10.0,12,344,0,23.0,Class1
7.2,12,208,0,18.0,Class2
19.0,11,344,1,21.0,Class4
7.2,13,208,0,20.0,Class2
9.2,20,208,0,17.0,Class1
19.0,11,254,2,11.0,Class3

Можно увидеть, что первая строчка является заголовком, а каждая следующая строчка — описанием объекта. Последний столбец является целевой меткой. Все остальные столбцы являются признаковым описанием объектов или просто признаками.

Считаем данные и сохраним в удобном для нас формате

In [5]:

from itertools import islice

points = []
for line in islice(open('data.txt'), 1, None):
    columns = line.strip().split(',')
    features = [float(feature) for feature in columns[:5]]
    label = columns[5]
    points.append({'features': features, 'label': label})
    
points

Out[5]:

[{'features': [10.0, 12.0, 344.0, 0.0, 23.0], 'label': 'Class1'},
 {'features': [7.2, 12.0, 208.0, 0.0, 18.0], 'label': 'Class2'},
 {'features': [19.0, 11.0, 344.0, 1.0, 21.0], 'label': 'Class4'},
 {'features': [7.2, 13.0, 208.0, 0.0, 20.0], 'label': 'Class2'},
 {'features': [9.2, 20.0, 208.0, 0.0, 17.0], 'label': 'Class1'},
 {'features': [19.0, 11.0, 254.0, 2.0, 11.0], 'label': 'Class3'}]

Попробуем считать данные с помощью Pandas. Данные будут сохранены в специализированный объект класса pandas.DataFrame, который представляет из себя таблицу с проименованными строками и столбцами.

In [6]:

df = pd.read_csv('data.txt')
df

Out[6]:

	Feature1	Weight	Height	Bla-bla	Size	Class
0	10.0	12	344	0	23	Class1
1	7.2	12	208	0	18	Class2
2	19.0	11	344	1	21	Class4
3	7.2	13	208	0	20	Class2
4	9.2	20	208	0	17	Class1
5	19.0	11	254	2	11	Class3

Можно делать срезы по именам колонки

In [7]:

df['Weight']

Out[7]:

0    12
1    12
2    11
3    13
4    20
5    11
Name: Weight, dtype: int64

а также по строкам

In [15]:

df[2:3]

Out[15]:

	Feature1	Weight	Height	Bla-bla	Size	Class
2	19	11	344	1	21	Class4

Посчитает какие и сколько раз признак "Bla-bla" принимал значения

In [64]:

df['Bla-bla'].value_counts()

Out[64]:

0    4
2    1
1    1
Name: Bla-bla, dtype: int64

Попробуем посмотреть на общую статистику по признакам

In [19]:

df.describe()

Out[19]:

	Feature1	Weight	Height	Bla-bla	Size
count	6.000000	6.000000	6.000000	6.00000	6.000000
mean	11.933333	13.166667	261.000000	0.50000	18.333333
std	5.583786	3.430258	66.714316	0.83666	4.179314
min	7.200000	11.000000	208.000000	0.00000	11.000000
25%	7.700000	11.250000	208.000000	0.00000	17.250000
50%	9.600000	12.000000	231.000000	0.00000	19.000000
75%	16.750000	12.750000	321.500000	0.75000	20.750000
max	19.000000	20.000000	344.000000	2.00000	23.000000

Для удаления какого-либо столбца можно воспользоваться методом drop

In [20]:

df.drop('Height', axis=1)

Out[20]:

	Feature1	Weight	Bla-bla	Size	Class
0	10.0	12	0	23	Class1
1	7.2	12	0	18	Class2
2	19.0	11	1	21	Class4
3	7.2	13	0	20	Class2
4	9.2	20	0	17	Class1
5	19.0	11	2	11	Class3

Удаление строк делается похожим образом

In [65]:

df.drop([0, 1])

Out[65]:

	Feature1	Weight	Height	Bla-bla	Size	Class
2	19.0	11	344	1	21	Class4
3	7.2	13	208	0	20	Class2
4	9.2	20	208	0	17	Class1
5	19.0	11	254	2	11	Class3

Обратите внимание, что исходный датафрейм остается неизменным

In [21]:

df

Out[21]:

	Feature1	Weight	Height	Bla-bla	Size	Class
0	10.0	12	344	0	23	Class1
1	7.2	12	208	0	18	Class2
2	19.0	11	344	1	21	Class4
3	7.2	13	208	0	20	Class2
4	9.2	20	208	0	17	Class1
5	19.0	11	254	2	11	Class3

Вспомним про numpy

In [24]:

mat = df.drop('Class', axis=1).values.astype(np.float32)
mat

Out[24]:

array([[  10.        ,   12.        ,  344.        ,    0.        ,   23.        ],
       [   7.19999981,   12.        ,  208.        ,    0.        ,   18.        ],
       [  19.        ,   11.        ,  344.        ,    1.        ,   21.        ],
       [   7.19999981,   13.        ,  208.        ,    0.        ,   20.        ],
       [   9.19999981,   20.        ,  208.        ,    0.        ,   17.        ],
       [  19.        ,   11.        ,  254.        ,    2.        ,   11.        ]], dtype=float32)

Есть два способа конкатенации матриц:

вертикальная (в начале идут строки первой матрицы, затем — второй)
горизонтальная (в конец строк первой матрицы дописываются значения соответствующих строк второй матрицы)

In [66]:

np.vstack([mat, mat ** 2])

Out[66]:

array([[  1.00000000e+01,   1.20000000e+01,   3.44000000e+02,
          0.00000000e+00,   2.30000000e+01],
       [  7.19999981e+00,   1.20000000e+01,   2.08000000e+02,
          0.00000000e+00,   1.80000000e+01],
       [  1.90000000e+01,   1.10000000e+01,   3.44000000e+02,
          1.00000000e+00,   2.10000000e+01],
       [  7.19999981e+00,   1.30000000e+01,   2.08000000e+02,
          0.00000000e+00,   2.00000000e+01],
       [  9.19999981e+00,   2.00000000e+01,   2.08000000e+02,
          0.00000000e+00,   1.70000000e+01],
       [  1.90000000e+01,   1.10000000e+01,   2.54000000e+02,
          2.00000000e+00,   1.10000000e+01],
       [  1.00000000e+02,   1.44000000e+02,   1.18336000e+05,
          0.00000000e+00,   5.29000000e+02],
       [  5.18399963e+01,   1.44000000e+02,   4.32640000e+04,
          0.00000000e+00,   3.24000000e+02],
       [  3.61000000e+02,   1.21000000e+02,   1.18336000e+05,
          1.00000000e+00,   4.41000000e+02],
       [  5.18399963e+01,   1.69000000e+02,   4.32640000e+04,
          0.00000000e+00,   4.00000000e+02],
       [  8.46399994e+01,   4.00000000e+02,   4.32640000e+04,
          0.00000000e+00,   2.89000000e+02],
       [  3.61000000e+02,   1.21000000e+02,   6.45160000e+04,
          4.00000000e+00,   1.21000000e+02]], dtype=float32)

In [67]:

np.hstack([mat, mat ** 2])

Out[67]:

array([[  1.00000000e+01,   1.20000000e+01,   3.44000000e+02,
          0.00000000e+00,   2.30000000e+01,   1.00000000e+02,
          1.44000000e+02,   1.18336000e+05,   0.00000000e+00,
          5.29000000e+02],
       [  7.19999981e+00,   1.20000000e+01,   2.08000000e+02,
          0.00000000e+00,   1.80000000e+01,   5.18399963e+01,
          1.44000000e+02,   4.32640000e+04,   0.00000000e+00,
          3.24000000e+02],
       [  1.90000000e+01,   1.10000000e+01,   3.44000000e+02,
          1.00000000e+00,   2.10000000e+01,   3.61000000e+02,
          1.21000000e+02,   1.18336000e+05,   1.00000000e+00,
          4.41000000e+02],
       [  7.19999981e+00,   1.30000000e+01,   2.08000000e+02,
          0.00000000e+00,   2.00000000e+01,   5.18399963e+01,
          1.69000000e+02,   4.32640000e+04,   0.00000000e+00,
          4.00000000e+02],
       [  9.19999981e+00,   2.00000000e+01,   2.08000000e+02,
          0.00000000e+00,   1.70000000e+01,   8.46399994e+01,
          4.00000000e+02,   4.32640000e+04,   0.00000000e+00,
          2.89000000e+02],
       [  1.90000000e+01,   1.10000000e+01,   2.54000000e+02,
          2.00000000e+00,   1.10000000e+01,   3.61000000e+02,
          1.21000000e+02,   6.45160000e+04,   4.00000000e+00,
          1.21000000e+02]], dtype=float32)

Вернемся к датафреймам:

In [68]:

newdf = pd.DataFrame(np.hstack([mat, mat ** 2]))
newdf

Out[68]:

	0	1	2	3	4	5	6	7	8	9
0	10.0	12	344	0	23	100.000000	144	118336	0	529
1	7.2	12	208	0	18	51.839996	144	43264	0	324
2	19.0	11	344	1	21	361.000000	121	118336	1	441
3	7.2	13	208	0	20	51.839996	169	43264	0	400
4	9.2	20	208	0	17	84.639999	400	43264	0	289
5	19.0	11	254	2	11	361.000000	121	64516	4	121