Data Analysis for Software Engineers¶

NumPy Tutorual (Russian Version)¶

In [ ]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (16,8)

Массивы¶

Создание массива¶

Массив можно создать из списка.

In [ ]:

arr = np.array([1,3,4,7,12])
arr

In [ ]:

arr = np.array([1,3,4,7,12.0])
arr

In [ ]:

arr = np.array([1,3,4,'7',12.0])
arr

Но наиболее распространены создания "с нуля"

In [ ]:

arr = np.arange(0, 12, 0.7) # расширение функции range()
arr

In [ ]:

arr = np.linspace(0, 12, 20) # равномерно распределенные 20 чисел от 0 до 12
arr

In [ ]:

# Массив из "1"
arr = np.ones(7)
print arr
arr = np.ones(7, dtype=int)
print arr

In [ ]:

# Массив из "0"
arr = np.zeros(7)

In [ ]:

# Массив из чего хотите
arr = np.full(7, np.exp(1), )
arr

Свойства массива¶

In [ ]:

A = np.array([[3, 1, 4], [1, 5, 9], [2, 6, 5], [4, 1, 1]])

In [ ]:

print A.shape
print A.size
print A.ndim

Форму массива (shape) можно менять, но так, чтобы это согласовывалось с его размером (size)

In [ ]:

A = A.reshape((6,2))
A

In [ ]:

A = A.flatten()
A

#!!!
# Это не тоже самое, что A = A.reshape((1, 12))

In [ ]:

A = A.reshape((3,-1)) 
A

# -1 как бы означает, "сделай первую размерность равную 3, 
# а все остальное запихни во вторую, если получится

In [ ]:

A.T # Транспонирование матрицы

Индексация¶

Довольно стандартная и интуитивно понятная

In [ ]:

arr = np.arange(0, 19, 3)
arr

In [ ]:

arr[3]

In [ ]:

arr[:3]

In [ ]:

arr[3:5]

In [ ]:

arr[::3] #?!

In [ ]:

arr[-2:] #?!

Задание
Догадайтесь, как вывести массив в обратном порядке?

In [ ]:

print arr>10
print arr[arr>10]

In [ ]:

arr[[1,3,2]]

На многомерные массивы (матрицы) все распространяется точно также.

In [ ]:

A = np.random.randint(0, 20, (5,6))
A

In [ ]:

# Небольшое дополнение
print A[:, 2]
print A[2, :]

In [ ]:

A[A>5]

Операции и функции на массивах¶

Тут все тоже довольно просто

In [ ]:

arr = np.arange(1,6, dtype=float)
arr

In [ ]:

1/arr

In [ ]:

arr * 2

In [ ]:

arr // 2

In [ ]:

bar = np.arange(6,1,-1)
bar

In [ ]:

arr + bar

In [ ]:

arr * bar

In [ ]:

arr ** bar

In [ ]:

# Матричное умножение (скалярное произведение)
arr.dot(bar)

В numpy реализовано много математических функций

In [ ]:

np.log(arr)

In [ ]:

np.sqrt(arr)

Склейка массивов¶

In [ ]:

a = np.random.randint(0, 10, (2, 5))
b = np.random.randint(0, 10, (2, 5))

print a
print b

In [ ]:

A = np.r_[a,b]
A

In [ ]:

A = np.concatenate((a,b), axis=0)
A

In [ ]:

A = np.c_[a,b]
A

In [ ]:

A = np.concatenate((a,b), axis=1)
A

Аггрегация (3 балла)¶

Массивы можно аггрегировать - считать среднее значение, медиану, моду, максимум, минимум, сумму и тп

In [ ]:

arr = np.random.rand(11)
arr

In [ ]:

print np.mean(arr)
print arr.mean()

In [ ]:

arr.sum()

In [ ]:

print 'максимальное значение %.4f находится на %d позиции' % (arr.max(), arr.argmax())
# аналогично argmax, есть argmin и argsort

In [ ]:

np.median(arr)

In [ ]:

np.percentile(arr, [15, 85])

Что касается матриц - то в них все примерно тоже самое.

In [ ]:

A = np.random.rand(3,5)
A

In [ ]:

A.mean()

In [ ]:

A.mean(axis=0)

In [ ]:

A.mean(axis=1)

Задание
Задайте два случайных массива (вектора) $a$ и $b$ одинаковой длины.

Вычислите следующие расстояния между массивами:

Euclidean Distance

$$ d(a, b) = \sqrt{\sum_i (a_i - b_i)^2} $$

Manhattan Distance

$$ d(a, b) = \sum_i |a_i - b_i| $$

Cosine Distance

$$ d(a, b) = 1 - \frac{a^\top b}{||a||_2\cdot||b||_2}$$

In [ ]:

## Your code here

Задание
Сгенерируйте такой случайный вектор (np.random.rand()) длины 10, что сумма его элементов равна 2.

In [ ]:

## Your code here

Задание
Сгенерируйте случайный вектор (np.random.rand()) длины 100. Выполните такое преобразование массива, что

Максимальному элементу(-ам) соответствовало число 1
Минимальному элементу(-ам) соответствовало число 0
Остальные элементы находились на интервале 0-1 с сохранением порядка

In [ ]:

## Your code here

Задание
Сгенерируйте случайный вектор длины 20 из целых чисел на интервале [0,50]. Оставьте в нем только те элементы что меньше 5 персентиля и больше 95 персентиля

In [ ]:

## Your code here

Задание
Сгенерируйте случайную матрицу размера $5 \times 6$ из целых чисел на интервале [0,50]. Выведите столбец с содержащий максимальное значение во всей матрице.

In [ ]:

## Your code here

Пропущенные значения (0.5 баллов)¶

В numpy есть специальные обозначения для бесконечности и пропущенных значений.

В реальном мире приходится работать с очень "грязными" данными и частенько бывает, что какие-то измерения, значения признаков и тп просто отсутствуют. К этому надо быть готовым

In [ ]:

np.log(0)

In [ ]:

np.log(-1)

In [ ]:

np.nan

In [ ]:

arr = np.random.rand(10)
idx = np.random.randint(0, 10, 4)
arr[idx] = np.nan
arr

In [ ]:

# проверяем, является ли значение пропущенным
is_nan = np.isnan(arr)

In [ ]:

# проверяем, есть ли хотя бы одно пропущенное
np.any(is_nan)

In [ ]:

# проверяем, есть ли хотя бы одно пропущенное
np.all(is_nan)

Аггрегация массивов с пропущенными значениями может выполняться без учета np.nan

In [ ]:

print np.nanmean(arr)
print np.mean(arr)

Задание
Замените все пропущенные значение средним

In [ ]:

## Your code here

Линейная регрессия (Пока бездумно) (2.5 балла)¶

Загрузите файл 1 и файл 2 в папку с тетрадкой. С помощью функции loadtxt в модуле numpy загрузите табличные данные одного из файлов. Присвойте y = D[:,0] а X = D[:, 1:].

Сейчас мы воспользуемся одной магической формулой и построим модель линейной регрессии. Откуда эта формула берется мы узнаем на следующих занятиях.

Модель линейной регрессии в матричном виде выглядит так: $\hat{y} = X\hat{\beta}$, где

$$ \hat{\beta} = (X^\top X)^{-1} X^\top y $$

Остатки модели рассчитываются как $$ \text{res} = y - \hat{y} $$

Итак, еще раз:

Задание

Загрузите данные
Оцените веса $\beta$ с помощью формулы
Постройте график, на котором по оси Y: остатки, а по оси X: $\hat{y}$

In [ ]:

# load data
D = np.loadtxt('tutorial_dataset_1.csv', 
               skiprows=1, 
               delimiter=',')

In [ ]: