The NumPy ndarray¶

In [1]:

import numpy as np

In [5]:

data = np.array([[0.9,-0.2,-0.8],[0.5,0.2,0.9]])

In [6]:

data

Out[6]:

array([[ 0.9, -0.2, -0.8],
       [ 0.5,  0.2,  0.9]])

In [7]:

data*10

Out[7]:

array([[ 9., -2., -8.],
       [ 5.,  2.,  9.]])

In [8]:

data+data

Out[8]:

array([[ 1.8, -0.4, -1.6],
       [ 1. ,  0.4,  1.8]])

In [9]:

data.shape

Out[9]:

(2, 3)

In [10]:

data.dtype

Out[10]:

dtype('float64')

In [11]:

data1 = [6,7.5,8,0,1]

In [12]:

arr1 = np.array(data1)

In [13]:

arr1

Out[13]:

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [14]:

data2 = [[1,2,3,4],[5,6,7,8]]

In [15]:

arr2 = np.array(data2)

In [16]:

arr2

Out[16]:

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [17]:

arr2.ndim

Out[17]:

In [18]:

arr2.shape

Out[18]:

(2, 4)

In [19]:

arr1.dtype

Out[19]:

dtype('float64')

In [20]:

arr2.dtype

Out[20]:

dtype('int64')

In [21]:

np.zeros(10)

Out[21]:

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [22]:

np.zeros((3,6))

Out[22]:

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [23]:

np.empty((2,3,2))

Out[23]:

array([[[  0.00000000e+000,   1.28822983e-231],
        [  2.16366771e-314,   2.16371523e-314],
        [  2.16372047e-314,   2.16371173e-314]],

       [[  2.14550304e-314,   0.00000000e+000],
        [  2.15072965e-314,   2.14796467e-314],
        [  0.00000000e+000,   1.28822983e-231]]])

In [24]:

np.arange(15)

Out[24]:

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [25]:

arr1 = np.array([1,2,3], dtype=np.float64)

In [26]:

arr2 = np.array([1,2,3], dtype=np.int32)

In [27]:

arr1.dtype

Out[27]:

dtype('float64')

In [28]:

arr2.dtype

Out[28]:

dtype('int32')

In [29]:

arr=np.array([1,2,3,4,5])

In [30]:

arr.dtype

Out[30]:

dtype('int64')

In [31]:

float_arr = arr.astype(np.float64)

In [32]:

float_arr.dtype

Out[32]:

dtype('float64')

In [34]:

numeric_strings = np.array(['1.25','-9.6','42'], dtype = np.string_)

In [35]:

numeric_strings.astype(float)

Out[35]:

array([  1.25,  -9.6 ,  42.  ])

In [36]:

int_array = np.arange(10)

In [37]:

caliber = np.array([.22,.270,.357, .380, .44,.50],dtype=np.float64)

In [40]:

int_array.astype(caliber.dtype)

Out[40]:

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

In [41]:

empty_uint32 = np.empty(8, dtype='u4')

In [42]:

empty_uint32

Out[42]:

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

Operations between Arrays and Scalars¶

Arrays are important because they enable you to express batch operations on data without writing any for loops. This is usually called vectorization.

In [44]:

arr = np.array([[1.,2.,3.],[4.,5.,6.]])

In [45]:

arr

Out[45]:

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [46]:

arr*arr

Out[46]:

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [47]:

arr-arr

Out[47]:

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [48]:

1/arr

Out[48]:

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [49]:

arr**0.5

Out[49]:

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

Basic Indexing and Slicing¶

In [50]:

arr = np.arange(10)

In [51]:

arr

Out[51]:

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [52]:

arr[5]

Out[52]:

In [53]:

arr[5:8]

Out[53]:

array([5, 6, 7])

In [54]:

arr[5:8]=12

In [55]:

arr

Out[55]:

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [56]:

arr_slice = arr[5:8]

In [57]:

arr_slice[1]=12345

In [58]:

arr

Out[58]:

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [59]:

arr_slice[:]=64

In [60]:

arr

Out[60]:

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [61]:

arr[1:6]

Out[61]:

array([ 1,  2,  3,  4, 64])

In [62]:

arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [63]:

arr2d

Out[63]:

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [64]:

arr2d[:2]

Out[64]:

array([[1, 2, 3],
       [4, 5, 6]])

In [65]:

arr2d[:2,1:]

Out[65]:

array([[2, 3],
       [5, 6]])

In [66]:

arr2d[:,:1]=0

In [67]:

arr2d

Out[67]:

array([[0, 2, 3],
       [0, 5, 6],
       [0, 8, 9]])

Boolean Indexing¶

In [68]:

names = np.array(['Bob','Joe','Will', 'Bob','Will','Joe','Joe'])

In [70]:

data = np.random.randn(7,4)

In [71]:

names

Out[71]:

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='|S4')

In [72]:

data

Out[72]:

array([[ 0.80157062, -1.11126999, -0.36717661, -0.10146253],
       [ 0.27996882,  0.1007806 , -1.57268242,  0.53328684],
       [-1.72991998, -1.68063347, -0.56110756, -0.98492423],
       [ 0.62189742,  1.16186301,  0.97171423,  0.25522433],
       [-0.7793186 ,  0.94409302, -0.82486789, -0.3777059 ],
       [-0.12322917, -0.71568842,  1.47153722,  1.73777872],
       [-0.45996373, -1.41262271,  1.26718241, -0.22801257]])

In [73]:

names == 'Bob'

Out[73]:

array([ True, False, False,  True, False, False, False], dtype=bool)

In [74]:

data[names=='Bob']

Out[74]:

array([[ 0.80157062, -1.11126999, -0.36717661, -0.10146253],
       [ 0.62189742,  1.16186301,  0.97171423,  0.25522433]])

In [75]:

data[names=='Bob', 2:]

Out[75]:

array([[-0.36717661, -0.10146253],
       [ 0.97171423,  0.25522433]])

In [76]:

names != 'Bob'

Out[76]:

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

In [77]:

data[-(names=='Bob')]

Out[77]:

array([[ 0.27996882,  0.1007806 , -1.57268242,  0.53328684],
       [-1.72991998, -1.68063347, -0.56110756, -0.98492423],
       [-0.7793186 ,  0.94409302, -0.82486789, -0.3777059 ],
       [-0.12322917, -0.71568842,  1.47153722,  1.73777872],
       [-0.45996373, -1.41262271,  1.26718241, -0.22801257]])

In [78]:

mask = (names == 'Bob') | (names == 'Will')

In [79]:

mask

Out[79]:

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [80]:

data[mask]

Out[80]:

array([[ 0.80157062, -1.11126999, -0.36717661, -0.10146253],
       [-1.72991998, -1.68063347, -0.56110756, -0.98492423],
       [ 0.62189742,  1.16186301,  0.97171423,  0.25522433],
       [-0.7793186 ,  0.94409302, -0.82486789, -0.3777059 ]])

In [81]:

data[data<0]=0

In [82]:

data

Out[82]:

array([[ 0.80157062,  0.        ,  0.        ,  0.        ],
       [ 0.27996882,  0.1007806 ,  0.        ,  0.53328684],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.62189742,  1.16186301,  0.97171423,  0.25522433],
       [ 0.        ,  0.94409302,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  1.47153722,  1.73777872],
       [ 0.        ,  0.        ,  1.26718241,  0.        ]])

In [83]:

data[names != 'Joe'] = 7

In [84]:

data

Out[84]:

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.27996882,  0.1007806 ,  0.        ,  0.53328684],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  0.        ,  1.47153722,  1.73777872],
       [ 0.        ,  0.        ,  1.26718241,  0.        ]])

Fancy Indexing¶

In [85]:

arr = np.empty((8,4))

In [86]:

for i in range(8):
    arr[i]=i

In [87]:

arr

Out[87]:

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [88]:

arr[[4,3,0,6]]

Out[88]:

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

In [89]:

arr[[-3,-5,-7]]

Out[89]:

array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

In [90]:

arr = np.arange(32).reshape((8,4))

In [91]:

arr

Out[91]:

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [92]:

arr[[1,5,7,2],[0,3,1,2]]

Out[92]:

array([ 4, 23, 29, 10])

Transposing Arrays and Swapping Axes¶

In [93]:

arr = np.arange(15).reshape((3,5))

In [94]:

arr

Out[94]:

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [95]:

arr.T

Out[95]:

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [96]:

arr = np.random.randn(6,3)

In [97]:

np.dot(arr.T,arr)

Out[97]:

array([[ 3.43085137,  1.45241985, -0.28497343],
       [ 1.45241985,  7.43054637, -2.33795759],
       [-0.28497343, -2.33795759,  6.11364269]])

In [98]:

arr = np.arange(16).reshape((2,2,4))

In [99]:

arr

Out[99]:

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [100]:

arr.transpose((1,0,2))

Out[100]:

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [101]:

arr.swapaxes(1,2)

Out[101]:

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

Universal Functions: Fast Element-wise Array Functions¶

In [102]:

arr = np.arange(10)

In [103]:

np.sqrt(arr)

Out[103]:

array([ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
        2.23606798,  2.44948974,  2.64575131,  2.82842712,  3.        ])

In [104]:

np.exp(arr)

Out[104]:

array([  1.00000000e+00,   2.71828183e+00,   7.38905610e+00,
         2.00855369e+01,   5.45981500e+01,   1.48413159e+02,
         4.03428793e+02,   1.09663316e+03,   2.98095799e+03,
         8.10308393e+03])

In [105]:

x = np.random.randn(8)

In [106]:

y = np.random.randn(8)

In [107]:

Out[107]:

array([ 0.99819174, -1.67071413,  0.69328763,  1.10724666,  0.06318684,
        1.30097777,  2.39201052,  0.18678585])

In [108]:

Out[108]:

array([ 1.86216662, -0.60762356, -0.49207699, -1.61177888, -0.77775008,
       -0.06480237, -0.48120421,  0.01314353])

In [109]:

np.maximum(x,y)

Out[109]:

array([ 1.86216662, -0.60762356,  0.69328763,  1.10724666,  0.06318684,
        1.30097777,  2.39201052,  0.18678585])

In [110]:

arr = np.random.randn(7)*5

In [111]:

arr

Out[111]:

array([ 1.91395828, -0.42429758, -3.825587  , -2.62878641,  0.11969267,
       -5.36031755,  7.21784393])

In [112]:

np.modf(arr)

Out[112]:

(array([ 0.91395828, -0.42429758, -0.825587  , -0.62878641,  0.11969267,
        -0.36031755,  0.21784393]), array([ 1., -0., -3., -2.,  0., -5.,  7.]))

Data Processing Using Arrays¶

In [113]:

points = np.arange(-5,5,0.01) # 1000 equally spaced points

In [114]:

xs, ys = np.meshgrid(points,points)

In [115]:

ys

Out[115]:

array([[-5.  , -5.  , -5.  , ..., -5.  , -5.  , -5.  ],
       [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99],
       [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98],
       ..., 
       [ 4.97,  4.97,  4.97, ...,  4.97,  4.97,  4.97],
       [ 4.98,  4.98,  4.98, ...,  4.98,  4.98,  4.98],
       [ 4.99,  4.99,  4.99, ...,  4.99,  4.99,  4.99]])

In [116]:

import matplotlib.pyplot as plt

In [117]:

z = np.sqrt(xs**2 + ys**2)

In [118]:

Out[118]:

array([[ 7.07106781,  7.06400028,  7.05693985, ...,  7.04988652,
         7.05693985,  7.06400028],
       [ 7.06400028,  7.05692568,  7.04985815, ...,  7.04279774,
         7.04985815,  7.05692568],
       [ 7.05693985,  7.04985815,  7.04278354, ...,  7.03571603,
         7.04278354,  7.04985815],
       ..., 
       [ 7.04988652,  7.04279774,  7.03571603, ...,  7.0286414 ,
         7.03571603,  7.04279774],
       [ 7.05693985,  7.04985815,  7.04278354, ...,  7.03571603,
         7.04278354,  7.04985815],
       [ 7.06400028,  7.05692568,  7.04985815, ...,  7.04279774,
         7.04985815,  7.05692568]])

In [123]:

%pylab inline
plt.imshow(z,cmap=plt.cm.gray); plt.colorbar()
plt.title('Image plot of $\sqrt{x^2 + y^2}$ for a grid of values')

Populating the interactive namespace from numpy and matplotlib

Out[123]:

<matplotlib.text.Text at 0x1114d3d10>

Expressing Conditional Logic as Array Operations¶

In [124]:

xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])

In [125]:

yarr = np.array([2.1,2.2,2.3,2.4,2.5])

In [126]:

cond = np.array([True, False, True, True, False])

In [127]:

result = [(x if c else y)
          for x,y,c in zip(xarr, yarr, cond)]

In [128]:

result

Out[128]:

[1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5]

In [129]:

result = np.where(cond, xarr, yarr)

In [130]:

result

Out[130]:

array([ 1.1,  2.2,  1.3,  1.4,  2.5])

In [131]:

arr = np.random.randn(4,4)

In [132]:

arr

Out[132]:

array([[ 0.15860243, -0.19025505, -0.28670256, -0.78042955],
       [ 0.99593231,  0.67750065,  1.50543254, -0.54876993],
       [ 0.01450733, -0.97386191, -0.47407092,  0.47691936],
       [-0.90876212,  0.82059069,  0.7958378 ,  1.45423948]])

In [133]:

np.where(arr>0,2,-2)

Out[133]:

array([[ 2, -2, -2, -2],
       [ 2,  2,  2, -2],
       [ 2, -2, -2,  2],
       [-2,  2,  2,  2]])

Mathematical and Statistical Methods¶

In [134]:

arr = np.random.randn(5,4)

In [135]:

arr.mean()

Out[135]:

0.01162071577157121

In [136]:

np.mean(arr)

Out[136]:

0.01162071577157121

In [137]:

arr.sum()

Out[137]:

0.23241431543142421

In [138]:

arr.mean(axis=1)

Out[138]:

array([ 0.01078394,  0.56975368,  0.08557923,  0.25582785, -0.86384112])

In [139]:

arr.sum(0)

Out[139]:

array([-0.12054343, -2.49026435,  1.17933985,  1.66388225])

In [140]:

arr = np.array([[0,1,2],[3,4,5],[6,7,8]])

In [142]:

arr.cumsum(0)

Out[142]:

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]])

In [143]:

arr.cumprod(1)

Out[143]:

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]])

Methods for Boolean Arrays¶

In [144]:

arr = randn(100)

In [145]:

(arr>0).sum() # number of positive values

Out[145]:

In [146]:

bools = np.array([False, False, True, False])

In [147]:

bools.any()

Out[147]:

True

In [148]:

bools.all()

Out[148]:

False

Sorting¶

In [149]:

arr = np.random.randn(8)

In [150]:

arr

Out[150]:

array([-2.13432211, -0.17830939, -0.5780675 ,  0.17706475, -0.99877497,
       -0.1909259 ,  0.245384  , -0.90764502])

In [151]:

arr.sort()

In [152]:

arr

Out[152]:

array([-2.13432211, -0.99877497, -0.90764502, -0.5780675 , -0.1909259 ,
       -0.17830939,  0.17706475,  0.245384  ])

Unique and Other Set Logic¶

In [153]:

names = np.array(['Bob','Joe','Will','Bob','Will', 'Joe','Joe'])

In [154]:

np.unique(names)

Out[154]:

array(['Bob', 'Joe', 'Will'], 
      dtype='|S4')

In [155]:

sorted(set(names))

Out[155]:

['Bob', 'Joe', 'Will']

In [156]:

values = np.array([6,0,0,3,2,5,6])

In [157]:

np.in1d(values,[2,3,6])

Out[157]:

array([ True, False, False,  True,  True, False,  True], dtype=bool)

Storing arrays on Disk in Binary Format¶

In [158]:

arr = np.arange(10)

In [159]:

np.save('some_array',arr)

In [160]:

np.load('some_array.npy')

Out[160]:

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [161]:

np.savez('array_archive.npz',a=arr,b=arr)

In [162]:

arch = np.load('array_archive.npz')

In [163]:

arch['a']

Out[163]:

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [164]:

arch['b']

Out[164]:

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [165]:

!rm array_archive.npz

In [166]:

!rm some_array.npy

Linear Algebra¶

In [167]:

x = np.array([[1.,2.,3.],[4.,5.,6.]])

In [168]:

y = np.array([[6.,23.], [-1,7], [8,9]])

In [169]:

Out[169]:

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [170]:

Out[170]:

array([[  6.,  23.],
       [ -1.,   7.],
       [  8.,   9.]])

In [171]:

x.dot(y) # equivalently np.dot(x,y)

Out[171]:

array([[  28.,   64.],
       [  67.,  181.]])

In [172]:

np.dot(x, np.ones(3))

Out[172]:

array([  6.,  15.])

In [173]:

np.ones(3).shape

Out[173]:

(3,)

In [174]:

from numpy.linalg import inv,qr

In [175]:

X = np.random.randn(5,5)

In [176]:

mat = X.T.dot(X)

In [177]:

inv(mat)

Out[177]:

array([[ 0.55656045, -0.1052293 ,  0.54259798,  0.04927059, -0.20943461],
       [-0.1052293 ,  0.7800284 , -0.51741589, -0.21122656,  0.40304701],
       [ 0.54259798, -0.51741589,  1.21249508,  0.28979103, -0.74981628],
       [ 0.04927059, -0.21122656,  0.28979103,  0.47800195, -0.49408226],
       [-0.20943461,  0.40304701, -0.74981628, -0.49408226,  0.87290569]])

In [178]:

mat.dot(inv(mat))

Out[178]:

array([[  1.00000000e+00,   0.00000000e+00,   2.22044605e-16,
          0.00000000e+00,   0.00000000e+00],
       [ -4.85722573e-17,   1.00000000e+00,   1.38777878e-17,
         -1.04083409e-16,   2.22044605e-16],
       [ -3.33066907e-16,   2.22044605e-16,   1.00000000e+00,
          0.00000000e+00,   4.44089210e-16],
       [  0.00000000e+00,   0.00000000e+00,   4.44089210e-16,
          1.00000000e+00,  -4.44089210e-16],
       [ -2.22044605e-16,  -4.44089210e-16,   8.88178420e-16,
          4.44089210e-16,   1.00000000e+00]])

In [179]:

q,r = qr(mat)

In [180]:

Out[180]:

array([[-5.16468799,  1.57980756,  5.97742386,  3.407923  ,  5.41611016],
       [ 0.        , -1.89127908, -0.6445985 , -0.31264466,  0.34849209],
       [ 0.        ,  0.        , -3.01424877, -6.02413598, -6.77379008],
       [ 0.        ,  0.        ,  0.        , -4.00915939, -2.21444492],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.75066787]])

Random number generation¶

In [183]:

samples = np.random.normal(size = (4,4))

In [184]:

samples

Out[184]:

array([[-1.40590462, -0.91612122,  0.72683934,  0.2305343 ],
       [ 0.49735553, -1.6994437 , -0.06710131,  1.9160297 ],
       [-0.44294493,  2.15673576, -0.46160566, -0.1098582 ],
       [ 0.9837433 ,  0.57693797, -1.48162467, -1.88921783]])

In [185]:

N=1000000

In [187]:

from random import normalvariate

In [188]:

%timeit samples = [normalvariate(0,1) for _ in xrange(N)]

1 loops, best of 3: 1.21 s per loop

In [189]:

%timeit np.random.normal(size=N)

10 loops, best of 3: 41.1 ms per loop

In [ ]: