Missing Data In Pandas Dataframe¶

Author: Chris Albon, @ChrisAlbon
Date: -
Repo: Python 3 code snippets for data science
Note:

import modules¶

In [1]:

import pandas as pd
import numpy as np

Create dataframe with missing values¶

In [2]:

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'], 
        'age': [42, np.nan, 36, 24, 73], 
        'sex': ['m', np.nan, 'f', 'm', 'f'], 
        'preTestScore': [4, np.nan, np.nan, 2, 3],
        'postTestScore': [25, np.nan, np.nan, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df

Out[2]:

	first_name	last_name	age	sex	preTestScore	postTestScore
0	Jason	Miller	42	m	4	25
1	NaN	NaN	NaN	NaN	NaN	NaN
2	Tina	Ali	36	f	NaN	NaN
3	Jake	Milner	24	m	2	62
4	Amy	Cooze	73	f	3	70

Drop missing observations¶

In [3]:

df_no_missing = df.dropna()
df_no_missing

Out[3]:

	first_name	last_name	age	sex	preTestScore	postTestScore
0	Jason	Miller	42	m	4	25
3	Jake	Milner	24	m	2	62
4	Amy	Cooze	73	f	3	70

Drop rows where all cells in that row is NA¶

In [4]:

df_cleaned = df.dropna(how='all')
df_cleaned

Out[4]:

	first_name	last_name	age	sex	preTestScore	postTestScore
0	Jason	Miller	42	m	4	25
2	Tina	Ali	36	f	NaN	NaN
3	Jake	Milner	24	m	2	62
4	Amy	Cooze	73	f	3	70

Create a new column full of missing values¶

In [5]:

df['location'] = [np.nan, np.nan, np.nan, np.nan, np.nan]
df

Out[5]:

	first_name	last_name	age	sex	preTestScore	postTestScore	location
0	Jason	Miller	42	m	4	25	NaN
1	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	Tina	Ali	36	f	NaN	NaN	NaN
3	Jake	Milner	24	m	2	62	NaN
4	Amy	Cooze	73	f	3	70	NaN

Drop column if they only contain missing values¶

In [6]:

df.dropna(axis=1, how='all')

Out[6]:

	first_name	last_name	age	sex	preTestScore	postTestScore
0	Jason	Miller	42	m	4	25
1	NaN	NaN	NaN	NaN	NaN	NaN
2	Tina	Ali	36	f	NaN	NaN
3	Jake	Milner	24	m	2	62
4	Amy	Cooze	73	f	3	70

Drop rows that contain less than five observations¶

This is really mostly useful for time series

In [7]:

df.dropna(thresh=5)

Out[7]:

	first_name	last_name	age	sex	preTestScore	postTestScore	location
0	Jason	Miller	42	m	4	25	NaN
3	Jake	Milner	24	m	2	62	NaN
4	Amy	Cooze	73	f	3	70	NaN

Fill in missing data with zeros¶

In [8]:

df.fillna(0)

Out[8]:

	first_name	last_name	age	sex	preTestScore	postTestScore
0	Jason	Miller	42	m	4	25
1	0	0	0	0	0	0
2	Tina	Ali	36	f	0	0
3	Jake	Milner	24	m	2	62
4	Amy	Cooze	73	f	3	70

Fill in missing in preTestScore with the mean value of preTestScore¶

inplace=True means that the changes are saved to the df right away

In [9]:

df["preTestScore"].fillna(df["preTestScore"].mean(), inplace=True)
df

Out[9]:

	first_name	last_name	age	sex	preTestScore	postTestScore	location
0	Jason	Miller	42	m	4	25	NaN
1	NaN	NaN	NaN	NaN	3	NaN	NaN
2	Tina	Ali	36	f	3	NaN	NaN
3	Jake	Milner	24	m	2	62	NaN
4	Amy	Cooze	73	f	3	70	NaN

Fill in missing in postTestScore with each sex's mean value of postTestScore¶

In [10]:

df["postTestScore"].fillna(df.groupby("sex")["postTestScore"].transform("mean"), inplace=True)
df

Out[10]:

	first_name	last_name	age	sex	preTestScore	postTestScore	location
0	Jason	Miller	42	m	4	25	NaN
1	NaN	NaN	NaN	NaN	3	NaN	NaN
2	Tina	Ali	36	f	3	70	NaN
3	Jake	Milner	24	m	2	62	NaN
4	Amy	Cooze	73	f	3	70	NaN

Select some raws but ignore the missing data points¶

In [12]:

# Select the rows of df where age is not NaN and sex is not NaN
df[df['age'].notnull() & df['sex'].notnull()]

Out[12]:

	first_name	last_name	age	sex	preTestScore	postTestScore	location
0	Jason	Miller	42	m	4	25	NaN
2	Tina	Ali	36	f	3	70	NaN
3	Jake	Milner	24	m	2	62	NaN
4	Amy	Cooze	73	f	3	70	NaN