Convert A Categorical Variable Into Dummy Variables¶

Author: Chris Albon, @ChrisAlbon
Date: -
Repo: Python 3 code snippets for data science
Note:

import modules¶

In [14]:

import pandas as pd

Create a dataframe¶

In [15]:

raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'], 
        'sex': ['male', 'female', 'male', 'female', 'female']}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'sex'])
df

Out[15]:

	first_name	last_name	sex
0	Jason	Miller	male
1	Molly	Jacobson	female
2	Tina	Ali	male
3	Jake	Milner	female
4	Amy	Cooze	female

5 rows × 3 columns

Create a set of dummy variables from the sex variable¶

In [16]:

df_sex = pd.get_dummies(df['sex'])

Join the dummy variables to the main dataframe¶

In [17]:

df_new = pd.concat([df, df_sex], axis=1)
df_new

Out[17]:

	first_name	last_name	sex	female	male
0	Jason	Miller	male	0	1
1	Molly	Jacobson	female	1	0
2	Tina	Ali	male	0	1
3	Jake	Milner	female	1	0
4	Amy	Cooze	female	1	0

5 rows × 5 columns

Alterative for joining the new columns¶

In [19]:

df_new = df.join(df_sex)
df_new

Out[19]:

	first_name	last_name	sex	female	male
0	Jason	Miller	male	0	1
1	Molly	Jacobson	female	1	0
2	Tina	Ali	male	0	1
3	Jake	Milner	female	1	0
4	Amy	Cooze	female	1	0

5 rows × 5 columns