Loading A CSV Into Pandas¶

Author: Chris Albon, @ChrisAlbon
Date: -
Repo: Python 3 code snippets for data science
Note:

import modules¶

In [16]:

import pandas as pd
import numpy as np

Create dataframe (that we will be importing)¶

In [45]:

raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', 'Jacobson', ".", 'Milner', 'Cooze'], 
        'age': [42, 52, 36, 24, 73], 
        'preTestScore': [4, 24, 31, ".", "."],
        'postTestScore': ["25,000", "94,000", 57, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'preTestScore', 'postTestScore'])
df

Out[45]:

	first_name	last_name	age	preTestScore	postTestScore
0	Jason	Miller	42	4	25,000
1	Molly	Jacobson	52	24	94,000
2	Tina	.	36	31	57
3	Jake	Milner	24	.	62
4	Amy	Cooze	73	.	70

5 rows × 5 columns

Save dataframe as csv in the working director¶

In [46]:

df.to_csv('example.csv')

Load a csv¶

In [47]:

df = pd.read_csv('example.csv')
df

Out[47]:

	Unnamed: 0	first_name	last_name	age	preTestScore	postTestScore
0	0	Jason	Miller	42	4	25,000
1	1	Molly	Jacobson	52	24	94,000
2	2	Tina	.	36	31	57
3	3	Jake	Milner	24	.	62
4	4	Amy	Cooze	73	.	70

5 rows × 6 columns

Load a csv with no headers¶

In [48]:

df = pd.read_csv('example.csv', header=None)
df

Out[48]:

	0	1	2	3	4	5
0	NaN	first_name	last_name	age	preTestScore	postTestScore
1	0	Jason	Miller	42	4	25,000
2	1	Molly	Jacobson	52	24	94,000
3	2	Tina	.	36	31	57
4	3	Jake	Milner	24	.	62
5	4	Amy	Cooze	73	.	70

6 rows × 6 columns

Load a csv while specifying column names¶

In [49]:

df = pd.read_csv('example.csv', header=True, names=['UID', 'First Name', 'Last Name', 'Age', 'Pre-Test Score', 'Post-Test Score'])
df

Out[49]:

	UID	First Name	Last Name	Age	Pre-Test Score	Post-Test Score
0	1	Molly	Jacobson	52	24	94,000
1	2	Tina	.	36	31	57
2	3	Jake	Milner	24	.	62
3	4	Amy	Cooze	73	.	70

4 rows × 6 columns

Load a csv with setting the index column to UID¶

In [50]:

df = pd.read_csv('example.csv', index_col='UID', header=True, names=['UID', 'First Name', 'Last Name', 'Age', 'Pre-Test Score', 'Post-Test Score'])
df

Out[50]:

	First Name	Last Name	Age	Pre-Test Score	Post-Test Score
UID
1	Molly	Jacobson	52	24	94,000
2	Tina	.	36	31	57
3	Jake	Milner	24	.	62
4	Amy	Cooze	73	.	70

4 rows × 5 columns

Load a csv while setting the index columns to First Name and Last Name¶

In [51]:

df = pd.read_csv('example.csv', index_col=['First Name', 'Last Name'], header=True, names=['UID', 'First Name', 'Last Name', 'Age', 'Pre-Test Score', 'Post-Test Score'])
df

Out[51]:

		UID	Age	Pre-Test Score	Post-Test Score
First Name	Last Name
Molly	Jacobson	1	52	24	94,000
Tina	.	2	36	31	57
Jake	Milner	3	24	.	62
Amy	Cooze	4	73	.	70

4 rows × 4 columns

Load a csv while specifying "." as missing values¶

In [52]:

df = pd.read_csv('example.csv', na_values=['.'])
pd.isnull(df)

Out[52]:

	Unnamed: 0	first_name	last_name	age	preTestScore	postTestScore
0	False	False	False	False	False	False
1	False	False	False	False	False	False
2	False	False	True	False	False	False
3	False	False	False	False	True	False
4	False	False	False	False	True	False

5 rows × 6 columns

Load a csv while specifying "." and "NA" as missing values in the Last Name column and "." as missing values in Pre-Test Score column¶

In [53]:

sentinels = {'Last Name': ['.', 'NA'], 'Pre-Test Score': ['.']}

In [54]:

df = pd.read_csv('example.csv', na_values=sentinels)
df

Out[54]:

	Unnamed: 0	first_name	last_name	age	preTestScore	postTestScore
0	0	Jason	Miller	42	4	25,000
1	1	Molly	Jacobson	52	24	94,000
2	2	Tina	.	36	31	57
3	3	Jake	Milner	24	.	62
4	4	Amy	Cooze	73	.	70

5 rows × 6 columns

Load a csv while skipping the top 3 rows¶

In [55]:

df = pd.read_csv('example.csv', na_values=sentinels, skiprows=3)
df

Out[55]:

	2	Tina	.	36	31	57
0	3	Jake	Milner	24	.	62
1	4	Amy	Cooze	73	.	70

2 rows × 6 columns

Load a csv while skipping the bottom three rows¶

In [56]:

df = pd.read_csv('example.csv', na_values=sentinels, skip_footer=3)
df

Out[56]:

	Unnamed: 0	first_name	last_name	age	preTestScore	postTestScore
0	0	Jason	Miller	42	4	25,000
1	1	Molly	Jacobson	52	24	94,000

2 rows × 6 columns

Load a csv while interpreting "," in strings around numbers as thousands seperators¶

In [57]:

df = pd.read_csv('example.csv', thousands=',')
df

Out[57]:

	Unnamed: 0	first_name	last_name	age	preTestScore	postTestScore
0	0	Jason	Miller	42	4	25000
1	1	Molly	Jacobson	52	24	94000
2	2	Tina	.	36	31	57
3	3	Jake	Milner	24	.	62
4	4	Amy	Cooze	73	.	70

5 rows × 6 columns

In [56]:

In [ ]: