Data Wrangling: Join, Combine, and, Reshape¶

Hierachical Indexing¶

In [4]:

import pandas as pd
import numpy as np

In [5]:

data = pd.Series(np.random.randn(9), 
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'], 
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]])
data

Out[5]:

a  1    0.528770
   2   -1.294225
   3    0.656741
b  1   -1.678594
   3    1.599596
c  1    0.461214
   2    0.321586
d  2    0.850888
   3    1.942281
dtype: float64

In [6]:

data.index

Out[6]:

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 2, 0, 1, 1, 2]])

In [7]:

data["b"]

Out[7]:

1   -1.678594
3    1.599596
dtype: float64

In [8]:

data.unstack()

Out[8]:

	1	2	3
a	0.528770	-1.294225	0.656741
b	-1.678594	NaN	1.599596
c	0.461214	0.321586	NaN
d	NaN	0.850888	1.942281

In [9]:

data.unstack().index

Out[9]:

Index(['a', 'b', 'c', 'd'], dtype='object')

In [10]:

data.unstack().columns

Out[10]:

Int64Index([1, 2, 3], dtype='int64')

In [12]:

df = pd.DataFrame(data)
df

Out[12]:

		0
a	1	0.528770
	2	-1.294225
	3	0.656741
b	1	-1.678594
b	3	1.599596
c	1	0.461214
c	2	0.321586
d	2	0.850888
d	3	1.942281

Merging¶

In [2]:

import pandas as pd
import numpy as np

In [13]:

df1 = pd.DataFrame({"key": ["a", "b", "c", "d", "b", "b", "a"], 
                   "data1": range(7)})
df1

Out[13]:

	data1	key
0	0	a
1	1	b
2	2	c
3	3	d
4	4	b
5	5	b
6	6	a

In [14]:

df2 = pd.DataFrame({"key": ["a", "b", "b", "c"], 
                   'data2': range(4)})
df2

Out[14]:

	data2	key
0	0	a
1	1	b
2	2	b
3	3	c

In [15]:

df3 = pd.merge(df1, df2)
df3

Out[15]:

	data1	key	data2
0	0	a	0
1	6	a	0
2	1	b	1
3	1	b	2
4	4	b	1
5	4	b	2
6	5	b	1
7	5	b	2
8	2	c	3

In [16]:

df1.merge(df2)

Out[16]:

	data1	key	data2
0	0	a	0
1	6	a	0
2	1	b	1
3	1	b	2
4	4	b	1
5	4	b	2
6	5	b	1
7	5	b	2
8	2	c	3

In [17]:

df1.merge(df2, on = "key", how = "left")

Out[17]:

	data1	key	data2
0	0	a	0.0
1	1	b	1.0
2	1	b	2.0
3	2	c	3.0
4	3	d	NaN
5	4	b	1.0
6	4	b	2.0
7	5	b	1.0
8	5	b	2.0
9	6	a	0.0

In [19]:

s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])
s1

Out[19]:

a    0
b    1
dtype: int64

In [20]:

s2

Out[20]:

c    2
d    3
e    4
dtype: int64

In [21]:

s3

Out[21]:

f    5
g    6
dtype: int64

In [22]:

pd.concat([s1, s2, s3])

Out[22]:

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [26]:

df = pd.DataFrame({'key': ['foo', 'bar', 'baz'], 
                   'A': [1, 2, 3],   
                   'B': [4, 5, 6],   
                   'C': [7, 8, 9]})
df

Out[26]:

	A	B	C	key
0	1	4	7	foo
1	2	5	8	bar
2	3	6	9	baz

In [50]:

melted = pd.melt(df, ["key"])
melted

Out[50]:

	key	variable	value
0	foo	A	1
1	bar	A	2
2	baz	A	3
3	foo	B	4
4	bar	B	5
5	baz	B	6
6	foo	C	7
7	bar	C	8
8	baz	C	9

In [51]:

pivoted = melted.pivot(index = "key", values = "value", columns = "variable")
pivoted

Out[51]:

variable	A	B	C
key
bar	2	5	8
baz	3	6	9
foo	1	4	7

	data1	key	data2
0	0	a	0.0
1	1	b	1.0
2	1	b	2.0
3	2	c	3.0
4	3	d	NaN
5	4	b	1.0
6	4	b	2.0
7	5	b	1.0
8	5	b	2.0
9	6	a	0.0

	data1	key	data2
0	0	a	0.0
1	1	b	1.0
2	1	b	2.0
3	2	c	3.0
4	3	d	NaN
5	4	b	1.0
6	4	b	2.0
7	5	b	1.0
8	5	b	2.0
9	6	a	0.0

	data1	key	data2
0	0	a	0.0
1	1	b	1.0
2	1	b	2.0
3	2	c	3.0
4	3	d	NaN
5	4	b	1.0
6	4	b	2.0
7	5	b	1.0
8	5	b	2.0
9	6	a	0.0