merge详解¶

merge算是关系数据库用得很多的一个操作，所以单独开一篇细讲这个函数。

In [3]:

!cd

E:\ML\实战\pandas实用教程

In [4]:

import numpy as np
import pandas as pd

1. 函数说明¶

`pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort = False)`¶

concat函数本质上是在所有索引上同时进行对齐合并，而如果想在任意列上对齐合并，则需要merge函数，其在sql应用很多。

left,right：两个要对齐合并的DataFrame；
how：先做笛卡尔积操作，然后按照要求，保留需要的，缺失的数据填充NaN；
- left: 以左DataFrame为基准，即左侧DataFrame的数据全部保留（不代表完全一致、可能会存在复制），保持原序
- right: 以右DataFrame为基准，保持原序
- inner: 交，保留左右DataFrame在on上完全一致的行，保持左DataFrame顺序
- outer: 并，按照字典顺序重新排序
on：列索引或列索引列表，如果要在DataFrame相同的列索引做对齐，用这个参数；
left_on, right_on, left_index, right_index：
- on对应普通的列索引或列索引列表，对齐不同列名的DataFrame，用这俩参数；
- index对应要使用的index，建议不要使用这俩参数，因为可以用concat方法代替。
sort: True or False，是否按字典序重新排序。

In [5]:

df1 = pd.DataFrame([[1,2],[3,4]], index = ['a','b'],columns = ['A','B'])
df2 = pd.DataFrame([[1,3],[4,8]], index = ['b','d'],columns = ['B','C'])
df1

Out[5]:

	A	B
a	1	2
b	3	4

In [6]:

df2

Out[6]:

	B	C
b	1	3
d	4	8

如果单纯的按照index对齐，不如用concat方法，所以一般不建议使用left_index, right_index 。¶

In [7]:

pd.merge(left = df1, right = df2, how = 'inner' ,left_index = True, right_index = True)

Out[7]:

	A	B_x	B_y	C
b	3	4	1	3

In [8]:

# 小区别是concat对重复列没有重命名，但是重名的情况不多，而且重名了说明之前设计就不大合理。
pd.concat([df1,df2], join = 'inner',axis =1)  

Out[8]:

	A	B	B	C
b	3	4	1	3

2. `on` 用法¶

设置 how = 'inner'

In [11]:

#对于'B'列：df1的'b'行、df2的'd'行，是相同的，其他都不同。 
pd.merge(left = df1, right = df2, how = 'inner' , on =['B']) 

Out[11]:

	A	B	C
0	3	4	8

In [12]:

# df1的'A'列'b'行，df2的'C'列'd'行是相同的，其他都不同。
# 其他列如果同名会进行重命名。
pd.merge(left = df1, right = df2, how = 'inner',left_on = ['A'] ,right_on = ['C'])

Out[12]:

	A	B_x	B_y	C
0	3	4	1	3

3. `how` 用法¶

In [13]:

# 保持左侧DataFrame不变，用右侧来跟它对齐，对不上的填NaN。
pd.merge(left = df1, right = df2, how = 'left', on = ['B'] )

Out[13]:

	A	B	C
0	1	2	NaN
1	3	4	8.0

In [15]:

# 保持右侧DataFrame不变，用右侧来跟它对齐，对不上的填NaN。
pd.merge(left = df1, right = df2, how = 'right', on = ['B'] )

Out[15]:

	A	B	C
0	3.0	4	8
1	NaN	1	3

对齐的列存在重复值¶

重复的也没关系，操作逻辑是一致的，完全可以假想不存在重复。

In [16]:

df1.loc['a','B'] =4  #改成重复
df1

Out[16]:

	A	B
a	1	4
b	3	4

In [19]:

### 保持右侧的列都在，如果左侧对齐的列存在重复值，那么对齐上后也存在重复。
pd.merge(left = df1, right = df2, how = 'right', on = ['B'] )

Out[19]:

	A	B	C
0	1.0	4	8
1	3.0	4	8
2	NaN	1	3