In [1]:

%matplotlib inline
import pandas as pd

Загрузка данных¶

In [2]:

names = list(pd.read_csv('adult.names', names=['name', 'desc'], sep=':')[1:]['name']) + ['income']
data = pd.read_csv('adult.data', names=names, index_col=False)
data.head()

Out[2]:

	age	workclass	fnlwgt	education	education-num	marital-status	occupation	relationship	race	sex	capital-gain	capital-loss	hours-per-week	native-country	income
0	34	Private	80933	HS-grad	9	Married-civ-spouse	Craft-repair	Husband	White	Male	0	1672	40	United-States	<=50K
1	22	Private	317019	Some-college	10	Never-married	Other-service	Not-in-family	White	Female	0	0	30	United-States	<=50K
2	42	Private	261929	Bachelors	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	7688	0	40	United-States	>50K
3	38	Local-gov	286405	Doctorate	16	Married-civ-spouse	Exec-managerial	Husband	White	Male	0	1887	50	United-States	>50K
4	45	State-gov	252208	HS-grad	9	Separated	Adm-clerical	Own-child	White	Female	0	0	40	United-States	<=50K

1¶

In [3]:

data['race'].value_counts().plot(kind='barh')

Out[3]:

<matplotlib.axes._subplots.AxesSubplot at 0x7fe98aac55f8>

2¶

In [4]:

data['age'].mean()

Out[4]:

38.420666666666669

3¶

In [5]:

data['marital-status'].value_counts()[' Never-married']

Out[5]:

4¶

In [6]:

data[data['sex'] == ' Male'].groupby('workclass').mean()['hours-per-week'].plot(kind='barh')

Out[6]:

<matplotlib.axes._subplots.AxesSubplot at 0x7fe98aa8f630>

5¶

In [7]:

data[data['sex'] == ' Female'].groupby('occupation').mean()['education-num'].plot(kind='barh')

Out[7]:

<matplotlib.axes._subplots.AxesSubplot at 0x7fe98aa8f898>

6¶

Простой, но не очень информативный вариант¶

In [8]:

data.groupby('income')['age'].mean().plot(kind='barh')

Out[8]:

<matplotlib.axes._subplots.AxesSubplot at 0x7fe98a8c7da0>

Подробный вариант¶

In [9]:

rich_sizes = data[data['income'] == ' >50K'].groupby('age').size()
sizes = data.groupby('age').size()
rates = (rich_sizes / sizes).fillna(0)
rates.plot()

Out[9]:

<matplotlib.axes._subplots.AxesSubplot at 0x7fe98a98f9b0>

То же самое, но со сглаживанием¶

In [10]:

pd.rolling_mean(rates, window=5).plot()

Out[10]:

<matplotlib.axes._subplots.AxesSubplot at 0x7fe98a808240>

Альтернативный вариант, предложенный несколькими студентами на семинаре¶

In [11]:

import matplotlib.pylab as plt
plt.style.use('ggplot')

df = data
dfp = df[df['income']==' <=50K']
dfr = df[df['income']==' >50K']

(dfp.groupby('age').size()/len(dfp)*100).plot(alpha=0.7)
(dfr.groupby('age').size()/len(dfr)*100).plot(alpha=0.7)
plt.title('Distribution of ages in income groups')
plt.xlabel('Age')
plt.ylabel('Percentage')
plt.text(55, 2.2, 'Richer', color='blue', alpha=0.7)
plt.text(25, 3.8, 'Poorer', color='red', alpha=0.7)

Out[11]:

<matplotlib.text.Text at 0x7fe98a8eb390>

То же самое, но со сглаживанием и заливкой¶

In [12]:

d1 = {}
for i in range(17,91):
    d1[i] = 0
for i in dfp.groupby('age').size().keys():
    d1[i] += dfp.groupby('age').size()[i]
    
d2 = {}
for i in range(17,91):
    d2[i] = 0
for i in dfr.groupby('age').size().keys():
    d2[i] += dfr.groupby('age').size()[i]
    
l1 = []
l2 = []
for i in range(17):
    l1.append(0)
    l2.append(0)
for i in range(17,91):
    l1.append(d1[i])
    l2.append(d2[i])
    
d = pd.DataFrame(data={'Poorer': l1, 'Richer': l2})
pd.rolling_mean(d, window=3).plot(kind='area', stacked=True, alpha=0.7)
plt.xlabel('Age')
plt.ylabel('Number of people')
plt.title('Shares of ≤50K and >50K by age')

Out[12]:

<matplotlib.text.Text at 0x7fe98a7360f0>