Estatística Descritiva com Pandas¶

A estatística descritiva é usada para descrever as características básicas dos dados em um estudo. Elas fornecem resumos simples sobre a amostra e as medidas. Junto com a análise gráfica simples, elas formam a base de praticamente todas as análises quantitativas de dados.

Para começar, precisamos coletar os dados para o nosso DataFrame. Para este exemplo, eu coletei os seguintes dados sobre estudantes:

Nome	Idade	Pontuação
Rafael	20	70
Miguel	22	80
Gabriel	27	87
Emanuel	19	92
Maria	25	77
Sofia	30	98
Luana	18	100
Cassandra	17

Antes de iniciarmos, é necessário importar a biblioteca pandas:

In [75]:

import pandas as pd

Criando um DataFrame¶

Em seguida, precisamos criar o DataFrame com base nos dados coletados.

Para nosso exemplo, o código para criar o DataFrame é:

In [76]:

dados = {
    'nome': ['Rafael', 'Miguel', 'Gabriel', 'Emanuel','Maria', 'Sofia', 'Luana', 'Cassandra'], 
    'idade': [20, 22, 27, 19, 25, 30, 18, 17], 
    'pontuação': [70, 80, 87, 92, 80, 98, 100, None],
}

df = pd.DataFrame(dados)
df

Out[76]:

	nome	idade	pontuação
0	Rafael	20	70.0
1	Miguel	22	80.0
2	Gabriel	27	87.0
3	Emanuel	19	92.0
4	Maria	25	80.0
5	Sofia	30	98.0
6	Luana	18	100.0
7	Cassandra	17	NaN

Digamos que você deseja obter as estatísticas descritivas para o campo 'Idade', que contém dados numéricos.

Nesse caso, a sintaxe que precisamos aplicar é:

In [77]:

df['idade'].describe()

Out[77]:

count     8.000000
mean     22.250000
std       4.652188
min      17.000000
25%      18.750000
50%      21.000000
75%      25.500000
max      30.000000
Name: idade, dtype: float64

Para saber as dimensões de nossos dados (quantas linhas e colunas existem), podemos acessar o atributo shape:

In [78]:

df.shape

Out[78]:

(8, 3)

O atributo columns nos informa todas as colunas de nosso DataFrame:

In [79]:

df.columns

Out[79]:

Index(['nome', 'idade', 'pontuação'], dtype='object')

O atributo dtypes nos informa os tipos de dados de cada coluna:

In [80]:

df.dtypes

Out[80]:

nome          object
idade          int64
pontuação    float64
dtype: object

O método sum nos permite obter a soma dos dados de uma coluna numérica:

In [81]:

df['idade'].sum() 

Out[81]:

Podemos ainda dividir as estatísticas descritivas no seguinte:

Count (Contagem)¶

In [82]:

df['pontuação'].count() 

Out[82]:

Mean (Média)¶

In [83]:

df['pontuação'].mean() 

Out[83]:

86.71428571428571

Mode (Moda)¶

In [84]:

df['pontuação'].mode()

Out[84]:

0    80.0
dtype: float64

Median (Mediana)¶

In [85]:

df['pontuação'].median() 

Out[85]:

87.0

0.25 Quantile:¶

In [86]:

df['pontuação'].quantile(q=0.25)

Out[86]:

80.0

0.50 Quantile (Median):¶

In [87]:

df['pontuação'].quantile(q=0.50)

Out[87]:

87.0

0.75 Quantile:¶

In [88]:

df['pontuação'].quantile(q=0.75)

Out[88]:

95.0

Standard Deviation (Desvio Padrão)¶

In [89]:

df['pontuação'].std()

Out[89]:

10.812250547631695

Var (Variância)¶

In [90]:

df['pontuação'].var() 

Out[90]:

116.90476190476188

CumSum (Soma Cumulativa)¶

In [91]:

df['pontuação'].cumsum() 

Out[91]:

0     70.0
1    150.0
2    237.0
3    329.0
4    409.0
5    507.0
6    607.0
7      NaN
Name: pontuação, dtype: float64

Min (Menor Valor)¶

In [92]:

df['pontuação'].min() 

Out[92]:

70.0

Max (maior Valor)¶

In [93]:

df['pontuação'].max() 

Out[93]:

100.0

Podemos contar quantos valores nulos existem em nosso conjunto de dados usando o método isna combinado com sum:¶

In [94]:

df['pontuação'].isna().sum()

Out[94]:

Também podemos ordenar os valores de uma coluna com o método sort_values:¶

In [95]:

df['nome'].sort_values()

Out[95]:

7    Cassandra
3      Emanuel
2      Gabriel
6        Luana
4        Maria
1       Miguel
0       Rafael
5        Sofia
Name: nome, dtype: object

Usando o operador de atribuição, podemos facilmente alterar a escala da pontuação dos estudantes, neste exemplo vamos dividir ela por 100:¶

In [96]:

df["pontuação"] /= 100

O método head nos permite controlar quantas linhas desejamos ver no topo do DataFrame:¶

In [97]:

df['pontuação'].head(3)

Out[97]:

0    0.70
1    0.80
2    0.87
Name: pontuação, dtype: float64

O método tail nos permite controlar quantas linhas desejamos ver na cauda do DataFrame:¶

In [103]:

df['pontuação'].tail(2)

Out[103]:

6    1.0
7    NaN
Name: pontuação, dtype: float64

O método skew retorna a inclinação imparcial do eixo normalizada em N-1:¶

In [98]:

df['pontuação'].skew() 

Out[98]:

-0.2482135835044105

O método corr computa a correlação de colunas emparelhadas:¶

In [99]:

df.corr()

Out[99]:

	idade	pontuação
idade	1.000000	0.124085
pontuação	0.124085	1.000000

O método cov computa a covariância entre as Series do DataFrame, o DataFrame retornado é a matriz de covariância das colunas do DataFrame:¶

In [100]:

df.cov()

Out[100]:

	idade	pontuação
idade	21.642857	0.06000
pontuação	0.060000	0.01169

Pontuação Representada em um Gráfico de Barras¶

In [101]:

df['pontuação'].plot.bar();

Idade Representada em um Gráfico de Linha¶

In [102]:

df['idade'].plot.line();