!ls !pip install -q pydrive from google.colab import auth auth.authenticate_user() from pydrive.drive import GoogleDrive from pydrive.auth import GoogleAuth from oauth2client.client import GoogleCredentials gauth = GoogleAuth() gauth.credentials = GoogleCredentials.get_application_default() drive = GoogleDrive(gauth) myfile = drive.CreateFile({'id': '1SdzbEMB6GXd2yaF-4KuEyMtB1JBtVsgI'}) myfile.GetContentFile('database_versao_01_fonteANM_23_01_2019.csv') #Imporatando as bibliotecas import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from pandas import DataFrame, Series %matplotlib inline import calendar pd.options.display.float_format = '{:,.2f}'.format df = pd.read_csv('database_versao_01_fonteANM_23_01_2019.csv', header=0, delimiter=',',encoding = 'utf-8', decimal= ',') df.head() # Formato da tabela df.shape #Breve estatística descritiva df.describe(include=['object']) # Checando dados nulos # Infelizmente temos dados nulos em algumas colunas... temos que verificar a causa disso. df.isnull().sum() #Eliminando as linhas nulas para ficar mais fácil uma primeira análise df_nonullvalues = df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) df_nonullvalues.shape #Checando novamente a eliminação de valores nulos df_nonullvalues.isnull().sum() #... continua...mandem bala quem quiser!