Excel-datan avaaminen pandas dataframeen

Pandas kirjaston read_excel avaa Excel-muotoisen datan dataframeen.

Pelkällä tiedostonimellä avaat koodin kanssa samaan kansioon tallennetun Excel-datan, jossa data alkaa ensimmäisen taulukkovälilehden ensimmäisestä solusta.

Jos tiedosto on muussa kansiossa tai netissä, niin lisää tiedostopolku tai nettiosoite (esim. 'C://Users/Aki/Documents/data1.xlsx').

Datan alkuosaa voit avaamisen jälkeen katsoa komennolla df.head() ja loppuosaa komennolla df.tail().

Jos data ei ala ensimmäisen taulukkovälilehden ensimmäisestä solusta (huomaat tämän df.head()-komennolla), niin tarvitset lisäparametreja sheet_name, usecols, skiprows. Esimerkiksi seuraava avaisi datan Sheet2-taulukkovälilehden sarakkeista B ja C hypäten ensimmäisen rivin yli: df = pd.read_excel('data1.xlsx', sheet_name='Sheet2', usecols='B, C', skiprows=1)

Hankalammissa tapauksissa kannattaa harkita datan siivoamista Excelissä ennen read_excel-komennon käyttämistä. Lisätietoa read_excel käytöstä: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

In [10]:
import pandas as pd
In [11]:
df = pd.read_excel('http://taanila.fi/data1.xlsx')
df.head()
Out[11]:
nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja
0 1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN
1 2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN
2 3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN
3 4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN
4 5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN
In [12]:
df.tail()
Out[12]:
nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja
77 78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN
78 79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN
79 80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN
80 81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN
81 82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN