from datetime import datetime
print(f'Päivitetty {datetime.now().date()} / Aki Taanila')
Päivitetty 2024-02-07 / Aki Taanila
Pandas-kirjaston read_excel avaa Excel-muotoisesta tiedostosta datan dataframeen.
Pelkällä tiedostonimellä avaat datan koodin kanssa samaan kansioon tallennetusta Excel-tiedostosta.
Jos tiedosto on muussa kansiossa tai netissä, niin lisää tiedostopolku tai nettiosoite, esimerkiksi 'https://taanila.fi/data1.xlsx'
Datan alkuosan ja loppuosan voit avaamisen jälkeen katsoa antamalla komentona dataframen nimen, esimerkiksi df.
Jos data ei ala ensimmäisen taulukkovälilehden ensimmäisestä solusta, niin voit käyttää parametreja sheet_name, usecols ja skiprows. Esimerkiksi seuraava avaisi datan Sheet2-taulukkovälilehden sarakkeista B ja C hypäten ensimmäisen rivin yli: df = pd.read_excel('data1.xlsx', sheet_name='Sheet2', usecols='B, C', skiprows=1)
Hankalammissa tapauksissa kannattaa harkita datan siivoamista Excelissä ennen read_excel-funktion käyttämistä.
import pandas as pd
df = pd.read_excel('https://taanila.fi/data1.xlsx')
df
nro | sukup | ikä | perhe | koulutus | palveluv | palkka | johto | työtov | työymp | palkkat | työteht | työterv | lomaosa | kuntosa | hieroja | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 1 | 38 | 1 | 1.0 | 22.0 | 3587 | 3 | 3.0 | 3 | 3 | 3 | NaN | NaN | NaN | NaN |
1 | 2 | 1 | 29 | 2 | 2.0 | 10.0 | 2963 | 1 | 5.0 | 2 | 1 | 3 | NaN | NaN | NaN | NaN |
2 | 3 | 1 | 30 | 1 | 1.0 | 7.0 | 1989 | 3 | 4.0 | 1 | 1 | 3 | 1.0 | NaN | NaN | NaN |
3 | 4 | 1 | 36 | 2 | 1.0 | 14.0 | 2144 | 3 | 3.0 | 3 | 3 | 3 | 1.0 | NaN | NaN | NaN |
4 | 5 | 1 | 24 | 1 | 2.0 | 4.0 | 2183 | 2 | 3.0 | 2 | 1 | 2 | 1.0 | NaN | NaN | NaN |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
77 | 78 | 1 | 22 | 1 | 3.0 | 0.0 | 1598 | 4 | 4.0 | 4 | 3 | 4 | NaN | 1.0 | 1.0 | NaN |
78 | 79 | 1 | 33 | 1 | 1.0 | 2.0 | 1638 | 1 | 3.0 | 2 | 1 | 2 | 1.0 | NaN | NaN | NaN |
79 | 80 | 1 | 27 | 1 | 2.0 | 7.0 | 2612 | 3 | 4.0 | 3 | 3 | 3 | 1.0 | NaN | 1.0 | NaN |
80 | 81 | 1 | 35 | 2 | 2.0 | 16.0 | 2808 | 3 | 4.0 | 3 | 3 | 3 | NaN | NaN | NaN | NaN |
81 | 82 | 2 | 35 | 2 | 3.0 | 15.0 | 2183 | 3 | 4.0 | 4 | 3 | 4 | 1.0 | NaN | NaN | NaN |
82 rows × 16 columns
Kannattaa tutustua read_excel-funktion mahdollisiin parametreihin: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html
Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/