Datan muunnokset

Dataan voi olla tarvetta tehdä monenlaisia muunnoksia:

  • Muuttujien nimien muuttaminen (usein pitkiä nimiä muutetaan mukavuussyistä lyhyemmiksi)
  • Tarpeettomien muuttujien poistaminen
  • Indeksin korvaaminen jonkin muuttujan arvoilla
  • Virheellisten arvojen korjaaminen
  • Muuttujan arvojen uudelleenkoodaminen
  • Muuttujan arvojen luokittelu
  • Uusien muuttujien laskeminen olemassa olevien muuttujien perusteella
  • Puuttuvia arvoja sisältävien rivien poistaminen (kuvailevasssa ja selittävässä analytiikassa tämä ei yleensä ole tarpeen paitsi merkitsevyyden testauksessa)
In [1]:
# Data-analytiikan peruskirjaston tuonti
import pandas as pd

# Datan avaaminen dataframeen
df = pd.read_excel('http://taanila.fi/data1.xlsx')

# Varmistetaan, että koko data näytetään tulosteissa
pd.options.display.max_rows = df.shape[0]
In [2]:
# Muuttujien listaa voit hyödyntää, jos haluat muuttaa muuttujien nimiä
df.columns
Out[2]:
Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')
In [3]:
# Voit kopioida tähän edellisen tulosteen muuttujalistan ja muuttaa haluamasi nimet
df.columns = ['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja']

# Tarkistetaan onnistuiko nimien muuttaminen (sukupuoli, perhesuhde)
df.columns
Out[3]:
Index(['nro', 'sukupuoli', 'ikä', 'perhesuhde', 'koulutus', 'palveluv',
       'palkka', 'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv',
       'lomaosa', 'kuntosa', 'hieroja'],
      dtype='object')
In [4]:
# Voin vaihtaa muuttujien nimiä myös rename()-toiminnolla
# Huomaa sanakirjan (dictionary) käyttö {}
df = df.rename(columns = {'sukupuoli' : 'sukup', 'perhesuhde' : 'perhe'})

# Tarkistetaan onnistuiko nimien muuttaminen (sukup, perhe)
df.columns
Out[4]:
Index(['nro', 'sukup', 'ikä', 'perhe', 'koulutus', 'palveluv', 'palkka',
       'johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'työterv', 'lomaosa',
       'kuntosa', 'hieroja'],
      dtype='object')
In [5]:
# Poistetaan datasta muuttujia (sarakkeita)
# axis=1 viittaa sarakkeisiin (axis = 0 viittaisi riveihin)
df1 = df.drop(['työterv', 'lomaosa', 'kuntosa', 'hieroja'], axis = 1)
df1
Out[5]:
nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht
0 1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3
1 2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3
2 3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3
3 4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3
4 5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2
5 6 2 31 2 2.0 14.0 1910 4 4.0 5 2 4
6 7 1 49 1 2.0 16.0 2066 3 5.0 4 2 2
7 8 1 55 1 1.0 0.0 2066 3 5.0 3 1 3
8 9 1 40 2 1.0 23.0 2768 2 4.0 4 2 4
9 10 1 33 1 1.0 16.0 2106 3 2.0 1 1 1
10 11 1 39 2 1.0 22.0 2651 3 5.0 3 1 3
11 12 1 40 2 3.0 21.0 2846 3 5.0 3 1 2
12 13 1 35 2 3.0 15.0 2808 3 5.0 3 1 4
13 14 1 58 2 3.0 21.0 3587 4 5.0 4 1 3
14 15 1 53 2 3.0 12.0 3393 4 4.0 4 4 4
15 16 2 42 2 3.0 23.0 2691 3 3.0 3 3 3
16 17 1 26 1 4.0 2.0 5225 5 5.0 5 4 5
17 18 2 38 2 3.0 17.0 2729 4 3.0 4 2 1
18 19 1 42 1 3.0 20.0 2925 2 3.0 4 1 4
19 20 2 40 2 2.0 13.0 2457 3 3.0 4 3 2
20 21 2 40 2 3.0 20.0 2691 2 4.0 5 3 4
21 22 1 47 2 3.0 17.0 4874 2 4.0 3 2 4
22 23 1 44 2 1.0 27.0 3510 4 4.0 4 4 4
23 24 1 36 1 3.0 7.0 4446 3 4.0 3 4 5
24 25 1 43 2 3.0 1.0 2925 4 4.0 4 4 4
25 26 1 26 1 2.0 3.0 1521 2 4.0 2 1 3
26 27 1 26 1 2.0 2.0 1989 2 4.0 2 2 3
27 28 2 56 1 1.0 15.0 2223 3 4.0 3 2 4
28 29 1 47 2 2.0 23.0 2808 2 4.0 3 1 4
29 30 1 21 1 NaN NaN 1949 4 4.0 3 3 2
30 31 1 21 1 3.0 1.0 2340 4 5.0 3 4 2
31 32 1 45 2 1.0 24.0 2925 4 4.0 4 3 4
32 33 1 59 2 3.0 15.0 6278 4 4.0 5 4 4
33 34 1 37 2 1.0 14.0 2183 1 5.0 1 1 2
34 35 1 28 2 2.0 5.0 1989 3 4.0 3 3 3
35 36 1 31 2 3.0 0.0 1559 2 4.0 3 1 3
36 37 2 56 2 2.0 17.0 2729 5 5.0 5 5 5
37 38 1 50 2 1.0 1.0 2027 5 5.0 4 1 4
38 39 1 30 1 2.0 10.0 2300 3 5.0 3 3 4
39 40 1 32 1 1.0 3.0 2106 1 5.0 4 1 3
40 41 1 33 2 3.0 9.0 2846 3 3.0 4 2 3
41 42 1 29 1 2.0 6.0 2534 3 4.0 3 1 2
42 43 2 40 2 3.0 12.0 2144 4 4.0 4 4 4
43 44 1 30 1 2.0 7.0 2223 2 3.0 4 1 3
44 45 1 55 2 1.0 35.0 2651 4 5.0 4 2 4
45 46 2 51 2 1.0 28.0 1989 3 3.0 2 2 3
46 47 2 22 1 3.0 21.0 1872 3 3.0 4 1 3
47 48 1 34 2 1.0 18.0 2183 4 5.0 4 1 3
48 49 1 27 2 2.0 7.0 2729 4 4.0 3 3 5
49 50 1 29 1 3.0 7.0 2340 3 4.0 3 2 3
50 51 2 39 2 2.0 10.0 2106 4 5.0 5 4 5
51 52 1 41 2 1.0 18.0 2261 5 5.0 5 2 5
52 53 1 44 2 1.0 3.0 1989 1 2.0 2 1 1
53 54 1 25 1 2.0 1.0 1559 2 4.0 3 1 2
54 55 2 45 2 1.0 17.0 2417 3 5.0 4 3 3
55 56 2 31 2 1.0 6.0 1949 4 4.0 4 3 3
56 57 1 61 2 2.0 36.0 3119 2 NaN 2 1 5
57 58 1 38 2 2.0 NaN 2574 2 3.0 1 1 2
58 59 1 20 1 2.0 1.0 2261 3 4.0 3 2 3
59 60 1 31 1 1.0 10.0 2144 4 4.0 3 1 3
60 61 1 44 1 1.0 19.0 2183 2 2.0 1 1 2
61 62 1 40 2 1.0 0.0 1872 2 3.0 1 2 3
62 63 2 51 2 2.0 10.0 1872 4 3.0 2 2 3
63 64 2 44 1 2.0 1.0 1715 4 4.0 3 2 3
64 65 2 35 2 2.0 17.0 2691 4 4.0 5 2 4
65 66 2 37 2 1.0 16.0 2027 5 5.0 5 4 5
66 67 1 37 2 4.0 8.0 5069 3 4.0 3 2 2
67 68 1 33 2 3.0 7.0 2417 2 4.0 3 1 4
68 69 1 28 2 2.0 1.0 3510 4 5.0 3 1 4
69 70 1 52 2 2.0 22.0 3119 3 4.0 3 2 2
70 71 1 34 2 2.0 1.0 2495 3 5.0 5 3 4
71 72 1 46 2 2.0 23.0 3470 3 5.0 5 3 4
72 73 2 40 2 3.0 2.0 2027 5 3.0 4 3 4
73 74 1 45 2 1.0 20.0 2846 3 5.0 1 1 3
74 75 1 40 1 1.0 1.0 1949 1 5.0 1 1 1
75 76 1 37 1 2.0 15.0 1598 1 5.0 1 1 1
76 77 1 39 1 2.0 22.0 2183 4 5.0 3 1 2
77 78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4
78 79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2
79 80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3
80 81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3
81 82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4
In [6]:
# Muuttujan siirtäminen indeksiin
df = df.set_index('nro')
df
Out[6]:
sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja
nro
1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN
2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN
3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN
4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN
5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN
6 2 31 2 2.0 14.0 1910 4 4.0 5 2 4 1.0 1.0 NaN NaN
7 1 49 1 2.0 16.0 2066 3 5.0 4 2 2 NaN NaN 1.0 NaN
8 1 55 1 1.0 0.0 2066 3 5.0 3 1 3 1.0 NaN NaN NaN
9 1 40 2 1.0 23.0 2768 2 4.0 4 2 4 NaN 1.0 NaN NaN
10 1 33 1 1.0 16.0 2106 3 2.0 1 1 1 1.0 NaN NaN NaN
11 1 39 2 1.0 22.0 2651 3 5.0 3 1 3 NaN NaN NaN NaN
12 1 40 2 3.0 21.0 2846 3 5.0 3 1 2 NaN 1.0 NaN 1.0
13 1 35 2 3.0 15.0 2808 3 5.0 3 1 4 NaN 1.0 NaN NaN
14 1 58 2 3.0 21.0 3587 4 5.0 4 1 3 NaN NaN NaN NaN
15 1 53 2 3.0 12.0 3393 4 4.0 4 4 4 NaN 1.0 NaN NaN
16 2 42 2 3.0 23.0 2691 3 3.0 3 3 3 1.0 NaN NaN 1.0
17 1 26 1 4.0 2.0 5225 5 5.0 5 4 5 NaN NaN 1.0 NaN
18 2 38 2 3.0 17.0 2729 4 3.0 4 2 1 NaN NaN NaN NaN
19 1 42 1 3.0 20.0 2925 2 3.0 4 1 4 1.0 NaN NaN 1.0
20 2 40 2 2.0 13.0 2457 3 3.0 4 3 2 1.0 NaN NaN 1.0
21 2 40 2 3.0 20.0 2691 2 4.0 5 3 4 NaN NaN NaN NaN
22 1 47 2 3.0 17.0 4874 2 4.0 3 2 4 NaN 1.0 NaN NaN
23 1 44 2 1.0 27.0 3510 4 4.0 4 4 4 NaN 1.0 NaN NaN
24 1 36 1 3.0 7.0 4446 3 4.0 3 4 5 NaN NaN NaN NaN
25 1 43 2 3.0 1.0 2925 4 4.0 4 4 4 NaN 1.0 NaN NaN
26 1 26 1 2.0 3.0 1521 2 4.0 2 1 3 1.0 NaN 1.0 1.0
27 1 26 1 2.0 2.0 1989 2 4.0 2 2 3 1.0 NaN NaN 1.0
28 2 56 1 1.0 15.0 2223 3 4.0 3 2 4 1.0 NaN NaN 1.0
29 1 47 2 2.0 23.0 2808 2 4.0 3 1 4 1.0 NaN NaN NaN
30 1 21 1 NaN NaN 1949 4 4.0 3 3 2 1.0 NaN NaN NaN
31 1 21 1 3.0 1.0 2340 4 5.0 3 4 2 1.0 NaN 1.0 1.0
32 1 45 2 1.0 24.0 2925 4 4.0 4 3 4 NaN 1.0 NaN NaN
33 1 59 2 3.0 15.0 6278 4 4.0 5 4 4 NaN 1.0 NaN NaN
34 1 37 2 1.0 14.0 2183 1 5.0 1 1 2 1.0 NaN NaN 1.0
35 1 28 2 2.0 5.0 1989 3 4.0 3 3 3 1.0 NaN 1.0 1.0
36 1 31 2 3.0 0.0 1559 2 4.0 3 1 3 1.0 NaN NaN NaN
37 2 56 2 2.0 17.0 2729 5 5.0 5 5 5 NaN NaN NaN 1.0
38 1 50 2 1.0 1.0 2027 5 5.0 4 1 4 1.0 1.0 NaN NaN
39 1 30 1 2.0 10.0 2300 3 5.0 3 3 4 NaN NaN NaN NaN
40 1 32 1 1.0 3.0 2106 1 5.0 4 1 3 1.0 NaN NaN NaN
41 1 33 2 3.0 9.0 2846 3 3.0 4 2 3 1.0 NaN NaN NaN
42 1 29 1 2.0 6.0 2534 3 4.0 3 1 2 1.0 NaN NaN NaN
43 2 40 2 3.0 12.0 2144 4 4.0 4 4 4 NaN 1.0 NaN NaN
44 1 30 1 2.0 7.0 2223 2 3.0 4 1 3 1.0 NaN NaN 1.0
45 1 55 2 1.0 35.0 2651 4 5.0 4 2 4 1.0 NaN NaN 1.0
46 2 51 2 1.0 28.0 1989 3 3.0 2 2 3 1.0 NaN NaN 1.0
47 2 22 1 3.0 21.0 1872 3 3.0 4 1 3 NaN NaN 1.0 NaN
48 1 34 2 1.0 18.0 2183 4 5.0 4 1 3 NaN NaN NaN NaN
49 1 27 2 2.0 7.0 2729 4 4.0 3 3 5 NaN NaN 1.0 NaN
50 1 29 1 3.0 7.0 2340 3 4.0 3 2 3 1.0 NaN NaN NaN
51 2 39 2 2.0 10.0 2106 4 5.0 5 4 5 NaN 1.0 NaN NaN
52 1 41 2 1.0 18.0 2261 5 5.0 5 2 5 NaN 1.0 NaN NaN
53 1 44 2 1.0 3.0 1989 1 2.0 2 1 1 1.0 NaN NaN NaN
54 1 25 1 2.0 1.0 1559 2 4.0 3 1 2 1.0 NaN NaN NaN
55 2 45 2 1.0 17.0 2417 3 5.0 4 3 3 NaN NaN NaN 1.0
56 2 31 2 1.0 6.0 1949 4 4.0 4 3 3 1.0 NaN NaN 1.0
57 1 61 2 2.0 36.0 3119 2 NaN 2 1 5 1.0 NaN NaN 1.0
58 1 38 2 2.0 NaN 2574 2 3.0 1 1 2 1.0 NaN NaN 1.0
59 1 20 1 2.0 1.0 2261 3 4.0 3 2 3 NaN NaN NaN NaN
60 1 31 1 1.0 10.0 2144 4 4.0 3 1 3 1.0 NaN NaN NaN
61 1 44 1 1.0 19.0 2183 2 2.0 1 1 2 1.0 NaN NaN NaN
62 1 40 2 1.0 0.0 1872 2 3.0 1 2 3 1.0 NaN NaN NaN
63 2 51 2 2.0 10.0 1872 4 3.0 2 2 3 1.0 NaN NaN NaN
64 2 44 1 2.0 1.0 1715 4 4.0 3 2 3 1.0 NaN NaN 1.0
65 2 35 2 2.0 17.0 2691 4 4.0 5 2 4 1.0 NaN NaN 1.0
66 2 37 2 1.0 16.0 2027 5 5.0 5 4 5 1.0 1.0 NaN NaN
67 1 37 2 4.0 8.0 5069 3 4.0 3 2 2 1.0 1.0 NaN 1.0
68 1 33 2 3.0 7.0 2417 2 4.0 3 1 4 NaN NaN NaN NaN
69 1 28 2 2.0 1.0 3510 4 5.0 3 1 4 NaN NaN NaN NaN
70 1 52 2 2.0 22.0 3119 3 4.0 3 2 2 1.0 1.0 NaN 1.0
71 1 34 2 2.0 1.0 2495 3 5.0 5 3 4 NaN 1.0 NaN NaN
72 1 46 2 2.0 23.0 3470 3 5.0 5 3 4 NaN 1.0 NaN NaN
73 2 40 2 3.0 2.0 2027 5 3.0 4 3 4 1.0 NaN NaN NaN
74 1 45 2 1.0 20.0 2846 3 5.0 1 1 3 1.0 NaN NaN NaN
75 1 40 1 1.0 1.0 1949 1 5.0 1 1 1 1.0 NaN NaN NaN
76 1 37 1 2.0 15.0 1598 1 5.0 1 1 1 1.0 NaN NaN NaN
77 1 39 1 2.0 22.0 2183 4 5.0 3 1 2 NaN NaN NaN NaN
78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN
79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN
80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN
81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN
82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN
In [7]:
# Korjataan virheellinen ikä indeksinumeron 47 mukaiselta riviltä
df.loc[47, 'ikä'] = 42
df
Out[7]:
sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja
nro
1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN
2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN
3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN
4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN
5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN
6 2 31 2 2.0 14.0 1910 4 4.0 5 2 4 1.0 1.0 NaN NaN
7 1 49 1 2.0 16.0 2066 3 5.0 4 2 2 NaN NaN 1.0 NaN
8 1 55 1 1.0 0.0 2066 3 5.0 3 1 3 1.0 NaN NaN NaN
9 1 40 2 1.0 23.0 2768 2 4.0 4 2 4 NaN 1.0 NaN NaN
10 1 33 1 1.0 16.0 2106 3 2.0 1 1 1 1.0 NaN NaN NaN
11 1 39 2 1.0 22.0 2651 3 5.0 3 1 3 NaN NaN NaN NaN
12 1 40 2 3.0 21.0 2846 3 5.0 3 1 2 NaN 1.0 NaN 1.0
13 1 35 2 3.0 15.0 2808 3 5.0 3 1 4 NaN 1.0 NaN NaN
14 1 58 2 3.0 21.0 3587 4 5.0 4 1 3 NaN NaN NaN NaN
15 1 53 2 3.0 12.0 3393 4 4.0 4 4 4 NaN 1.0 NaN NaN
16 2 42 2 3.0 23.0 2691 3 3.0 3 3 3 1.0 NaN NaN 1.0
17 1 26 1 4.0 2.0 5225 5 5.0 5 4 5 NaN NaN 1.0 NaN
18 2 38 2 3.0 17.0 2729 4 3.0 4 2 1 NaN NaN NaN NaN
19 1 42 1 3.0 20.0 2925 2 3.0 4 1 4 1.0 NaN NaN 1.0
20 2 40 2 2.0 13.0 2457 3 3.0 4 3 2 1.0 NaN NaN 1.0
21 2 40 2 3.0 20.0 2691 2 4.0 5 3 4 NaN NaN NaN NaN
22 1 47 2 3.0 17.0 4874 2 4.0 3 2 4 NaN 1.0 NaN NaN
23 1 44 2 1.0 27.0 3510 4 4.0 4 4 4 NaN 1.0 NaN NaN
24 1 36 1 3.0 7.0 4446 3 4.0 3 4 5 NaN NaN NaN NaN
25 1 43 2 3.0 1.0 2925 4 4.0 4 4 4 NaN 1.0 NaN NaN
26 1 26 1 2.0 3.0 1521 2 4.0 2 1 3 1.0 NaN 1.0 1.0
27 1 26 1 2.0 2.0 1989 2 4.0 2 2 3 1.0 NaN NaN 1.0
28 2 56 1 1.0 15.0 2223 3 4.0 3 2 4 1.0 NaN NaN 1.0
29 1 47 2 2.0 23.0 2808 2 4.0 3 1 4 1.0 NaN NaN NaN
30 1 21 1 NaN NaN 1949 4 4.0 3 3 2 1.0 NaN NaN NaN
31 1 21 1 3.0 1.0 2340 4 5.0 3 4 2 1.0 NaN 1.0 1.0
32 1 45 2 1.0 24.0 2925 4 4.0 4 3 4 NaN 1.0 NaN NaN
33 1 59 2 3.0 15.0 6278 4 4.0 5 4 4 NaN 1.0 NaN NaN
34 1 37 2 1.0 14.0 2183 1 5.0 1 1 2 1.0 NaN NaN 1.0
35 1 28 2 2.0 5.0 1989 3 4.0 3 3 3 1.0 NaN 1.0 1.0
36 1 31 2 3.0 0.0 1559 2 4.0 3 1 3 1.0 NaN NaN NaN
37 2 56 2 2.0 17.0 2729 5 5.0 5 5 5 NaN NaN NaN 1.0
38 1 50 2 1.0 1.0 2027 5 5.0 4 1 4 1.0 1.0 NaN NaN
39 1 30 1 2.0 10.0 2300 3 5.0 3 3 4 NaN NaN NaN NaN
40 1 32 1 1.0 3.0 2106 1 5.0 4 1 3 1.0 NaN NaN NaN
41 1 33 2 3.0 9.0 2846 3 3.0 4 2 3 1.0 NaN NaN NaN
42 1 29 1 2.0 6.0 2534 3 4.0 3 1 2 1.0 NaN NaN NaN
43 2 40 2 3.0 12.0 2144 4 4.0 4 4 4 NaN 1.0 NaN NaN
44 1 30 1 2.0 7.0 2223 2 3.0 4 1 3 1.0 NaN NaN 1.0
45 1 55 2 1.0 35.0 2651 4 5.0 4 2 4 1.0 NaN NaN 1.0
46 2 51 2 1.0 28.0 1989 3 3.0 2 2 3 1.0 NaN NaN 1.0
47 2 42 1 3.0 21.0 1872 3 3.0 4 1 3 NaN NaN 1.0 NaN
48 1 34 2 1.0 18.0 2183 4 5.0 4 1 3 NaN NaN NaN NaN
49 1 27 2 2.0 7.0 2729 4 4.0 3 3 5 NaN NaN 1.0 NaN
50 1 29 1 3.0 7.0 2340 3 4.0 3 2 3 1.0 NaN NaN NaN
51 2 39 2 2.0 10.0 2106 4 5.0 5 4 5 NaN 1.0 NaN NaN
52 1 41 2 1.0 18.0 2261 5 5.0 5 2 5 NaN 1.0 NaN NaN
53 1 44 2 1.0 3.0 1989 1 2.0 2 1 1 1.0 NaN NaN NaN
54 1 25 1 2.0 1.0 1559 2 4.0 3 1 2 1.0 NaN NaN NaN
55 2 45 2 1.0 17.0 2417 3 5.0 4 3 3 NaN NaN NaN 1.0
56 2 31 2 1.0 6.0 1949 4 4.0 4 3 3 1.0 NaN NaN 1.0
57 1 61 2 2.0 36.0 3119 2 NaN 2 1 5 1.0 NaN NaN 1.0
58 1 38 2 2.0 NaN 2574 2 3.0 1 1 2 1.0 NaN NaN 1.0
59 1 20 1 2.0 1.0 2261 3 4.0 3 2 3 NaN NaN NaN NaN
60 1 31 1 1.0 10.0 2144 4 4.0 3 1 3 1.0 NaN NaN NaN
61 1 44 1 1.0 19.0 2183 2 2.0 1 1 2 1.0 NaN NaN NaN
62 1 40 2 1.0 0.0 1872 2 3.0 1 2 3 1.0 NaN NaN NaN
63 2 51 2 2.0 10.0 1872 4 3.0 2 2 3 1.0 NaN NaN NaN
64 2 44 1 2.0 1.0 1715 4 4.0 3 2 3 1.0 NaN NaN 1.0
65 2 35 2 2.0 17.0 2691 4 4.0 5 2 4 1.0 NaN NaN 1.0
66 2 37 2 1.0 16.0 2027 5 5.0 5 4 5 1.0 1.0 NaN NaN
67 1 37 2 4.0 8.0 5069 3 4.0 3 2 2 1.0 1.0 NaN 1.0
68 1 33 2 3.0 7.0 2417 2 4.0 3 1 4 NaN NaN NaN NaN
69 1 28 2 2.0 1.0 3510 4 5.0 3 1 4 NaN NaN NaN NaN
70 1 52 2 2.0 22.0 3119 3 4.0 3 2 2 1.0 1.0 NaN 1.0
71 1 34 2 2.0 1.0 2495 3 5.0 5 3 4 NaN 1.0 NaN NaN
72 1 46 2 2.0 23.0 3470 3 5.0 5 3 4 NaN 1.0 NaN NaN
73 2 40 2 3.0 2.0 2027 5 3.0 4 3 4 1.0 NaN NaN NaN
74 1 45 2 1.0 20.0 2846 3 5.0 1 1 3 1.0 NaN NaN NaN
75 1 40 1 1.0 1.0 1949 1 5.0 1 1 1 1.0 NaN NaN NaN
76 1 37 1 2.0 15.0 1598 1 5.0 1 1 1 1.0 NaN NaN NaN
77 1 39 1 2.0 22.0 2183 4 5.0 3 1 2 NaN NaN NaN NaN
78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN
79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN
80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN
81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN
82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN
In [8]:
# Uusi muuttuja 'sukup_str', jossa sukupuolet merkkijonona
# Huomaa sanakirjan (dictionary) käyttö {}
df['sukup_str'] = df['sukup'].replace({1 : 'Mies', 2 : 'Nainen'})
df
Out[8]:
sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja sukup_str
nro
1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN Mies
2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN Mies
3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN Mies
4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN Mies
5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN Mies
6 2 31 2 2.0 14.0 1910 4 4.0 5 2 4 1.0 1.0 NaN NaN Nainen
7 1 49 1 2.0 16.0 2066 3 5.0 4 2 2 NaN NaN 1.0 NaN Mies
8 1 55 1 1.0 0.0 2066 3 5.0 3 1 3 1.0 NaN NaN NaN Mies
9 1 40 2 1.0 23.0 2768 2 4.0 4 2 4 NaN 1.0 NaN NaN Mies
10 1 33 1 1.0 16.0 2106 3 2.0 1 1 1 1.0 NaN NaN NaN Mies
11 1 39 2 1.0 22.0 2651 3 5.0 3 1 3 NaN NaN NaN NaN Mies
12 1 40 2 3.0 21.0 2846 3 5.0 3 1 2 NaN 1.0 NaN 1.0 Mies
13 1 35 2 3.0 15.0 2808 3 5.0 3 1 4 NaN 1.0 NaN NaN Mies
14 1 58 2 3.0 21.0 3587 4 5.0 4 1 3 NaN NaN NaN NaN Mies
15 1 53 2 3.0 12.0 3393 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies
16 2 42 2 3.0 23.0 2691 3 3.0 3 3 3 1.0 NaN NaN 1.0 Nainen
17 1 26 1 4.0 2.0 5225 5 5.0 5 4 5 NaN NaN 1.0 NaN Mies
18 2 38 2 3.0 17.0 2729 4 3.0 4 2 1 NaN NaN NaN NaN Nainen
19 1 42 1 3.0 20.0 2925 2 3.0 4 1 4 1.0 NaN NaN 1.0 Mies
20 2 40 2 2.0 13.0 2457 3 3.0 4 3 2 1.0 NaN NaN 1.0 Nainen
21 2 40 2 3.0 20.0 2691 2 4.0 5 3 4 NaN NaN NaN NaN Nainen
22 1 47 2 3.0 17.0 4874 2 4.0 3 2 4 NaN 1.0 NaN NaN Mies
23 1 44 2 1.0 27.0 3510 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies
24 1 36 1 3.0 7.0 4446 3 4.0 3 4 5 NaN NaN NaN NaN Mies
25 1 43 2 3.0 1.0 2925 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies
26 1 26 1 2.0 3.0 1521 2 4.0 2 1 3 1.0 NaN 1.0 1.0 Mies
27 1 26 1 2.0 2.0 1989 2 4.0 2 2 3 1.0 NaN NaN 1.0 Mies
28 2 56 1 1.0 15.0 2223 3 4.0 3 2 4 1.0 NaN NaN 1.0 Nainen
29 1 47 2 2.0 23.0 2808 2 4.0 3 1 4 1.0 NaN NaN NaN Mies
30 1 21 1 NaN NaN 1949 4 4.0 3 3 2 1.0 NaN NaN NaN Mies
31 1 21 1 3.0 1.0 2340 4 5.0 3 4 2 1.0 NaN 1.0 1.0 Mies
32 1 45 2 1.0 24.0 2925 4 4.0 4 3 4 NaN 1.0 NaN NaN Mies
33 1 59 2 3.0 15.0 6278 4 4.0 5 4 4 NaN 1.0 NaN NaN Mies
34 1 37 2 1.0 14.0 2183 1 5.0 1 1 2 1.0 NaN NaN 1.0 Mies
35 1 28 2 2.0 5.0 1989 3 4.0 3 3 3 1.0 NaN 1.0 1.0 Mies
36 1 31 2 3.0 0.0 1559 2 4.0 3 1 3 1.0 NaN NaN NaN Mies
37 2 56 2 2.0 17.0 2729 5 5.0 5 5 5 NaN NaN NaN 1.0 Nainen
38 1 50 2 1.0 1.0 2027 5 5.0 4 1 4 1.0 1.0 NaN NaN Mies
39 1 30 1 2.0 10.0 2300 3 5.0 3 3 4 NaN NaN NaN NaN Mies
40 1 32 1 1.0 3.0 2106 1 5.0 4 1 3 1.0 NaN NaN NaN Mies
41 1 33 2 3.0 9.0 2846 3 3.0 4 2 3 1.0 NaN NaN NaN Mies
42 1 29 1 2.0 6.0 2534 3 4.0 3 1 2 1.0 NaN NaN NaN Mies
43 2 40 2 3.0 12.0 2144 4 4.0 4 4 4 NaN 1.0 NaN NaN Nainen
44 1 30 1 2.0 7.0 2223 2 3.0 4 1 3 1.0 NaN NaN 1.0 Mies
45 1 55 2 1.0 35.0 2651 4 5.0 4 2 4 1.0 NaN NaN 1.0 Mies
46 2 51 2 1.0 28.0 1989 3 3.0 2 2 3 1.0 NaN NaN 1.0 Nainen
47 2 42 1 3.0 21.0 1872 3 3.0 4 1 3 NaN NaN 1.0 NaN Nainen
48 1 34 2 1.0 18.0 2183 4 5.0 4 1 3 NaN NaN NaN NaN Mies
49 1 27 2 2.0 7.0 2729 4 4.0 3 3 5 NaN NaN 1.0 NaN Mies
50 1 29 1 3.0 7.0 2340 3 4.0 3 2 3 1.0 NaN NaN NaN Mies
51 2 39 2 2.0 10.0 2106 4 5.0 5 4 5 NaN 1.0 NaN NaN Nainen
52 1 41 2 1.0 18.0 2261 5 5.0 5 2 5 NaN 1.0 NaN NaN Mies
53 1 44 2 1.0 3.0 1989 1 2.0 2 1 1 1.0 NaN NaN NaN Mies
54 1 25 1 2.0 1.0 1559 2 4.0 3 1 2 1.0 NaN NaN NaN Mies
55 2 45 2 1.0 17.0 2417 3 5.0 4 3 3 NaN NaN NaN 1.0 Nainen
56 2 31 2 1.0 6.0 1949 4 4.0 4 3 3 1.0 NaN NaN 1.0 Nainen
57 1 61 2 2.0 36.0 3119 2 NaN 2 1 5 1.0 NaN NaN 1.0 Mies
58 1 38 2 2.0 NaN 2574 2 3.0 1 1 2 1.0 NaN NaN 1.0 Mies
59 1 20 1 2.0 1.0 2261 3 4.0 3 2 3 NaN NaN NaN NaN Mies
60 1 31 1 1.0 10.0 2144 4 4.0 3 1 3 1.0 NaN NaN NaN Mies
61 1 44 1 1.0 19.0 2183 2 2.0 1 1 2 1.0 NaN NaN NaN Mies
62 1 40 2 1.0 0.0 1872 2 3.0 1 2 3 1.0 NaN NaN NaN Mies
63 2 51 2 2.0 10.0 1872 4 3.0 2 2 3 1.0 NaN NaN NaN Nainen
64 2 44 1 2.0 1.0 1715 4 4.0 3 2 3 1.0 NaN NaN 1.0 Nainen
65 2 35 2 2.0 17.0 2691 4 4.0 5 2 4 1.0 NaN NaN 1.0 Nainen
66 2 37 2 1.0 16.0 2027 5 5.0 5 4 5 1.0 1.0 NaN NaN Nainen
67 1 37 2 4.0 8.0 5069 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies
68 1 33 2 3.0 7.0 2417 2 4.0 3 1 4 NaN NaN NaN NaN Mies
69 1 28 2 2.0 1.0 3510 4 5.0 3 1 4 NaN NaN NaN NaN Mies
70 1 52 2 2.0 22.0 3119 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies
71 1 34 2 2.0 1.0 2495 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies
72 1 46 2 2.0 23.0 3470 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies
73 2 40 2 3.0 2.0 2027 5 3.0 4 3 4 1.0 NaN NaN NaN Nainen
74 1 45 2 1.0 20.0 2846 3 5.0 1 1 3 1.0 NaN NaN NaN Mies
75 1 40 1 1.0 1.0 1949 1 5.0 1 1 1 1.0 NaN NaN NaN Mies
76 1 37 1 2.0 15.0 1598 1 5.0 1 1 1 1.0 NaN NaN NaN Mies
77 1 39 1 2.0 22.0 2183 4 5.0 3 1 2 NaN NaN NaN NaN Mies
78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN Mies
79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN Mies
80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN Mies
81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN Mies
82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN Nainen
In [9]:
# Luokkarajat ikäluokille
bins = [18, 28, 38, 48, 58, 68]

# Uusi muuttuja 'ikäluokka', jossa iät luokiteltuina ikäluokkiin
df['ikäluokka'] = pd.cut(df['ikä'], bins = bins)

df
# Esimerkiksi (28, 38] tarkoittaa luokkaa, johon 28-vuotias ei kuulu, mutta 38 vuotias kuuluu
Out[9]:
sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja sukup_str ikäluokka
nro
1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN Mies (28, 38]
2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN Mies (28, 38]
3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN Mies (28, 38]
4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN Mies (28, 38]
5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN Mies (18, 28]
6 2 31 2 2.0 14.0 1910 4 4.0 5 2 4 1.0 1.0 NaN NaN Nainen (28, 38]
7 1 49 1 2.0 16.0 2066 3 5.0 4 2 2 NaN NaN 1.0 NaN Mies (48, 58]
8 1 55 1 1.0 0.0 2066 3 5.0 3 1 3 1.0 NaN NaN NaN Mies (48, 58]
9 1 40 2 1.0 23.0 2768 2 4.0 4 2 4 NaN 1.0 NaN NaN Mies (38, 48]
10 1 33 1 1.0 16.0 2106 3 2.0 1 1 1 1.0 NaN NaN NaN Mies (28, 38]
11 1 39 2 1.0 22.0 2651 3 5.0 3 1 3 NaN NaN NaN NaN Mies (38, 48]
12 1 40 2 3.0 21.0 2846 3 5.0 3 1 2 NaN 1.0 NaN 1.0 Mies (38, 48]
13 1 35 2 3.0 15.0 2808 3 5.0 3 1 4 NaN 1.0 NaN NaN Mies (28, 38]
14 1 58 2 3.0 21.0 3587 4 5.0 4 1 3 NaN NaN NaN NaN Mies (48, 58]
15 1 53 2 3.0 12.0 3393 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (48, 58]
16 2 42 2 3.0 23.0 2691 3 3.0 3 3 3 1.0 NaN NaN 1.0 Nainen (38, 48]
17 1 26 1 4.0 2.0 5225 5 5.0 5 4 5 NaN NaN 1.0 NaN Mies (18, 28]
18 2 38 2 3.0 17.0 2729 4 3.0 4 2 1 NaN NaN NaN NaN Nainen (28, 38]
19 1 42 1 3.0 20.0 2925 2 3.0 4 1 4 1.0 NaN NaN 1.0 Mies (38, 48]
20 2 40 2 2.0 13.0 2457 3 3.0 4 3 2 1.0 NaN NaN 1.0 Nainen (38, 48]
21 2 40 2 3.0 20.0 2691 2 4.0 5 3 4 NaN NaN NaN NaN Nainen (38, 48]
22 1 47 2 3.0 17.0 4874 2 4.0 3 2 4 NaN 1.0 NaN NaN Mies (38, 48]
23 1 44 2 1.0 27.0 3510 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (38, 48]
24 1 36 1 3.0 7.0 4446 3 4.0 3 4 5 NaN NaN NaN NaN Mies (28, 38]
25 1 43 2 3.0 1.0 2925 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (38, 48]
26 1 26 1 2.0 3.0 1521 2 4.0 2 1 3 1.0 NaN 1.0 1.0 Mies (18, 28]
27 1 26 1 2.0 2.0 1989 2 4.0 2 2 3 1.0 NaN NaN 1.0 Mies (18, 28]
28 2 56 1 1.0 15.0 2223 3 4.0 3 2 4 1.0 NaN NaN 1.0 Nainen (48, 58]
29 1 47 2 2.0 23.0 2808 2 4.0 3 1 4 1.0 NaN NaN NaN Mies (38, 48]
30 1 21 1 NaN NaN 1949 4 4.0 3 3 2 1.0 NaN NaN NaN Mies (18, 28]
31 1 21 1 3.0 1.0 2340 4 5.0 3 4 2 1.0 NaN 1.0 1.0 Mies (18, 28]
32 1 45 2 1.0 24.0 2925 4 4.0 4 3 4 NaN 1.0 NaN NaN Mies (38, 48]
33 1 59 2 3.0 15.0 6278 4 4.0 5 4 4 NaN 1.0 NaN NaN Mies (58, 68]
34 1 37 2 1.0 14.0 2183 1 5.0 1 1 2 1.0 NaN NaN 1.0 Mies (28, 38]
35 1 28 2 2.0 5.0 1989 3 4.0 3 3 3 1.0 NaN 1.0 1.0 Mies (18, 28]
36 1 31 2 3.0 0.0 1559 2 4.0 3 1 3 1.0 NaN NaN NaN Mies (28, 38]
37 2 56 2 2.0 17.0 2729 5 5.0 5 5 5 NaN NaN NaN 1.0 Nainen (48, 58]
38 1 50 2 1.0 1.0 2027 5 5.0 4 1 4 1.0 1.0 NaN NaN Mies (48, 58]
39 1 30 1 2.0 10.0 2300 3 5.0 3 3 4 NaN NaN NaN NaN Mies (28, 38]
40 1 32 1 1.0 3.0 2106 1 5.0 4 1 3 1.0 NaN NaN NaN Mies (28, 38]
41 1 33 2 3.0 9.0 2846 3 3.0 4 2 3 1.0 NaN NaN NaN Mies (28, 38]
42 1 29 1 2.0 6.0 2534 3 4.0 3 1 2 1.0 NaN NaN NaN Mies (28, 38]
43 2 40 2 3.0 12.0 2144 4 4.0 4 4 4 NaN 1.0 NaN NaN Nainen (38, 48]
44 1 30 1 2.0 7.0 2223 2 3.0 4 1 3 1.0 NaN NaN 1.0 Mies (28, 38]
45 1 55 2 1.0 35.0 2651 4 5.0 4 2 4 1.0 NaN NaN 1.0 Mies (48, 58]
46 2 51 2 1.0 28.0 1989 3 3.0 2 2 3 1.0 NaN NaN 1.0 Nainen (48, 58]
47 2 42 1 3.0 21.0 1872 3 3.0 4 1 3 NaN NaN 1.0 NaN Nainen (38, 48]
48 1 34 2 1.0 18.0 2183 4 5.0 4 1 3 NaN NaN NaN NaN Mies (28, 38]
49 1 27 2 2.0 7.0 2729 4 4.0 3 3 5 NaN NaN 1.0 NaN Mies (18, 28]
50 1 29 1 3.0 7.0 2340 3 4.0 3 2 3 1.0 NaN NaN NaN Mies (28, 38]
51 2 39 2 2.0 10.0 2106 4 5.0 5 4 5 NaN 1.0 NaN NaN Nainen (38, 48]
52 1 41 2 1.0 18.0 2261 5 5.0 5 2 5 NaN 1.0 NaN NaN Mies (38, 48]
53 1 44 2 1.0 3.0 1989 1 2.0 2 1 1 1.0 NaN NaN NaN Mies (38, 48]
54 1 25 1 2.0 1.0 1559 2 4.0 3 1 2 1.0 NaN NaN NaN Mies (18, 28]
55 2 45 2 1.0 17.0 2417 3 5.0 4 3 3 NaN NaN NaN 1.0 Nainen (38, 48]
56 2 31 2 1.0 6.0 1949 4 4.0 4 3 3 1.0 NaN NaN 1.0 Nainen (28, 38]
57 1 61 2 2.0 36.0 3119 2 NaN 2 1 5 1.0 NaN NaN 1.0 Mies (58, 68]
58 1 38 2 2.0 NaN 2574 2 3.0 1 1 2 1.0 NaN NaN 1.0 Mies (28, 38]
59 1 20 1 2.0 1.0 2261 3 4.0 3 2 3 NaN NaN NaN NaN Mies (18, 28]
60 1 31 1 1.0 10.0 2144 4 4.0 3 1 3 1.0 NaN NaN NaN Mies (28, 38]
61 1 44 1 1.0 19.0 2183 2 2.0 1 1 2 1.0 NaN NaN NaN Mies (38, 48]
62 1 40 2 1.0 0.0 1872 2 3.0 1 2 3 1.0 NaN NaN NaN Mies (38, 48]
63 2 51 2 2.0 10.0 1872 4 3.0 2 2 3 1.0 NaN NaN NaN Nainen (48, 58]
64 2 44 1 2.0 1.0 1715 4 4.0 3 2 3 1.0 NaN NaN 1.0 Nainen (38, 48]
65 2 35 2 2.0 17.0 2691 4 4.0 5 2 4 1.0 NaN NaN 1.0 Nainen (28, 38]
66 2 37 2 1.0 16.0 2027 5 5.0 5 4 5 1.0 1.0 NaN NaN Nainen (28, 38]
67 1 37 2 4.0 8.0 5069 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies (28, 38]
68 1 33 2 3.0 7.0 2417 2 4.0 3 1 4 NaN NaN NaN NaN Mies (28, 38]
69 1 28 2 2.0 1.0 3510 4 5.0 3 1 4 NaN NaN NaN NaN Mies (18, 28]
70 1 52 2 2.0 22.0 3119 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies (48, 58]
71 1 34 2 2.0 1.0 2495 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies (28, 38]
72 1 46 2 2.0 23.0 3470 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies (38, 48]
73 2 40 2 3.0 2.0 2027 5 3.0 4 3 4 1.0 NaN NaN NaN Nainen (38, 48]
74 1 45 2 1.0 20.0 2846 3 5.0 1 1 3 1.0 NaN NaN NaN Mies (38, 48]
75 1 40 1 1.0 1.0 1949 1 5.0 1 1 1 1.0 NaN NaN NaN Mies (38, 48]
76 1 37 1 2.0 15.0 1598 1 5.0 1 1 1 1.0 NaN NaN NaN Mies (28, 38]
77 1 39 1 2.0 22.0 2183 4 5.0 3 1 2 NaN NaN NaN NaN Mies (38, 48]
78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN Mies (18, 28]
79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN Mies (28, 38]
80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN Mies (18, 28]
81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN Mies (28, 38]
82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN Nainen (28, 38]
In [10]:
# Lasken vastaajan "kokonaistyytyväisyyden" keskiarvona tyytyväisyyksistä eri osa-alueisiin
# axis=1 tarkoittaa keskiarvojen laskemista sivusuunnassa (riviltä)
df['tyytyväisyys'] = df[['johto','työtov','työymp','palkkat','työteht']].mean(axis = 1)

df[['johto', 'työtov', 'työymp', 'palkkat', 'työteht', 'tyytyväisyys']]
Out[10]:
johto työtov työymp palkkat työteht tyytyväisyys
nro
1 3 3.0 3 3 3 3.0
2 1 5.0 2 1 3 2.4
3 3 4.0 1 1 3 2.4
4 3 3.0 3 3 3 3.0
5 2 3.0 2 1 2 2.0
6 4 4.0 5 2 4 3.8
7 3 5.0 4 2 2 3.2
8 3 5.0 3 1 3 3.0
9 2 4.0 4 2 4 3.2
10 3 2.0 1 1 1 1.6
11 3 5.0 3 1 3 3.0
12 3 5.0 3 1 2 2.8
13 3 5.0 3 1 4 3.2
14 4 5.0 4 1 3 3.4
15 4 4.0 4 4 4 4.0
16 3 3.0 3 3 3 3.0
17 5 5.0 5 4 5 4.8
18 4 3.0 4 2 1 2.8
19 2 3.0 4 1 4 2.8
20 3 3.0 4 3 2 3.0
21 2 4.0 5 3 4 3.6
22 2 4.0 3 2 4 3.0
23 4 4.0 4 4 4 4.0
24 3 4.0 3 4 5 3.8
25 4 4.0 4 4 4 4.0
26 2 4.0 2 1 3 2.4
27 2 4.0 2 2 3 2.6
28 3 4.0 3 2 4 3.2
29 2 4.0 3 1 4 2.8
30 4 4.0 3 3 2 3.2
31 4 5.0 3 4 2 3.6
32 4 4.0 4 3 4 3.8
33 4 4.0 5 4 4 4.2
34 1 5.0 1 1 2 2.0
35 3 4.0 3 3 3 3.2
36 2 4.0 3 1 3 2.6
37 5 5.0 5 5 5 5.0
38 5 5.0 4 1 4 3.8
39 3 5.0 3 3 4 3.6
40 1 5.0 4 1 3 2.8
41 3 3.0 4 2 3 3.0
42 3 4.0 3 1 2 2.6
43 4 4.0 4 4 4 4.0
44 2 3.0 4 1 3 2.6
45 4 5.0 4 2 4 3.8
46 3 3.0 2 2 3 2.6
47 3 3.0 4 1 3 2.8
48 4 5.0 4 1 3 3.4
49 4 4.0 3 3 5 3.8
50 3 4.0 3 2 3 3.0
51 4 5.0 5 4 5 4.6
52 5 5.0 5 2 5 4.4
53 1 2.0 2 1 1 1.4
54 2 4.0 3 1 2 2.4
55 3 5.0 4 3 3 3.6
56 4 4.0 4 3 3 3.6
57 2 NaN 2 1 5 2.5
58 2 3.0 1 1 2 1.8
59 3 4.0 3 2 3 3.0
60 4 4.0 3 1 3 3.0
61 2 2.0 1 1 2 1.6
62 2 3.0 1 2 3 2.2
63 4 3.0 2 2 3 2.8
64 4 4.0 3 2 3 3.2
65 4 4.0 5 2 4 3.8
66 5 5.0 5 4 5 4.8
67 3 4.0 3 2 2 2.8
68 2 4.0 3 1 4 2.8
69 4 5.0 3 1 4 3.4
70 3 4.0 3 2 2 2.8
71 3 5.0 5 3 4 4.0
72 3 5.0 5 3 4 4.0
73 5 3.0 4 3 4 3.8
74 3 5.0 1 1 3 2.6
75 1 5.0 1 1 1 1.8
76 1 5.0 1 1 1 1.8
77 4 5.0 3 1 2 3.0
78 4 4.0 4 3 4 3.8
79 1 3.0 2 1 2 1.8
80 3 4.0 3 3 3 3.2
81 3 4.0 3 3 3 3.2
82 3 4.0 4 3 4 3.6
In [11]:
# Lasken käytettyjen etuisuuksien lukumäärän
df['käyttö'] = df[['työterv', 'lomaosa', 'kuntosa', 'hieroja']].count(axis = 1)
df
Out[11]:
sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja sukup_str ikäluokka tyytyväisyys käyttö
nro
1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN Mies (28, 38] 3.0 0
2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN Mies (28, 38] 2.4 0
3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN Mies (28, 38] 2.4 1
4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN Mies (18, 28] 2.0 1
6 2 31 2 2.0 14.0 1910 4 4.0 5 2 4 1.0 1.0 NaN NaN Nainen (28, 38] 3.8 2
7 1 49 1 2.0 16.0 2066 3 5.0 4 2 2 NaN NaN 1.0 NaN Mies (48, 58] 3.2 1
8 1 55 1 1.0 0.0 2066 3 5.0 3 1 3 1.0 NaN NaN NaN Mies (48, 58] 3.0 1
9 1 40 2 1.0 23.0 2768 2 4.0 4 2 4 NaN 1.0 NaN NaN Mies (38, 48] 3.2 1
10 1 33 1 1.0 16.0 2106 3 2.0 1 1 1 1.0 NaN NaN NaN Mies (28, 38] 1.6 1
11 1 39 2 1.0 22.0 2651 3 5.0 3 1 3 NaN NaN NaN NaN Mies (38, 48] 3.0 0
12 1 40 2 3.0 21.0 2846 3 5.0 3 1 2 NaN 1.0 NaN 1.0 Mies (38, 48] 2.8 2
13 1 35 2 3.0 15.0 2808 3 5.0 3 1 4 NaN 1.0 NaN NaN Mies (28, 38] 3.2 1
14 1 58 2 3.0 21.0 3587 4 5.0 4 1 3 NaN NaN NaN NaN Mies (48, 58] 3.4 0
15 1 53 2 3.0 12.0 3393 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (48, 58] 4.0 1
16 2 42 2 3.0 23.0 2691 3 3.0 3 3 3 1.0 NaN NaN 1.0 Nainen (38, 48] 3.0 2
17 1 26 1 4.0 2.0 5225 5 5.0 5 4 5 NaN NaN 1.0 NaN Mies (18, 28] 4.8 1
18 2 38 2 3.0 17.0 2729 4 3.0 4 2 1 NaN NaN NaN NaN Nainen (28, 38] 2.8 0
19 1 42 1 3.0 20.0 2925 2 3.0 4 1 4 1.0 NaN NaN 1.0 Mies (38, 48] 2.8 2
20 2 40 2 2.0 13.0 2457 3 3.0 4 3 2 1.0 NaN NaN 1.0 Nainen (38, 48] 3.0 2
21 2 40 2 3.0 20.0 2691 2 4.0 5 3 4 NaN NaN NaN NaN Nainen (38, 48] 3.6 0
22 1 47 2 3.0 17.0 4874 2 4.0 3 2 4 NaN 1.0 NaN NaN Mies (38, 48] 3.0 1
23 1 44 2 1.0 27.0 3510 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (38, 48] 4.0 1
24 1 36 1 3.0 7.0 4446 3 4.0 3 4 5 NaN NaN NaN NaN Mies (28, 38] 3.8 0
25 1 43 2 3.0 1.0 2925 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (38, 48] 4.0 1
26 1 26 1 2.0 3.0 1521 2 4.0 2 1 3 1.0 NaN 1.0 1.0 Mies (18, 28] 2.4 3
27 1 26 1 2.0 2.0 1989 2 4.0 2 2 3 1.0 NaN NaN 1.0 Mies (18, 28] 2.6 2
28 2 56 1 1.0 15.0 2223 3 4.0 3 2 4 1.0 NaN NaN 1.0 Nainen (48, 58] 3.2 2
29 1 47 2 2.0 23.0 2808 2 4.0 3 1 4 1.0 NaN NaN NaN Mies (38, 48] 2.8 1
30 1 21 1 NaN NaN 1949 4 4.0 3 3 2 1.0 NaN NaN NaN Mies (18, 28] 3.2 1
31 1 21 1 3.0 1.0 2340 4 5.0 3 4 2 1.0 NaN 1.0 1.0 Mies (18, 28] 3.6 3
32 1 45 2 1.0 24.0 2925 4 4.0 4 3 4 NaN 1.0 NaN NaN Mies (38, 48] 3.8 1
33 1 59 2 3.0 15.0 6278 4 4.0 5 4 4 NaN 1.0 NaN NaN Mies (58, 68] 4.2 1
34 1 37 2 1.0 14.0 2183 1 5.0 1 1 2 1.0 NaN NaN 1.0 Mies (28, 38] 2.0 2
35 1 28 2 2.0 5.0 1989 3 4.0 3 3 3 1.0 NaN 1.0 1.0 Mies (18, 28] 3.2 3
36 1 31 2 3.0 0.0 1559 2 4.0 3 1 3 1.0 NaN NaN NaN Mies (28, 38] 2.6 1
37 2 56 2 2.0 17.0 2729 5 5.0 5 5 5 NaN NaN NaN 1.0 Nainen (48, 58] 5.0 1
38 1 50 2 1.0 1.0 2027 5 5.0 4 1 4 1.0 1.0 NaN NaN Mies (48, 58] 3.8 2
39 1 30 1 2.0 10.0 2300 3 5.0 3 3 4 NaN NaN NaN NaN Mies (28, 38] 3.6 0
40 1 32 1 1.0 3.0 2106 1 5.0 4 1 3 1.0 NaN NaN NaN Mies (28, 38] 2.8 1
41 1 33 2 3.0 9.0 2846 3 3.0 4 2 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
42 1 29 1 2.0 6.0 2534 3 4.0 3 1 2 1.0 NaN NaN NaN Mies (28, 38] 2.6 1
43 2 40 2 3.0 12.0 2144 4 4.0 4 4 4 NaN 1.0 NaN NaN Nainen (38, 48] 4.0 1
44 1 30 1 2.0 7.0 2223 2 3.0 4 1 3 1.0 NaN NaN 1.0 Mies (28, 38] 2.6 2
45 1 55 2 1.0 35.0 2651 4 5.0 4 2 4 1.0 NaN NaN 1.0 Mies (48, 58] 3.8 2
46 2 51 2 1.0 28.0 1989 3 3.0 2 2 3 1.0 NaN NaN 1.0 Nainen (48, 58] 2.6 2
47 2 42 1 3.0 21.0 1872 3 3.0 4 1 3 NaN NaN 1.0 NaN Nainen (38, 48] 2.8 1
48 1 34 2 1.0 18.0 2183 4 5.0 4 1 3 NaN NaN NaN NaN Mies (28, 38] 3.4 0
49 1 27 2 2.0 7.0 2729 4 4.0 3 3 5 NaN NaN 1.0 NaN Mies (18, 28] 3.8 1
50 1 29 1 3.0 7.0 2340 3 4.0 3 2 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
51 2 39 2 2.0 10.0 2106 4 5.0 5 4 5 NaN 1.0 NaN NaN Nainen (38, 48] 4.6 1
52 1 41 2 1.0 18.0 2261 5 5.0 5 2 5 NaN 1.0 NaN NaN Mies (38, 48] 4.4 1
53 1 44 2 1.0 3.0 1989 1 2.0 2 1 1 1.0 NaN NaN NaN Mies (38, 48] 1.4 1
54 1 25 1 2.0 1.0 1559 2 4.0 3 1 2 1.0 NaN NaN NaN Mies (18, 28] 2.4 1
55 2 45 2 1.0 17.0 2417 3 5.0 4 3 3 NaN NaN NaN 1.0 Nainen (38, 48] 3.6 1
56 2 31 2 1.0 6.0 1949 4 4.0 4 3 3 1.0 NaN NaN 1.0 Nainen (28, 38] 3.6 2
57 1 61 2 2.0 36.0 3119 2 NaN 2 1 5 1.0 NaN NaN 1.0 Mies (58, 68] 2.5 2
58 1 38 2 2.0 NaN 2574 2 3.0 1 1 2 1.0 NaN NaN 1.0 Mies (28, 38] 1.8 2
59 1 20 1 2.0 1.0 2261 3 4.0 3 2 3 NaN NaN NaN NaN Mies (18, 28] 3.0 0
60 1 31 1 1.0 10.0 2144 4 4.0 3 1 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
61 1 44 1 1.0 19.0 2183 2 2.0 1 1 2 1.0 NaN NaN NaN Mies (38, 48] 1.6 1
62 1 40 2 1.0 0.0 1872 2 3.0 1 2 3 1.0 NaN NaN NaN Mies (38, 48] 2.2 1
63 2 51 2 2.0 10.0 1872 4 3.0 2 2 3 1.0 NaN NaN NaN Nainen (48, 58] 2.8 1
64 2 44 1 2.0 1.0 1715 4 4.0 3 2 3 1.0 NaN NaN 1.0 Nainen (38, 48] 3.2 2
65 2 35 2 2.0 17.0 2691 4 4.0 5 2 4 1.0 NaN NaN 1.0 Nainen (28, 38] 3.8 2
66 2 37 2 1.0 16.0 2027 5 5.0 5 4 5 1.0 1.0 NaN NaN Nainen (28, 38] 4.8 2
67 1 37 2 4.0 8.0 5069 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies (28, 38] 2.8 3
68 1 33 2 3.0 7.0 2417 2 4.0 3 1 4 NaN NaN NaN NaN Mies (28, 38] 2.8 0
69 1 28 2 2.0 1.0 3510 4 5.0 3 1 4 NaN NaN NaN NaN Mies (18, 28] 3.4 0
70 1 52 2 2.0 22.0 3119 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies (48, 58] 2.8 3
71 1 34 2 2.0 1.0 2495 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies (28, 38] 4.0 1
72 1 46 2 2.0 23.0 3470 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies (38, 48] 4.0 1
73 2 40 2 3.0 2.0 2027 5 3.0 4 3 4 1.0 NaN NaN NaN Nainen (38, 48] 3.8 1
74 1 45 2 1.0 20.0 2846 3 5.0 1 1 3 1.0 NaN NaN NaN Mies (38, 48] 2.6 1
75 1 40 1 1.0 1.0 1949 1 5.0 1 1 1 1.0 NaN NaN NaN Mies (38, 48] 1.8 1
76 1 37 1 2.0 15.0 1598 1 5.0 1 1 1 1.0 NaN NaN NaN Mies (28, 38] 1.8 1
77 1 39 1 2.0 22.0 2183 4 5.0 3 1 2 NaN NaN NaN NaN Mies (38, 48] 3.0 0
78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN Mies (18, 28] 3.8 2
79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN Mies (28, 38] 1.8 1
80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN Mies (18, 28] 3.2 2
81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN Mies (28, 38] 3.2 0
82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN Nainen (28, 38] 3.6 1
In [12]:
df.count()
# koulutus, palveluv ja työtov sarakkeissa näyttäisi olevan puuttuvia arvoja
Out[12]:
sukup           82
ikä             82
perhe           82
koulutus        81
palveluv        80
palkka          82
johto           82
työtov          81
työymp          82
palkkat         82
työteht         82
työterv         47
lomaosa         20
kuntosa          9
hieroja         22
sukup_str       82
ikäluokka       82
tyytyväisyys    82
käyttö          82
dtype: int64
In [13]:
# Poistan rivit, joilta puuttuu koulutus, palveluv tai työtov
df = df.dropna(subset = ['koulutus', 'palveluv', 'työtov'])
df
Out[13]:
sukup ikä perhe koulutus palveluv palkka johto työtov työymp palkkat työteht työterv lomaosa kuntosa hieroja sukup_str ikäluokka tyytyväisyys käyttö
nro
1 1 38 1 1.0 22.0 3587 3 3.0 3 3 3 NaN NaN NaN NaN Mies (28, 38] 3.0 0
2 1 29 2 2.0 10.0 2963 1 5.0 2 1 3 NaN NaN NaN NaN Mies (28, 38] 2.4 0
3 1 30 1 1.0 7.0 1989 3 4.0 1 1 3 1.0 NaN NaN NaN Mies (28, 38] 2.4 1
4 1 36 2 1.0 14.0 2144 3 3.0 3 3 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
5 1 24 1 2.0 4.0 2183 2 3.0 2 1 2 1.0 NaN NaN NaN Mies (18, 28] 2.0 1
6 2 31 2 2.0 14.0 1910 4 4.0 5 2 4 1.0 1.0 NaN NaN Nainen (28, 38] 3.8 2
7 1 49 1 2.0 16.0 2066 3 5.0 4 2 2 NaN NaN 1.0 NaN Mies (48, 58] 3.2 1
8 1 55 1 1.0 0.0 2066 3 5.0 3 1 3 1.0 NaN NaN NaN Mies (48, 58] 3.0 1
9 1 40 2 1.0 23.0 2768 2 4.0 4 2 4 NaN 1.0 NaN NaN Mies (38, 48] 3.2 1
10 1 33 1 1.0 16.0 2106 3 2.0 1 1 1 1.0 NaN NaN NaN Mies (28, 38] 1.6 1
11 1 39 2 1.0 22.0 2651 3 5.0 3 1 3 NaN NaN NaN NaN Mies (38, 48] 3.0 0
12 1 40 2 3.0 21.0 2846 3 5.0 3 1 2 NaN 1.0 NaN 1.0 Mies (38, 48] 2.8 2
13 1 35 2 3.0 15.0 2808 3 5.0 3 1 4 NaN 1.0 NaN NaN Mies (28, 38] 3.2 1
14 1 58 2 3.0 21.0 3587 4 5.0 4 1 3 NaN NaN NaN NaN Mies (48, 58] 3.4 0
15 1 53 2 3.0 12.0 3393 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (48, 58] 4.0 1
16 2 42 2 3.0 23.0 2691 3 3.0 3 3 3 1.0 NaN NaN 1.0 Nainen (38, 48] 3.0 2
17 1 26 1 4.0 2.0 5225 5 5.0 5 4 5 NaN NaN 1.0 NaN Mies (18, 28] 4.8 1
18 2 38 2 3.0 17.0 2729 4 3.0 4 2 1 NaN NaN NaN NaN Nainen (28, 38] 2.8 0
19 1 42 1 3.0 20.0 2925 2 3.0 4 1 4 1.0 NaN NaN 1.0 Mies (38, 48] 2.8 2
20 2 40 2 2.0 13.0 2457 3 3.0 4 3 2 1.0 NaN NaN 1.0 Nainen (38, 48] 3.0 2
21 2 40 2 3.0 20.0 2691 2 4.0 5 3 4 NaN NaN NaN NaN Nainen (38, 48] 3.6 0
22 1 47 2 3.0 17.0 4874 2 4.0 3 2 4 NaN 1.0 NaN NaN Mies (38, 48] 3.0 1
23 1 44 2 1.0 27.0 3510 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (38, 48] 4.0 1
24 1 36 1 3.0 7.0 4446 3 4.0 3 4 5 NaN NaN NaN NaN Mies (28, 38] 3.8 0
25 1 43 2 3.0 1.0 2925 4 4.0 4 4 4 NaN 1.0 NaN NaN Mies (38, 48] 4.0 1
26 1 26 1 2.0 3.0 1521 2 4.0 2 1 3 1.0 NaN 1.0 1.0 Mies (18, 28] 2.4 3
27 1 26 1 2.0 2.0 1989 2 4.0 2 2 3 1.0 NaN NaN 1.0 Mies (18, 28] 2.6 2
28 2 56 1 1.0 15.0 2223 3 4.0 3 2 4 1.0 NaN NaN 1.0 Nainen (48, 58] 3.2 2
29 1 47 2 2.0 23.0 2808 2 4.0 3 1 4 1.0 NaN NaN NaN Mies (38, 48] 2.8 1
31 1 21 1 3.0 1.0 2340 4 5.0 3 4 2 1.0 NaN 1.0 1.0 Mies (18, 28] 3.6 3
32 1 45 2 1.0 24.0 2925 4 4.0 4 3 4 NaN 1.0 NaN NaN Mies (38, 48] 3.8 1
33 1 59 2 3.0 15.0 6278 4 4.0 5 4 4 NaN 1.0 NaN NaN Mies (58, 68] 4.2 1
34 1 37 2 1.0 14.0 2183 1 5.0 1 1 2 1.0 NaN NaN 1.0 Mies (28, 38] 2.0 2
35 1 28 2 2.0 5.0 1989 3 4.0 3 3 3 1.0 NaN 1.0 1.0 Mies (18, 28] 3.2 3
36 1 31 2 3.0 0.0 1559 2 4.0 3 1 3 1.0 NaN NaN NaN Mies (28, 38] 2.6 1
37 2 56 2 2.0 17.0 2729 5 5.0 5 5 5 NaN NaN NaN 1.0 Nainen (48, 58] 5.0 1
38 1 50 2 1.0 1.0 2027 5 5.0 4 1 4 1.0 1.0 NaN NaN Mies (48, 58] 3.8 2
39 1 30 1 2.0 10.0 2300 3 5.0 3 3 4 NaN NaN NaN NaN Mies (28, 38] 3.6 0
40 1 32 1 1.0 3.0 2106 1 5.0 4 1 3 1.0 NaN NaN NaN Mies (28, 38] 2.8 1
41 1 33 2 3.0 9.0 2846 3 3.0 4 2 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
42 1 29 1 2.0 6.0 2534 3 4.0 3 1 2 1.0 NaN NaN NaN Mies (28, 38] 2.6 1
43 2 40 2 3.0 12.0 2144 4 4.0 4 4 4 NaN 1.0 NaN NaN Nainen (38, 48] 4.0 1
44 1 30 1 2.0 7.0 2223 2 3.0 4 1 3 1.0 NaN NaN 1.0 Mies (28, 38] 2.6 2
45 1 55 2 1.0 35.0 2651 4 5.0 4 2 4 1.0 NaN NaN 1.0 Mies (48, 58] 3.8 2
46 2 51 2 1.0 28.0 1989 3 3.0 2 2 3 1.0 NaN NaN 1.0 Nainen (48, 58] 2.6 2
47 2 42 1 3.0 21.0 1872 3 3.0 4 1 3 NaN NaN 1.0 NaN Nainen (38, 48] 2.8 1
48 1 34 2 1.0 18.0 2183 4 5.0 4 1 3 NaN NaN NaN NaN Mies (28, 38] 3.4 0
49 1 27 2 2.0 7.0 2729 4 4.0 3 3 5 NaN NaN 1.0 NaN Mies (18, 28] 3.8 1
50 1 29 1 3.0 7.0 2340 3 4.0 3 2 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
51 2 39 2 2.0 10.0 2106 4 5.0 5 4 5 NaN 1.0 NaN NaN Nainen (38, 48] 4.6 1
52 1 41 2 1.0 18.0 2261 5 5.0 5 2 5 NaN 1.0 NaN NaN Mies (38, 48] 4.4 1
53 1 44 2 1.0 3.0 1989 1 2.0 2 1 1 1.0 NaN NaN NaN Mies (38, 48] 1.4 1
54 1 25 1 2.0 1.0 1559 2 4.0 3 1 2 1.0 NaN NaN NaN Mies (18, 28] 2.4 1
55 2 45 2 1.0 17.0 2417 3 5.0 4 3 3 NaN NaN NaN 1.0 Nainen (38, 48] 3.6 1
56 2 31 2 1.0 6.0 1949 4 4.0 4 3 3 1.0 NaN NaN 1.0 Nainen (28, 38] 3.6 2
59 1 20 1 2.0 1.0 2261 3 4.0 3 2 3 NaN NaN NaN NaN Mies (18, 28] 3.0 0
60 1 31 1 1.0 10.0 2144 4 4.0 3 1 3 1.0 NaN NaN NaN Mies (28, 38] 3.0 1
61 1 44 1 1.0 19.0 2183 2 2.0 1 1 2 1.0 NaN NaN NaN Mies (38, 48] 1.6 1
62 1 40 2 1.0 0.0 1872 2 3.0 1 2 3 1.0 NaN NaN NaN Mies (38, 48] 2.2 1
63 2 51 2 2.0 10.0 1872 4 3.0 2 2 3 1.0 NaN NaN NaN Nainen (48, 58] 2.8 1
64 2 44 1 2.0 1.0 1715 4 4.0 3 2 3 1.0 NaN NaN 1.0 Nainen (38, 48] 3.2 2
65 2 35 2 2.0 17.0 2691 4 4.0 5 2 4 1.0 NaN NaN 1.0 Nainen (28, 38] 3.8 2
66 2 37 2 1.0 16.0 2027 5 5.0 5 4 5 1.0 1.0 NaN NaN Nainen (28, 38] 4.8 2
67 1 37 2 4.0 8.0 5069 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies (28, 38] 2.8 3
68 1 33 2 3.0 7.0 2417 2 4.0 3 1 4 NaN NaN NaN NaN Mies (28, 38] 2.8 0
69 1 28 2 2.0 1.0 3510 4 5.0 3 1 4 NaN NaN NaN NaN Mies (18, 28] 3.4 0
70 1 52 2 2.0 22.0 3119 3 4.0 3 2 2 1.0 1.0 NaN 1.0 Mies (48, 58] 2.8 3
71 1 34 2 2.0 1.0 2495 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies (28, 38] 4.0 1
72 1 46 2 2.0 23.0 3470 3 5.0 5 3 4 NaN 1.0 NaN NaN Mies (38, 48] 4.0 1
73 2 40 2 3.0 2.0 2027 5 3.0 4 3 4 1.0 NaN NaN NaN Nainen (38, 48] 3.8 1
74 1 45 2 1.0 20.0 2846 3 5.0 1 1 3 1.0 NaN NaN NaN Mies (38, 48] 2.6 1
75 1 40 1 1.0 1.0 1949 1 5.0 1 1 1 1.0 NaN NaN NaN Mies (38, 48] 1.8 1
76 1 37 1 2.0 15.0 1598 1 5.0 1 1 1 1.0 NaN NaN NaN Mies (28, 38] 1.8 1
77 1 39 1 2.0 22.0 2183 4 5.0 3 1 2 NaN NaN NaN NaN Mies (38, 48] 3.0 0
78 1 22 1 3.0 0.0 1598 4 4.0 4 3 4 NaN 1.0 1.0 NaN Mies (18, 28] 3.8 2
79 1 33 1 1.0 2.0 1638 1 3.0 2 1 2 1.0 NaN NaN NaN Mies (28, 38] 1.8 1
80 1 27 1 2.0 7.0 2612 3 4.0 3 3 3 1.0 NaN 1.0 NaN Mies (18, 28] 3.2 2
81 1 35 2 2.0 16.0 2808 3 4.0 3 3 3 NaN NaN NaN NaN Mies (28, 38] 3.2 0
82 2 35 2 3.0 15.0 2183 3 4.0 4 3 4 1.0 NaN NaN NaN Nainen (28, 38] 3.6 1
In [14]:
df.count()
# Nyt datassa on enää 79 riviä
Out[14]:
sukup           79
ikä             79
perhe           79
koulutus        79
palveluv        79
palkka          79
johto           79
työtov          79
työymp          79
palkkat         79
työteht         79
työterv         44
lomaosa         20
kuntosa          9
hieroja         20
sukup_str       79
ikäluokka       79
tyytyväisyys    79
käyttö          79
dtype: int64
In [15]:
# Halutessasi voit tallentaa muunnetun datan Excel-tiedostoon
df.to_excel('muunnettu.xlsx')