Tilastot

Tilastollisia tunnuslukuja

Tilastollisia tunnuslukuja voidaan käyttää numeerisen aineiston analysointiin. Tilastollisten tunnuslukujen idea on siinä, että tunnusluvut kuvaavat mahdollisesti hyvinkin suurta aineistoa yksinkertaisella tavalla. Tarkastellaan kuvitteellista aineistoa oppilaiden pituuksista eräässä koululuokassa:

Oppilas Pituus (cm)
Oppilas 1 159
Oppilas 2 160
Oppilas 3 160
Oppilas 4 160
Oppilas 5 161
Oppilas 6 162
Oppilas 7 163
Oppilas 8 164
Oppilas 9 165
Oppilas 10 165
Oppilas 11 166
Oppilas 12 167
Oppilas 13 167
Oppilas 14 168
Oppilas 15 168
Oppilas 16 169
Oppilas 17 171
Oppilas 18 173
Oppilas 19 175
Oppilas 20 180

Sovelletaan tähän aineistoon tyypillisiä tilastollisia tunnuslukuja.

Keskiarvo \(\overline{x}\)

Keskiarvo \(\overline{x}\) saadaan laskemalla havaintojen \(x_1, x_2, \dotsc, x_n\) summa ja jakamalla se havaintojen lukumäärällä \(n\), eli \[\overline{x}=\frac{1}{n}\, \sum_{i=1}^n x_i.\] Yllä olevan esimerkkiaineiston tapauksessa laskettaisiin \[\overline{x}=\frac{159+160+\dotsb + 180}{20} = 166.50\, .\]

Moodi (Mo)

Moodi kertoo mikä havaintoarvo esiintyy aineistossa useimmin. Moodia kutsutaan myös tyyppiarvoksi. Yllä olevassa esimerkkiaineistossa moodi on 160, koska se toistuu aineistossa yhteensä kolme kertaa. Moodeja voi olla useitakin. Jos esimerkkiaineistossa olisi ollut vielä yksi 165 cm pitkä oppilas lisää, olisi moodeja ollut kaksi: 160 ja 165.

Mediaani (Md)

Mediaania varten aineiston havainnot pitää laittaa suuruusjärjestykseen. Mediaani on tämän järjestetyn aineiston keskimmäinen havainto. Jos havaintoja on parillinen määrä, kuten yllä olevassa esimerkkiaineistossa, mediaani on silloin kahden keskimmäisen havainnon keskiarvo.

Yllä olevan esimerkkiaineiston havainnot ovat suuruusjärjestyksessä: 159, 160, 160, 160, 161, 162, 163, 164, 165, 165, 166, 167, 167, 168, 168, 169, 171, 173, 175, 180. Näin ollen \[{\rm Md} = \frac{165+166}{2} = 165.5\, .\]

Tunnuslukujen hyödyllisyys riippuu tapauksesta.

Esimerkki 1. Eräällä matematiikan tunnilla laskettiin keskiarvo ja mediaani oppilaiden mukana kuljettaman käteisen rahan määrästä. Keskiarvoksi saatiin 15.30 euroa ja mediaaniksi 16.50 euroa. Sitten eräs opiskelija muisti laittaneensa mustan urheilukassin sivutaskuun 24 000 000 euroa, vaikka hän oli aiemmin ilmoittanut rahamääräkseen vain 20 euroa. Uuden aineiston mukainen keskiarvo on 1 046 493.56 euroa ja mediaani edelleen 16.50 euroa.

Tästä voidaan päätellä, että yksittäiset äärimmäiset havainnot sekoittavat keskiarvoa. Yllä mainitussa tilanteessa keskiarvo ei kuvaa keskimääräistä opiskelijoiden rahatilannetta. Tämän esimerkin tapauksessa mediaani on immuuni yksittäiselle äärimmäiselle havainnolle.

Prosenttipisteet (Pn%)

Tämä tunnusluku on tietyssä mielessä mediaanin kaltainen. Mediaani jakaa havaintojen lukumäärän perusteella aineiston kahtia. Eli puolet aineistosta on mediaanin alapuolella ja puolet sen yläpuolella. Aineisto voidaan jakaa myös missä tahansa muussa prosenttisuhteessa:

  • 25%-piste = alakvartiili \((Q_1)\);
  • 75%-piste = yläkvartiili \((Q_3)\);
  • desiilit määräytyvät täysien kymmenprosenttien mukaan, eli 10%-piste \((D_1)\); 20%-piste \((D_2)\) jne.

Esimerkki 2. Käytetään edelleen aineistoa oppilaiden pituudesta esimerkkinä. Punaisella värillä on merkitty alakvartiili, eli ensimmäinen neljännes, ja sinisellä värillä yläkvartiili, eli neljäs neljännes: 159, 160, 160, 160, 161, 162, 163, 164, 165, 165, 166, 167, 167, 168, 168, 169, 171, 173, 175, 180.

Hajontalukuja

Hajontaluvuilla kuvataan sitä, kuinka kaukana keskiarvosta aineiston arvot keskimäärin ovat.

Vaihteluväli
Aineiston pienimmän ja suurimman arvon mukainen väli. Pituuksia koskevassa esimerkkiaineistossa vaihteluväli on 159-180.
Vaihteluvälin pituus
Suurimman ja pienimmän arvon erotus. Esimerkkiaineistossa vaihteluvälin pituus on 180-159=21.
Kvartiiliväli, kvartiilivälin pituus
Kuten edellä, mutta tiettyyn kvartiiliin soveltaen.
Keskihajonta
Tarkastellaan keskihajonnan laskemista vaiheittain: (1) Lasketaan ensin jokaisen arvon \(x_i\) osalta sen poikkeama \(x_i-\overline{x}\) keskiarvosta; (2) Lasketaan näiden poikkeamien neliöiden keskiarvo eli varianssi; (3) Otetaan vielä neliöjuuri. Aineiston \(x_1,x_2,\dotsc, x_n\) keskihajonnaksi saadaan siis \[ \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^2}.\]
Otoskeskihajonta
Tilastollisessa tutkimuksessa tarkastellaan usein pientä osaa (otosta) koko aineistosta. Otoksen avulla voidaan arvioida koko aineiston keskihajontaa. Koska otosta käsiteltäessa ei tunneta koko aineiston keskiarvoa, korvataan syntyvää vääristymää korvaamalla keskihajonnan kaavan nimittäjässä oleva luku \(n\) luvulla \(n-1\). Näin saadaan otoskeskihajonnan kaava: \[ \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i-\overline{x})^2}.\]

Laskeminen Excelillä

Tilastollisia tunnuslukuja on helppo laskea Excelillä, sillä siitä löytyy valmiit komennot niiden laskemiseen. Tarvitset vain aineiston Exceliin ja oikean komennon, niin Excel laskee tunnusluvut sinulle valmiiksi!

Tunnusluku Komento
Moodi =MOODI.YKSI(alue)
Mediaani =MEDIAANI(alue)
Keskiarvo =KESKIARVO(alue)
Prosenttipiste =PROSENTTIPISTE.ULK(alue, p%)
Pienin arvo =MIN(alue)
Suurin arvo =MAKS(alue)
Keskihajonta =KESKIHAJONTA.P(alue)
Otoskeskihajonta =KESKIHAJONTA.S(alue)

Komennot ovat suomenkielisestä Excelistä.