Tilastot
Tilastollisia tunnuslukuja voidaan käyttää numeerisen aineiston analysointiin. Tilastollisten tunnuslukujen idea on siinä, että tunnusluvut kuvaavat mahdollisesti hyvinkin suurta aineistoa yksinkertaisella tavalla. Tarkastellaan kuvitteellista aineistoa oppilaiden pituuksista eräässä koululuokassa:
Oppilas | Pituus (cm) |
---|---|
Oppilas 1 | 159 |
Oppilas 2 | 160 |
Oppilas 3 | 160 |
Oppilas 4 | 160 |
Oppilas 5 | 161 |
Oppilas 6 | 162 |
Oppilas 7 | 163 |
Oppilas 8 | 164 |
Oppilas 9 | 165 |
Oppilas 10 | 165 |
Oppilas 11 | 166 |
Oppilas 12 | 167 |
Oppilas 13 | 167 |
Oppilas 14 | 168 |
Oppilas 15 | 168 |
Oppilas 16 | 169 |
Oppilas 17 | 171 |
Oppilas 18 | 173 |
Oppilas 19 | 175 |
Oppilas 20 | 180 |
Keskiarvo \(\overline{x}\)
Keskiarvo \(\overline{x}\) saadaan laskemalla havaintojen \(x_1, x_2, \dotsc, x_n\) summa ja jakamalla se havaintojen lukumäärällä \(n\), eli \[\overline{x}=\frac{1}{n}\, \sum_{i=1}^n x_i.\] Yllä olevan esimerkkiaineiston tapauksessa laskettaisiin \[\overline{x}=\frac{159+160+\dotsb + 180}{20} = 166.50\, .\]
Moodi (Mo)
Moodi kertoo mikä havaintoarvo esiintyy aineistossa useimmin. Moodia kutsutaan myös tyyppiarvoksi. Yllä olevassa esimerkkiaineistossa moodi on 160, koska se toistuu aineistossa yhteensä kolme kertaa. Moodeja voi olla useitakin. Jos esimerkkiaineistossa olisi ollut vielä yksi 165 cm pitkä oppilas lisää, olisi moodeja ollut kaksi: 160 ja 165.
Mediaani (Md)
Mediaania varten aineiston havainnot pitää laittaa suuruusjärjestykseen. Mediaani on tämän järjestetyn aineiston keskimmäinen havainto. Jos havaintoja on parillinen määrä, kuten yllä olevassa esimerkkiaineistossa, mediaani on silloin kahden keskimmäisen havainnon keskiarvo.
Yllä olevan esimerkkiaineiston havainnot ovat suuruusjärjestyksessä: 159, 160, 160, 160, 161, 162, 163, 164, 165, 165, 166, 167, 167, 168, 168, 169, 171, 173, 175, 180. Näin ollen \[{\rm Md} = \frac{165+166}{2} = 165.5\, .\]
Tunnuslukujen hyödyllisyys riippuu tapauksesta.
Esimerkki 1. Eräällä matematiikan tunnilla laskettiin keskiarvo ja mediaani oppilaiden mukana kuljettaman käteisen rahan määrästä. Keskiarvoksi saatiin 15.30 euroa ja mediaaniksi 16.50 euroa. Sitten eräs opiskelija muisti laittaneensa mustan urheilukassin sivutaskuun 24 000 000 euroa, vaikka hän oli aiemmin ilmoittanut rahamääräkseen vain 20 euroa. Uuden aineiston mukainen keskiarvo on 1 046 493.56 euroa ja mediaani edelleen 16.50 euroa.
Tästä voidaan päätellä, että yksittäiset äärimmäiset havainnot sekoittavat keskiarvoa. Yllä mainitussa tilanteessa keskiarvo ei kuvaa keskimääräistä opiskelijoiden rahatilannetta. Tämän esimerkin tapauksessa mediaani on immuuni yksittäiselle äärimmäiselle havainnolle.
Prosenttipisteet (Pn%)
Tämä tunnusluku on tietyssä mielessä mediaanin kaltainen. Mediaani jakaa havaintojen lukumäärän perusteella aineiston kahtia. Eli puolet aineistosta on mediaanin alapuolella ja puolet sen yläpuolella. Aineisto voidaan jakaa myös missä tahansa muussa prosenttisuhteessa:
- 25%-piste = alakvartiili \((Q_1)\);
- 75%-piste = yläkvartiili \((Q_3)\);
- desiilit määräytyvät täysien kymmenprosenttien mukaan, eli 10%-piste \((D_1)\); 20%-piste \((D_2)\) jne.
Esimerkki 2. Käytetään edelleen aineistoa oppilaiden pituudesta esimerkkinä. Punaisella värillä on merkitty alakvartiili, eli ensimmäinen neljännes, ja sinisellä värillä yläkvartiili, eli neljäs neljännes: 159, 160, 160, 160, 161, 162, 163, 164, 165, 165, 166, 167, 167, 168, 168, 169, 171, 173, 175, 180.
Hajontalukuja
Hajontaluvuilla kuvataan sitä, kuinka kaukana keskiarvosta aineiston arvot keskimäärin ovat.
- Vaihteluväli
- Aineiston pienimmän ja suurimman arvon mukainen väli. Pituuksia koskevassa esimerkkiaineistossa vaihteluväli on 159-180.
- Vaihteluvälin pituus
- Suurimman ja pienimmän arvon erotus. Esimerkkiaineistossa vaihteluvälin pituus on 180-159=21.
- Kvartiiliväli, kvartiilivälin pituus
- Kuten edellä, mutta tiettyyn kvartiiliin soveltaen.
- Keskihajonta
- Tarkastellaan keskihajonnan laskemista vaiheittain: (1) Lasketaan ensin jokaisen arvon \(x_i\) osalta sen poikkeama \(x_i-\overline{x}\) keskiarvosta; (2) Lasketaan näiden poikkeamien neliöiden keskiarvo eli varianssi; (3) Otetaan vielä neliöjuuri. Aineiston \(x_1,x_2,\dotsc, x_n\) keskihajonnaksi saadaan siis \[ \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^2}.\]
- Otoskeskihajonta
- Tilastollisessa tutkimuksessa tarkastellaan usein pientä osaa (otosta) koko aineistosta. Otoksen avulla voidaan arvioida koko aineiston keskihajontaa. Koska otosta käsiteltäessa ei tunneta koko aineiston keskiarvoa, korvataan syntyvää vääristymää korvaamalla keskihajonnan kaavan nimittäjässä oleva luku \(n\) luvulla \(n-1\). Näin saadaan otoskeskihajonnan kaava: \[ \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i-\overline{x})^2}.\]
Laskeminen Excelillä
Tilastollisia tunnuslukuja on helppo laskea Excelillä, sillä siitä löytyy valmiit komennot niiden laskemiseen. Tarvitset vain aineiston Exceliin ja oikean komennon, niin Excel laskee tunnusluvut sinulle valmiiksi!
Tunnusluku | Komento |
---|---|
Moodi | =MOODI.YKSI(alue) |
Mediaani | =MEDIAANI(alue) |
Keskiarvo | =KESKIARVO(alue) |
Prosenttipiste | =PROSENTTIPISTE.ULK(alue, p%) |
Pienin arvo | =MIN(alue) |
Suurin arvo | =MAKS(alue) |
Keskihajonta | =KESKIHAJONTA.P(alue) |
Otoskeskihajonta | =KESKIHAJONTA.S(alue) |