2. Tutkimusaineiston kerääminen ja käyttäminen
Tutkimuskysymykset määrittävät lähtökohtaisesti, millaista aineistoa tutkimusta varten kerätään. Aineisto voi olla tyypiltään esimerkiksi kuvia, kyselyjä, tilastoaineistoa, haastattelutallenteita tai numeerisia mittauksia. Tämä vaikuttaa osaltaan siihen, miten aineistoa voidaan tuottaa ja käsitellä. Haastattelut edellyttävät keruutyökalun valintaa ja usein henkilötietojen käsittelyn edellyttämiä toimia. Mittauslaitteiden tuottama data saattaa kokonsa puolesta asettaa erityisiä vaatimuksia tallennustilalle ja jakamisratkaisuille.
Aineistonkeruumenetelmän laatu vaikuttaa vahvasti aineiston laatuun. Aineiston keräämisen tarkka dokumentointi on yksi osoitus laadusta. Laadunhallinnan toimenpiteitä aineistonkeruuvaiheessa ovat esimerkiksi instrumenttien kalibrointi, useiden mittausten tekeminen ja standardoitujen menetelmien ja protokollien käyttäminen.
Tiedostomuodot ja käytetyt ohjelmat vaikuttavat siihen, miten tutkija aikoo analysoida aineistoaan, mitä välineitä ja ohjelmistoja käytetään ja millaiset tieteenalakohtaiset standardit tai käytännöt ovat vallalla. On mietittävä etukäteen, mitkä tiedostomuodot ja ohjelmat sopivat millekin tutkimusdatalle.
Aineistoa kerättäessä voidaan myös hyödyntää jo olemassa olevaa materiaalia. Aineiston uudelleenkäyttäminen tarkoittaa siis sitä, että valmista aineistoa käytetään tutkimukseen tai johonkin muuhun tarkoitukseen kuten opetukseen, opiskeluun tai kaupallisiin tarkoituksiin. Tutkimusdataa voi etsiä datarepositorioista tai portaaleista (ks. esim. UEF Avoin tiede -verkkosivuston osiot Tutkimusdatapalveluja ja Avoimen tutkimusdatan hyödyntäminen).
Datan uudelleenkäyttö säästää parhaimmillaan aikaa ja rahaa, koska kaikkea datan keräämiseen liittyvää ei tarvitse tehdä alusta alkaen. Tätä mahdollisuutta kannattaa ehdottomasti harkita, jos hyödyllisiä ja tarpeita vastaavia aineistoja on jo olemassa.
Käytettäessä muiden tuottamia aineistoja, niiden käyttöehdot on tarkistettava. Avoimien aineistojen käyttöehdot määritellään yleensä lisenssillä (esim. CC-lisenssi). Käyttöehtoja käsitellään lisää oppimateriaalin luvussa 5.
Jos hyödynnetään olemassa olevaa dataa, siihen on viitattava kuten kirjoihin ja tieteellisiin artikkeleihinkin. Dataviittauksen tulisi koostua seuraavista elementeistä:
- tekijä
- otsikko
- tutkijan edustama organisaatio
- julkaisuaika ja/tai päivämäärä
- pysyvä tunniste.
Hyödyllisiä lisätietoja ovat mm.
- versio
- resurssityyppi
- lisenssi
- tutkijan pysyvä tunniste (ORCID)
- mahdollinen embargo eli viiveaika
- repositorio.
Datarepositorioilla ja -arkistoilla on yleensä ohjeet dataviittaamiseen. Myös kustantajilla voi olla omia ohjeita viittamiskäytännöistä.
Aineistoa kerättäessä ja käsiteltäessä on huomioitava eettiset ja juridiset seikat. Tutkimusaineisto voi sisältää
- henkilötietoa
- arkaluonteista henkilötietoa (esim. uskonnollinen vakaumus, terveyttä koskeva tietoa)
- sensitiivistä lajitietoa (esim. uhanalainen eläin tai kasvi)
- tai muuta luottamuksellista tietoa (esim. patentit, maanpuolustukseen liittyvä tieto tai liikesalaisuudet).
On ensiarvoisen tärkeää, että tutkija tunnistaa omaan aineistoon liittyvät juridiset ja eettiset näkökulmat ja rajoitukset ja huomioi ne koko aineistonhallintaprosessin ajan.
Henkilötietoja voidaan käsitellä tieteellisessä tutkimuksessa, kun käyttö on tarkoituksenmukaista, suunniteltua ja oikeutettua ja kun käsittelylle on laillinen peruste. Lähtökohtaisesti tutkimuksessa tulisi aina huomioida EU:n tietosuoja-asetuksen (GDPR) soveltaminen, ellei ole täysin varma, että tutkimusdatassa ei ole mitään ihmisiin liittyviä tietoja.
Kaikessa tutkimuksessa on joka tapauksessa hyvä käydä läpi, sisältääkö se henkilötietoa. Esimerkiksi elottomat kappaleet, aineet, eläimet, taivaankappaleet tai sääilmiöt sisältävät usein tietoja havaintojen tekijöistä tai ovat muutoin liitettävissä luonnolliseen henkilöön.
Seuraavassa osiossa käsitellään henkilötietoja hieman tarkemmin.
Pohdittavaksi
- Käsitteletkö henkilötietoa?
- Jos käsittelet henkilötietoja, niin millaisia henkilötietoja käsittelet?
- Mitä teet henkilötiedoille tutkimuksen jälkeen?
- Onko sinun anonymisoitava tai pseudonymisoitava aineistoasi?
- Onko olemassa tieteelliseen tutkimukseen sisältyvää dataa, joka ei sisältäisi henkilötietoja?
Kun tutkimusaineistoon kerätään tietoja henkilöistä, tulee noudattaa ammatillisten toimijoiden, organisaatioiden ja rahoittajien eettisiä ohjeita ja suosituksia. Tämä on muistettava koko tutkimuksen elinkaaren ajan suunnittelusta tutkimuksenaikaiseen toteuttamiseen ja tutkimuksenjälkeiseen säilyttämiseen.
Tutkittavia tulee informoida siitä, millaista aineistoa kerätään, miten sitä käsitellään tutkimuksen aikana (esim. tietoturvalliset tallennusratkaisut ja datan jakaminen kolmansille osapuolille) ja mitä aineistolle tapahtuu tutkimuksen jälkeen. Siksi on olennaista suunnitella jo tutkimuksen alussa, miten aineistoa hallitaan tutkimuksen aikana ja sen jälkeen. Ihmisiin kohdistuvassa tutkimuksessa voi tarvita myös eettisen ennakkoarvioinnin.
Henkilötietoja ovat tiedot, joiden perusteella henkilö voidaan suorasti tai epäsuorasti tunnistaa:
- suorat tunnisteet eli tiedot, jotka yksin riittävät tunnistamaan henkilön (esim. nimi, henkilötunnus, nimen mukainen sähköpostiosoite, biometriset tunnisteet eli esim. kasvot, ääni, sormenjäljet, silmän iiris, perinteinen allekirjoitus)
- vahvat epäsuorat tunnisteet eli tiedot, joiden avulla henkilö tunnistetaan ilman kohtuutonta vaivaa (esimerkiksi osoite, puhelinnumero, IP-osoite, opiskelijanumero, vakuutusnumero, tilinumero, tarkat vuosiansiot, rekisterinumero, harvinainen ammattinimike tai sairaus)
- epäsuorat tunnisteet, jotka eivät yksin riitä tunnistamiseen, mutta yhdistettyinä keskenään tai muihin tietoihin mahdollistavat tunnistamisen (esimerkiksi sukupuoli, ikä, asuinkunta, ammatti, työpaikka, koulutus, oppilaitos, päivämäärä kuten syntymäaika, kuolinaika tai tapahtuma-aika).
Katso video
Ihmisiin kohdistuvassa tutkimuksessa voi tarvita myös eettisen ennakkoarvioinnin. Tutkimuseettisen neuvottelukunnan (TENK) tuottamassa tiiviissä videossa annetaan ohjeita eettiseen ennakkoarviointiin.
Henkilötietoja voidaan käsitellä tieteellisessä tutkimuksessa, kun käyttö on tarkoituksenmukaista, suunniteltua ja oikeutettua ja kun käsittelylle on laillinen peruste. Henkilötietojen käsittely tulee suunnitella ja toteuttaa huolellisesti noudattaen tietosuoja-asetusta (GDPR). Tutkimusorganisaatiot ohjeistavat henkilötietojen käsittelyn käytäntöihin tietosuoja-asetuksen edellyttämillä tavoilla. Esimerkiksi UEFin Heimo-palveluissa on ohjeita ja mallilomakkeita henkilötietojen käsittelyyn tieteellisessä tutkimuksessa (edellyttää UEF-tunnuksen).
Yleisenä ohjenuorana on hyvä pitää mielessä, että henkilötietojen keruu tulee minimoida aineistoa kerättäessä eli kerätään vain sellaista tietoa, mikä on tarpeen tutkimuksen kannalta.
Aineistonhallinnassa erityistä huomiota on kiinnitettävä aineiston turvalliseen säilytykseen, käsittelyyn ja siirtoon, niin että vain henkilöt, joilla on perusteltu oikeus käsitellä aineistoa, pääsevät siihen käsiksi. On hyvä suunnitella tarkasti, miten tutkittavia informoidaan aineiston käsittelystä ja hallinnasta, esimerkiksi miten pitkään aineistoa säilytetään tai aiotaanko aineistoa jakaa jatkokäyttöön ja jos, niin miten. Lisätietoa tutkittavien informoinnista henkilötietojen käsittelystä löytyy mm.
- Tietoarkiston ohjeista
- UEFin Heimo-palveluista (edellyyttää UEF-tunnuksen): Henkilötietojen käsittely tieteellisessä tutkimuksessa
Tutkimustarkoituksessa aineistoa voidaan käsitellä tunnisteellisena tai pseudonyyminä. Pseudonymisointi tarkoittaa tunnisteellisten tietojen poistamista tai korvaamista pseudonyymeillä tai koodeilla, joita säilytetään aineistosta erillään. Pseudonymisoitu aineisto on edelleen henkilötietoa.
Anonymisointi tarkoittaa kaikkien tunnisteellisten tietojen poistamista pysyvästi. Anonymisointi on tarpeen, jos aineistoa jaetaan avoimesti tai säilytettään uudelleenkäyttöä varten. On muistettava, että myös anonymisointi toimenpiteenä on henkilötietojen käsittelyä. Anonymisointiin voidaan käyttää erilaisia tekniikoita ja työkaluja. Tietoarkiston ohjeista löytyy lisätietoa henkilötiedoista ja anonymisoinnista.
Laine, Heidi (ed.) 2018. Tracing data: Data citation roadmap for Finland Finnish Committee for Research Data (FCRD).
Tutkimuseettinen neuvottelukunta (TENK)
Tutkimusetiikka (Itä-Suomen yliopisto)
Tieteellinen tutkimus ja tietosuoja (Tietosuojavaltuutetun toimisto)
(2023-08)
Seuraavaksi: 3. Tutkimusaineiston kuvailu (dokumentointi, metadata)