Aineiston kerääminen ja käyttäminen

Aineiston kerääminen ja käyttäminen

Tutkimuskysymykset pääasiassa määrittävät millaista aineistoa tutkimusta varten kerätään. Aineistotyyppi vaikuttaa siihen, miten aineistoa voidaan tuottaa, käsitellä ja jakaa. Aineistonkeruumenetelmän laatu vaikuttaa vahvasti aineiston laatuun. Aineiston keräämisen tarkka dokumentointi on osoitus laadusta. Laadunhallinnan toimenpiteitä aineistonkeruuvaiheessa ovat esimerkiksi instrumenttien kalibrointi, useiden mittausten tekeminen ja standardoitujen menetelmien ja protokollien käyttäminen. Datan tiedostomuodot ja käytetyt ohjelmat riippuvat siitä, miten tutkija aikoo dataa analysoida, käytetyistä välineistä, käytettävissä olevista ohjelmistoista tai tieteenalakohtaisista standardeista tai käytännöistä. Harkitse etukäteen mitkä tiedostomuodot ja ohjelmat ovat sinun tutkimusdatallesi sopivia.

Aineistoa kerättäessä ja käsitellessä on useita eettisiä ja juridisia seikkoja pohdittavana. Tutkimusaineisto voi sisältää sensitiivistä tietoa, kuten henkilötietoa, arkaluontoista henkilötietoa, sensitiivistä lajitietoa esimerkiksi uhanlaisiin eläimiin tai kasveihin liittyen tai muuta luottamuksellista tietoa, kuten patentit, maanpuolustukseen liittyvä tieto tai liikesalaisuudet. On tärkeää, että tutkija tunnistaa omaan aineistoon liittyvät juridiset ja eettiset näkökulmat ja rajoitukset, ja huomioi ne koko aineistonhallintaprosessin ajan.

Kun tutkimusaineistoon kerätään tietoja ihmisistä, tulee noudattaa keskeisiä ammatillisten, institutionaalisten tai rahoittajatason suosittelemia eettisiä ohjeita, niin tutkimuksen aikana kuin aineistoa avattaessa. Kohdistuuko tutkimuksesi ihmisiin? Mikäli kohdistuu, tutkimuksesi voi tarvita eettisen ennakkoarvioinnin. Katso tämä lyhyt video Ohjeita eettiseen ennakkoarviointiin, TENK.

Tutkittavia tulee informoida siitä, millaista aineistoa kerätään ja mitä aineistolle tapahtuu tutkimuksen jälkeen. Siksi on olennaista suunnitella jo tutkimuksen alussa, miten aineistoa hallitaan tutkimuksen aikana ja sen jälkeen.

Henkilötiedot

Henkilötietoja ovat tiedot, joiden perusteella henkilö voidaan suorasti tai epäsuorasti tunnistaa. Henkilötietoja ovat kaikki tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön liittyvät tiedot, kuten:

  • Suorat tunnisteet eli tiedot, jotka yksin riittävät tunnistamaan henkilön, esimerkiksi nimi, henkilötunnus, nimen mukainen sähköpostiosoite, biometriset tunnisteet (kasvot, ääni, sormenjäljet, silmän iiris, perinteinen allekirjoitus).
  • Vahvat epäsuorat tunnisteet eli tiedot, joiden avulla henkilö tunnistetaan ilman kohtuutonta vaivaa, esimerkiksi osoite, puhelinnumero, ip-osoite, opiskelijanumero, vakuutusnumero, tilinumero, tarkat vuosiansiot, rekisterinumero, harvinainen ammattinimike tai sairaus.
  • Epäsuorat tunnisteet, jotka eivät yksin riitä tunnistamiseen, mutta yhdistettyinä keskenään tai muihin tietoihin mahdollistavat tunnistamisen, esimerkiksi sukupuoli, ikä, asuinkunta, ammatti, työpaikka, koulutus, oppilaitos, päivämäärä (syntymäaika, kuolinaika, tapahtuma-aika).

Henkilötietojen käsittely tulee suunnitella ja toteuttaa huolellisesti. Lue tarkasti nämä UEF ohjeet henkilötietojen käsittelystä tieteellisessä tutkimuksessa (vaatii UEF kirjautumisen).

Henkilötietoja voidaan käsitellä tieteellisessä tutkimuksessa, kun käyttö on tarkoituksenmukaista, suunniteltua ja oikeutettua, ja kun käsittelylle on laillinen peruste. Aineistonhallinnassa erityistä huomiota on kiinnitettävä aineiston turvalliseen säilytykseen, käsittelyyn ja siirtoon, niin että vain henkilöt, joilla on perusteltu oikeus käsitellä aineistoa pääsevät käsiksi siihen. On hyvä suunnitella tarkasti, miten tutkittavia informoidaan aineiston käsittelystä ja hallinnasta, esimerkiksi miten pitkään aineistoa säilytetään tai aiotaanko aineistoa jakaa jatkokäyttöön ja miten. Lue lisää tutkittavien informoinnista henkilötietojen käsittelystä Tietoarkiston ohjeista.

  • Henkilötietojen keruu tulee minimoida aineistoa kerättäessä. Kerää vain tietoa mikä on tarpeen tutkimuksen kannalta.
  • Pseudonymisointi tarkoittaa tunnisteellisten tietojen poistamista tai korvaamista pseudonyymeillä tai koodeilla, joita säilytetään aineistosta erillään. Pseudonymisoitu aineisto on edelleen henkilötietoa.
  • Anonymisointi tarkoittaa kaikkien tunnisteellisten tietojen poistamista pysyvästi. Erilaisia tekniikoita ja työkaluja voidaan käyttää anonymisointiin. Lue lisää henkilötiedoista ja anonymisoinnista Tietoarkiston ohjeista.

Tutkimustarkoituksessa aineistoa voidaan käsitellä tunnisteellisena tai pseudonyyminä. Anonymisointi on tarpeen, jos aineistoa jaetaan avoimesti tai säilytettään uudelleenkäyttöä varten. Huomioi, että myös anonymisointi on henkilötietojen käsittelyä.

Pohdi: Käsitteletkö henkilötietoa? Onko olemassa tieteelliseen tutkimukseen sisältyvää dataa, joka ei sisältäisi henkilötietoja? Esimerkiksi elottomat kappaleet, aineet, eläimet, taivaankappaleet, sääilmiöt sisältävät usein tietoja havaintojen tekijöistä tai ovat muutoin liitettävissä luonnolliseen henkilöön. Lähtökohtaisesti tutkimuksessa tulisi aina huomioida tietosuoja-asetuksen soveltaminen, ellei ole täysin varma, että tutkimusdatassa ei ole mitään ihmisiin liittyviä tietoja.

Jos käsittelet henkilötietoja, millaisia henkilötietoja käsittelet? Mitä teet henkilötiedoille tutkimuksen jälkeen? Onko sinun anonymisoitava tai pseudonymisoitava aineistoasi?

Aineiston uudelleenkäyttö ja viittaaminen

Aineiston uudelleenkäyttäminen tarkoittaa sitä, että jo valmiiksi olemassa olevaa aineistoa käytetään tutkimukseen. Voit etsiä tutkimusdataa datarepositorioista tai portaaleista (kts. Tutkimusdatapalveluja ja Avoimen tutkimusdatan hyödyntäminen).

Datan uudelleenkäyttö säästää aikaa ja rahaa, koska sinun ei tarvitse tehdä kaikkea alusta alkaen, jos hyödyllisiä ja tarpeitasi vastaavia aineistoja on jo olemassa. Harkitse siis myös tätä vaihtoehtoa.

Käytettäessä muiden tuottamia datoja, aineistojen käyttöehdot on tarkistettava. Avoimien aineistojen käyttöehdot määritellään yleensä lisenssillä (esim. CC-lisenssi). Jos aiot hyödyntää olemassa olevaa dataa, tutkimusdataan on viitattava kuten kirjoihin ja tieteellisiin artikkeleihinkin. Dataviittauksen tulisi koostua seuraavista elementeistä:

  • Tekijä, otsikko, isäntäorganisaation, julkaisuaika ja/tai päivämäärä ja pysyvä tunniste.
  • Hyödyllisiä lisätietoja ovat: versio, resurssityyppi, lisenssi, ORCID, mahdollinen embargo- eli viiveaika, repositorio.

Datarepositorioilla ja -arkistoilla yleensä ohjeet dataviittaamiseen. Myös kustantajilla voi olla omia ohjeita, kuinka dataan tulee lehdissä viitata.

Lisätietoja:

Tracing data: Data citation roadmap for Finland, Finnish Committee for Research Data (FCRD). 2018.

Tutkimuseettinen neuvottelukunta (TENK)

UEF tutkimusetiikka

Tietosuojavaltuutetun toimisto

(8/2021)