3. Tutkimusaineiston kuvailu (dokumentointi, metadata)

Tutkimusaineiston huolellinen kuvailu on ensiarvoisen tärkeää tutkimuksen alusta asti. Se turvaa aineiston ymmärrettävyyden sekä itselle että muille, vähentää väärän tulkinnan riskiä ja edistää merkittävästi löydettävyyttä ja jatkokäyttöä. Ilman asianmukaista kuvailua tutkimusaineisto on vain kokoelma yksittäisiä tiedostoja, numeroita ja merkkejä, ja sen käyttö ja uudelleenkäyttö voi olla mahdotonta. Tutkimusaineiston kuvailu on siten avain FAIR-periaatteiden toteuttamiseen käytännössä.
Kuvailuun panostaminen projektin aikana säästää myös aikaa tutkimusaineistojen julkaisuhetkellä. On hyvä muistaa, että vaikka itse tutkimusaineistoja ei jostain syystä voida avata, kuvailutietojen julkaisemista suositellaan periaatteessa aina tutkimuksen näkyvyyden lisäämiseksi.
Kuvailutietoa voi syntyä automaattisesti esimerkiksi käytetyistä latteista, mutta kaikessa tutkimuksessa kuvailua on suunniteltava ja toteutettava aktiivisin toimenpitein. Kuvailutietoa voi kirjata vaikkapa laboratorio- tai tutkimuspäiväkirjoihin, systemaattisesti laadittuihin tiedostoihin ja hakemistoihin tai vapaamuotoisiin muistiinpanoihin.

Pohdittavaksi
- Mitä dokumentaatio tarkoittaa omalla tutkimusalallasi?
- Miten dokumentoit omaa aineistoasi?
- Millaista metadataa tarvitset tutkimusprojektisi aikana ja sen jälkeen?
- Miten kuvailisit aineistosi perustiedot README-tiedostona?
Katso video
Metadata on keskeistä aineiston löydettävyydelle: The Elements of FAIR – Findable, CSC (8:49).
Lyhyesti sanottuna
hyvä kuvailu sisältää tiivistä tietoa esimerkiksi
- aineistonkeruun kontekstista (esim. tutkimusprojektin tavoitteet, tiedot tutkimuksesta, jota varten aineisto on kerätty),
- aineistonkeruun menetelmistä (esim. näytteenotto/otanta, keruuprosessi, käytetyt laitteet ja ohjelmistot)
- tiedostojen rakenteesta
- laadunvarmistusmenetelmistä
- versionhallinnasta
- pääsy- ja käyttöehdoista tai aineistojen luottamuksellisuudesta
- muuttujista ja tietueista (arvojen nimet, merkinnät, kuvaukset),
- käytetyistä koodeista ja luokitusjärjestelmistä (selitys tai määritelmä)
- käytetyistä erikoistermeistä tai lyhenteistä
- puuttuvista arvoista (koodit, syyt).
(2025-08)
Edellinen: 2. Tutkimusaineiston kerääminen ja käyttäminen
Seuraavaksi: 4. Tutkimusaineiston tallennus, varmuuskopiointi ja jakaminen tutkimuksen aikana