Dokumentointi ja metadata

Dokumentaatio ja metadata

Datan dokumentointi

Datan dokumentointiin kannattaa panostaa, sillä se tekee datasta ymmärrettävämpää niin sinulle itsellesi kuin muillekin. Datan dokumentointi on tärkeää datan käytön ja säilyttämisen vuoksi. Se myös vähentää tietojen väärän tulkinnan riskiä. Dokumentaatio kertoo, kuinka data luotiin tai digitalisoitiin, mikä aineistojen sisältö ja rakenne on ja miten dataa on käsitelty. Dokumentaatioon panostaminen projektin aikana säästää myös aikaa, kun olet julkaisemassa datasettejäsi. Ilman asianmukaista dokumentaatiota aineistojen käyttö ja uudelleenkäyttö voi olla mahdotonta.

Hyvä dokumentaatio sisältää tiivistä tietoa:

  • Aineistonkeruun kontekstista: projektin tavoitteet
  • Aineistonkeruun menetelmät: näytteenotto/otanta, datankeruuprosessi, käytetyt laitteet ja ohjelmistot
  • Datatiedostojen rakenne
  • Laadunvarmistusmenetelmät
  • Versiohallinta
  • Tiedot pääsy- ja käyttöehdoista tai aineistojen luottamuksellisuudesta
  • Muuttujien, tietueiden ja niiden arvojen nimet, merkinnät ja kuvaukset
  • Selitys tai määritelmä käytetyistä koodeista ja luokitusjärjestelmistä
  • Määritelmät käytetyistä erikoistermeistä tai lyhenteistä
  • Puuttuvien arvojen koodit ja syyt niihin

Laadukas data on hyvin järjestetty, jäsennelty, nimetty ja versioitu. Hyvin laaditut tiedostojen nimet ja kansiorakenteet helpottavat datatiedostojen löytämistä ja seuraamista. Kehitä projektiisi sopiva datan organisoinnin järjestelmä ja käytä sitä johdonmukaisesti koko projektin ajan.

Tiedostonimet voivat sisältää projektin lyhenteitä, tutkijoiden nimikirjaimia, tiedostotyyppitietoja, versionumeron, tiedoston tilatiedot ja päivämäärän. Suunnittele tarkkaan, miten kansiot voidaan jäsentää, jotta tiedostojen ja versioiden löytäminen ja järjestäminen on helppoa. Aina, kun aineistoja käytetään, tarvitaan riittävä asiayhteyteen liittyvä tieto, jotta aineistoja voidaan ymmärtää.

Vinkkejä tiedostojen nimeämiseen:

  • Luo merkityksellisiä, mutta lyhyitä nimiä
  • Käytä tiedostojen nimiä luokitellaksesi laajempia tiedostotyyppikokonaisuuksia
  • Vältä välilyöntien ja erikoismerkkien käyttöä

Saadaksesi syvällisemmän käsityksen datadokumentaatiosta, lue seuraava opas datan dokumentoinnista: Making a research project understandable – Guide for data documentation.

Pohdi: Kuinka dokumentoit ja kuvaat aineistosi koko tutkimusprojektin ajan?

Datan kuvailu ja metadata

Aineistonhallinnan yhteydessä metatiedoilla eli metadatalla tarkoitetaan standardoitua ja jäsenneltyä tietoa, joka selittää mm. tietojen keräämisen alkuperän, tarkoituksen, aikaviitteen, maantieteellisen sijainnin, tekijän ja käyttöehdot.

Tutkimusaineistojen metadata voidaan jäsentää kansainvälisten standardien tai järjestelmien, kuten Data Documentation Initiative (DDI), Dublin Core, Metadata Encoding and Transmission Standard (METS) tai paikkatietojen ISO 19115, mukaan. Tietoa tieteenalakohtaisista metadatastandardeista löydät englanniksi tästä. Vaihtoehtoisesti metatiedot voidaan tuottaa vapaamuotoisemmin ilman metadatastandardeja. Jos suunnittelet tallentavasi datasi datarepositorioon, huomaa, että repositoriot yleensä ohjeistavat metadatan tuottamisessa.

Kun tuotat dokumentaatiota ja metadataa, mieti mitä tietoja tarvitaan aineistojen ymmärtämiseen ja käyttämiseen nyt ja tulevaisuudessa.

Tutustu Qvaimen käyttöoppaaseen. Sieltä löydät tietoa mm. datadokumentaation vähimmäisvaatimuksista.

Kuvaileva metadata voidaan tallentaa esim. suomalaiseen tutkimusaineistojen hakupalvelu Etsimeen käyttämällä yllä mainittua Qvain-työkalua. Etsin sisältää metadataa tutkimusaineistoista, mutta varsinainen tutkimusdata tallennetaan tieteenalakohtaiseen tai yleiseen datarepositorioon. Metatietojen julkaisemista suositellaan periaatteessa aina tutkimuksen näkyvyyden lisäämiseksi myös tilanteissa, joissa varsinaista tutkimusainestoa ei voida avata.

Lisätietoa:

Aineiston kuvailu ja metadata. Tietoarkisto.

(8/2021)