Metadata ja datan dokumentaatio

Yleiskatsaus

Metadata ja datan dokumentaatio ovat dataa ja sen alkuperää koskevaa kontekstuaalista tietoa, jota tarvitaan datan tulkitsemiseen. Kattavan metadatan tuottaminen ja datan elinkaaren dokumentointi oman tieteenalasi käytäntöjen mukaisesti tekee datasta ymmärrettävää, löydettävää ja uudelleenkäytettävää.

Metadata, eli data datasta, voi tarkoittaa useita asioita, ja yllä kuvattuja dokumentteja, jotka selittävät, miten dataa tulee tulkita, voidaan myös kutsua metadataksi. Näillä sivuilla käytämme kuitenkin termiä metadata viittaamaan löydettävyysmetadataan, datasi ”etikettiin”, jota tarvitaan, kun data julkaistaan ja jaetaan.

Datan dokumentaatio tarkoittaa tiedon tuottamista, joka mahdollistaa datan oikean ja itsenäisen tulkinnan. Se koostuu tiedostoista, jotka selittävät, miten data on luotu tai digitoitu, miten dataa tulee tulkita, mikä sen rakenne on ja miten dataa on muokattu. Tätä tietoa voidaan kutsua myös data-tason dokumentaatioksi tai jopa metadataksi, koska se on dataa koskevaa tietoa. Datan dokumentointia tulisi pitää parhaana käytäntönä dataa hallittaessa, ja se on myös olennaista datan säilyttämisen kannalta. Aina kun dataa käytetään, tarvitaan riittävästi kontekstuaalista tietoa, jotta data voidaan tulkita oikein ja itsenäisesti.

Metadatan tyypit

Metadata on dataa koskevaa tietoa, esimerkiksi missä, milloin, miksi ja miten data on kerätty, käsitelty ja tulkittu. Metadata voi sisältää myös tietoja kokeista, analyysimenetelmistä ja tutkimuskontekstista.

Discovery metadata. Data documentation. Data.

Lisenssi: CC BY 4.0

Löydettävyysmetadata

Löydettävyysmetadata voi olla kolmea tyyppiä: kuvailevaa, hallinnollista ja rakenteellista.

Kuvaileva metadata

Aineiston kuvaileva metadata voidaan jakaa kahteen alaluokkaan:

1) ydinmetadata tai tutkimustason metadata (löytämistä ja tunnistamista varten – hakua ja viittaamista varten), joka sisältää:

pysyvän tunnisteen, jota käytetään aineistoon viitattaessa tai uudelleenkäytöstä raportoidessa
yleistä tietoa aineistosta (nimi, tieteenala, avainsanat, sisällön kattavuus, muuttujat)
tietoa toimijoista (tekijät, kontribuoijat, julkaisija, jakelija)
tietoa saatavuudesta (latauslinkki tai pääsytiedot ja oikeuksia koskevat lausumat)
tietoa elinkaaren tapahtumista ja niihin liittyvistä entiteeteistä (alkuperä)
teknistä tietoa, kuten tarkistussumma, koko, tiedostomuoto, mediatyyppi

2) datan dokumentaatio (kutsutaan myös yksityiskohtaiseksi kuvailevaksi metadataksi tai data-tason metadataksi) (muuttujien määritykset, työnkulut, käsittelykoodi jne. – arvioinnin ja uudelleenkäytön mahdollistamiseksi). Lisätietoja yksityiskohtaisesta kuvailevasta metadatasta kohdassa Datan dokumentaatio.

Hallinnollinen metadata

Hallinnollinen metadata sisältää tietoa aineiston oikeuksista. Tämä tarkoittaa tietoa lisenssistä, rajoituksen tyypistä ja sen syystä (eettinen, juridinen jne.), embargoajasta, oikeuksien omistajasta, uudelleenkäytön yhteyshenkilöstä sekä siitä, miten käyttölupaa ja pääsyä haetaan.

Muita hallinnollisen metadatan luokkia ovat tekninen metadata (esim. tiedostotyyppejä koskevat tiedot, joita tarvitaan tiedostojen avaamiseen) ja säilytysmetadata.

Rakenteellinen metadata

Rakenteellinen metadata kuvaa, miten aineisto on järjestetty sisäisesti ja miten se liittyy muihin aineistoihin (esim. versioiden hallinta). Joillakin tieteenaloilla data julkaistaan ja jaetaan yhteisön hyväksymien standardien ja skeemojen mukaisesti, jotka ovat muodollinen ja koneellisesti hyödynnettävä tapa ilmaista rakenteellista metadataa. Skeemoja käytetään ilmaisemaan tieteellinen ala, rakenne, suhteet, kenttien nimet ja parametrikohtaiset standardit koko aineistolle. Skeema mahdollistaa datan jakamisen, yhdistämisen tai siirtämisen tietojärjestelmien välillä ilman, että datan merkitys tai rakenne katoaa (eli data on yhteentoimivaa). Teknisten standardien ja skeemojen käyttöönoton lisäksi eri datojen semanttisen yhteentoimivuuden varmistaminen edellyttää julkaistujen semanttisten artefaktien käyttöä ja niihin viittaamista.

Huom.

Voit käyttää Qvain - tutkimusaineistojen metatietotyökalua, jotta voit luoda aineistollesi ydin-, hallinnollista ja rakenteellista metadataa.

Se julkaistaan palvelussa Etsin - tutkimusaineistojen hakupalvelu.

Datan dokumentaatio (kutsutaan myös yksityiskohtaiseksi kuvailevaksi metadataksi tai data-tason metadataksi)

Jos sinulla on lisämetadataa, joka ei sovi datakatalogiin, lisämetadataa ja dokumentaatiota, kuten koodikirjoja tai asetustiedostoja, voidaan lisätä aineistoon erillisinä tiedostoina. Tämä metadata voi olla myös sisäänrakennettuna datatiedostoihin. Muista, että tämä voi tehdä datasta vaikeammin löydettävää. Jos lisäät ylimääräistä metadataa:

Käytä metadatastandardeja, jos mahdollista: Repositoriot edellyttävät usein tietyn metadatastandardin käyttöä; jäsenneltyjä muotoja, jotka käyttävät tiettyjä sanastoja tai ontologioita datan kuvaamiseen. Tarkista, onko olemassa tieteenala-/yhteisö- tai repositoriopohjainen metadataskeema tai standardi (eli suositellut metatietoelementtien joukot), joka voidaan ottaa käyttöön. Tieteenalakohtaisia standardeja löytyy Digital Curation Centre -verkkosivustolta.
- Jotkin tutkimuslaitteet luovat standardoituja metadataformaatteja automaattisesti. Valitse mahdollisuuksien mukaan standardi, joka on yhteensopiva muiden ohjelmistojen kanssa.
Käytä erillisiä metadatatiedostoja tai datatiedostoihin sisällytettyä metadataa, asetustiedostoja, lisenssiasiakirjoja, koodikirjoja ja muuta dataa tai tietoa, joka on tärkeää datan toistettavuuden ja uudelleenkäytön kannalta.
- Readme-tiedosto(t), jotka tarjoavat tietoa datatiedostoista oikean tulkinnan varmistamiseksi
- Data dictionary / Code book, joka selittää datan muuttujat ja kokoaa aineistossa käytetyt koodit.

Mieti myös tiedostojen nimeämiskäytäntöjä, hakemistorakennetta ja versionhallintaa. Lisätietoja tästä kohdassa Datan organisointi.

Datan dokumentointia voidaan tehdä käyttämällä:

(alakohtaisia) metadata- ja datastandardeja
sähköisiä laboratoriopäiväkirjoja
sanakirjoja ja sanastoja
readme-tiedostoja

ja ne kaikki auttavat selittämään, mitä projektin data on ja mitä se tarkoittaa.

Semanttinen yhteentoimivuus ja koneluettavuus

Kontrolloidut sanastot, tesaurukset ja ontologiat ovat kaikki niin sanottuja semanttisia artefakteja, jotka ovat koneluettavia tiedon malleja. Kun datastandardi ja skeema ilmaisevat datan rakenteen (datan eri elementtien väliset suhteet), semanttiset artefaktit tekevät sisällön merkityksestä yksiselitteisen ja koneelle ”ymmärrettävän” (koneellisesti hyödynnettävän). Esimerkiksi kun keräät kasveja koskevaa dataa, muille ihmisille voi olla ilmeistä, että data koskee eläviä organismeja eikä voimalaitoksia tai muita tehtaita, mutta tietokone ei pysty erottamaan tätä tulkitsemalla merkitystä kontekstista samalla tavoin kuin ihminen. Tätä varten datan mukana tulisi olla tai siihen tulisi viitata julkisesti saatavilla oleva sanasto, joka kertoo koneelle, miten dataa tulkitaan kontekstissaan ja mitä muuttujien arvot tarkoittavat (esimerkiksi ovatko "Degrees"-sarakkeen luvut Fahrenheit- vai Celsius-asteita). On myös tärkeää kertoa koneelle, tarkoittaako tyhjä kenttä, NULL tai nolla nolla-arvoa vai sitä, että data yksinkertaisesti puuttuu. Tämä voi olla ratkaisevaa analyyseille ja tuloksille, jos data tulkitaan uudelleenkäytössä tai aineistoja yhdistettäessä eri tavoin (tai väärin).

Linkkejä kontrolloituihin sanastoihin, tesauruksiin ja ontologioihin

Datan organisointi

Tärkeä osa hyvää datanhallintaa on myös huolehtia datan organisoinnista. Tähän kuuluu esimerkiksi harkittu tiedostojen nimeäminen, selkeä kansiorakenne, saavutettavat tiedostomuodot ja yksiselitteinen versionhallinta.

On hyvä käytäntö luoda selkeä tiedostojen nimeämisjärjestelmä jo projektin alussa ja käyttää esimerkiksi samaa järjestelmää yhdessä tutkimusryhmäsi kanssa. Tämä auttaa sekä sinua että kollegoitasi ymmärtämään tiedostonimestä, mitä tiedostot sisältävät. Lue vinkkejä datasi organisointiin sekä tiedostojen ja kansioiden nimeämiseen alta tai RDMKitin Data Organisation -sivulta.

Tutkimusalallasi voi myös olla ohjeita ja suosituksia datan organisointiin. Esimerkiksi Brain Imaging Data Structure (BIDS) on aivotutkijoiden tiedeyhteisön luoma, ja se määrittelee tiedostomuodot, tiedostojen nimeämissäännöt ja säännöt datan järjestämiseksi hakemistoihin.

Versiointi

Jotta data pysyy hyvin järjestettynä, käytössäsi tulisi olla versionhallintajärjestelmä. Tämä voidaan tehdä joko manuaalisesti, jolloin lisäät juoksevan numeron tiedostonimen loppuun (_v03), tai automaattisesti, mikä on suositeltava tapa. Automaattinen versionhallinta voidaan toteuttaa ohjelmistoilla kuten Git, GitHub tai GitLab (organisaatiosi saattaa tarjota integroidun ratkaisun) tai käyttämällä pilvitallennusratkaisuja, jotka yleensä tarjoavat automaattisen tiedostoversioinnin. Lisää vinkkejä datan organisointiin löytyy ELIXIR Research Data Management Kitistä (RDMkit).

Kun datatiedostoista tehdään uusia versioita, on tärkeää säilyttää kopio alkuperäisestä raakadatasta. Data tulisi säilyttää raakamuodossaan aina kun mahdollista läpinäkyvyyden mahdollistamiseksi ja uudelleenanalyysin helpottamiseksi. Tämä auttaa myös yhdistämään useita datalähteitä ja käyttämään dataa uusiin tarkoituksiin. Lisäksi dataa jaettaessa voi olla hyödyllistä tarjota sekä käsittelemättömät että käsitellyt versiot datasta sekä joko koodi tai selitykset jälkimmäisen tuottamiseksi. Joissakin tapauksissa on jopa mahdollista julkaista data yhdessä käsittely- ja analyysikoodin kanssa suoritettavana artikkelina, jotta voidaan osoittaa tieteellisen prosessin olevan toistettavissa. Toisin sanoen suoritettavat artikkelit ovat dynaamisia ohjelmistokokonaisuuksia, jotka yhdistävät tekstin, raakadataa ja analyysissä käytetyn koodin ja joiden kanssa lukija voi olla vuorovaikutuksessa.

Lue lisää toistettavuudesta ja suoritettavista tutkimusartikkeleista:

What is an executable paper?

Tiedostot ja tiedostomuodot

Kaikki digitaalinen informaatio on jäsenneltyä dataa. Tiedostomuoto on standardoitu tapa, jolla tieto koodataan tallennettavaksi tietokonetiedostoon. Avoin muoto on tiedostomuoto digitaalisen datan tallentamiseen, joka on määritelty julkaistussa spesifikaatiossa, jota yleensä ylläpitää standardointiorganisaatio, ja jota kuka tahansa voi käyttää ja toteuttaa. Toisin kuin avoimet muodot, suljettuja muotoja pidetään liikesalaisuuksina. Esimerkiksi monet kaupalliset laitteet tai ohjelmistot tuottavat dataa, jota ei voida lukea tai tulkita ilman saman toimittajan muita työkaluja. Tutkimusdatan organisoinnissa, tallentamisessa ja julkaisemisessa on tärkeää luoda yhtenäisiä, ymmärrettäviä ja läpinäkyviä kokonaisuuksia, joihin on helppo päästä käsiksi ja joita on helppo käyttää uudelleen. Tämä on mahdollista avoimilla muodoilla, jotka voidaan avata ja joita voidaan käyttää myös yleisesti käytetyillä avoimilla työkaluilla.

Datan organisointi

Lajittele ja luokittele tietosi
- Älä esimerkiksi sekoita eri tyyppisiä tietoja Excel-sarakkeisiin: yleensä on helpompaa yhdistää aineistoja kuin selvittää huonosti jäsenneltyä dataa myöhemmin
Mieti tarkkuustasoa (tiedostokokoa) ja metadataa
Päätä muodoista, yksiköistä, koodeista jne. ja ole johdonmukainen
- Käytä yleisiä tiedostomuotoja, mieluiten avoimia
- Löydät luettelon suositelluista tiedostomuodoista digitaalista säilyttämistä käsittelevältä verkkosivustolta. Jos käytät muita muotoja, sinun on mietittävä tiedostomuodon teknisen dokumentaation lisäämistä.
Kirjoita koodikirja, dokumentoi. Readme-tiedostot ovat usein tarpeen.
Mieti ymmärrettävyyttä
Ole varovainen järjestäessäsi uudelleen, muotoillessasi uudelleen, lajitellessasi tai kopioidessasi ja liittäessäsi dataa
Vältä väliaikaisten tai piilotettujen järjestelmätiedostojen sisällyttämistä varsinaisten datatiedostojen joukkoon
Ota käyttöön prosessit datan laadun ja täydellisyyden tarkistamiseksi
Tee selvä ero pääkopioiden ja muiden kopioiden välillä
Ole huolellinen ja suunnittele hyvin sensitiivinen data ja anonymisointi
Mieti turvallisuutta ja käyttöoikeuksia
Suunnittele ja sopikaa, mitkä aineiston versiot arkistoidaan ja/tai julkaistaan
Mieti toistettavuutta ja dataan viittaamista

Tiedostot ja kansiot: jäsentäminen ja nimeäminen

On tärkeää käyttää hieman aikaa tiedosto- ja kansiorakenteiden sekä nimeämisen suunnitteluun.

Luo ja sopikaa järjestelmä tiedostojen ja kansioiden nimeämiseen ja noudata sitä johdonmukaisesti
Pyri järjestämään tiedostot loogisesti kansioiden ja alikansioiden avulla sen sijaan, että kaikki tiedostot olisivat yhdessä kansiossa
- Vältä hyvin syviä kansiorakenteita, sillä niitä voi olla vaikea hallita
Jos datasi on aikasidonnaista ja loogisesti järjestettävissä ajanjaksoittain, voi olla hyödyllistä järjestää tiedostot aikaan sidottuihin kansioihin, kuten YYYY-MM-DD
Käytä merkityksellisiä, yksilöllisiä tiedosto- ja kansionimiä
Pidä tiedosto- ja kansionimet mahdollisimman lyhyinä mutta olennaisina. Enimmäispituudeksi katsotaan yleensä 25 merkkiä.
Päivämäärät muodossa YYYY-MM-DD mahdollistavat tiedostojen lajittelun ja haun
Vältä erikoismerkkejä kuten % & / \ : ; * . ? < > ^! " () ja skandinaavisia kirjaimia
Käytä kolmea numeroa (tai 4:ää, jos tiedostoja on paljon), eli 001, 002…….201, 202 (ei 1, 2, 21).
Käytä alaviivoja (_) välilyöntien sijasta
Jos käytät nimessä henkilönnimeä, kirjoita ensin sukunimi ja sitten etunimi
- Ole kuitenkin erittäin varovainen henkilötietojen kanssa tiedostoja ja kansioita nimetessäsi
Ilmaise versionumero käyttämällä 'V'- tai 'version'-merkintää ja numeroa (sekä alaversioissa useampia numeroita, jos muutokset ovat pieniä)

Lisälukemista