-
Vinkkejä tiedonhallintaan
Vinkkejä datanhallintaan
Yleiskatsaus
Hyvä tutkimusdatanhallinta on onnistuneen tutkimuksen perusta. tutkimusdatanhallinta kattaa datan koko elinkaaren datan luomisesta tai keräämisestä datan hallintaan ja organisointiin projektin aikana sekä julkaisemiseen ja digitaaliseen säilyttämiseen projektin aktiivisen vaiheen jälkeen. Sen tarkoituksena on varmistaa tutkimuksen toistettavuus, joka on kaiken tieteellisen tutkimuksen keskeinen edellytys. Hyvä datanhallinta koko datan elinkaaren ajan on ratkaisevan tärkeää datan jakamisen helpottamiseksi sekä datan pitkäaikaisen kestävyyden ja saavutettavuuden varmistamiseksi ja siten sen uudelleenkäytön mahdollistamiseksi tulevassa tieteessä.
FAIR-periaatteet
FAIR-periaatteiden mukaan datan tulisi olla
- löydettävää
- saavutettavaa
- yhteentoimivaa
- uudelleenkäytettävää
Parhaat käytännöt
Alla on joitakin ohjeita hyviin datanhallinnan käytäntöihin. Selaamalla datanhallinnan sivuja löydät ohjeita esimerkiksi tiedostomuotojen valintaan, lisensointiin, pysyviin tunnisteisiin ja sensitiivinen data käsittelyyn.

Lisenssi: CC BY 4.0
Ylläpidä datanhallintasuunnitelmaa
Laadi selkeä suunnitelma datasi hallintaan. Datanhallintasuunnitelma (DMP) on asiakirja, joka kuvaa, miten käsittelet dataasi projektin aikana ja mitä datalle tapahtuu projektin päätyttyä. Sen tulisi kattaa datan elinkaaren kaikki vaiheet löydettävyydestä, keruusta, organisoinnista ja käytöstä datan jakamiseen ja säilyttämiseen. Useimmat rahoittajat edellyttävät datanhallintasuunnitelmaa rahoituksen myöntämisen jälkeen, ja DMP tulisi nähdä laadunvarmistuksen työkaluna, joka auttaa varmistamaan tutkimuksesi toistettavuuden sekä datan yhteentoimivuuden ja uudelleenkäytettävyyden.
Säilytä raakadata raakana
Data tulisi säilyttää raakamuodossaan aina kun mahdollista läpinäkyvyyden mahdollistamiseksi ja uudelleenanalyysin helpottamiseksi. Tämä auttaa myös yhdistämään useita datalähteitä. Voi olla hyödyllistä tarjota datastasi sekä käsittelemätön että käsitelty versio sekä joko koodi tai selitykset jälkimmäisen tuottamiseksi.
Luo analyysiystävällistä dataa
Jotta datasta saadaan täysi hyöty, se tulisi jäsentää tavalla, joka tekee käytöstä, tulkinnasta ja analyysistä helppoa. Sen pohtiminen, mitä dataa sinun täytyy käyttää, milloin ja miten, auttaa sinua luomaan analyysiystävällistä dataa itsellesi ja mahdollisesti myös muille. Yksi mahdollinen rakenne tallentaa jokaisen muuttujan sarakkeena, jokaisen havainnon rivinä ja jokaisen havaintoyksikkötyypin taulukkona.
Tee laadunvalvontaa
Datan, kuten muidenkin tutkimustuotosten, tulisi käydä läpi jonkinasteinen laadunvalvonta. Laadunvalvonta helpottaa oman datasi analysointia ja on välttämätöntä, jos aiot jakaa dataasi muiden kanssa. Voit aloittaa joillakin perusjärkevyystarkistuksilla, esimerkiksi varmistamalla, ettei muuten numeerisessa datassa ole ei-numeerisia arvoja, sekä tarkistamalla mittayksiköiden ja nimeämiskäytäntöjen johdonmukaisuuden.
Käytä standardeja, avoimia tiedostomuotoja
Jokaisella tutkijalla on omat suosikkityökalunsa datan tallentamiseen ja analysointiin. Jotta dataasi olisi helppo käyttää, se kannattaa tallentaa standardiin ja avoimeen tiedostomuotoon, jota voidaan käyttää eri ohjelmistoilla ja joka säilyy saavutettavana ajan myötä (esim. CSV, XML). Tällaiset tiedostomuodot ovat myös hyviä vaihtoehtoja datan digitaaliseen säilyttämiseen.
Käytä hyviä muuttujanimiä ja puuttuvien arvojen merkintöjä
Ole johdonmukainen muuttujien nimeämisessä ja kirjaa riittävästi tietoa, jotta sekä muuttujien että niiden arvojen määritelmät ovat selviä. Noudata tutkimusyhteisösi käytäntöjä muuttujien nimeämisessä, esimerkiksi käyttämällä täydellisiä taksonomisia nimiä. Monissa aineistoissa on myös puuttuvia tai tyhjiä data-arvoja, jotka tulisi merkitä huolellisesti (esim. NaN), jotta ne erottuvat todellisista nollista.
Dokumentoi datan käsittely
Muista kirjata ja raportoida, miten tutkimusdataasi analysoidaan ja käsitellään. Tämä on olennaista sekä toistettavuuden että tutkimuksen laadun arvioinnin kannalta. Hyvän datadokumentaation puute johtaa usein datan menetykseen. Jotta data ja dokumentaatio pysyvät hyvin järjestettyinä, käytössäsi tulisi olla myös versionhallintajärjestelmä (manuaalinen tai automaattinen).
Toistettavuus
Toistettavuus on tärkeä osa tutkimustulosten oikeellisuuden osoittamista. Muiden tutkijoiden tulisi voida tarkastella työnkulkua ja arvioida kaikkia analyysin aikana tehtyjä vaiheita sekä toistaa ne. Toistettavuus määritellään mahdollisuudeksi saada yhdenmukaisia tuloksia käyttämällä samaa dataa ja koodia kuin alkuperäisessä tutkimuksessa (laskennallinen toistettavuus). Replikoitavuus tarkoittaa yhdenmukaisten tulosten saamista tutkimuksissa, joiden tavoitteena on vastata samaan tieteelliseen kysymykseen käyttämällä uutta dataa tai muita uusia laskennallisia menetelmiä. Tässä tapauksessa uusi data kerätään tai luodaan. Tutkimusohjelmistojen ja työnkulkujen dokumentointi ja jakaminen ovat ratkaisevia osia toistettavuudessa.
Tarjoa metadataa
Metadata on dataa koskevaa kontekstuaalista tietoa ja tietoa sen alkuperästä, jota tarvitaan datan tulkitsemiseen. Metadatan tarjoaminen mahdollistaa sen, että sinä ja muut työsi laajentamisesta kiinnostuneet voitte palata siihen myöhemmin. Kattavan metadatan tarjoaminen tieteenalasi käytäntöjen mukaisesti tekee datastasi löydettävää ja uudelleenkäytettävää.
Hanki tunnisteet datallesi
Tutkimuksessa ja julkaisuissa käytetyn datan tulisi olla yksilöllisesti tunnistettavissa. Varmista, että käyttämäsi datarepositorio antaa datallesi pysyvän tunnisteen (esim. DOI, URN). Käytä aineistosi tunnistetta, kun jaat ja käytät sitä, jotta se kerää viittauksia dataan puolestasi.
Huolehdi tallennuksesta
Tallenna datasi vakiintuneeseen, luotetun toimijan tarjoamaan repositorioon varmistaaksesi, että data säilytetään turvallisesti. Kiinnitä huomiota organisaatiosi datapolitiikkaan sekä rahoittajien ja lehtien vaatimuksiin. Mieti, missä muut alasi tutkijat säilyttävät dataansa, mitä palveluja repositoriot tarjoavat ja mitä tarpeita sinulla on esimerkiksi tallennuskiintiön ja datan avoimuuden suhteen.
Avaa datasi
Datan jakamista vaativat yhä useammin rahoittajat ja tieteelliset lehdet, koska siitä hyötyy tiedeyhteisö laajasti. Se on hyödyllistä myös datan kerääjille, sillä siihen liittyy lisääntynyt näkyvyys, yhteistyö ja tunnustus. Sinun kannattaa harkita datasi jakamista, jotta muut voivat saada siihen pääsyn ja viitata siihen. Liitä dataasi vakiintunut lisenssi (esim. Creative Commons -lisenssit), jotta muut tietävät, mitä he voivat ja eivät voi tehdä datalla.
Lisälukemista ja resursseja datanhallinnasta
- Datanhallinnan tarkistuslista Fairdata.fi -sivustolla
- Tietoarkiston Data Management Guidelines
- Suomen Akatemian Open Science -sivut
- ELIXIRin tutkimusdatanhallinnan työkalupakki RDMkit on verkko-opas, joka sisältää hyviä datanhallinnan käytäntöjä koko datan elinkaaren ajalle
- FAIRsharing.org Kuratoitu, informatiivinen ja opetuksellinen resurssi data- ja metadatastandardeista sekä niiden yhteyksistä tietokantoihin ja dataa koskeviin ehtoihin.
- CSC:n videot tutkimusdatanhallinnasta
Tutkimusdatanhallinnan budjetointi
Datanhallinnan prosesseista voi aiheutua kustannuksia. Tutkijoiden tulisi suunnitella näiden kustannusten huomioiminen ja resurssien kohdentaminen projektin varhaisissa suunnitteluvaiheissa. Suurin osa rahoittajista hyväksyy datanhallinnan oikeutetuksi kustannukseksi, joka voidaan ja joka tulisi sisällyttää projektin budjettiin.
Arvioi datan hallintaan, jakamiseen ja säilyttämiseen tarvittavat resurssit. Ota huomioon tarvittavat lisälaskentaresurssit ja -palvelut, joihin täytyy saada pääsy.
Projektin budjetointi ja kustannusten arviointi riippuvat usein organisaation resursseista, palveluista ja ehdoista. Muista olla yhteydessä organisaatiosi datatukeen.
Esimerkkejä mahdollisista datanhallinnan kustannuksista
- Aiheutuuko datan tallentamisesta kustannuksia? Tarvitsetko lisää palvelintilaa tai räätälöityjä ratkaisuja?
- Aiotko käyttää kaupallisia palveluja esimerkiksi datan anonymisointiin, äänimateriaalin litterointiin tai sähköisen laboratoriopäiväkirjan käyttöön?
- Tarvitsetko maksullista lisäapua datan organisointiin ja dokumentointiin; onko datatiedostosi, taulukkosi jne. tallennettu yhtenäisessä muodossa ja nimetty selkeästi sekä järjestetty hyvin ja ymmärrettävästi? Kustannukset ovat suuremmat, jos datan organisointi on laiminlyöty projektin aikana.
- Aiheutuuko datan arkistoinnista ja avaamisesta kustannuksia?
Lue lisää CSC:n maksuttomista käyttötapauksista ja hinnoittelusta.
Sensitiivisen datan hallinta
EU:n yleinen tietosuoja-asetus (GDPR) määrittelee sensitiivinen data käsittelyn periaatteet antamatta tarkkoja teknisiä yksityiskohtia siitä, miten sensitiivinen data tulisi käsitellä. Voit lukea lisää sensitiivinen datasta CSC:n sensitiivisen datan määritelmästä. Tässä vaiheessa korostetaan vain tiettyjä sensitiivistä henkilötietoa koskevia perussääntöjä.
- Minimoi data. Tämä tarkoittaa, että sinun tulisi käsitellä vain dataa, joka on ehdottoman tarpeellista.
- Anonymisoi tai pseudonymisoi data aina kun mahdollista.
- Salaa data.
- Tuhoa data, jota et tarvitse.
Muista tunnistaa ja nimetä - Rekisterinpitäjä (esim. vastuullinen tutkija yksin tai yhdessä toisen henkilön tai oikeushenkilön kanssa), joka määrittää datan käsittelyn keinot ja menettelyt, eli päättää siitä, miten dataa käsitellään ja mihin tarkoituksiin. - Henkilötietojen käsittelijä, joka käsittelee dataa rekisterinpitäjän puolesta.
Lisätietoa sensitiivisen datan hallinnasta
Lähteet tälle parhaiden käytäntöjen katsaukselle
Goodman, A., Pepe, A., Blocker, et. al. (2014). Ten Simple Rules for the Care and Feeding of Scientific Data. PLoS Computational Biology, 10(4), e1003542. http://doi.org/10.1371/journal.pcbi.1003542
Griffin PC, Khadake J, LeMay KS et al. Best practice data life cycle approaches for the life sciences [version 2; peer review: 2 approved]. F1000Research 2018, 6:1618 https://doi.org/10.12688/f1000research.12344.2
Hart, E. M., Barmby, P., LeBauer, D., et al. (2016). Ten Simple Rules for Digital Data Storage. PLoS Computational Biology, 12(10), e1005097. http://doi.org/10.1371/journal.pcbi.1005097
Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18
Wilson, G., Bryan, J., Cranston, K., Kitzes, J., Nederbragt, L., & Teal, T. K. (2017). Good enough practices in scientific computing. PLoS Computational Biology, 13(6), e1005510. http://doi.org/10.1371/journal.pcbi.1005510