-
Vinkkejä tiedonhallintaan
Vinkkejä datanhallintaan
Yleiskatsaus
Hyvä tutkimusdatanhallinta on onnistuneen tutkimuksen perusta. Tutkimusdatanhallinta kattaa datan koko elinkaaren datan tuottamisesta tai keräämisestä datan hallintaan ja organisointiin projektin aikana sekä aineiston julkaisemiseen ja digitaaliseen pitkäaikaissäilytykseen projektin aktiivisen vaiheen jälkeen. Sen tarkoituksena on varmistaa tutkimuksen toistettavuus, joka on kaiken tieteellisen tutkimuksen keskeinen edellytys. Hyvä datanhallinta koko datan elinkaaren ajan on ratkaisevan tärkeää datan jakamisen edistämiseksi sekä datan kestävyyden ja saavutettavuuden varmistamiseksi pitkällä aikavälillä ja siten sen uudelleenkäytön mahdollistamiseksi tulevassa tieteessä.
FAIR-periaatteet
FAIR-periaatteiden mukaan datan tulisi olla
- löydettävää
- saavutettavaa
- yhteentoimivaa
- uudelleenkäytettävää
Parhaat käytännöt
Alla on joitakin ohjeita hyviin datanhallinnan käytäntöihin. Datanhallinnan sivuja selaamalla löydät ohjeita esimerkiksi tiedostomuotojen valintaan, lisensointiin, pysyviin tunnisteisiin ja sensitiivisen datan käsittelyyn.

Lisenssi: CC BY 4.0
Ylläpidä datanhallintasuunnitelmaa
Laadi selkeä suunnitelma datasi hallintaan. Datanhallintasuunnitelma (DMP) on asiakirja, joka kuvaa, miten käsittelet dataasi projektin aikana ja mitä datalle tapahtuu projektin päätyttyä. Sen tulisi kattaa datan elinkaaren kaikki vaiheet löydettävyydestä, keruusta, organisoinnista ja käytöstä datan jakamiseen ja säilyttämiseen. Useimmat rahoittajat edellyttävät datanhallintasuunnitelmaa rahoituksen myöntämisen jälkeen, ja DMP tulisi nähdä laadunvarmistuksen työkaluna, joka auttaa varmistamaan tutkimuksesi toistettavuuden sekä datan yhteentoimivuuden ja uudelleenkäytettävyyden.
Säilytä raakadata raakadatana
Data tulisi säilyttää raakamuodossaan aina kun mahdollista läpinäkyvyyden mahdollistamiseksi ja uudelleenanalyysin helpottamiseksi. Tämä auttaa myös yhdistämään useita datalähteitä. Voi olla hyödyllistä tarjota datastasi sekä käsittelemätön että käsitelty versio sekä joko koodi tai selitykset jälkimmäisen tuottamisesta.
Luo analyysiystävällistä dataa
Jotta datasta saadaan täysi hyöty, se tulisi jäsentää tavalla, joka tekee käytöstä, tulkinnasta ja analysoinnista helppoa. Sen pohtiminen, mitä dataa tarvitset, milloin ja miten, auttaa sinua luomaan analyysiystävällistä dataa itsellesi ja mahdollisesti myös muille. Yksi mahdollinen rakenne tallentaa jokaisen muuttujan sarakkeena, jokaisen havainnon rivinä ja jokaisen havaintoyksikkötyypin tauluna.
Tee laadunvalvontaa
Datan, kuten muidenkin tutkimustuotosten, tulisi käydä läpi jonkinasteinen laadunvalvonta. Laadunvalvonta helpottaa oman datasi analysointia ja on välttämätöntä, jos aiot jakaa dataasi muiden kanssa. Voit aloittaa joillakin perusjärkevyystarkistuksilla, esimerkiksi varmistamalla, ettei muuten numeerisessa datassa ole ei-numeerisia arvoja, sekä tarkistamalla mittayksiköiden ja nimeämiskäytäntöjen johdonmukaisuuden.
Käytä standardeja, avoimia tiedostomuotoja
Jokaisella tutkijalla on omat suosikkityökalunsa datan tallentamiseen ja analysointiin. Jotta dataasi olisi helppo käyttää, se kannattaa tallentaa standardiin ja avoimeen tiedostomuotoon, jota voidaan käyttää eri ohjelmistoilla ja joka säilyy saavutettavana ajan myötä (esim. CSV, XML). Tällaiset tiedostomuodot ovat myös hyviä ehdokkaita datan digitaaliseen pitkäaikaissäilytykseen.
Käytä hyviä muuttujanimiä ja nolla-arvoja
Ole johdonmukainen muuttujien nimeämisessä ja kirjaa riittävästi tietoa, jotta sekä muuttujien että niiden arvojen määritelmät ovat selkeitä. Noudata tutkimusyhteisösi käytäntöjä muuttujien nimeämisessä, esimerkiksi käyttämällä täydellisiä taksonomisia nimiä. Monissa aineistoissa on myös puuttuvia tai tyhjiä data-arvoja, jotka tulisi merkitä huolellisesti (esim. NaN), jotta ne erottuvat todellisista nollista.
Dokumentoi datan käsittely
Muista kirjata ja raportoida, miten tutkimusdataasi analysoidaan ja käsitellään. Tämä on olennaista sekä toistettavuuden että tutkimuksen laadun arvioinnin kannalta. Hyvän datan dokumentaation puute johtaa usein datan menetykseen. Jotta data ja dokumentaatio pysyvät hyvin järjestettyinä, käytössäsi tulisi olla myös versionhallintajärjestelmä (manuaalinen tai automaattinen).
Toistettavuus
Toistettavuus on tärkeä osa tutkimustulosten oikeellisuutta tukevan näytön tarjoamista. Muiden tutkijoiden tulisi voida tarkastella työnkulkua ja arvioida kaikkia analyysin aikana tehtyjä vaiheita sekä toistaa ne. Toistettavuus määritellään mahdollisuudeksi saada yhdenmukaisia tuloksia käyttämällä samaa dataa ja koodia kuin alkuperäisessä tutkimuksessa (laskennallinen toistettavuus). Replikoitavuus tarkoittaa yhdenmukaisten tulosten saamista tutkimusten välillä, joiden tavoitteena on vastata samaan tieteelliseen kysymykseen käyttämällä uutta dataa tai muita uusia laskennallisia menetelmiä. Tässä tapauksessa uusi data kerätään tai tuotetaan. Tutkimusohjelmistojen ja työnkulkujen dokumentointi ja jakaminen ovat ratkaisevia osia toistettavuudessa.
Tarjoa metadataa
Metadata on dataa koskevaa kontekstuaalista tietoa ja sen alkuperä, jota tarvitaan datan tulkintaan. Metadatan tarjoaminen mahdollistaa sen, että sinä ja muut työsi laajentamisesta kiinnostuneet voitte palata siihen myöhemmin. Kattavan metadatan tarjoaminen tieteenalasi käytäntöjen mukaisesti tekee datastasi löydettävää ja uudelleenkäytettävää.
Hanki tunnisteet datallesi
Tutkimuksessa ja julkaisuissa käytetyn datan tulisi olla yksilöllisesti tunnistettavissa. Varmista, että käyttämäsi datarepositorio antaa datallesi pysyvän tunnisteen (esim. DOI, URN). Käytä aineistosi tunnistetta, kun jaat ja käytät sitä, jotta se kerää sinulle dataviittauksia.
Huolehdi tallennuksesta
Tallenna aineistosi vakiintuneeseen, luotettavan toimijan tarjoamaan repositorioon varmistaaksesi, että data säilytetään turvallisesti. Huomioi organisaatiosi datapolitiikka sekä rahoittajien ja lehtien vaatimukset. Mieti, missä muut alasi tutkijat säilyttävät dataansa, mitä palveluja repositoriot tarjoavat ja millaisia tarpeita sinulla on esimerkiksi tallennuskiintiön ja datan avoimuuden suhteen.
Avaa datasi
Datan jakamista vaativat yhä useammin rahoittajat ja tieteelliset lehdet, koska siitä hyötyy tiedeyhteisö laajasti. Se on hyödyllistä myös datan kerääjille, sillä siihen liittyy lisääntynyt näkyvyys, yhteistyö ja tunnustus. Sinun kannattaa harkita datasi jakamista niin, että muut voivat saada siihen pääsyn ja viitata siihen. Liitä dataasi vakiintunut lisenssi (esim. Creative Commons -lisenssit), jotta muut tietävät, mitä he voivat ja eivät voi tehdä datalla.
Lisälukemista ja -resursseja datanhallinnasta
- Datanhallinnan tarkistuslista Fairdata.fi -verkkosivustolla
- Yhteiskuntatieteellisen tietoarkiston Data Management Guidelines
- Suomen Akatemian Open Science -sivut
- ELIXIRin tutkimusdatanhallinnan työkalupakki RDMkit on verkko-opas, joka sisältää hyviä datanhallinnan käytäntöjä koko datan elinkaaren ajalle
- FAIRsharing.org Kuratoitu, informatiivinen ja opettavainen resurssi data- ja metadatastandardeista sekä niiden yhteyksistä tietokantoihin ja datapolitiikkoihin.
- CSC:n videot tutkimusdatanhallinnasta
Tutkimusdatanhallinnan budjetointi
Datanhallinnan prosesseista voi aiheutua kustannuksia. Tutkijoiden tulisi suunnitella näiden kustannusten kattaminen ja resurssien kohdentaminen projektin varhaisissa suunnitteluvaiheissa. Suurin osa rahoittajista hyväksyy datanhallinnan perustelluksi kustannukseksi, joka voidaan ja tulisi sisällyttää projektin budjettiin.
Arvioi datan hallintaan, jakamiseen ja säilyttämiseen tarvittavat resurssit. Ota huomioon myös tarvittavat lisälaskentaresurssit ja -palvelut, joihin on päästävä käsiksi.
Projektin budjetointi ja kustannusten arviointi riippuvat usein organisaation resursseista, palveluista ja ehdoista. Muista ottaa yhteyttä organisaatiosi datatukeen.
Esimerkkejä mahdollisista datanhallinnan kustannuksista
- Aiheutuuko datan tallentamisesta kustannuksia? Tarvitsetko lisää palvelintilaa tai räätälöityjä ratkaisuja?
- Aiotko käyttää kaupallisia palveluja esimerkiksi datan anonymisointiin, äänimateriaalin litterointiin tai sähköisen laboratoriopäiväkirjan käyttöön?
- Tarvitsetko maksullista lisäapua datan organisointiin ja dokumentointiin; ovatko datatiedostosi, taulukkosi jne. tallennettu yhtenäisessä muodossa sekä nimetty selkeästi, hyvin järjestetty ja ymmärrettävästi? Kustannukset kasvavat, jos datan organisointi on laiminlyöty projektin aikana.
- Aiheutuuko aineiston arkistoinnista ja avaamisesta kustannuksia?
Lue lisää CSC:n maksuttomista käyttötapauksista ja hinnoittelusta.
Sensitiivisen datan hallinta
EU:n yleinen tietosuoja-asetus (GDPR) määrittelee sensitiivisen datan käsittelyn periaatteet antamatta tarkkoja teknisiä yksityiskohtia siitä, miten sensitiivistä dataa tulee käsitellä. Voit lukea lisää sensitiivisestä datasta CSC:n sensitiivisen datan määritelmästä. Tässä vaiheessa korostetaan vain tiettyjä sensitiivistä henkilötietoa koskevia perussääntöjä.
- Minimoi data. Tämä tarkoittaa, että sinun tulisi käsitellä vain dataa, joka on ehdottoman tarpeellista.
- Anonymisoi tai pseudonymisoi data aina kun mahdollista.
- Salaa data.
- Tuhoa data, jota et tarvitse.
Muista tunnistaa ja nimetä - Rekisterinpitäjä (esim. vastuullinen tutkija yksin tai yhdessä toisen henkilön tai oikeushenkilön kanssa), joka määrittää datan käsittelyn keinot ja menettelyt, eli päättää, miten dataa käsitellään ja mihin tarkoituksiin. - Henkilötietojen käsittelijä, joka käsittelee dataa rekisterinpitäjän puolesta.
Lisätietoa sensitiivisen datan hallinnasta
Lähteet tähän parhaiden käytäntöjen katsaukseen
Goodman, A., Pepe, A., Blocker, et. al. (2014). Ten Simple Rules for the Care and Feeding of Scientific Data. PLoS Computational Biology, 10(4), e1003542. http://doi.org/10.1371/journal.pcbi.1003542
Griffin PC, Khadake J, LeMay KS et al. Best practice data life cycle approaches for the life sciences [version 2; peer review: 2 approved]. F1000Research 2018, 6:1618 https://doi.org/10.12688/f1000research.12344.2
Hart, E. M., Barmby, P., LeBauer, D., et al. (2016). Ten Simple Rules for Digital Data Storage. PLoS Computational Biology, 12(10), e1005097. http://doi.org/10.1371/journal.pcbi.1005097
Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18
Wilson, G., Bryan, J., Cranston, K., Kitzes, J., Nederbragt, L., & Teal, T. K. (2017). Good enough practices in scientific computing. PLoS Computational Biology, 13(6), e1005510. http://doi.org/10.1371/journal.pcbi.1005510