Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Vinkkejä datanhallintaan

Yleiskatsaus

Hyvä tutkimusdatanhallinta on onnistuneen tutkimuksen perusta. Tutkimusdatanhallinta kattaa datan koko elinkaaren datan tuottamisesta tai keräämisestä datan hallintaan ja organisointiin projektin aikana sekä aineiston julkaisemiseen ja digitaaliseen pitkäaikaissäilytykseen projektin aktiivisen vaiheen jälkeen. Sen tarkoituksena on varmistaa tutkimuksen toistettavuus, joka on kaiken tieteellisen tutkimuksen keskeinen edellytys. Hyvä datanhallinta koko datan elinkaaren ajan on ratkaisevan tärkeää datan jakamisen edistämiseksi sekä datan kestävyyden ja saavutettavuuden varmistamiseksi pitkällä aikavälillä ja siten sen uudelleenkäytön mahdollistamiseksi tulevassa tieteessä.

FAIR-periaatteet

FAIR-periaatteiden mukaan datan tulisi olla

  • löydettävää
  • saavutettavaa
  • yhteentoimivaa
  • uudelleenkäytettävää

Tutustu periaatteisiin tämän videon avulla

Parhaat käytännöt

Alla on joitakin ohjeita hyviin datanhallinnan käytäntöihin. Datanhallinnan sivuja selaamalla löydät ohjeita esimerkiksi tiedostomuotojen valintaan, lisensointiin, pysyviin tunnisteisiin ja sensitiivisen datan käsittelyyn.

Tarkistuslista datanhallintasuunnitteluun

Lisenssi: CC BY 4.0

Ylläpidä datanhallintasuunnitelmaa

Laadi selkeä suunnitelma datasi hallintaan. Datanhallintasuunnitelma (DMP) on asiakirja, joka kuvaa, miten käsittelet dataasi projektin aikana ja mitä datalle tapahtuu projektin päätyttyä. Sen tulisi kattaa datan elinkaaren kaikki vaiheet löydettävyydestä, keruusta, organisoinnista ja käytöstä datan jakamiseen ja säilyttämiseen. Useimmat rahoittajat edellyttävät datanhallintasuunnitelmaa rahoituksen myöntämisen jälkeen, ja DMP tulisi nähdä laadunvarmistuksen työkaluna, joka auttaa varmistamaan tutkimuksesi toistettavuuden sekä datan yhteentoimivuuden ja uudelleenkäytettävyyden.

Säilytä raakadata raakadatana

Data tulisi säilyttää raakamuodossaan aina kun mahdollista läpinäkyvyyden mahdollistamiseksi ja uudelleenanalyysin helpottamiseksi. Tämä auttaa myös yhdistämään useita datalähteitä. Voi olla hyödyllistä tarjota datastasi sekä käsittelemätön että käsitelty versio sekä joko koodi tai selitykset jälkimmäisen tuottamisesta.

Luo analyysiystävällistä dataa

Jotta datasta saadaan täysi hyöty, se tulisi jäsentää tavalla, joka tekee käytöstä, tulkinnasta ja analysoinnista helppoa. Sen pohtiminen, mitä dataa tarvitset, milloin ja miten, auttaa sinua luomaan analyysiystävällistä dataa itsellesi ja mahdollisesti myös muille. Yksi mahdollinen rakenne tallentaa jokaisen muuttujan sarakkeena, jokaisen havainnon rivinä ja jokaisen havaintoyksikkötyypin tauluna.

Tee laadunvalvontaa

Datan, kuten muidenkin tutkimustuotosten, tulisi käydä läpi jonkinasteinen laadunvalvonta. Laadunvalvonta helpottaa oman datasi analysointia ja on välttämätöntä, jos aiot jakaa dataasi muiden kanssa. Voit aloittaa joillakin perusjärkevyystarkistuksilla, esimerkiksi varmistamalla, ettei muuten numeerisessa datassa ole ei-numeerisia arvoja, sekä tarkistamalla mittayksiköiden ja nimeämiskäytäntöjen johdonmukaisuuden.

Käytä standardeja, avoimia tiedostomuotoja

Jokaisella tutkijalla on omat suosikkityökalunsa datan tallentamiseen ja analysointiin. Jotta dataasi olisi helppo käyttää, se kannattaa tallentaa standardiin ja avoimeen tiedostomuotoon, jota voidaan käyttää eri ohjelmistoilla ja joka säilyy saavutettavana ajan myötä (esim. CSV, XML). Tällaiset tiedostomuodot ovat myös hyviä ehdokkaita datan digitaaliseen pitkäaikaissäilytykseen.

Käytä hyviä muuttujanimiä ja nolla-arvoja

Ole johdonmukainen muuttujien nimeämisessä ja kirjaa riittävästi tietoa, jotta sekä muuttujien että niiden arvojen määritelmät ovat selkeitä. Noudata tutkimusyhteisösi käytäntöjä muuttujien nimeämisessä, esimerkiksi käyttämällä täydellisiä taksonomisia nimiä. Monissa aineistoissa on myös puuttuvia tai tyhjiä data-arvoja, jotka tulisi merkitä huolellisesti (esim. NaN), jotta ne erottuvat todellisista nollista.

Dokumentoi datan käsittely

Muista kirjata ja raportoida, miten tutkimusdataasi analysoidaan ja käsitellään. Tämä on olennaista sekä toistettavuuden että tutkimuksen laadun arvioinnin kannalta. Hyvän datan dokumentaation puute johtaa usein datan menetykseen. Jotta data ja dokumentaatio pysyvät hyvin järjestettyinä, käytössäsi tulisi olla myös versionhallintajärjestelmä (manuaalinen tai automaattinen).

Toistettavuus

Toistettavuus on tärkeä osa tutkimustulosten oikeellisuutta tukevan näytön tarjoamista. Muiden tutkijoiden tulisi voida tarkastella työnkulkua ja arvioida kaikkia analyysin aikana tehtyjä vaiheita sekä toistaa ne. Toistettavuus määritellään mahdollisuudeksi saada yhdenmukaisia tuloksia käyttämällä samaa dataa ja koodia kuin alkuperäisessä tutkimuksessa (laskennallinen toistettavuus). Replikoitavuus tarkoittaa yhdenmukaisten tulosten saamista tutkimusten välillä, joiden tavoitteena on vastata samaan tieteelliseen kysymykseen käyttämällä uutta dataa tai muita uusia laskennallisia menetelmiä. Tässä tapauksessa uusi data kerätään tai tuotetaan. Tutkimusohjelmistojen ja työnkulkujen dokumentointi ja jakaminen ovat ratkaisevia osia toistettavuudessa.

Tarjoa metadataa

Metadata on dataa koskevaa kontekstuaalista tietoa ja sen alkuperä, jota tarvitaan datan tulkintaan. Metadatan tarjoaminen mahdollistaa sen, että sinä ja muut työsi laajentamisesta kiinnostuneet voitte palata siihen myöhemmin. Kattavan metadatan tarjoaminen tieteenalasi käytäntöjen mukaisesti tekee datastasi löydettävää ja uudelleenkäytettävää.

Hanki tunnisteet datallesi

Tutkimuksessa ja julkaisuissa käytetyn datan tulisi olla yksilöllisesti tunnistettavissa. Varmista, että käyttämäsi datarepositorio antaa datallesi pysyvän tunnisteen (esim. DOI, URN). Käytä aineistosi tunnistetta, kun jaat ja käytät sitä, jotta se kerää sinulle dataviittauksia.

Huolehdi tallennuksesta

Tallenna aineistosi vakiintuneeseen, luotettavan toimijan tarjoamaan repositorioon varmistaaksesi, että data säilytetään turvallisesti. Huomioi organisaatiosi datapolitiikka sekä rahoittajien ja lehtien vaatimukset. Mieti, missä muut alasi tutkijat säilyttävät dataansa, mitä palveluja repositoriot tarjoavat ja millaisia tarpeita sinulla on esimerkiksi tallennuskiintiön ja datan avoimuuden suhteen.

Avaa datasi

Datan jakamista vaativat yhä useammin rahoittajat ja tieteelliset lehdet, koska siitä hyötyy tiedeyhteisö laajasti. Se on hyödyllistä myös datan kerääjille, sillä siihen liittyy lisääntynyt näkyvyys, yhteistyö ja tunnustus. Sinun kannattaa harkita datasi jakamista niin, että muut voivat saada siihen pääsyn ja viitata siihen. Liitä dataasi vakiintunut lisenssi (esim. Creative Commons -lisenssit), jotta muut tietävät, mitä he voivat ja eivät voi tehdä datalla.

Lisälukemista ja -resursseja datanhallinnasta

Tutkimusdatanhallinnan budjetointi

Datanhallinnan prosesseista voi aiheutua kustannuksia. Tutkijoiden tulisi suunnitella näiden kustannusten kattaminen ja resurssien kohdentaminen projektin varhaisissa suunnitteluvaiheissa. Suurin osa rahoittajista hyväksyy datanhallinnan perustelluksi kustannukseksi, joka voidaan ja tulisi sisällyttää projektin budjettiin.

Arvioi datan hallintaan, jakamiseen ja säilyttämiseen tarvittavat resurssit. Ota huomioon myös tarvittavat lisälaskentaresurssit ja -palvelut, joihin on päästävä käsiksi.

Projektin budjetointi ja kustannusten arviointi riippuvat usein organisaation resursseista, palveluista ja ehdoista. Muista ottaa yhteyttä organisaatiosi datatukeen.

Esimerkkejä mahdollisista datanhallinnan kustannuksista

  • Aiheutuuko datan tallentamisesta kustannuksia? Tarvitsetko lisää palvelintilaa tai räätälöityjä ratkaisuja?
  • Aiotko käyttää kaupallisia palveluja esimerkiksi datan anonymisointiin, äänimateriaalin litterointiin tai sähköisen laboratoriopäiväkirjan käyttöön?
  • Tarvitsetko maksullista lisäapua datan organisointiin ja dokumentointiin; ovatko datatiedostosi, taulukkosi jne. tallennettu yhtenäisessä muodossa sekä nimetty selkeästi, hyvin järjestetty ja ymmärrettävästi? Kustannukset kasvavat, jos datan organisointi on laiminlyöty projektin aikana.
  • Aiheutuuko aineiston arkistoinnista ja avaamisesta kustannuksia?

Lue lisää CSC:n maksuttomista käyttötapauksista ja hinnoittelusta.

Sensitiivisen datan hallinta

EU:n yleinen tietosuoja-asetus (GDPR) määrittelee sensitiivisen datan käsittelyn periaatteet antamatta tarkkoja teknisiä yksityiskohtia siitä, miten sensitiivistä dataa tulee käsitellä. Voit lukea lisää sensitiivisestä datasta CSC:n sensitiivisen datan määritelmästä. Tässä vaiheessa korostetaan vain tiettyjä sensitiivistä henkilötietoa koskevia perussääntöjä.

  1. Minimoi data. Tämä tarkoittaa, että sinun tulisi käsitellä vain dataa, joka on ehdottoman tarpeellista.
  2. Anonymisoi tai pseudonymisoi data aina kun mahdollista.
  3. Salaa data.
  4. Tuhoa data, jota et tarvitse.

Muista tunnistaa ja nimetä - Rekisterinpitäjä (esim. vastuullinen tutkija yksin tai yhdessä toisen henkilön tai oikeushenkilön kanssa), joka määrittää datan käsittelyn keinot ja menettelyt, eli päättää, miten dataa käsitellään ja mihin tarkoituksiin. - Henkilötietojen käsittelijä, joka käsittelee dataa rekisterinpitäjän puolesta.

Lähteet tähän parhaiden käytäntöjen katsaukseen

Goodman, A., Pepe, A., Blocker, et. al. (2014). Ten Simple Rules for the Care and Feeding of Scientific Data. PLoS Computational Biology, 10(4), e1003542. http://doi.org/10.1371/journal.pcbi.1003542

Griffin PC, Khadake J, LeMay KS et al. Best practice data life cycle approaches for the life sciences [version 2; peer review: 2 approved]. F1000Research 2018, 6:1618 https://doi.org/10.12688/f1000research.12344.2

Hart, E. M., Barmby, P., LeBauer, D., et al. (2016). Ten Simple Rules for Digital Data Storage. PLoS Computational Biology, 12(10), e1005097. http://doi.org/10.1371/journal.pcbi.1005097

Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18

Wilson, G., Bryan, J., Cranston, K., Kitzes, J., Nederbragt, L., & Teal, T. K. (2017). Good enough practices in scientific computing. PLoS Computational Biology, 13(6), e1005510. http://doi.org/10.1371/journal.pcbi.1005510

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta