-
Aineistojen julkaiseminen
Aineistojen julkaiseminen
Yleiskatsaus
Usein aineistokeskeinen työ tuottaa uusia aineistoja joko ensisijaisina lopputuloksina tai mahdollisesti ensisijaisten tulosten, kuten tieteellisten julkaisujen, tukimateriaalina. Aineistoja julkaistaessa painopisteen tulisi olla siinä, että niiden pohjalta voidaan tehdä uutta työtä jossakin määrittelemättömässä tulevaisuuden vaiheessa. Julkaisemisen tulisi perustua yleisesti hyväksyttyihin standardeihin ja hyvään metadataan, sillä aineistoja voidaan käyttää yhteyksissä, jotka ovat täysin erilaisia kuin ne tuottanut projekti. Usein aineistojen tärkein tuleva käyttäjä on kuitenkin alkuperäinen tekijä, joten dataan asianmukaisesti käytetty julkaisemistyö maksaa itsensä nopeasti takaisin.
Missä aineistoja kannattaa säilyttää ja julkaista
Alla luetellut palvelut ovat suomalaisia tai tuotettu yhteistyössä CSC:n kanssa, ja ne ovat loppukäyttäjille maksuttomia. Lisäksi saatavilla on useita suositeltuja repositorioita. Voit etsiä sopivia vaihtoehtoja palvelusta Re3data, joka on tutkimusdatarepositorioiden hakemisto ja sisältää yksityiskohtaista tietoa lähes 3 000 datarepositoriosta eri tieteenaloilla.
Jos mahdollista, käytä datallesi tieteenalakohtaisia repositorioita. Suosittelemme ottamaan yhteyttä oman organisaatiosi datatukeen saadaksesi lisäohjeita tutkimusdatan avaamiseen.
CSC:n työkalut aineistojen julkaisemiseen
Kuinka julkaiset aineistosi Fairdatan avulla
Kuinka julkaiset paikkatietoaineistosi Paituli-palvelussa
Esimerkkitapaus 2: Datan elinkaari CSC:llä – keruusta säilytykseen
Datatyypit
Kun valitset, mitä arkistoidaan ja/tai julkaistaan, on hyvä vaihtaa näkökulmaa ja pohtia, mitä datan (uudelleen)käyttäjä näkee. Kuinka pitkälle artikkelisi lukija pystyy seuraamaan prosessia kohti raakadataa, ennen kuin alkuperäisen prosessin toistaminen ei enää ole mahdollista? Monissa tapauksissa raakadataan ei ole mahdollista päästä takaisin, mutta jos datan dokumentointia, automaatiota, lokien ja koodin tallentamista sekä niiden versionhallintaa harjoitetaan alusta alkaen, on mahdollista varmistaa mahdollisimman suuri läpinäkyvyys. Jos se on mahdollista (tämä riippuu vahvasti tieteenalasta), voi olla hyvä julkaista sekä raakadata että käsitelty data dokumentaation kanssa.

Lisenssi: CC BY 4.0
Pohdi myös, mikä on varsinainen datatuote, jonka julkaiset tieteellisen artikkelisi yhteydessä. Datan luokittelu voi auttaa jo aloitusvaiheessa. Raakadata on dataa, jonka keräät ja/tai digitoit tutkimustasi varten, tai muuta eri lähteistä talteen otettua ja uudelleenkäytettyä dataa. Helposti saatavilla oleva digitaalinen data voi olla tietolähteen operatiivista (punainen) dataa, jota julkaistaan jotakin muuta tarkoitusta varten hyvin dynaamisessa muodossa. Operatiivinen data ei välttämättä ole lähteessään viitattavaa tai laadunvarmistettua. Uudelleenkäyttöä varten data voidaan poimia operatiivisesta lähteestä, tai se voi olla jo kerättyä ja julkaistua (kumulatiivista) yleistä tutkimusdataa (vihreä). Yleinen tutkimusdata on versioitua, dokumentoitua ja laadunvarmistettua, ja siihen pitäisi voida viitata. Se, mitä julkaiset tutkimuksesi tuloksena, on vakaa datatuote eli tutkimusaineistojulkaisu (sininen), joka koostuu (jos mahdollista) raakadatasta sekä dokumentaatiosta, joka kuvaa tuloksiin johtanutta prosessia.

Lisenssi: CC BY 4.0
Pysyvät tunnisteet
Pysyvät tunnisteet tarjoavat hallittuja tapoja linkittää ja merkitä digitaalista tietoa. Kun käytät tunnisteita, kuten DOI tai URN, dataa julkaistessasi tai siihen viitatessasi, linkitys säilyy suojattuna nimien tai organisaation muutoksista huolimatta. Tunnisteet ovat maailmanlaajuisesti yksilöllisiä, mikä tarkoittaa, että voit olla varma siitä, että käsilläsi on oikea aineisto tai että saat tunnustuksen julkaisuistasi.
Mitä enemmän pysyviä tunnisteita voit sisällyttää työnkulkuihisi, sitä parempaa ja helpompaa tiedonhallintasi on. Älä epäröi ottaa yhteyttä oman organisaatiosi tutkimusdatapalveluihin tai kirjastoon saadaksesi lisäapua.
Lisälukemista
Lisensointi ja oikeudet
Nykyään aiemmassa tutkimuksessa tuotettua dataa on mahdollista käyttää uudessa tutkimuksessa aiempaa monipuolisemmin, jolloin tarve kerätä dataa uudelleen, kehittää uusia menetelmiä tai kirjoittaa koodia alusta alkaen vähenee.
Kun käytetään muiden tuottamaa dataa, sen käyttöehdot on otettava huomioon. Käyttöehdot määritellään yleensä lisenssissä, kuten avoimessa Creative Commons -lisenssissä. Data voi olla täysin avointa käyttöön, tai sen käyttöön voi liittyä tiettyjä rajoituksia, jotka johtuvat tavallisesti tiedon sensitiivisyydestä, liikesalaisuuksista tai tutkijoiden allekirjoittamista sopimuksista. Yleissääntönä on, että dataa voi käyttää sen käyttöehtojen mukaisesti.
Aineiston käyttöehdot määrittää aina sen tuottanut henkilö tai henkilö, jolle tuottaja on siirtänyt kyseiseen aineistoon liittyvät oikeudet (Tekijänoikeuslaki 404/1961). Tarvittaessa voit ottaa yhteyttä datan omistajaan selvittääksesi mahdolliset epäselvyydet sen käytössä.
Kuinka lisensoit oman datasi?
Kun dataa asetetaan saataville, lisenssien käyttöä suositellaan. Näin voit esimerkiksi säilyttää tekijänoikeuden ja samalla sallia muiden kopioida, jakaa ja hyödyntää dataasi. Creative Commons -lisenssejä (CC BY) käytetään laajasti lisensointiin. Creative Commons -lisenssien kirjo ulottuu public domainista (kuvan yläosassa) kaikki oikeudet pidätetään -malliin (alaosassa). Kuvan vasen puoli osoittaa sallitut käyttötapaukset ja oikea puoli lisenssin osatekijät.

Lisenssi: CC BY 4.0
Kokeile itse!
Lisenssivalitsin / Creative Commons.
CC BY 4.0 -lisenssi datallesi sallii datasi käytön, mutta edellyttää, että tekijä mainitaan.
Voit myös antaa datallesi CC0-lisenssin. Se tarkoittaa, että annat muille täydet oikeudet datan käyttöön.
Käyttörajoitukset
Datan julkaiseminen ei välttämättä tarkoita, että aineistojesi täytyy olla kaikkien saatavilla ilman rajoituksia. Jos olet huolissasi siitä, että datasi avoin julkaiseminen voisi aiheuttaa haittaa jollekin tai jollekin asialle tai johtaa muihin kielteisiin seurauksiin, voit päättää soveltaa erityisiä rajoituksia siihen, miten ihmiset voivat saada pääsyn dataasi. Tavallisesti vaihtoehdot ovat:
- sallia kaikkien ladata aineistoosi liitetyt tiedostot (Avoin),
- sallia kaikkien ladata aineistoosi liitetyt tiedostot tietystä päivämäärästä alkaen (Embargo),
- sallia kaikkien hakea käyttöoikeutta aineistoosi liitettyjen tiedostojen lataamiseen (Välitetty), tai
- olla sallimatta kenenkään ladata aineistoosi liitettyjä tiedostoja lainkaan (Rajoitettu).
Valittu vaihtoehto ei vaikuta aineiston kuvailevan metadatan näkyvyyteen, mikä tarkoittaa, että vaikka pääsy dataan olisi rajoitettu, julkaistusta aineistosta näytetään kuvailevat tiedot julkaisualustalla. Mahdolliset rajoitukset on kuitenkin määriteltävä, ja yhteystiedot on asetettava saataville sekä pidettävä ajan tasalla.