-
Aineistolähteet
Aineistolähteet
Yleiskatsaus
Data on havaintoja tai mittauksia (käsittelemättömiä tai käsiteltyjä), jotka esitetään tekstinä, numeroina tai multimediana. Aineisto (engl. dataset, myös data set) on jäsennelty ja pysyvä datakokoelma, joka yleensä liittyy yksilölliseen työkokonaisuuteen (esimerkiksi tutkimukseen). Jotta aineisto olisi uudelleenkäytettävissä tutkimustarkoituksiin, sen on oltava FAIR-periaatteiden mukainen (löydettävä, saavutettava, yhteentoimiva, uudelleenkäytettävä). Tämä tarkoittaa, että sillä tulee esimerkiksi olla yksilöllinen tunniste, kuten DOI tai URN, riittävät metatiedot, mukaan lukien alkuperä ja tekijätiedot, sekä uudelleenkäytön mahdollistava lisenssi. Aineistojen on myös täytettävä tieteenalakohtaiset vaatimukset ja standardit. Lue lisää datan ja aineiston erosta kohdasta Datatyypit.
Aineistot ovat datalähtöisen laskennan ja data-analyysin kulmakivi. Aineistojen avulla voidaan keskittyä dataresurssien alkuperään, elinkaareen ja eettiseen käyttöön yksittäisten datatiedostojen tai laskentamenetelmien teknisten yksityiskohtien sijaan. CSC tarjoaa palveluja aineistolähtöiseen tutkimukseen ja kehittää tulevia palveluja tukemaan entistä paremmin aineistoja ja muita datan korkeamman tason näkökulmia.
Huom.
Datan omistajuus, tekijänoikeudet ja lisenssi määritellään usein parhaiten koko aineistolle, vaikka joissakin tapauksissa voidaan tarvita tarkempia määrittelyjä. Tieteellisessä kirjoittamisessa aineistoon viitataan yleensä yhtenä kokonaisuutena.
Aineistojen kokoaminen
Aineistolähtöisen työskentelyn ensimmäinen vaihe on aineistojen kokoaminen. On mahdollista paikantaa ja ottaa käyttöön olemassa olevia, hyvin määriteltyjä aineistoja tai luoda uusia aineistoja hankkimalla dataa ja järjestämällä se aineistoiksi. Kokoamisvaihe luo perustan, jonka varaan datalähtöinen laskenta ja analyysi rakentuvat. Tämän vaiheen aikana huomion tulisi kohdistua siihen, että datan lisenssit ja käyttöehdot tunnetaan ja vastaavat aiottua käyttöä, että datan alkuperä tunnetaan hyvän alkuperätiedon varmistamiseksi sekä että data on järjestetty ja dokumentoitu hyvin.
Entä jos aineiston käyttöehdot ovat tuottajien itsensä laatimat?
Aineiston tekijällä on oikeus määrittää aineistonsa käyttöehdot,
vaikka valmiita lisenssejä ei olisi. Tällaisissa tapauksissa annettuja
käyttöehtoja on noudatettava, mutta voit myös neuvotella käyttöehdoista
ottamalla yhteyttä aineiston omistajaan.
Entä jos datalle ei ole määritelty käyttöehtoja?
Jos käyttöehtoja ei ole tai annetut käyttöehdot ovat epäselvät, sinun tulee
aina ottaa yhteyttä kyseisen aineiston omistajaan.
Tutkimusdatan löytäminen
Kun hyödynnetään ja uudelleenkäytetään muiden keräämää tai tuottamaa dataa, tarvitaan tiedot sen alkuperästä, sisällöstä, sijainnista, lisenssistä, käyttörajoituksista ja muista tarpeellisista asioista. Hakupalvelut sisältävät kuvailevaa tietoa (metatietoa) tutkimusaineistoista. Mitä paremmin aineisto on kuvattu, sitä helpompi se on löytää ja ottaa käyttöön. Olemassa olevia tutkimusaineistoja voi olla saatavilla uudelleenkäyttöön.
Katso CSC:n palvelut aineistojen löytämiseen
CSC:n laskentaympäristössä saatavilla olevat erityisaineistot
CSC myös ylläpitää tai tarjoaa pääsyn useisiin aineistoihin eri alustoilla.
Biotieteet
- Chipster_genomes Työkalu Chipster-ohjelmiston käyttämien kohdistinindeksien lataamiseen Poutaan
- AlphaFold-tietokannat ovat saatavilla Puhdissa
Kemia
- CSD - Cambridge Crystallographic Database – orgaanisia ja metalli-orgaanisia kiderakenteita sekä työkaluja
- Molport 6M -molekyylitietokanta esikäsitelty nopeaa GPU-seulontaa varten Schrödinger Shapella
Geotieteet
Kielentutkimus sekä muut digitaaliset humanistiset ja yhteiskuntatieteet
- Uusimmat versiot
CLARIN PUB- tai ACA-lisensoiduista korpuksista ovat
saatavilla purettuina Puhdissa hakemistossa
/appl/data/kielipankki/
Datan käsittely ja analysointi
Lue lisää CSC:n data-analyysioppaasta