-
Tutkimusdata - Julkaise ja uudelleenkäytä
-
Datan julkaiseminen
Taulukko käyttäjäoppaan sisällöstä
Datan julkaisu
Alta löydät vaiheittaiset ohjeet biolääketieteellisen datan lataamiseen, kuvailemiseen ja julkaisemiseen suomalaisen Federated EGA:n kautta. Huomaa, että tämä on pitkä prosessi (yhdestä kuukaudesta jopa kuuteen kuukauteen), mutta tarjoamme tukea ja opastamme sinua koko prosessin ajan.
Tässä käyttöoppaassa kuvattu prosessi koskee nimenomaan aineistojen julkaisemista suomalaiseen FEGAan. Keskus-EGA:ssa ja muissa FEGA-noodeissa aineiston julkaisuprosessit ovat erilaisia.
Note
Ennen kuin aloitat, on tärkeää varmistaa, että CSC:n (henkilötietojen käsittelijä) ja kotiorganisaatiosi (tai rekisterinpitäjän) välillä on voimassa Federated EGA -palvelua koskeva palvelusopimus. Aloita julkaisun valmistelu hyvissä ajoin etukäteen (jo ennen käsikirjoituksen lähettämistä tieteelliseen lehteen) ottamalla yhteyttä CSC:n asiakastukeen (aihe: Federated EGA) ja kotiorganisaatiosi Data Access Committeeen (DAC) tai lakipalveluihin.
Vaihe 1: Sopimukset, Data Access Committee ja käyttöehdot
Datan tallentaminen suomalaiseen Federated EGA:an edellyttää useita sopimuksia: Federated EGA -palvelusopimusta sekä Data Access Agreement -sopimusta, johon sisältyy Data Transfer Agreement. Nämä sopimukset sekä datan myöhempi käyttöoikeuksien hallinta ovat rekisterinpitäjän vastuulla. Julkaistun datan rekisterinpitäjä on yleensä tutkimuksen mahdollistanut akateeminen organisaatio. Datan omistajuus ei muutu tämän palvelun käytön myötä.
Datan julkaiseminen FEGAan kuuluu CSC:n maksuttomiin suomalaisen akateemisen tutkimuksen käyttötapauksiin, mutta datan pakollinen varmuuskopio ei sisälly maksuttomaan käyttöön. Varmuuskopiotallennustilaa voi ostaa FEGAssa lisäpalveluna, tai rekisterinpitäjäorganisaatio voi sopia CSC:n kanssa tehtävässä sopimuksessa muista varmuuskopion tallennustavoista. Lisätietoa FEGA:n sisäisen varmuuskopiointipalvelun hinnasta löytyy hinnastosta. Vain suomalaiset käyttäjät voivat julkaista tutkimusdataansa suomalaiseen FEGAan.
Alta löydät lisätietoa tarvittavista sopimuksista ja datan käyttöoikeuksien hallinnasta:
-
Federated EGA -palvelusopimus: organisaatiollasi (tai rekisterinpitäjällä) on oltava CSC:n (henkilötietojen käsittelijä) kanssa erillinen palvelusopimus ennen suomalaisen Federated EGA -palvelun käyttöä. Tämä palvelusopimus sisältää Henkilötietojen käsittelysopimuksen (DPA), jossa määritellään henkilötietojen käsittelyn yksityiskohdat, kuten laajuus ja tarkoitus, sekä rekisterinpitäjän ja käsittelijän oikeudet ja velvollisuudet. Sinun tulee varmistaa, että organisaatiollasi on FEGA-palvelusopimus ennen julkaisuprosessin aloittamista. Jos organisaatiollasi ei ole sopimusta, ota yhteyttä CSC:n asiakastukeen (aihe: Federated EGA).
-
Data Access Agreement: Data Access Agreement (DAA) on sopimus Data Access Committeen (DAC) ja dataan uudelleenkäyttöä varten käyttöoikeutta hakevan tutkijan välillä. DAA:n kautta rekisterinpitäjä voi määritellä datan uudelleenkäytön ehdot ja rajoitukset, mukaan lukien datan käyttöä, julkaisemista, lataamista ja käyttöoikeuksia koskevat ehdot. DAA:n tulee sisältää myös Data Transfer Agreement (DTA), joka on tarpeen silloin, kun EU-/ETA-alueen ulkopuoliset tutkijat käyttävät dataa SD Desktopin kautta. DAA ja DTA sisällytetään datan käyttöehtoihin (katso seuraava kappale). Lisätietoja saat kotiorganisaatiosi Data Access Committeelta tai lakipalveluista. Löydät esimerkkipohjan täältä.
-
Data Access Committee ja käyttöehdot: Data Access Committee (DAC) ja ehdot ovat rekisterinpitäjän hallinnoimia. Datan käyttöoikeuksia sekä DAC- ja ehtotietoja hallitaan erillisessä palvelussa nimeltä SD Apply. Organisaatioilla voi olla yleisiä DAC:eja ja ehtoja, joita käytetään kaikille saman organisaation julkaisemille aineistoille. Vain käyttölupahakemuksen linkki on yksilöllinen kullekin aineistolle. Tämä linkki luodaan sen jälkeen, kun aineiston julkaisu on viimeistelty FEGA:n submitter-portaalissa, ja aineiston yksilöllinen tunniste yhdistetään SD Applyn käyttöoikeuksien hallintatietoihin. Varmistaaksesi, että organisaatiollasi on aineistollesi sopiva DAC ja ehdot, ota yhteyttä oman organisaatiosi edustajiin tai CSC:n asiakastukeen saadaksesi lisäohjeita.
Vaihe 2: Julkaisun yleiset tiedot
Julkaiseminen suomalaiseen Federated EGA -palveluun alkaa ottamalla yhteyttä suomalaisen FEGA:n asiakastukeen ja toimittamalla julkaisun yleiset tiedot. Suositeltavaa on, että nämä tiedot jaetaan ensin organisaation DAC:lle, joka voi sitten lähettää tiedot FEGA:n asiakastukeen yhdessä julkaisun hyväksynnän kanssa.
Aloittaaksesi julkaisuprosessin täytä yleistietolomake, johon merkitään yhteystiedot, tiedot aineiston julkaisutyypistä ja tiedot rekisterinpitäjästä, tai toimita samat tiedot sähköpostiviestissä. Lähetä aineiston julkaisupyyntö organisaatiosi DAC:lle, ja he voivat toimittaa tarvittavat tiedot sähköpostitse CSC:n asiakastukeen (aihe: Federated EGA).
Vaihe 3: Tunnukset
Kun rekisterinpitäjän ja CSC:n väliset sopimukset on viimeistelty ja organisaation DAC on hyväksynyt julkaisun, voit rekisteröityä EGA:n verkkosivulla luodaksesi EGA-tunnukset. Saat sähköpostitse aktivointilinkin sen jälkeen, kun keskus-EGA on hyväksynyt rekisteröitymisesi. Kun olet aktivoinut tunnuksesi, ota yhteyttä CSC:n asiakastukeen, jotta sinut voidaan lisätä suomalaisen FEGA:n julkaisijaksi. Toimita lisäksi sen IP-osoitteen tiedot, josta siirrät datan FEGAan, jotta voit muodostaa yhteyden FEGA-inboxiin.
Note
EGA-tunnukset, mukaan lukien käyttäjätunnus (yleensä sähköpostiosoitteesi) ja salasana, tarvitaan datan salaamiseen ja lataamiseen suomalaiseen FEGAan sekä metadatan toimittamiseen submitter-portaalissa.
Vaihe 4: Tiedostomuodot
Ennen datan lataamista FEGAan sinun on valmisteltava aineistot ja varmistettava tiedostomuodot. Alla on lueteltu joitakin esimerkkejä hyväksytyistä tiedostomuodoista.
Note
Aineisto määritellään yleensä tiedostojoukoksi, joka kuuluu samaan kokeeseen ja samaan datatyyppiin. Yksi tutkimus voi sisältää useita aineistoja. Tutkimuksesi voi sisältää sekä sensitiivistä dataa (esim. ihmisen geneettistä tai fenotyyppiaineistoa) että ei-sensitiivistä dataa (esim. virussekvenssejä, metaboliitteja). Vain sensitiivinen data voidaan julkaista FEGAan. Ei-sensitiivinen data voidaan julkaista avoimesti sopivissa repositorioissa. Tässä tapauksessa repositoriossa luotuihin näytetunnisteisiin tulee viitata FEGA-julkaisussa.
Sensitiivinen data
-
sekvenssidata: CRAM-, BAM-, FASTQ- ja VCF-muodot
-
metagenomiikka: EGA on ottanut käyttöön Minimum Information about any (x) Sequence (MIxS) -standardikokonaisuuden tämän tyyppisen datan kuvaamiseen.
-
fenotyyppiaineisto: Ei erityistä tiedostomuotoa. Suosittelemme mahdollisuuksien mukaan käyttämään Experimental Factor Ontologies -ontologioita. Oikeiden ontologiatermien etsimiseen ja fenotyyppiaineistosi kuvaamiseen voit käyttää EMBL-EBI:n kehittämää Ontology Lookup Service (OLS) -palvelua.
-
linkitystiedostot: Jos samaan tutkimukseen kuuluvia ei-sensitiivisiä aineistoja on julkaistu tiettyyn repositorioon, näytteet voidaan linkittää samaa näytettä koskevaan FEGAan julkaistuun sensitiiviseen tietoon. Aineistoilla tulee olla eri anonymisoidut näytetunnukset kussakin arkistossa. Sopivasta arkistosta saadut tunnukset voidaan sitten lisätä viitteeksi FEGA-julkaisuun. Esimerkiksi näytetunnus voidaan linkittää ylimääräisessä
.txt-tiedostossa, joka voidaan lisätä johonkin yllä olevista sensitiivisistä aineistoista.
Note
FEGA ei tue array-dataa. Voit lukea lisää array-pohjaisista julkaisuista ja siitä, miten array-pohjaisia aineistoja julkaistaan, EGA:n verkkosivulta.
Fenotyyppiaineisto
Jotta voit julkaista sensitiivistä fenotyyppiaineistoa FEGAan,
- valitse fenotyyppiaineistolle sopiva metadatamalli,
- järjestä data valitun metadatamallin mukaisesti,
- tallenna tiedot tekstitiedostoon tai muuhun sopivaan muotoon, ja
- julkaise fenotyyppiaineisto aineistona.
COVID-19-data
Jos julkaiset FEGAan COVID-19:n kliinistä fenotyyppiaineistoa, käytä Bernasconi et al. (2021) määrittelemää metadatamallia. Tämä auttaa edistämään tutkimusten välistä yhteentoimivuutta.
Ei-sensitiivinen data
Ei-sensitiivinen data (tai avoin data) tulee julkaista sopivissa arkistoissa. Esimerkiksi sekvenssit ENA:an European Nucleotide Archive, variantit EVA:an European Variation Archive, array-pohjainen data ArrayExpress – functional genomics data, fenotyypit BioSamplesiin ja GWAS-yhteenvetotilastot GWAS Catalogiin.
Note
Lisätietoja datatyypeistä ja tiedostomuodoista löydät EGA:n verkkosivun Submission FAQ -osiosta tai ottamalla yhteyttä CSC:n asiakastukeen (aihe: Federated EGA).
Vaihe 5: Datan salaus ja lataus
Seuraavaksi voit ladata datan suomalaiseen FEGAan. Jokainen suomalaiseen FEGAan ladattava tiedosto on salattava.
Note
- Data salataan työkaluilla, jotka on suunniteltu ihmisen geneettisen datan salaamiseen ja jakamiseen Global Alliance for Genomics and Health (GA4GH) -standardin mukaisesti.
- Jos metadatan toimittamisen aikana työskentelet yhdessä yhteistyökumppaneiden kanssa, huomioi, että vain datatiedostot ladannut käyttäjä näkee ne inboxissa metadatan toimittamisen aikana ja voi lähettää Run- ja Analysis-metadatan.
Voit suorittaa salaus- ja latausvaiheet käyttämällä:
- Vaihtoehto 1 - Fi-FEGA-lataussovellus. Fi-FEGA-lataussovelluksella (graafinen käyttöliittymä, GUI) voidaan salata ja ladata tiedostoja tai kansioita automaattisesti suomalaiseen FEGAan.
tai
- Vaihtoehto 2 - komentorivikäyttöliittymä (CLI). Datan salaus crypt4gh CLI:llä ja datan lataus sftp CLI:llä. Jos käytät mieluummin komentorivikäyttöliittymää, löydät alta tiedot salaus- ja latausvaiheista.
Vaihtoehto 1 - Fi-FEGA-lataussovellus
-
Voit ladata käyttöjärjestelmällesi sopivan Fi-FEGA-lataussovelluksen GitHub-repositoriosta: Linux, Mac tai Windows, valitse sdagui-vaihtoehdoista. Kun olet ladannut ja purkanut tiedoston, löydät sovelluksen latauskansiostasi. Kun avaat sovelluksen, saatat kohdata virheilmoituksen. Tässä tapauksessa napsauta More info ja varmista, että julkaisija on CSC-IT Center for Science (tai suomeksi: CSC-Tieteen tietotekniikan keskus Oy), ja napsauta Run anyway.
-
Lataa seuraavaksi suomalaisen FEGA:n julkinen salausavain.
-
Avaa lataussovellus ja napsauta Load recipient public key. Tämä avaa tiedostoselaimen, jolla voit valita suomalaisen FEGA:n julkisen salausavaimen (
fega-pubkey-c4gh.pub). Napsauta sitten Open. -
Napsauta Select file to upload tai Select directory to upload ladataksesi yksittäisen tiedoston tai kokonaisen kansion.
-
Seuraavaksi sinun tulee täyttää SFTP-tunnukset (tai suojatun yhteyden tunnukset), jotka vastaavat keskus-EGA-tilisi käyttäjätunnusta. Kirjoita kohtaan SFTP Username EGA-käyttäjätunnuksesi (yleensä sähköpostiosoitteesi). Kirjoita kohtaan SFTP Server seuraava:
admin.sd.csc.fi:50529. SFTP-avaimen lataamista ei vaadita datan lataamiseen FEGAan. -
Napsauta Encrypt and upload files. Työkalu pyytää SFTP Passphrase -salalausetta, joka vastaa keskus-EGA-tilisi salasanaa. Kun napsautat OK, sovellus aloittaa datan salauksen ja latauksen.
-
Sovelluksessa ei ole etenemispalkkia. Datan salaus ja lataus voivat kestää minuuteista useisiin tunteihin aineiston koosta riippuen. Datan lataus on onnistuneesti valmis, kun sovelluksen toimintalokissa näkyy seuraava viesti:
Disconnecting SFTP. SFTP has been disconnected.Kun prosessi on valmis, näet tiedostot submitter-portaalissa siirtymällä oikean yläkulman valikosta Files-sivulle.
Vaihtoehto 2 - komentorivikäyttöliittymä
Datan salaus crypt4gh CLI:llä:
-
Python 3.6+ vaaditaan Crypt4GH-salaustyökalun käyttöön. Jos tarvitset apua Pythonin asentamisessa, seuraa näitä ohjeita.
-
Avaa pääte ja asenna Crypt4GH suoraan pip-työkalulla:
-
Salataksesi tiedoston suomalaisen FEGA:n julkisella salausavaimella, käytä komentoa
crypt4gh encrypt:Tässä syntaksissa
--recipient_pkmäärittää datan salaamiseen käytettävän julkisen avaimen. Tässä tapauksessa suomalaisen FEGA:n julkisen avaimen.example_file.txtmäärittää syötetiedoston jaexample_file.txt.c4ghsalatun tulostetiedoston.
Datan lataus SFTP CLI:llä (oletuksena Linuxissa ja MacOS:ssa):
-
Avaa pääte ja muodosta SFTP-yhteys seuraavalla syntaksilla, jossa
ega_useron EGA-tunnusten käyttäjätunnus (yleensä sähköpostiosoitteesi):Käytä salasanana keskus-EGA-tilisi salasanaa.
-
Siirrä salatut tiedostot tai hakemisto komennolla
put, kun olet yhteydessä sftp:hen.Datan lataus voi kestää minuuteista useisiin tunteihin aineiston koosta riippuen.
-
Odota, että prosessi valmistuu, ennen kuin suljet yhteyden. Kun prosessi on valmis, sinun pitäisi nähdä tiedostot submitter-portaalissa siirtymällä oikean yläkulman valikosta Files-sivulle. Kun olet varmistanut, että prosessi on valmistunut, voit sulkea SFTP-yhteyden komennolla
exit. On tärkeää katkaista yhteys, kun olet saanut latauksen valmiiksi.
Vaihe 6: Metadatan toimittaminen
Seuraavaksi voit kuvata kaikki tutkimukseesi liittyvät tiedot eli ei-sensitiivisen julkisen metadatan käyttämällä suomalaisen FEGA:n submitter-portaalia. Julkinen metadata julkaistaan EGA:n verkkosivulla datan löydettävyyden ja uudelleenkäytön helpottamiseksi.
Voit tutustua submitter-portaaliin alla olevan videon avulla tai tekemällä portaalissa saatavilla olevan opastetun kierroksen napsauttamalla keltaista kirjakuvaketta oikeassa yläkulmassa, kun olet kirjautuneena sisään.
Kirjaudu submitter-portaaliin EGA-tunnuksillasi (käyttäjätunnus: yleensä sähköpostiosoitteesi, ja salasana).
Submitter-portaalissa voit rekisteröidä seuraavat metadataobjektit:
-
Study. Tiedot sekvensointitutkimuksesta. Otsikon tulee olla 3–20 sanan mittainen johdanto projektiin, ja kuvauksen tulee olla 3–5 virkkeen määritelmä projektista sisältäen hieman taustaa, tavoitteen ja yksityiskohtia. Studyn metadata on julkisesti saatavilla EGA:n verkkosivulla.
-
Samples. Tiedot kokeen tai analyysin sekvensointinäytteistä. Voit myös tehdä näytteille erälatauksen. Samples-metadatan osalta on mahdollista, että tiedot ovat tunnistettavia, ja siksi ne ovat saatavilla vain valtuutetuille datan hakijoille lukuun ottamatta kenttiä alias, title, subject_id, gender ja phenotype. Julkaisijan vastuulla on varmistaa, ettei näihin julkisiin kenttiin toimiteta sensitiivistä metadataa. Lisäksi anonymisoidut kentät, jotka yksilöivät näytetietueen arkistoissa – näytteen EGA-pysyvä tunniste (EGAN…), BioSample-tunniste (SAMEA…) ja julkaisijan keskuksen nimi – ovat julkisesti saatavilla EGA:n verkkosivulla.
-
Experiments. Tiedot sekvensointimenetelmistä, protokollista ja laitteista. Experiments-metadatan tiedot ovat julkisesti saatavilla EGA:n verkkosivulla.
-
Runs. Tiedot tiedostoista, jotka sisältävät sekvensointiajon aikana tuotetun raakadataan. Samples, Experiments ja tiedostot linkitetään toisiinsa Runs-objektien kautta. Sopiva objekti FASTQ- ja BAM/CRAM-julkaisuille. Voit myös tehdä ajoille erälatauksen. Runs-metadatan tiedot ovat julkisesti saatavilla EGA:n verkkosivulla.
-
Analysis. Viittaa analyysitiedostoihin, jotka voivat sisältää prosessoitua dataa (VCF), tietyn tyyppistä raakadataa (BAM/BAI tai CRAM/CRAI) tai fenotyyppiaineistoa. Liitetään näytteisiin ja tutkimukseen. Analysis on EGA-spesifi metadataobjekti, joka linkittää Samples-objektit tiedostoihin. Jos sinulla ei ole analyysitiedostoja, voit jatkaa ilman Analysis-metadataa. Analysis-metadatan tiedot ovat julkisesti saatavilla EGA:n verkkosivulla.
-
Dataset. Sisältää Runs- ja/tai Analysis-objektien alle järjestetyn datatiedostokokoelman, joka julkaistaan rajoitetuin käyttöoikeuksin. Liitetään Policyyn, joka sisältää käyttölupahakemuksen linkin ja jonka CSC:n asiakastuki luo. Otsikon tulee olla 3–20 sanan yleiskuvaus aineiston sisällöstä, ja kuvauksen tulee olla 3–4 virkkeen määritelmä aineiston sisällöstä sisältäen näytteiden määrän ja yksityiskohdat, tiedostotyypin sekä käytetyn teknologian/kokeellisen menetelmän. Dataset-metadatan tiedot ovat julkisesti saatavilla EGA:n verkkosivulla.
Kun olet täyttänyt kaiken metadatan, voit viimeistellä julkaisun, minkä jälkeen se siirtyy suomalaisen FEGA:n asiakastukeen hyväksyttäväksi ja julkaistavaksi. Kun asiakastuki on hyväksynyt julkaisun, jokaiselle näistä objekteista annetaan pysyvä tunniste (EGA ID).
Note
- Aineistokohtainen Policy-kohde metadatan toimittamista varten täytyy luoda erikseen CSC:n asiakastuen toimesta ennen kuin se voidaan valita submitter-portaalissa. Tämä Policy-metadataobjekti linkittää aineiston organisaatiosi SD Applyssa luomaan käyttölupahakemukseen (katso Vaihe 1).
- Study-, Samples- ja Experiment-metadata voidaan rekisteröidä ennen tiedostojen lataamista, kun taas Run- ja Analysis-objekteja ei voida rekisteröidä ennen kuin tiedostot on ladattu suomalaiseen FEGAan. Voit valita julkaisullesi Policyn vasta sen jälkeen, kun olet rekisteröinyt kaiken muun metadatan, samalla kun rekisteröit Dataset-metadatan.
Vaihe 7: Aineiston julkaisu
Jotta aineistosi julkaistaan EGA:n verkkosivulla, kirjoita CSC:n asiakastukeen vahvistaaksesi, että aineisto voidaan julkaista.
CSC:n asiakastuki viimeistelee julkaisuprosessin. Saat CSC:n asiakastuelta vahvistuksen onnistuneesta julkaisusta sekä aineiston tunnisteet, jotka soveltuvat käytettäviksi julkaisuissa, apurahahakemuksissa jne.
Note
Jos joku haluaa hakea käyttöoikeutta suomalaiseen FEGAan tallennettuun aineistoosi, hänen tulee napsauttaa aineiston hakemuslinkkiä EGA:n verkkosivulla. Linkki ohjaa käyttäjän SD Applyn hakemuslomakkeelle. SD Apply on palvelu CSC:lle tallennettujen sensitiivisten aineistojen käyttöoikeuksien hakemiseen ja hallintaan. Datan käyttöoikeuden hakemiseen on erillinen opas.
Vaihe 8: Poista käyttämättömät tiedostot inboxista
Jos olet ladannut FEGA-inboxiin enemmän tiedostoja kuin olet käyttänyt julkaisussasi etkä aio käyttää näitä tiedostoja missään muussa julkaisussa, sinun on poistettava tarpeettomat tiedostot inboxista manuaalisesti sen jälkeen, kun julkaisusi on hyväksytty. Voit tehdä tämän muutamalla yksinkertaisella komentorivikomennolla.
Note
Rekisterinpitäjän edustajana olet vastuussa siitä, että inboxiin ei jää dataa. Jos julkaisija ei poista käyttämättömiä datatiedostoja inboxista, tiedostot jäävät inboxiin toistaiseksi.
-
Ensin sinun on muodostettava yhteys FEGA:n SFTP-inboxiin. Avaa pääte ja muodosta SFTP-yhteys seuraavalla syntaksilla, jossa
ega_useron EGA-tunnusten käyttäjätunnus (yleensä sähköpostiosoitteesi):Käytä salasanana keskus-EGA-tilisi salasanaa.
-
Komennolla
-ls -hvoit avata luettelon inboxissa vielä olevista tiedostoista ja hakemistoista. Jos julkaisusi on jo hyväksytty FI-FEGA:n asiakastuessa, näet vain ne tiedostot ja kansiot, joita ei ole käytetty julkaisussasi. -
Seuraavaksi voit poistaa kaikki tiedostot ja hakemistot, joita et aio käyttää missään julkaisuissasi. Tämä täytyy tehdä jokaiselle tiedostolle ja hakemistolle erikseen seuraavalla syntaksilla:
Kun tiedosto on poistettu onnistuneesti, näet seuraavan ilmoituksen ja palaat alkuperäiseen hakemistoon:
Tämän jälkeen voit jatkaa seuraavaan tiedostoon tai hakemistoon, tai siirtyä seuraavaan vaiheeseen, jos olet poistanut kaikki tiedostot ja hakemistot.
-
Kun olet poistanut kaikki tarpeettomat tiedostot FEGA:n SFTP-inboxista, voit katkaista SFTP-yhteyden komennolla
exit.
