Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Allaksen käyttäminen aineiston ylläpitämiseen tutkimusprojektissa

Esimerkkiskenaario Allaksen käyttötapauksesta.

Näytelmän roolit

Saara: Professori, joka koordinoi innostavaa tutkimusprojektia.

Pekka: Tutkija, joka huolehtii projektin tutkimusdatanhallinnasta.

Mats: Teknikko, joka työskentelee Analysis Service Centerissä.

Xi ja Laura: Tutkijoita, jotka työskentelevät tutkimusprojektissa.

Näytös 1. Professori Saara avaa CSC-projektit

Professori Saara johtaa suuressa suomalaisessa yliopistossa laajaa tutkimusprojektia nimeltä HiaNo. Projekti on juuri lähettänyt joukon näytteitä Analysis Service Centeriin käsiteltäviksi ja analysoitaviksi. Analyysi kestää muutamia viikkoja ja tuottaa 80 TB dataa, jota tutkimusryhmä käyttää varsinaisessa tutkimuksessa.

Saara ja tutkimusdatanhallinnasta huolehtiva Pekka tutustuvat CSC:n tarjoamiin tallennusvaihtoehtoihin. He päättävät käyttää Allas-palvelua datan tallentamiseen ja jakamiseen tutkimusprojektin aikana. Data ei ole sensitiivistä henkilötietoa, joten Allas soveltuu siihen.

Ensimmäiseksi Saara ja Pekka kirjautuvat MyCSC-portaaliin ja rekisteröityvät CSC-käyttäjiksi.

Sen jälkeen Saara luo kaksi tutkimusprojektia CSC:lle: toisen nimeltä HiaNo-projektin datanhallinta (projektitunnus: project_2000444) ja toisen nimeltä HiaNo-tutkimusprojekti (projektitunnus: project_2000333).

Kun CSC-projektit on perustettu, Saara aktivoi Allas-, Puhti- ja cPouta-palvelut molemmille projekteille. Koska Saara tietää, että Allaksen oletustallennustila (10 TB) ei riitä saapuvalle aineistolle, hän lähettää pyynnön 90 TB:n Allas-kiintiöstä projektille HiaNo-projektin datanhallinta osoitteeseen servicedesk@csc.fi.

Lopuksi Saara lisää Pekan molempiin CSC-projekteihin ja pyytää häntä huolehtimaan saapuvan datan yksityiskohdista.

Näytös 2. Jaetun ämpärin luominen

Mats Analysis Service Centeristä ottaa yhteyttä Pekkaan ja kertoo, että tulokset ovat saatavilla, ja kysyy, miten data pitäisi toimittaa. Matsilla on CSC-tunnus (msundber projektissa project_2000111) ja Allas käytössään, joten Pekka ehdottaa, että data ladataan Allakseen. Tätä varten Pekka luo ämpärin Allakseen ja sallii Matsin käyttää sitä.

Pekka kirjautuu Puhtiin

ssh puhti.csc.fi   
ja avaa yhteyden datanhallintaprojektiin Allaksessa:
module load allas
allas-conf project_2000444
Sitten hän luo uuden ämpärin Allakseen. Tähän on monia tapoja, mutta tällä kertaa Pekka tekee sen tuomalla uuden tiedoston Allakseen komennolla a-put:
echo “This bucket is used to host the original data of HiaNo project sample1” > README.txt
a-put -b hiano-project-sample001 README.txt
a-list hiano-project-sample001 
Pekka sisällytti projektin nimen ämpärin nimeen (hiano-project-sample001) varmistaakseen, että ämpärin nimi on yksilöllinen koko Allas-palvelussa. Komento a-list näyttää, että ämpäri luotiin onnistuneesti.

Seuraavaksi Pekka käyttää komentoa a-access muokatakseen uuden ämpärin käyttöoikeuksia niin, että Mats (käyttäjä msundber Allas-projektista project_2000111) voi käyttää sitä.

a-access +rw project_2000111 hiano-project-sample001
Pekan täytyy vielä lähettää jaetun ämpärin nimi Matsille, koska tavalliset Allaksen listauskomennot eivät näytä nimeä Matsille, joka ei ole ämpärin omistavan projektin jäsen.

Näytös 3. Datan lataaminen palveluun

Matsilla on Allas-työkalut asennettuna mittalaitteen käyttöliittymäpalvelimelle Analysis Service Centerissä. Siksi hän voi ladata datan suoraan käyttöliittymäpalvelimelta Allaksen ämpäriin hiano-project-sample1:

rclone copy sample1/cannel43/aa_3278830.dat  allas:hiano-project-sample001/sample1/cannel43/aa_3278830.dat
Koska siirrettävää dataa on paljon, lataus Allakseen kestää muutaman päivän ja se täytyy tehdä useassa erässä. Kun Mats kertoo olevansa valmis datan latausten kanssa, Pekka sulkee jaetun ämpärin:
a-access -rw project_2000111 hiano-project-sample001

Näytös 4. Datan käyttäminen tutkimuksessa

Kun data on saatavilla, varsinainen analyysityö alkaa. Tutkimusprojektin aikana aineistoa käyttää useita käyttäjiä. Pekka tietää, että jos kaikki käyttäjät käyttävät dataa täydellä käyttöoikeudella (luku ja kirjoitus), on vaarana, että joku poistaa tai ylikirjoittaa vahingossa osan datasta. Siksi sovitaan, että niin kauan kuin dataa ylläpidetään datanhallintaprojektissa (project_2000444), tutkijat käyttävät sitä HiaNo-tutkimusprojektin (project_2000333) kautta.

Pekka antaa lukuoikeuden ämpäriin hiano-project-sample001 projektille project_2000333 mutta ei kirjoitusoikeutta.

module load allas
allas-conf project_2000444
a-access +r project_2000333 hiano-project-sample001
Xi ja Laura voivat nyt aloittaa työskentelyn datan kanssa. He rekisteröityvät MyCSC-portaalissa, minkä jälkeen Saara, joka on vastuullinen johtaja, lisää heidät CSC-projektiin HiaNo-tutkimusprojekti (project_2000333).

Xin ja Lauran täytyy palata MyCSC:hen ja hyväksyä tutkimusprojektin palvelut. Sen jälkeen he voivat ladata tarvitsemansa tutkimusdatan mihin tahansa ympäristöön, joka pystyy muodostamaan yhteyden Allakseen: Puhtiin, virtuaalikoneeseen cPoudassa tai omalle kannettavalleen. Kun uusia tutkijoita liittyy projektiin, Saara lisää heidät projektiin project_2000333, jotta he voivat käyttää dataa.

Koska datan tallentaminen Allakseen kuluttaa laskutusyksiköitä (BUs), Saaran täytyy tarkistaa saldo MyCSC:stä aika ajoin ja tarvittaessa hakea lisää laskutusyksiköitä (BUs) (80 TB kuluttaa vuodessa 700 800 Storage BU:ta). Onneksi HiaNo on akateeminen tutkimusprojekti, joten Saaran ei tarvitse maksaa laskutusyksiköistä (BUs).

Allas-tallennus on tarkoitettu vain tutkimusprojektin keston ajaksi, mutta Saara ajattelee, että olisi hyödyllistä tehdä alustava data julkisesti saataville ja helpommin löydettäväksi. Tätä tukevat CSC:n tuottamat Fairdata-palvelut.

Pekka luo uuden julkisen käyttöoikeuden ämpärin ja lataa datan ämpäriin. Komento a-publish luo ämpärin ja lataa valitut tiedostot siihen. Parametria -b käytetään ämpärin nimen määrittämiseen, tässä tapauksessa hiano-project-public001.

a-publish -b hiano-project-public001 zz_364872.dat zz_242165.dat
Seuraavaksi Pekka luo datasta perustason kuvauksen Fairdata Qvain -työkalulla ja lisää kaksi URL-osoitetta (yhden kummallekin Allaksessa olevalle tiedostolle) Qvainiin etäresurssina. Tämän jälkeen data voidaan julkaista aineistona, jolla on laskeutumissivu ja pysyvä tunniste. Näin alustavaa dataa voidaan jakaa kollegoiden kesken pysyvän tunnisteen avulla. Aineistoa voidaan myös tarkastella Fairdata Etsin -palvelussa rakenteistetun tiedon ja suoran Allaksessa olevien tiedostojen latausmahdollisuuden kautta.

Näytös 5. Loppu

Neljän vuoden intensiivisen tutkimuksen jälkeen, joka on laajentunut useisiin laitoksiin Suomessa ja ulkomailla, HiaNo-projekti on tuottanut muutamia opinnäytteitä ja monia korkeatasoisia julkaisuja (joissa kaikissa on mainittu CSC:n resurssien käyttö).

Data ei ole enää tällä hetkellä aktiivisessa käytössä. Osa Allakseen tuodusta datasta on julkaistu kansainvälisissä tutkimustietokannoissa. Osa aineistoista on siirretty IDAan, jotta DOI-tunniste ja metadata voidaan liittää dataan ja tehdä siitä muiden tutkijoiden uudelleenkäytettävää. Näitä aineistoja voidaan myös tarkastella Fairdata Etsinissä. Osa datasta voidaan nyt poistaa ja osa jäljellä olevista osista siirtää uuden HiaNo2-projektin ämpäreihin.

Tässä vaiheessa Pekka siivoaa jäljellä olevat dataobjektit Allaksesta, minkä jälkeen Saara ilmoittaa CSC:lle, että projekti voidaan sulkea.

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta