-
Datan kopioiminen Allaksen ja IDAn välillä Puhtin kautta
Datan kopioiminen Altaan ja IDAn välillä Puhdin kautta
Datan kopioiminen Altaasta IDAan Puhdin kautta
Jotta voit kopioida dataa Altaasta IDAan tällä menettelyllä, sinun täytyy olla jäsenenä projektissa, jossa IDA- ja Puhti-palvelut ovat käytössä. Altaan puolella tarvitset vähintään lukuoikeuden dataan. Sinun täytyy joko olla jäsenenä projektissa, jossa Allas-palvelu on käytössä, tai kyseisen datan täytyy olla saatavilla ladattavaksi Altaasta. Huomaa, että Altaan, Puhdin ja IDAn projektien ei tarvitse olla samoja.
Lyhyesti sanottuna vaiheita on neljä:
- Lataa data Altaasta Puhdin scratch-levylle
- Järjestele data scratch-levyllä uudelleen
- Lataa data palveluun IDA
- Siivoa Puhdin scratch-levy
Note
IDAssa olevan datan tulee olla kuvattuna tutkimusaineistoina Fairdata- palveluissa. Katso lisätietoja täältä.
Vaihe 1. Lataa data Altaasta Puhdin scratchiin
Puhdin scratch-levyaluetta suositellaan, koska se on oletuksena paljon suurempi kuin muut alueet, esimerkiksi käyttäjän kotihakemisto. Voit myös pyytää vielä suuremman scratch-kiintiön, jos oletuskiintiö ei riitä. Puhdissa voit näyttää käytettävissä olevat levyalueet ja niiden käytön komennolla:
Lisätietoja Puhdin levyalueista on sivulla Suurteholaskennan levyalueet.
Luo esimerkiksi uusi hakemisto copydir dataa varten projektin project_2000013
scratch-alueelle (korvaa tämä omalla projektitunnuksellasi):
Lataa data Altaasta tähän uuteen hakemistoon. Käytä samaa protokollaa, jota käytettiin datan alkuperäiseen lataamiseen Altaaseen. Jos data ladattiin Altaaseen komentorivityökaluilla, käytä mielellään myös samaa komentorivikäyttöliittymän työkalua. Lisätietoja Altaan työkaluista Puhdissa on sivulla Altaan käyttö CSC:n laskentaympäristössä ja muilla Linux-alustoilla.
Esimerkissämme data ladattiin alun perin Altaaseen a-komennoilla, joten
käyttäjä käyttää a-get-komentoa datan lataamiseen:
module load allas
allas-conf
cd /scratch/project_2000013/copydir
a-get 2000013-wrk-bucket/working_data.tar.zst
a-get-komento lataa datan ja purkaa sen copydir-hakemistoon.
Vaihe 2. Järjestele data scratch-alueella uudelleen
Tämä on tärkeä vaihe kopioitaessa dataa Altaasta IDAan. Sinun kannattaa kopioida vain sellaista dataa, joka on riittävän tärkeää kuvattavaksi aineistona Fairdata-palveluissa. Lisäksi tässä vaiheessa kannattaa miettiä, millainen hakemistorakenne olisi aineistoille hyvä, ja järjestellä data Puhdin hakemistossa sen mukaisesti. Huomaa, että IDAssa et voi jäädyttää (muuttaa vakaan tutkimusdatan muuttumattomaan tilaan) yli 5000 tiedostoa kerralla. Nyrkkisääntönä yhdessä hakemistossa pitäisi siis olla enintään tämä määrä tiedostoja.
Jos aiot sisällyttää joitakin tiedostoja useampaan kuin yhteen aineistoon, älä tee tiedostoista kopioita – IDA-tiedostot voivat kuulua useisiin aineistoihin.
Esimerkissämme projekti päättää, että on järkevää muodostaa kaksi erillistä
aineistoa, joten data järjestellään uudelleen kahteen hakemistoon,
experiment_a ja survey_2021.
Vaihe 3. Lataa data palveluun IDA
Sinun kannattaa kopioida vain sellaista dataa, joka on riittävän tärkeää kuvattavaksi aineistoina Fairdata-palveluissa. Lisäksi datan tulisi olla jo järjesteltynä hakemistorakenteeseen, joka sopii aineistoille.
Voit ladata datan palveluun IDAn komentorivityökalulla, jonka syntaksi on:
Jatketaan esimerkkiä lataamalla molemmat hakemistot (experiment_a ja
survey_2021) IDA-projektiin 2000002:
module load ida
cd /scratch/project_2000013/copydir
ida upload -p 2000002 experiment_a experiment_a
ida upload -p 2000002 survey_2021 survey_2021
Lisää esimerkkejä löytyy IDAn komentorivityökalun GitHub-repositoriosta.
Jos käyttäjä on jo määrittänyt IDAn komentorivityökalun asetukset, latauskomento käyttää kyseistä määritystä. Muussa tapauksessa latauskomento pyytää käyttäjää antamaan IDA-käyttäjätunnuksensa ja salasanansa. Katso yksityiskohtaiset ohjeet täältä.
Vaihe 4. Siivoa Puhdin scratch
Jos sinun ei tarvitse jatkaa datan käsittelyä Puhdissa sen jälkeen, kun olet ladannut sen palveluun IDA, poista se Puhdin scratch-levyalueelta vapauttaaksesi levytilaa.
Datan kopioiminen IDAsta Altaaseen Puhdin kautta
Jotta voit kopioida dataa IDAsta Altaaseen, sinun täytyy olla jäsenenä projektissa, jossa Allas- ja Puhti-palvelut ovat käytössä. IDAn puolella sinun täytyy joko olla jäsenenä projektissa, jossa IDA-palvelu on käytössä, tai kyseisen datan täytyy olla julkisesti saatavilla ladattavaksi. Huomaa, että Altaan, Puhdin ja IDAn projektien ei tarvitse olla samoja.
Automaattinen kopiointi ida2allas-työkalulla
Jos haluat siirtää kokonaisen hakemiston IDAsta Altaan objektitallennuspalveluun ilman muutoksia tai uudelleenjärjestelyjä, voit käyttää komentorivityökalua ida2allas. Tämä työkalu on saatavilla CSC:n Puhti-palvelimella.
1. Yhdistä Puhtiin
Suosittelemme, että suoritat datansiirtoprosessin jollakin Puhdin kirjautumissolmuista. (Kirjautumissolmuja voidaan käyttää tässä tapauksessa, koska datansiirtoprosessi ei ole laskennallisesti raskas.) Helpoin tapa avata kirjautumissolmuistunto Puhdissa on käyttää Puhdin WWW-käyttöliittymää:
Selainkäyttöliittymässä valitse Tools-valikosta Login node shell. Tämä avaa pääteistunnon, jossa voit muodostaa yhteydet IDAan ja Altaaseen ja jossa voit suorittaa datansiirtoprosessin.
2. Yhteyksien muodostaminen
Avaa ensin Allas-yhteys S3-protokollalla seuraavilla komennoilla:
allas-conf-komento pyytää sinua antamaan CSC-salasanasi. Haka-salasanaa ei hyväksytä. Sen jälkeen valitset Allas-projektin, johon data kopioidaan.
Muodosta seuraavaksi IDA-yhteys komennoilla:
Määritysprosessi pyytää IDA-projektinumeroasi ja sovellussalasanaa, jonka
saat IDAn selainkäyttöliittymästä.
Jos sinulla on jo toimiva IDA-yhteys määritettynä, voit valita, ettet korvaa
.ida-config- ja .netrc-tiedostoja. Tällöin sinun ei tarvitse hakea uutta
IDA-avainta selainkäyttöliittymästä.
3. Datansiirto
Datansiirto käynnistetään komennolla:
Ohjelma kysyy ensin, haetaanko data IDAn staging-alueelta vai jäädytetyltä alueelta.
Sen jälkeen ohjelma listaa valitun IDA-alueen kansiot ja pyytää sinua valitsemaan siirrettävän kansion.
Lopuksi ohjelma listaa Altaan ämpärit (tallennuskansiot) ja pyytää sinua valitsemaan sen, johon haluat siirtää datan. Voit myös luoda uuden ämpärin. Älä käytä ämpärin nimessä isoja kirjaimia, välilyöntejä tai erikoismerkkejä. Huomaa lisäksi, että ämpärien nimien on oltava yksilöllisiä kaikkiin Allas-projekteihin nähden. Siksi on hyvä käytäntö lisätä ämpärin nimeen jokin projektikohtainen osa.
Suurissa (yli 100 GiB) datansiirroissa voit käynnistää siirron komennoilla:
Yllä olevassa esimerkissä screen-komento käynnistää virtuaalisen pääteistunnon, jossa ida2allas-komento jatkaa toimintaansa, vaikka yhteys Puhtiin katkeaisi.
Manuaalinen datansiirto IDAsta Altaaseen
Jos et halua kopioida kokonaista IDA-hakemistoa Altaaseen tai jos haluat järjestellä datan uudelleen, sinun täytyy tehdä datansiirto neljässä vaiheessa:
- Lataa data IDAsta Puhdin scratch-levylle
- Järjestele data scratch-levyllä uudelleen tarvittaessa
- Lataa data Altaaseen
- Siivoa Puhdin scratch-levy
Vaihe 1. Lataa data IDAsta Puhdin scratchiin
Puhdin scratch-levyaluetta suositellaan, koska se on oletuksena paljon suurempi kuin muut alueet, esimerkiksi käyttäjän kotihakemisto. Voit myös pyytää vielä suuremman scratch-kiintiön, jos oletuskiintiö ei riitä. Lisätietoja Puhdin levyalueista on sivulla Suurteholaskennan levyalueet.
Luo esimerkiksi uusi hakemisto xferdir dataa varten projektin project_2000012
scratch-alueelle (korvaa tämä omalla projektitunnuksellasi):
Jos IDAsta ladattava data on projektissa, johon käyttäjä kuuluu, datan lataaminen IDAsta voidaan tehdä IDAn komentorivityökalulla:
Jatketaan esimerkkiä: jos IDAssa oleva data on projektin 2000001 hakemistossa
testi, Puhdissa suoritettavat latauskomennot ovat:
ida download -komennon viimeinen argumentti on tiedostonimi, joka datalle
annetaan Puhdissa. Koska tässä tapauksessa ladataan hakemisto, se ladataan
zip-pakettina. Jos käyttäjä on käyttänyt ja määrittänyt IDAn
komentorivityökalun aiemmin, latauskomento käyttää kyseistä määritystä. Muussa
tapauksessa latauskomento pyytää käyttäjää antamaan IDA-käyttäjätunnuksensa ja
salasanansa.
Katso yksityiskohtaiset ohjeet täältä.
Jos IDAsta ladattava data on Fairdata Etsimessä näkyvä julkaistu avoin aineisto, sen lataaminen vaatii kaksi vaihetta: latauskomennon paikantamisen ja kopioimisen Etsimestä sekä sitten aineiston lataamisen. Etsimen latauspainikkeessa on vaihtoehto näyttää latauskomentoja muutamille komentorivityökaluille.
Jatketaan taas esimerkkiä: käyttäjä valitsee Etsimessä aineistohakemiston ladattavaksi. Hetken kuluttua zip-paketti on valmis, ja Etsin näyttää latauspainikkeen:

Käyttäjä napsauttaa latauspainikkeen valikkovaihtoehtoa nähdäkseen komentorivivaihtoehdot:

Käyttäjä voisi sitten esimerkiksi kopioida curl-komennon ja suorittaa sen
Puhdissa:
cd /scratch/project_2000012/xferdir
curl -fOJ "https://ida191.csc.fi:4430/download?token=18f6e5b7edae4f12a8a654ea22d57aa9.PA0p5PMqnzvgcXAU0Lw9SuVcyoQGgV8Ugnk3GEppU0b4UUhGWRLP8FRHB2MvyUTjPA0p5PMqnzvgcXAU0Lw9SuVcyoQGgV8Ugnk3GEppU0b4UUhGWRLP8FRHB2MvyUTjPA0p5PMqnzvgcXAU0Lw9SuVcyoQGgV8Ugnk3G_e3668097e34d437484e15d53624e7905=76679a7a-367c-474f-9e8c-c3869a106e2f_ehr3hd76&package=76679a7a-367c-474f-9e8c-c3869a106e2f_ehr3hd76.zip"
Vaihe 2. Järjestele data scratch-alueella uudelleen tarvittaessa
Jos haluat järjestellä dataa uudelleen tai poistaa siitä osia, voit tehdä sen scratch-levyllä ennen kuin lataat datan Altaaseen.
Jatketaan esimerkkiä: kun data on ladattu projektin scratch-alueelle nimellä
testi.zip (tai avoimen aineiston tapauksessa nimellä
76679a7a-367c-474f-9e8c-c3869a106e2f_ehr3hd76.zip), paketti voidaan purkaa
yksinkertaisesti unzipillä:
Vaihe 3. Lataa data Altaaseen
Helpoin tapa ladata data Altaaseen on käyttää a-put-komentoa. a-put
lataa hakemiston yhtenä arkistoituna objektina Altaaseen. Se tarvitsee
riittävästi tilaa työhakemistossa luodakseen ladattavan arkiston, joten nykyisen
työhakemiston tulisi olla scratch-levyllä. a-put-komennon perussyntaksi on:
Lisätietoja Altaan työkaluista Puhdissa on sivulla Altaan käyttö CSC:n laskentaympäristössä ja muilla Linux-alustoilla.
Jatketaan esimerkkiä olettaen, että Altaaseen ladattava purettu data on
hakemistossa experiment_data; sen voi ladata a-put-komennolla näin:
Vaihe 4. Siivoa Puhdin scratch
Jos sinun ei tarvitse jatkaa datan käsittelyä Puhdissa sen jälkeen, kun olet ladannut sen Altaaseen, poista se Puhdin scratch-levyalueelta vapauttaaksesi levytilaa.