-
Datan valmistelu Roihua varten: Datanhallinta ja väliaikaiset tallennusvaihtoehdot
Datan valmistelu Roihua varten: Datanhallinta ja väliaikaiset tallennusvaihtoehdot
Roihun aikataulu
Roihu ei ole vielä käytettävissä, eikä sitä voi vielä lisätä palveluksi MyCSC:ssä.
Tavoitteena on, että Roihu on yleisesti saatavilla kesäkuun 2026 loppuun mennessä.
Mahdin ja Puhdin tallennuspalvelut suljetaan elokuun 2026 lopussa.
Tämä ohje auttaa sinua valmistelemaan datasi siirtymää varten Mahdista ja Puhdista Roihuun. Tärkein suositus on suunnitella siirto etukäteen, arvioida mitä dataa sinun täytyy säilyttää, ja siirtää aktiivisesti käytössä oleva data suoraan Mahdista tai Puhdista Roihuun sen jälkeen, kun Roihu on saatavilla.
Suora siirto Mahdista/Puhdista Roihuun
Alustavat ohjeet datan suoraan siirtämiseen Mahdista tai Puhdista Roihuun ovat saatavilla Roihun datansiirto-oppaassa.
Käytä suoran siirron opasta ensisijaisena siirto-ohjeena sen jälkeen, kun Roihu on saatavilla.
Jos tutkimusryhmäsi ei voi odottaa siihen asti, että Roihu on saatavilla, voit harkita Allaksen tai LUMI-O:n käyttöä väliaikaisena tallennuspalveluna datasi säilyttämiseen.
Allaksen tai LUMI-O:n käyttö voi olla tarkoituksenmukaista esimerkiksi silloin, jos projektin avainhenkilöt eivät ole käytettävissä Roihun yleisen saatavuuden ja Mahdin sekä Puhdin tallennuspalvelinten sulkemisen välisenä aikana.
Toinen mahdollinen syy käyttää Allasta tai LUMI-O:ta väliaikaisesti on se, että Roihun oletustallennuskiintiöt ovat pienemmät kuin Mahdissa ja Puhdissa. Jos datasi ei mahdu oletuskiintiöihin, käy ensin data läpi ja siivoa sitä, ja harkitse sen jälkeen tarvitsetko projektillesi kiintiön kasvattamista Roihussa. Katso CSC:n dokumentaatiosta lisää levykiintiötä hakeminen.
Roihun oletuslevykiintiöt ovat:
| Kapasiteetti | Tiedostojen määrä | |
|---|---|---|
| home | 15 GiB | 150 000 tiedostoa |
| projappl | 15 GiB | 150 000 tiedostoa |
| scratch | 250 GiB | 500 000 tiedostoa |
Suositellut väliaikaiset tallennusvaihtoehdot ovat:
- A: Allas, jos CSC-projektillasi on siellä riittävästi vapaata Allas-kiintiötä
- B: LUMI-O, jos sinulla on projekti, jolla on pääsy LUMI-O:hon, ja siellä riittävästi vapaata tallennuskiintiötä
Kun Roihu tulee saataville, voit kopioida datan Allaksesta tai LUMI-O:sta Roihuun.
Käytä Allasta tai LUMI-O:ta vain, jos se on ehdottoman tarpeellista
Ensisijaisen toimintatapasi datan siirrossa Mahdista ja Puhdista Roihuun tulisi olla suora kopiointi koneelta toiselle. Käytä Allasta tai LUMI-O:ta vain, jos et pysty tekemään datan siirtoa Roihun saataville tulon ja Mahdin/Puhdin tallennuspalveluiden sulkemisen välisenä aikana.
Rajallinen kapasiteetti Allaksessa
Allaksen kapasiteetti on loppumassa. Käytä Allasta vain, jos projektillasi on siellä jo olemassa oleva kiintiö. Älä hae projektiisi uutta Allas-kiintiötä, jos tarvitset oliotallennusta. Hae sen sijaan käyttöoikeutta LUMI-O:hon.
Katso alla olevasta lyhyestä esityksestä ohjeet LUMI-O-projektin hakemiseen.
Katso CSC:n lyhyt esitys aiheista oliotallennuksen käyttö ja LUMI-O-projektin hakeminen, tarvittaessa:
Suositeltu siirtosuunnitelma
- Käy data läpi ja siivoa se nyt. Päätä, mitä täytyy säilyttää, mitä voidaan poistaa ja mitä kannattaa rakentaa tai tuottaa uudelleen Roihussa.
- Suunnittele, minne data sijoitetaan Roihussa. Vain data, jota käsittelet aktiivisesti, kannattaa siirtää suoraan Roihun työlevyalueille.
- Siirrä data suoraan Mahdista tai Puhdista Roihuun, kun Roihu on saatavilla. Yksityiskohtainen opas suorille siirroille julkaistaan Roihun saataville tulon jälkeen, mutta voit jo tutustua oppaan keskeneräiseen versioon.
- Käytä Allasta tai LUMI-O:ta vain, jos suora siirto ei ole ajoissa mahdollinen. Näitä palveluita voidaan käyttää väliaikaisena tallennuksena, jos et pysty tekemään siirtoa Roihun yleisen saatavuuden ja Mahdin/Puhdin tallennuspalveluiden sulkemisen välisenä aikana.
- Varmista kopioitu data ennen kuin poistat mitään. Säilytä alkuperäinen data Mahdissa tai Puhdissa, kunnes siirto on täysin valmis ja varmistettu.
Milloin tässä ohjeessa olevia Allas- tai LUMI-O-ohjeita kannattaa käyttää?
Käytä Allas- tai LUMI-O-ohjeita, jos:
- sinulla on Mahdissa tai Puhdissa dataa, joka täytyy säilyttää ennen kuin tallennuspalvelimet suljetaan (elokuun 2026 loppu)
- et voi odottaa siihen asti, että Roihu on yleisesti saatavilla ennen siirron aloittamista (kesäkuun 2026 loppu), tai et ehdi tehdä suoraa siirtoa Roihuun ennen Mahdin/Puhdin tallennuspalveluiden sulkemista
- tarvitset väliaikaista oliotallennusta siirtymäkaudelle
Älä käytä Allas- tai LUMI-O-ohjeita siihen, että siirrät automaattisesti kaiken Allakseen tai LUMI-O:hon. Ennen datan siirtämistä käy läpi, mitä todella tarvitset säilyttää.
Ennen kuin aloitat
1. Siivoa datasi
Siirrä vain data, jota edelleen tarvitset. Vältä erityisesti seuraavien siirtämistä:
- väliaikaiset tiedostot
- välimuistihakemistot
- välitulokset, jotka voidaan laskea uudelleen
- vanhat lokitiedostot
- tarpeettomat checkpoint-tiedostot
- päällekkäiset aineistot
- ohjelmistoasennukset ja suoritettavat tiedostot, jotka tulisi rakentaa uudelleen Roihussa
Suurten hakemistojen kohdalla tarkista datan määrä ennen siirtoa. CSC:n supertietokoneilla kannattaa suosia levynkäytön tarkistamiseen tarkoitettuja työkaluja (esim. LUE) sen sijaan, että suorittaisit raskaita rekursiivisia komentoja suurissa hakemistopuissa.
Hakemiston levytilan käytön tarkistaminen
Suosittelemme käyttämään LUE-työkalua sen tunnistamiseen, missä sinulla on paljon dataa.
Vältä työkalujen kuten du käyttöä, sillä ne voivat kuormittaa tiedostojärjestelmää paljon.
Yksinkertainen käyttöesimerkki (suorita lue -h nähdäksesi muut vaihtoehdot):
2. Valitse kohdetallennuspalvelu
Valitse Allas, jos:
- CSC-projektillasi on jo pääsy Allakseen
- datan määrä on kohtuullinen (muutama teratavu)
- projektillasi on riittävästi vapaata Allas-kiintiötä
Valitse LUMI-O, jos:
- sinulla on projekti, jolla on pääsy LUMI-O:hon
- tarvitset oliotallennusta suuremmalle datamäärälle (> 10 TB)
- ryhmäsi käyttää jo LUMIa tai voi hakea siihen sopivaa käyttöoikeutta
Allas ja LUMI-O ovat oliotallennuspalveluita. Ne ovat hyödyllisiä datan säilyttämiseen ja siirtämiseen Roihuun siirtymisen aikana, mutta ne eivät korvaa /scratch- tai /projappl-hakemistoja.
Oliotallennus toimii parhaiten datalle, joka voidaan ladata palveluun ja sieltä pois kokonaisina tiedostoina tai arkistopaketteina. Se ei sovellu kokonaisten ohjelmistoasennusten säilyttämiseen eikä työskentelyyn suurilla määrillä usein muuttuvia pieniä tiedostoja.
3. Harkitse monien pienten tiedostojen pakkaamista
Jos sinulla on paljon pieniä tiedostoja, niiden siirtäminen ja käyttäminen oliotallennuspalvelussa yksitellen voi olla hidasta ja tehotonta. Harkitse arkistotiedostojen luomista ennen lataamista.
Esimerkiksi dataset/-hakemiston pakkaaminen hakemistossa /scratch/project_2000000/mydata:
Siirrä sitten arkistotiedosto koko hakemistopuun sijaan.
Myöhemmin, kun kopioit datan takaisin esimerkiksi Roihuun, pura arkisto siellä komennolla:
Säilytä alkuperäinen hakemisto, kunnes olet varmistanut, että ladattu arkisto voidaan hakea ja purkaa onnistuneesti.
Vaihtoehto A: Siirrä dataa Puhdista tai Mahdista Allakseen
Käytä Allasta, jos projektillasi on siellä jo olemassa oleva Allas-kiintiö.
Jos ainoa tarkoituksesi on säilyttää dataa Allaksessa Roihuun siirtämisen väliaikana, poista se Allaksesta viipymättä sen jälkeen, kun olet siirtänyt datan Roihuun ja varmistanut kopion.
1. Kirjaudu Puhdille tai Mahdille
Kirjaudu järjestelmään, jossa datasi tällä hetkellä sijaitsee. Esimerkiksi Puhdille:
2. Määritä Allas-yhteys
Lataa Allas-moduuli ja määritä yhteys siten, että S3 on käytössä:
Kirjoita CSC-salasanasi pyydettäessä.
Komennolla voi kestää hetki muodostaa yhteys Allakseen ja käsitellä kaikki tiedot, joten odota rauhassa.
Tämä määrittää Allas-yhteyden valitulle CSC-projektille. Kun S3-tila on käytössä, tässä ohjeessa käytettävä rclone-etäpääte on:
3. Luo ämpäri
Tarkista projektin olemassa olevat ämpärit:
Luo uusi ämpäri valitsemalla nimi, joka sisältää projektinumerosi tai muun projektikohtaisen tunnisteen. Ämpärien nimien on oltava yksilöllisiä.
Esimerkki (korvaa project-2000000 omalla projektitunnuksellasi):
Yksilöllisen tunnisteen luominen
Yllä olevassa esimerkissä ämpäri luodaan nimellä
project-2000000-roihu-transfer-${USER}. Tämä lisää ämpärin nimeen käyttäjätunnuksesi loppuliitteeksi, mikä on hyvä tapa
erottaa oma ämpärisi niistä ämpäreistä,
joita muut projektin käyttäjät saattavat luoda.
${USER} on ympäristömuuttuja, eikä sinun tarvitse
korvata sitä ohjeen komennoissa, jos haluat käyttää käyttäjätunnustasi
ämpärin yksilöllisenä tunnisteena.
4. Kopioi data Allakseen
Yksittäisen tiedoston kopiointi:
Hakemiston kopiointi:
rclone copy -P /scratch/project_2000000/mydata s3allas:project-2000000-roihu-transfer-${USER}/mydata
Käytä ensimmäisessä siirrossa copy-komentoa move-komennon sijaan. Näin alkuperäinen data säilyy Mahdissa tai Puhdissa, kunnes olet varmistanut, että lataus onnistui.
5. Tarkista ladattu data
Listaa ämpärin sisältö:
Yksityiskohtaisempi listaus:
Voit myös verrata lähdettä ja kohdetta:
Suurissa siirroissa kannattaa kirjoittaa tuloste lokitiedostoon:
rclone copy /scratch/project_2000000/mydata s3allas:project-2000000-roihu-transfer-${USER}/mydata \
--progress \
--log-file roihu-transfer-to-allas.log
6. Datan lataaminen myöhemmin Allaksesta Roihuun
Kun Roihu on saatavilla, kirjaudu Roihuun ja määritä yhteys siihen oliotallennuspalveluun, jossa datasi sijaitsee, noudattaen ohjeita, jotka annetaan Allaksen käytöstä CSC:n supertietokoneissa kertovassa ohjeessa. Toimintatapa on hyvin samanlainen kuin Mahdissa ja Puhdissa.
Kopioi sitten data oliotallennuksesta sopivalle Roihun levyalueelle.
Roihussa voit tarkistaa, mitä projektisi käytettävissä olevia ämpäreitä Allaksessa on komennolla rclone lsd:
[kkayttaj@roihu-cpu-login2 kkayttaj]$ rclone lsd s3allas:
3268222761 2020-10-03 10:01:42 8 2000000-genomes
2576778428 2020-10-03 10:01:42 4 2000000-mahti-SCRATCH
Kopioi sopiva data hakemistoosi Roihussa:
rclone copy -P s3allas:project-2000000-roihu-transfer-${USER}/mydata /scratch/project_2000000/mydata
Varmista siirto datan kopioinnin jälkeen:
Jos latasit pakattuja arkistotiedostoja, pura ne vasta sen jälkeen, kun olet varmistanut, että arkisto siirtyi onnistuneesti:
7. Poista data Allaksesta siirron jälkeen
Kun data on kopioitu Roihuun ja varmistettu, poista väliaikainen kopio Allaksesta, jos sitä ei enää tarvita.
Ole varovainen: poistokomennot poistavat dataa Allaksesta. Älä suorita niitä ennen kuin olet varmistanut, että data on olemassa lopullisessa sijainnissaan.
Yhden objektin poistaminen:
Kaikkien tietyn etuliitteen alla olevien objektien poistaminen:
Tarkista, että ämpäri on tyhjä:
Poista lopuksi käyttämäsi tyhjä ämpäri:
Vaihtoehto B: Siirrä dataa Puhdista tai Mahdista LUMI-O:hon
Jos sinulla on olemassa oleva käyttäjätili ja projekti LUMIssa, voit harkita LUMI-O:ta väliaikaisena tallennuspalveluna.
Samat yleiset säännöt pätevät kuin Allaksen kanssa. Älä siirrä kaikkea harkitsematta LUMI-O:hon. Käy huolellisesti läpi, mitä todella tarvitset säilyttää, ja poista tarpeettomat tiedostot ennen siirtoa. Jos tarvitset vain väliaikaista tallennusta Roihuun siirtymisen aikana, poista tiedostot LUMI-O:sta sen jälkeen, kun olet kopioinut ne Roihuun ja varmistanut ne siellä.
1. Luo rclone-asetus datan kopioimiseksi suoraan Mahdista tai Puhdista LUMI-O:hon
Ensin tarvitset tunnistetiedot LUMI-O:ta varten sekä käyttöavaimen projektiisi.
Oliotallennukseen liittyvät työkalut alustetaan Puhdissa ja Mahdissa komennolla:
Yhteydet LUMI-O:hon määritetään komennolla:Määritysprosessi pyytää sinua kirjautumaan osoitteeseen https://auth.lumidata.eu, jossa voit luoda käyttöavainparin LUMI-projektiisi ( ohjeet avainten luomiseen ).
Voit sitten kopioida projektinumeron, käyttöavaimen ja salaisen avaimen määritysprosessiin Puhdissa tai Mahdissa.
Määritysprosessi luo neljä uutta rclone-etäpäätä:
- lumi-o: ja lumi-proj-number-private: viittaavat LUMI-O-projektin ei-julkiseen alueeseen
- lumi-pub: ja lumi-proj-number-public: LUMI-O-projektin julkiseen alueeseen.
Käytä normaaliin datansiirtoon private-etäpäitä. Älä käytä julkista etäpäätä, ellei data ole tarkoituksella julkista.
a-komentojen tapauksessa voit lisätä komentoon valinnan --lumi, jotta käytetään LUMI-O:ta. Esimerkiksi:
Huomaa, että Lumi-O-avaimilla on voimassaoloaika, joka määritellään tunnistautumiskäyttöliittymässä. Siksi yhteysmääritys voi olla tarpeen päivittää aika ajoin.
2. Luo ämpäri datallesi
Ennen datan kopioimista LUMI-O:hon luo siirtoa varten ämpäri.
Mahdin/Puhdin terminaalissa:
Varmista, että ämpäri näkyy listaamalla projektisi olemassa olevat ämpärit:
Korvaa 46500XXXX omalla LUMI-projektitunnuksellasi.
Yksilöllisen tunnisteen luominen
Yllä olevassa esimerkissä ämpäri luodaan nimellä
roihu-transfer-${USER}. Tämä lisää ämpärin nimeen käyttäjätunnuksesi loppuliitteeksi, mikä on hyvä tapa
erottaa oma ämpärisi niistä ämpäreistä,
joita muut projektin käyttäjät saattavat luoda.
${USER} on ympäristömuuttuja, eikä sinun tarvitse
korvata sitä ohjeen komennoissa, jos haluat käyttää käyttäjätunnustasi
ämpärin yksilöllisenä tunnisteena.
3. Kopioi data LUMI-O:hon
Nyt olet valmis siirtämään dataa LUMI-O:hon.
Mahdissa/Puhdissa:
Yksittäisen tiedoston kopiointi:
Hakemiston kopiointi:
Suurissa siirroissa suorita komento tmux- tai screen-istunnossa ja kirjoita lokitiedosto:
rclone copy /scratch/project_2000000/mydata lumi-46500XXXX-private:roihu-transfer-${USER}/mydata \
--progress \
--log-file roihu-transfer-to-lumio.log
4. Varmista ladattu data
Listaa ladattu data:
Vertaa lähdehakemistoa ja ladattua kopiota:
Suurille aineistoille tallenna varmennuksen tuloste lokitiedostoon:
rclone check /scratch/project_2000000/mydata lumi-46500XXXX-private:roihu-transfer-${USER}/mydata \
--log-file roihu-transfer-lumio-check.log
5. Kopioi data myöhemmin takaisin LUMI-O:sta
Kun Roihu on saatavilla, määritä LUMI-O-yhteys Roihussa ja kopioi data LUMI-O:sta sopivalle Roihun levyalueelle.
Esimerkki:
Varmista kopioitu data:
Jos latasit pakattuja arkistotiedostoja, tarkista ja pura ne vasta sen jälkeen, kun olet varmistanut, että arkisto siirtyi onnistuneesti.
7. Poista data LUMI-O:sta siirron jälkeen
Kun data on kopioitu Roihuun ja varmistettu, poista väliaikainen kopio LUMI-O:sta, jos sitä ei enää tarvita.
Yhden objektin poistaminen:
Kaikkien tietyn etuliitteen alla olevien objektien poistaminen:
Tyhjän ämpärin poistaminen:
Pitkien siirtojen turvallinen suorittaminen
Suuret siirrot voivat kestää pitkään. Älä suorita niitä tavallisessa SSH-istunnossa ilman suojausta, koska siirto voi keskeytyä, jos yhteys katkeaa.
Käytä esimerkiksi screen- tai tmux-istuntoa Puhdissa/Mahdissa:
Käynnistä siirto tmux-istunnon sisällä. Voit irrottautua istunnosta komennolla:
Myöhemmin voit yhdistää takaisin komennolla:
Jos siirto keskeytyy, voit turvallisesti suorittaa saman rclone copy -komennon uudelleen.
rclone copy ohittaa tiedostot, jotka ovat jo olemassa kohteessa, ja jatkaa puuttuvien tai muuttuneiden tiedostojen kopiointia.
Tärkeitä huomioita
Älä poista alkuperäistä dataa liian aikaisin
Säilytä alkuperäinen data Mahdissa tai Puhdissa, kunnes:
- lataus on valmistunut
- ladattu data on tarkistettu
- dataa ei enää tarvita Mahdissa tai Puhdissa
Ole varovainen rclone sync -komennon kanssa
rclone sync saa kohteen vastaamaan lähdettä. Tämä tarkoittaa, että se voi poistaa tiedostoja kohteesta. Käytä rclone copy -komentoa, ellet ole varma, että synkronointia tarvitaan.
Jos käytät sync-komentoa, tee ensin kuivaharjoittelu:
rclone sync /scratch/project_2000000/mydata s3allas:project-2000000-roihu-transfer-${USER}/mydata --dry-run
Oliotallennus ei ole työhakemisto
Allas ja LUMI-O soveltuvat datan säilyttämiseen, välivarastointiin, jakamiseen ja siirtämiseen. Ne eivät korvaa supertietokoneen scratch- tai projektihakemistoja.
Älä koskaan suorita sovelluksia suoraan oliotallennusta vasten ikään kuin se olisi tavallinen tiedostojärjestelmä.
Suojaa sensitiivinen data
Älä lataa sensitiivinen dataa, elleivät tallennuspalvelu ja projektisi datanhallintasuunnitelma sitä salli. Tarvittaessa salaa data ennen lataamista.
Dokumentoi, mitä siirrettiin
Hyvien käytäntöjen mukaisesti luo pieni README-tiedosto ja lataa se datan mukana Allakseen/LUMI-O:hon. Esimerkiksi:
Dataset: Example simulation outputs
Original location: /scratch/project_2000000/example
Source system: Puhti
Uploaded by: <name>
Upload date: YYYY-MM-DD
Temporary storage: Allas bucket project-2000000-roihu-transfer-<my-username>
Intended destination: Roihu /scratch/project_2000000/example
Notes:
Lataa README:
tai: