Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Johdanto Allas-tallennuspalveluun

Mikä Allas on?

Allas on CSC:n yleiskäyttöinen tutkimusdatan tallennuspalvelu. Se on osa CSC:n tallennuspalveluvalikoimaa, ja sitä voi käyttää CSC:n palvelimilla sekä mistä tahansa internetin kautta. Allasta voidaan käyttää sekä staattisen tutkimusdatan säilyttämiseen analysointia varten että kertyvän tai muuttuvan datan keräämiseen ja ylläpitoon. Datan tuominen Altaaseen edellyttää CSC-projektia. Allasta voidaan käyttää datan säilyttämiseen niin kauan kuin CSC-projekti on aktiivinen.

Teknisestä näkökulmasta Allas on moderni objektitallennusjärjestelmä. Se tarjoaa S3- ja Swift-rajapinnat CEPH-tallennuksen päällä. Käytännössä tämä tarkoittaa, että tiedostojen sijaan data tallennetaan objekteina ämpäreihin. Ämpäri on objektien säiliö, joka voi sisältää myös ämpäriä kuvaavaa metadataa.

Tallennetut objektit voivat olla mitä tahansa datatyyppiä, kuten kuvia tai pakattuja datatiedostoja. Yleisesti ottaen objektit muistuttavat tiedostoja. Objektitallennusta voidaan käyttää moniin eri tarkoituksiin. Sillä on etuja mutta myös rajoituksia.

Edut

  • Objektitallennus pystyy käsittelemään käytännössä mitä tahansa staattista dataa.
  • Dataan pääsee käsiksi mistä tahansa.
  • Datalle voidaan määrittää eri tasoisia käyttöoikeuksia.
  • Datalle voidaan asettaa elinkaarikäytäntö.
  • Voit käyttää Allasta miltä tahansa internetiin yhdistetyltä koneelta tai palvelimelta. Tämä voi olla kannettava tietokoneesi, CSC:n supertietokone, pilvessä oleva virtuaalikone tai jopa puhelimesi.

Rajoitukset

  • Objektitallennuksen käyttöön tarvitaan erityisiä työkaluja. Objektitallennusta ei voi liittää kunnolla paikallislevyn kaltaiseen käyttöön. Tähän on olemassa joitakin työkaluja, mutta niillä on omat rajoituksensa. Esimerkiksi svfs:ää voidaan käyttää Swiftin liittämiseen tiedostojärjestelmäksi, mutta se käyttää FUSE:a, joka on hidas.
  • Se ei sovellu tiedostoille, jotka muuttuvat jatkuvasti elinkaarensa aikana (esim. useimmat SQL-tietokannat).
  • Dataa ei voi muokata sen ollessa Altaassa. Se täytyy ladata palvelimelle käsittelyä varten, ja aiempi versio korvataan uudella.
  • Swift-protokollaa käytettäessä yli 5 GB:n tiedostot jaetaan pienempiin osiin. Tavallisesti tämä tehdään automaattisesti palveluun lataamisen aikana. Katso Yli 5 GB:n tiedostot.

Katso myös yleiset käyttötapaukset.

Järjestelmän ominaisuudet

Altaassa objektit tallennetaan ämpäreihin. Ämpäri on dataobjektien säiliö. Ämpäreitä ei pidä sekoittaa dockereihin tai muihin laskentakontteihin. Ämpäri toimii samankaltaisesti kuin tiedostojärjestelmän hakemisto, paitsi että tasoja voi olla vain yksi, eli ämpärit eivät voi sisältää muita ämpäreitä.

Allas projects and buckets Kuva Datarakenne Altaassa

Eri tapoja käyttää Allasta

Allasta voi käyttää CSC:n laskentaympäristöstä tai miltä tahansa muulta internetiin yhdistetyltä kannettavalta tietokoneelta tai palvelimelta. Allaksen käyttöön on monia työkaluja:

Allas access clients

  • Selainkäyttöliittymät
  • Komentorivityökalut
  • Graafiset paikallisesti asennetut työkalut
  • Muut työkalut: Python- ja R-kirjastot jne.

Sivu Allaksen käyttämisestä kuvaa eri vaihtoehdot yksityiskohtaisesti.

Käyttöoikeuden saaminen

Jotta voit käyttää Allasta, sinulla täytyy olla:

Laskutus ja kiintiöt

Allaksen käyttö perustuu CSC-projekteihin. Kaikilla projektin jäsenillä on samat käyttöoikeudet projektille myönnettyyn tallennusalueeseen. Käytännössä tämä tarkoittaa, että jos yksi projektin jäsen lataa dataa Altaaseen, kaikki muutkin projektin jäsenet voivat lukea, muokata ja poistaa datan. Allas ei itse tallenna mitään tietoa siitä, kuka on ladannut datan Altaaseen.

Uuden projektin oletuskiintiö on 10 TB, mutta sitä voidaan kasvattaa tarvittaessa. Allas on ensisijainen tallennuspaikka kaikille suurille aineistoille CSC-ympäristössä, joten suurempaa Allas-kiintiötä kannattaa pyytää matalalla kynnyksellä, jos työskentelet suurten aineistojen kanssa.

Jos haluat kasvattaa Allas-kiintiötäsi, lähetä pyyntö CSC:n asiakastukeen. Määrittele pyynnössä, mitä Allas-projektia käytät, kuinka paljon tallennustilaa tarvitaan ja millaista dataa Altaaseen tallennetaan.

Huomaa, että Altaaseen tallennettu data kuluttaa projektin tallennuksen laskutusyksiköitä (BUs). Altaassa laskutus perustuu tallennetun datan määrään. Hinta on 1,05 Storage BU/TiBh, eli 1 TiB Altaaseen tallennettua dataa kuluttaa 25,2 Storage BU:ta päivässä ja 9198 Storage BU:ta vuodessa.

Toisin kuin useimmat muut objektitallennuspalvelujen tarjoajat, CSC ei veloita objektitallennuksen verkkosiirroista tai API-kutsuista.

Projektien oletuskiintiöt:

Resurssirajat

Altaalla on teknisiä rajoja, joita ei normaalisti voida kasvattaa:

Resource Limit
Buckets per project 1 000
Objects per bucket 500 000

Jos sinulla on paljon objekteja, suunnittele niiden jakaminen useisiin ämpäreihin. Datan jakaminen useisiin ämpäreihin parantaa suorituskykyä objektien kirjoittamisen aikana.

Protokollat

Objektitallennuspalvelu tarjotaan kahden eri protokollan kautta, Swift ja S3. Käyttäjän näkökulmasta yksi tärkeimmistä eroista S3:n ja Swiftin välillä on tunnistautuminen.

  • Käytössä oleva token-pohjainen Swift-tunnistautuminen on voimassa kahdeksan tuntia kerrallaan.
  • Avaimiin perustuvassa S3-protokollassa yhteys voi pysyä pysyvästi auki.

S3:n pysyvä yhteys on käytännöllinen monella tavalla, mutta siihen liittyy tietoturvanäkökulma: jos palvelin, jolla Allasta käytetään, vaarantuu, myös objektitallennustila vaarantuu. Tämän tietoturvahuolen vuoksi Swift on suositeltu protokolla monen käyttäjän palvelimille, kuten Mahdissa ja Puhdissa. Siksi esimerkiksi CSC-kohtaiset a-komennot sekä rclone-asetukset Puhdissa ja Mahdissa perustuvat oletuksena Swiftiin. Joissakin tapauksissa S3-protokollan tarjoamat pysyvät yhteydet voivat kuitenkin olla järkevin vaihtoehto, esimerkiksi henkilökohtaisissa virtuaalikoneissa cPoudassa.

Swift- ja S3-protokollat eivät ole objektien käsittelyssä keskenään yhteensopivia. Pienten objektien kohdalla, joita ei tarvitse jakaa osiin palveluun lataamisen aikana, protokollia voidaan käyttää rinnakkain, mutta jaettuihin objekteihin pääsee käsiksi vain sillä protokollalla, jota käytettiin niiden palveluun lataamiseen. Objektin osiin jakamisen kokoraja riippuu asetuksista ja protokollasta. Raja on tyypillisesti 500 MB:n ja 5 GB:n välillä.

Yleiset suositukset protokollan valintaan:

  • Käytä mahdollisuuksien mukaan Swift-protokollaa. Sitä tuetaan paremmin.
  • Valitse joka tapauksessa vain yksi protokolla. Älä sekoita S3:a ja Swift:iä.

Huomaa, että jotkin Allas-asiakasohjelmat tukevat vain toista näistä protokollista.

Ämpäreiden ja objektien nimeäminen

Jokaisella ämpärillä on nimi, jonka täytyy olla yksilöllinen kaikkien Allas-käyttäjien kesken. Jos toisella käyttäjällä on ämpäri nimeltä test, toista ämpäriä nimeltä test ei voida luoda. Kaikki ämpärien nimet ovat julkisia, joten älä sisällytä niihin mitään luottamuksellista tietoa. Voit käyttää esimerkiksi projektitunnustasi, kuten 2000620-raw-data. Ämpärin nimeä ei voi muuttaa.

Objektien URL-osoitteet voivat olla DNS-muodossa, esimerkiksi https://a3s.fi/bucketname/objectname. Käytä kelvollista DNS-nimeä (RFC 1035). Suosittelemme, ettet käytä isoja kirjaimia tai muita kuin ASCII-merkkejä (ä, ö jne.).

Objektien nimissä voit käyttää näennäiskansioita, jotka jotkin Allas-asiakasohjelmat näyttävät kansioina.

Tiedostokoot ja paketointi

Huomioita tiedostokoosta:

  • On parempi tallentaa muutama suuri objekti kuin paljon pieniä objekteja.
  • Objektit kannattaa usein pitää alle 5 GB:n kokoisina, koska suuremmat objektit pilkotaan osiin palveluun lataamisen yhteydessä.
  • Yli 100 GB:n objektit voivat aiheuttaa ongelmia pitkien lataus- ja siirtoaikojen vuoksi.

Kun siirrät dataasi Altaaseen, voit käyttää muutamia erilaisia strategioita:

  • Luo kaikista tiedostoistasi yksi paketti, esimerkiksi .tar tai .zip, ja siirrä paketti Altaaseen. Tämä sopii käyttötapauksiin, joissa datan määrä ei ole liian suuri (< 100Gb). Allasta käytetään datan säilytykseen, ja aktiivista käyttöä varten data siirretään muualle, esimerkiksi CSC:n laskentapalveluihin. Tässä tilanteessa yksittäiseen alkuperäiseen tiedostoon on vaikea päästä käsiksi. Allas-asiakasohjelmista a-commands tukee tätä parhaiten.
  • Siirrä tiedostosi sellaisinaan Altaaseen, jolloin Altaassa on yhtä monta tiedostoa kuin alun perin. Tämä sopii käyttötapauksiin, joissa tiedostot ovat alun perin kohtuullisen kokoisia eikä niitä ole liian paljon. Tämä on järkevää myös silloin, jos yksittäisiin tiedostoihin pääsy on tärkeää. Monet Allas-asiakasohjelmat tukevat tätä.
  • Näiden lähestymistapojen yhdistelmä, jossa jotkin tiedostojen osajoukot paketoidaan Altaaseen. Jos sinulla on paljon pieniä tiedostoja ja datan kokonaismäärä on suuri, on todennäköisesti järkevää paketoida esimerkiksi eri kansiot omiksi tiedostoikseen, jotka sitten tallennetaan Altaaseen.

Datan käyttöoikeudet

Oikeuksia on mahdollista määrittää ämpäritasolla tai objektitasolla. Yleisesti käyttöoikeuskäytäntöjä on kolmea tyyppiä:

  • Data on vain CSC-projektin jäsenten käytettävissä. Huomaa, että kaikilla projektin jäsenillä on myös samat kirjoitusoikeudet, joten kuka tahansa projektin jäsen voi (vahingossa) poistaa minkä tahansa objektin.
  • Data on julkista kaikille ja käytettävissä URL-osoitteilla.
  • Data avataan toiselle CSC-projektille.

Lisätietoja on käyttötapauksessa Datan jakaminen.

Varmuuskopiointi

Allaksen data on hajautettu useille palvelimille, mikä suojaa levy- ja palvelinvikojen varalta. Tämä ei kuitenkaan suojaa dataa esimerkiksi vahingossa tapahtuvalta poistamiselta. Ota tärkeästä datasta säännöllisesti varmuuskopiot.

7 askelta alkuun pääsemiseksi

  1. Hanki käyttöoikeus Allas-palveluun.
  2. Suunnittele, miten tallennat datasi Altaaseen: nimeäminen, tiedostojen paketointi, käyttöoikeudet.
  3. Päätä, mitä protokollaa ja asiakasohjelmaa käytät.
  4. Jos siirrät dataa paikalliselta koneeltasi tai paikalliselle koneellesi, asenna valittu työkalu (ei tarvita, jos käytät selainkäyttöliittymiä).
  5. Määritä yhteys Altaaseen.
  6. Siirrä dataa Altaaseen tai Altaasta.
  7. Jos haluat jakaa datan julkisesti tai toiselle projektille, muuta datasi käyttöoikeuksia.

Kahden viimeisen vaiheen osalta katso työkalukohtaiset ohjeet.

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta