Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

Johdanto Allas-tallennuspalveluun

Mikä Allas on?

Allas on CSC:n yleiskäyttöinen tutkimusdatan tallennuspalvelu. Se on osa CSC:n tallennuspalveluvalikoimaa, ja sitä voi käyttää CSC:n palvelimilla sekä mistä tahansa internetin kautta. Allasta voidaan käyttää sekä staattiselle tutkimusdatalle, jonka on oltava analysoitavissa, että kertyvän tai muuttuvan datan keräämiseen ja säilyttämiseen. Datan tuominen Altaaseen edellyttää CSC-projektia. Allasta voidaan käyttää datan säilyttämiseen niin kauan kuin CSC-projekti on aktiivinen.

Teknisestä näkökulmasta Allas on moderni objektitallennusjärjestelmä. Se tarjoaa S3- ja Swift-rajapinnat CEPH-tallennuksen päällä. Käytännössä tämä tarkoittaa, että tiedostojen sijaan data tallennetaan objekteina ämpäreihin. Ämpäri on objektien säiliö, joka voi sisältää myös ämpäriä kuvaavaa metadataa.

Tallennetut objektit voivat olla mitä tahansa datatyyppiä, kuten kuvia tai pakattuja datatiedostoja. Yleisesti ottaen objektit muistuttavat tiedostoja. Objektitallennusta voidaan käyttää moniin eri tarkoituksiin. Sillä on etuja mutta myös rajoituksia.

Edut

  • Objektitallennus pystyy käsittelemään käytännössä mitä tahansa staattista dataa.
  • Dataan voidaan päästä käsiksi mistä tahansa.
  • Datalle voidaan määrittää eri tasoisia käyttöoikeuksia.
  • Datalle voidaan asettaa elinkaarikäytäntö.
  • Voit käyttää Allasta miltä tahansa koneelta tai palvelimelta, joka on yhteydessä internetiin. Tämä voi olla kannettava tietokoneesi, CSC:n supertietokone, pilvessä oleva virtuaalikone tai jopa puhelimesi.

Rajoitukset

  • Objektitallennuksen käyttöön tarvitaan erityisiä työkaluja. Objektitallennusta ei voi liittää kunnolla paikallislevyn kaltaiseen käyttöön. Tähän on olemassa joitakin työkaluja, mutta niillä on omat rajoituksensa. Esimerkiksi svfs:ää voidaan käyttää Swiftin liittämiseen tiedostojärjestelmäksi, mutta se käyttää FUSEa, joka on hidas.
  • Se ei sovellu tiedostoille, jotka muuttuvat jatkuvasti elinkaarensa aikana (esim. useimmat SQL-tietokannat).
  • Dataa ei voi muokata sen ollessa Altaassa. Se on ladattava palvelimelle käsittelyä varten, ja aiempi versio on korvattava uudella.
  • Swift-protokollaa käytettäessä yli 5 GB:n tiedostot jaetaan pienempiin segmentteihin. Tavallisesti tämä tehdään automaattisesti latauksen aikana. Katso Yli 5 GB:n tiedostot.

Katso myös yleiset käyttötapaukset.

Järjestelmän ominaisuudet

Altaassa objektit tallennetaan ämpäreihin. Ämpäri on dataobjektien säiliö. Ämpäreitä ei pidä sekoittaa dockereihin tai muihin laskentakontteihin. Ämpäri toimii samankaltaisesti kuin tiedostojärjestelmän hakemisto, paitsi että tasoja voi olla vain yksi, eli ämpärit eivät voi sisältää muita ämpäreitä.

Allas projects and buckets Kuva Datarakenne Altaassa

Eri tapoja käyttää Allasta

Allasta voidaan käyttää CSC:n laskentaympäristöstä tai miltä tahansa muulta internetiin yhdistetyltä kannettavalta tietokoneelta tai palvelimelta. Allaksen käyttöön on monia työkaluja:

Allas access clients

  • Selainkäyttöliittymät
  • Komentorivityökalut
  • Graafiset paikallisesti asennetut työkalut
  • Muut työkalut: Python- ja R-kirjastot jne.

Sivu Allaksen käyttämisestä kuvaa eri vaihtoehdot yksityiskohtaisesti.

Käyttöoikeuden saaminen

Jotta voit käyttää Allasta, sinulla tulee olla:

Laskutus ja kiintiöt

Allaksen käyttö perustuu CSC-projekteihin. Kaikilla projektin jäsenillä on samat käyttöoikeudet projektille myönnettyyn tallennusalueeseen. Käytännössä tämä tarkoittaa, että jos yksi projektin jäsen lataa dataa Altaaseen, kaikki muutkin projektin jäsenet voivat lukea, muokata ja poistaa dataa. Allas ei itse tallenna mitään tietoa siitä, kuka on ladannut datan Altaaseen.

Uuden projektin oletuskiintiö on 10 TB, mutta sitä voidaan kasvattaa tarvittaessa. Allas on ensisijainen tallennuspaikka suurille aineistoille CSC-ympäristössä, joten suurempaa Allas-kiintiötä kannattaa pyytää matalalla kynnyksellä, jos työskentelet suurten aineistojen kanssa.

Kasvattaaksesi Allas-kiintiötäsi lähetä pyyntö CSC:n asiakastukeen. Määrittele pyynnössä, mitä Allas-projektia käytät, kuinka paljon tallennustilaa tarvitaan ja millaista dataa Altaaseen tallennetaan.

Huomaa, että Altaaseen tallennettu data kuluttaa projektin tallennuksen laskutusyksiköitä (BUs). Altaassa laskutus perustuu tallennetun datan määrään. Hinta on 1,05 tallennus-BU/TiBh, eli 1 TiB Altaaseen tallennettua dataa kuluttaa 25,2 tallennus-BU:ta päivässä ja 9198 tallennus-BU:ta vuodessa.

Toisin kuin useimmat muut objektitallennuspalvelujen tarjoajat, CSC ei veloita objektitallennuksen verkkosiirroista tai API-kutsuista.

Projektien oletuskiintiöt:

Resurssirajat

Altaalla on teknisiä rajoja, joita ei normaalisti voida kasvattaa:

Resource Limit
Buckets per project 1 000
Objects per bucket 500 000

Jos sinulla on paljon objekteja, suunnittele niiden jakaminen useisiin ämpäreihin. Datan jakaminen useisiin ämpäreihin parantaa suorituskykyä objektien kirjoittamisen aikana.

Protokollat

Objektitallennuspalvelu tarjotaan kahden eri protokollan kautta: Swift ja S3. Käyttäjän näkökulmasta yksi tärkeimmistä eroista S3:n ja Swiftin välillä on tunnistautuminen.

  • Käytössä oleva token-pohjainen Swift-tunnistautuminen on voimassa kahdeksan tuntia kerrallaan.
  • Avaimeen perustuvassa S3-yhteydessä yhteys voi pysyä pysyvästi auki.

S3:n pysyvä yhteys on käytännöllinen monella tavalla, mutta siihen liittyy tietoturvanäkökulma: jos palvelin, jossa Allasta käytetään, vaarantuu, myös objektitallennustila vaarantuu. Tämän tietoturvahuolen vuoksi Swift on suositeltu protokolla monen käyttäjän palvelimille, kuten Mahdille ja Puhdille. Siksi esimerkiksi CSC:n omat a-komennot sekä rclone-asetukset Puhdissa ja Mahdissa perustuvat oletuksena Swiftiin. Joissakin tapauksissa S3-protokollan tarjoamat pysyvät yhteydet voivat kuitenkin olla järkevin vaihtoehto, esimerkiksi henkilökohtaisissa virtuaalikoneissa, jotka toimivat cPoudassa.

Swift- ja S3-protokollat eivät ole objektien käsittelyssä keskenään täysin yhteensopivia. Pienten objektien kohdalla, joita ei tarvitse pilkkoa latauksen aikana, protokollia voidaan käyttää rinnakkain, mutta pilkotut objektit ovat käytettävissä vain sillä protokollalla, jolla ne ladattiin. Objektin pilkkomisen kokoraja riippuu asetuksista ja protokollasta. Raja on tyypillisesti 500 MB:n ja 5 GB:n välillä.

Yleiset suositukset protokollan valintaan:

  • Käytä mahdollisuuksien mukaan Swift-protokollaa. Sitä tuetaan paremmin.
  • Valitse joka tapauksessa vain yksi protokolla. Älä sekoita S3:a ja Swiftiä.

Huomaa, että jotkin Allas-asiakasohjelmat tukevat vain toista näistä protokollista.

Ämpäreiden ja objektien nimeäminen

Jokaisella ämpärillä on nimi, jonka on oltava yksilöllinen kaikkien Allaksen käyttäjien kesken. Jos toisella käyttäjällä on ämpäri nimeltä test, toista ämpäriä nimeltä test ei voida luoda. Kaikki ämpärien nimet ovat julkisia, joten älä sisällytä niihin luottamuksellisia tietoja. Voit käyttää esimerkiksi projektitunnustasi, kuten 2000620-raw-data. Ämpärin nimeä ei voi muuttaa.

Objektien URL-osoitteet voivat olla DNS-muodossa, esimerkiksi https://a3s.fi/bucketname/objectname. Käytä kelvollista DNS-nimeä (RFC 1035). Suosittelemme, ettet käytä isoja kirjaimia tai muita kuin ASCII-merkkejä (ä, ö jne.).

Objektien nimissä voit käyttää näennäiskansioita, jotka jotkin Allas-asiakasohjelmat näyttävät kansioina.

Tiedostokoot ja paketointi

Huomioita tiedostokoosta:

  • On parempi tallentaa muutama suuri objekti kuin paljon pieniä objekteja.
  • Objektien pitäminen alle 5 GB:n kokoisina on usein käytännöllistä, koska suuremmat objektit pilkotaan latauksen yhteydessä.
  • Yli 100 GB:n objektien käyttö voi aiheuttaa ongelmia pitkien lataus- ja siirtoaikojen vuoksi.

Kun siirrät dataasi Altaaseen, voit käyttää muutamia erilaisia strategioita:

  • Luo kaikista tiedostoistasi yksi paketti, esimerkiksi .tar tai .zip, ja siirrä paketti Altaaseen. Tämä sopii käyttötapauksiin, joissa datan määrä ei ole liian suuri (< 100Gb). Allasta käytetään datan säilytykseen, ja aktiivista käyttöä varten data siirretään muualle, esimerkiksi CSC:n laskentapalveluihin. Tässä tilanteessa yksittäiseen alkuperäiseen tiedostoon on vaikea päästä käsiksi. Allas-asiakasohjelmista a-commands tukee tätä parhaiten.
  • Siirrä tiedostosi sellaisinaan Altaaseen niin, että Altaassa on yhtä monta tiedostoa kuin alun perin. Tämä sopii käyttötapauksiin, joissa tiedostot ovat alun perin kohtuullisen kokoisia eikä niitä ole liian paljon. Tämä on järkevää myös silloin, jos yksittäisiin tiedostoihin pääsy on tärkeää. Monet Allas-asiakasohjelmat tukevat tätä.
  • Näiden lähestymistapojen yhdistelmä siten, että jotkin tiedostojen osajoukot paketoidaan Allasta varten. Jos sinulla on paljon pieniä tiedostoja ja datan kokonaismäärä on suuri, on todennäköisesti järkevää paketoida esimerkiksi eri kansiot omiksi tiedostoikseen, jotka sitten tallennetaan Altaaseen.

Datan käyttöoikeudet

Oikeuksia voidaan määrittää ämpäritasolla tai objektitasolla. Yleisesti käyttöoikeuskäytäntöjä on kolmea tyyppiä:

  • Data on vain CSC-projektin jäsenten käytettävissä. Huomaa, että kaikilla projektin jäsenillä on myös samat kirjoitusoikeudet, joten kuka tahansa projektin jäsen voi (vahingossa) poistaa minkä tahansa objektin.
  • Data on julkista kaikille ja käytettävissä URL-osoitteilla.
  • Data avataan toiselle CSC-projektille.

Lisätietoja on käyttötapauksessa Datan jakaminen.

Varmuuskopiointi

Allaksen data on hajautettu useille palvelimille, mikä suojaa levy- ja palvelinvikojen varalta. Tämä ei kuitenkaan suojaa dataa esimerkiksi vahingossa tapahtuvalta poistamiselta. Ota tärkeästä datasta säännöllisesti varmuuskopiot.

7 askelta alkuun pääsemiseksi

  1. Hanki käyttöoikeus Allakseen palveluna.
  2. Suunnittele, miten tallennat datasi Altaaseen: nimeäminen, tiedostojen paketointi, käyttöoikeudet.
  3. Päätä, mitä protokollaa ja asiakasohjelmaa käytät.
  4. Jos siirrät dataa paikalliselta koneeltasi tai paikalliselle koneellesi, asenna valittu työkalu (ei tarpeen, jos käytät selainkäyttöliittymiä).
  5. Määritä yhteys Allakseen.
  6. Siirrä dataa Altaaseen tai Altaasta.
  7. Jos haluat jakaa datan julkisesti tai toiselle projektille, muuta datasi käyttöoikeuksia.

Katso kahden viimeisen vaiheen osalta työkalukohtaiset ohjeet.

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta