Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

Taulukko käyttäjäoppaan sisällöstä

Komentorivikäyttöliittymä ja automatisoitu avainten hallinta

SD Connectin komentorivityökalu sd-lock-util sekä komennot a-put ja a-get tukevat SD Connect -yhteensopivaa datan lataamista ja lataamista palvelusta automaattisella salauksella ja salauksen purulla. Latauksen jälkeen dataa voidaan muokata tai analysoida, kun se on tuotu SD Desktopiin. Pienet tiedostot (alle 50 GB) voidaan myös ladata SD Connectin käyttöliittymän kautta, joka tarjoaa myös automaattisen salauksen purun.

Huomaa, että tiedostot, jotka on ladattu ennen helmikuuta 2025, salattiin manuaalisesti omalla salausavainparillasi, ja niiden salaus on edelleen purettava manuaalisesti lataamisen jälkeen.

Note

Kaikilla saman CSC-projektin jäsenillä on oikeus ladata SD Connectin kautta tallennettuja tiedostoja palveluun ja palvelusta. Tätä voidaan rajoittaa jakamalla tiedostoja käyttöoikeudella Read to SD Desktop toiseen Academic-tyyppiseen CSC-projektiin. Ota yhteyttä osoitteeseen servicedesk@csc.fi (aihe: SD Connect), jos tarvitset apua.

1. Taustatiedot

SD Connect on osa CSC:n sensitiivisen datan palveluita tutkimukselle, ja se tarjoaa maksuttoman ja turvallisen datankäsittely-ympäristön akateemisille tutkimusprojekteille suomalaisissa yliopistoissa ja tutkimuslaitoksissa. SD Connect laajentaa Allas-objektitallennusjärjestelmää lisäämällä automaattisen salauskerroksen, mikä mahdollistaa sensitiivisen datan turvallisen tallennuksen. SD Connectiin tallennettua dataa voidaan käyttää myös SD Desktop -palvelun kautta. Vaikka SD Connectia käytetään yleensä SD Connectin selainkäyttöliittymän kautta, komentorivityökalut voivat joissakin tilanteissa tarjota tehokkaamman tavan hallita dataa.

Tässä dokumentissa annetaan ohjeet siihen, miten voit asentaa SD Connectin komentorivityökalut paikalliseen ympäristöösi (Linux, Mac) ja miten voit käyttää niitä lataamiseen SD Connectiin ja lataamiseen SD Connectista.

Note

Allas ei itsessään erottele SD Connectin kautta (käyttöliittymä tai komentorivityökalut) ladattua dataa ja muilla menetelmillä Altaaseen ladattua dataa toisistaan. Dataämpärit voivat sisältää sekoituksen SD Connect -dataa, muuta salattua dataa ja tavallista dataa. Käyttäjän vastuulla on hallita datatyyppejä ämpäreissä. On kuitenkin suositeltavaa tallentaa SD Connect -data erillisiin ämpäreihin ja kansioihin, jotta eri datatyypit eivät sekoitu.

2. Suunnittele tarvittavien kansioiden määrä

SD Connect perustuu pilvipohjaiseen objektitallennusinfrastruktuuriin. Tiedostoja voidaan ladata vain ylimmän tason eli pääkansioihin, jotka on luotu SD Connectilla: ylimmän tason "container or bucket", jota käytetään tiedostojen tai kansioiden tallentamiseen. Tällä on useita vaikutuksia siihen, miten datasi tulisi järjestää ja hallita:

  • Kun tiedostot on ladattu SD Connectiin, niitä ei voi muokata tai muuttaa. Siksi kansiorakenne on tärkeää suunnitella etukäteen. Datanhallinnan yksinkertaistamiseksi ja ongelmien välttämiseksi on suositeltavaa luoda erillinen kansio jokaiselle aineistolle tai kokeelle. Vältä sijoittamasta liian montaa tiedostoa yhteen kansioon; kukin kansio voi sisältää enintään 500.000 segmentoituja tiedostoja.

  • Alikansioita ei tueta: tiedostojen lataamista alikansioihin ei tueta.

  • Latauksen kesto: suurten aineistojen tai suurten erien lataaminen voi kestää useita tunteja. Lataukset pysäytetään automaattisesti 8 tunnin jälkeen.

  • Tiedostojen segmentointi: ladatut tiedostot jaetaan automaattisesti segmentteihin tallennuksen ja suorituskyvyn optimoimiseksi. Tämä segmentointi ei näy käyttöliittymässä, mutta se voi vaikuttaa suorituskykyyn.

3. Suunnittele kansioiden nimet

Kun luot kansioita SD Connectissa, yhteensopivuuden varmistamiseksi on noudatettava tiettyjä nimeämissääntöjä, mikä vaatii hieman suunnittelua.

Note

Ylimmän tason kansion nimeä ei voi muuttaa sen jälkeen, kun se on luotu SD Connectissa. Nämä säännöt koskevat vain palvelussa luotuja ylimmän tason kansioita, eivät paikalliselta tietokoneelta ladattuja alikansioita.

Kansion nimien täytyy:

  • alkaa pienellä kirjaimella tai numerolla.
  • olla 3–63 merkkiä pitkiä.
  • käyttää latinalaisia aakkosia (a-z), numeroita (0-9) ja yhdysmerkkiä (-).
  • olla yksilöllisiä kaikkien SD Connectin ja Allaksen kaikkien projektien olemassa olevien kansioiden joukossa. Jos et voi luoda uutta kansiota, toinen projekti saattaa jo käyttää valitsemaasi nimeä. Tämän tilanteen välttämiseksi on hyvä käytäntö sisällyttää kansion nimeen projektikohtaisia tunnisteita (esim. projektin tunnistenumero tai akronyymi).

Kansion nimet eivät saa sisältää:

  • Isot kirjaimet, alaviiva (_) sekä aksenttimerkit ja erikoismerkit sisältävät kirjaimet (åäöe') eivät ole sallittuja.
  • kaikki kansioiden nimet ovat julkisia; älä sisällytä niihin luottamuksellisia tietoja.
  • Kansion nimiä ei voi muuttaa myöhemmin.

Komentorivityökalut ja automatisoitu avainten hallinta

Vaihe 1: a-toolsin ja sd-lock-utilin asentaminen paikalliseen ympäristöösi

Jotta voit ladata sensitiivistä dataa SD Connectiin komentoriviltä ja salata sen automaattisesti, sinun täytyy asentaa allas-cli-utils ja sd-lock-util kannettavallesi tai paikalliseen ympäristöösi (Mac tai Linux). Asennus voi vaatia root-oikeudet, ja tästä syystä saatat tarvita tukea organisaatiosi IT-yksiköltä.

Täältä löydät vaiheittaiset ohjeet a-commands- ja sd-lock-util-komennon asentamiseen.

Note

Jos sinun täytyy ladata ei-sensitiivistä dataa (kuten skriptejä, kontteja tai ohjelmistoja käytettäväksi SD Desktopissa), huomaa, että nämä työkalut ovat saatavilla myös CSC:n supertietokoneilla (Puhti, Mahti ja LUMI). Nämä järjestelmät on kuitenkin tarkoitettu vain ei-sensitiiviselle datalle. Sensitiivinen data on ladattava SD Connectiin asianmukaisia kanavia pitkin.

Vaihe 2: Yhteyden avaaminen SD Connectiin

Avataksesi SD Connect -yhteensopivan Allas-yhteyden sinun täytyy lisätä määrityskomennolle valitsin --sdc. CSC:n supertietokoneilla yhteys avataan komennoilla:

module load allas
allas-conf --sdc

Paikallisissa asennuksissa yhteys avataan tyypillisesti seuraavan kaltaisilla komennoilla

export PATH=/some-local-path/allas-cli-utils:$PATH
source /some-local-path/allas-cli-utils/allas_conf -u your-csc-account --sdc
  • Asetusprosessi kysyy ensin CSC-salasanasi (Haka- tai Virtu-salasanoja ei voi käyttää tässä). Sen jälkeen valitset käytettävän CSC-projektin. Tämä on sama kuin tavallinen Allaksen kirjautumisprosessi.
  • SD Connectin tapauksessa prosessissa on ylimääräinen vaihe, jossa sinua pyydetään antamaan SD Connect API -token.

Tilapäisen SD Connect API -tokenin hakeminen:

  • Kirjaudu SD Connectin selainkäyttöliittymään. Jos sinulla on useita CSC-projekteja, varmista, että olet valinnut saman SD Connect -projektin sekä komentorivillä että selainkäyttöliittymässä (vasen yläkulma).
  • Napsauta selainkäyttöliittymän oikeasta yläkulmasta Support ja valitse sitten pudotusvalikosta Create API Token.
  • Anna uudessa valintaikkunassa nimi tilapäiselle tokenillesi. Vältä erikoismerkkien käyttöä tokenin nimessä.
  • Napsauta Create Token. Token näytetään vain kerran. Kun näet tokenin, kopioi se (napsauta tokenin vasemmalla puolella olevaa kuvaketta). Tärkeää: varmista, että tallennat sen turvallisesti, sillä sitä ei voi hakea myöhemmin uudelleen.

    API token

  • Token on voimassa 24 tuntia, ja se poistetaan automaattisesti tämän ajan jälkeen. Liitä token komentoriville ja paina Enter käyttääksesi sitä.

SD Connect -yhteensopiva Allas-yhteys on nyt voimassa seuraavat kahdeksan tuntia. Voit käyttää komentoja kuten a-list ja a-delete sekä tavallisten Allas-objektien että SD Connect -objektien hallintaan.

Vaihe 3: Datan lataaminen palveluun ja automaattinen salaus

Dataa voidaan ladata SD Connectiin komennolla a-put käyttäen valitsinta --sdc. Esimerkiksi tiedoston my-secret-table.csv lataamiseen sijaintiin 2000123-sens/dataset2 Altaassa käytä komentoa:

a-put --sdc my-secret-table.csv -b 2000123-sens/dataset2

Tämä tuottaa SD Connect -objektin: 2000123-sens/dataset2/my-secret-table.csv.c4gh

Myös kaikkia muita a-put-komennon valitsimia ja ominaisuuksia voidaan käyttää. Esimerkiksi hakemistot tallennetaan tar-tiedostoina, jos valitsinta --asis ei käytetä.

Komento:

a-put --sdc my-secret-directory -b 2000123-sens/dataset2

tuottaa SD Connect -objektin: 2000123-sens/dataset2/my-secret-directory.tar.c4gh

Laajoihin datalatauksiin voit käyttää komentoa sd-lock-util lock. Esimerkiksi voit ladata paikallisen hakemiston dataset3 ämpäriin 2000123-sens komennolla:

sd-lock-util lock dataset3 --container 2000123-sens --progress

sd-lock-util ei tallenna hakemistoa tar-arkistotiedostona. Sen sijaan kaikki hakemiston tiedostot tallennetaan yksittäisinä objekteina, jotka nimetään hakemiston sijainnin mukaisesti.

Voit käyttää valitsinta --prefix määrittääksesi tietyn sijainnin kohdeämpärin sisällä:

sd-lock-util lock dataset3 --container 2000123-sens --prefix case-study2 --progress

Note

Älä käytä erikoismerkkejä tai välilyöntejä ämpärin nimessä.

Note

Sen jälkeen kun SD Connect päivitettiin lokakuussa 2024, Allakseen/SD Connectiin tallennetun salatun .c4gh-tiedoston käyttämän salausmenetelmän määrittäminen ei ole enää suoraviivaista. Jos käytät nyt uutta salausmenetelmää tiedostojen lataamiseen olemassa olevaan CSC-projektiin, varmista, että lisäät kansioihisi huomautuksen siitä, että salausprotokolla on muuttunut. Voit joko jakaa tämän tiedon kollegoillesi tai sisällyttää sen selkeästi kansion nimeen. Hyvänä käytäntönä suosittelemme uuden kansion luomista ja eri menetelmillä salattujen tiedostojen sekoittamisen välttämistä.

Vaihe 4: Datan lataaminen palvelusta ja automaattinen salauksen purku

Dataa voidaan ladata SD Connectista komennolla a-get. Jos SD Connect -yhteys on käytössä, a-get yrittää automaattisesti purkaa niiden objektien salauksen, joiden pääte on .c4gh.

Esimerkiksi komento:

a-get 2000123-sens/dataset2/my-secret-table.csv.c4gh

tuottaa paikallisen tiedoston: my-secret-table.csv

Ja vastaavasti komento:

a-get 2000123-sens/dataset2/my-secret-directory.tar.c4gh

tuottaa paikallisen hakemiston: my-secret-directory

Suuria latauksia varten voit käyttää komentoa sd-lock-util unlock. Koko ämpärin lataamiseen voit käyttää komentoa:

sd-lock-util unlock --container bucket-name --progress

Kuten latauksen yhteydessä, valitsinta --prefix voidaan käyttää valitsemaan osa ämpärin sisällöstä. Esimerkiksi jos haluat ladata ämpäristä 2000123-sens vain objektit, joiden nimet alkavat merkkijonolla case-study2, voit käyttää komentoa:

sd-lock-util unlock --container 2000123-sens --prefix case-study2 --progress

Huomaa, että automaattinen salauksen purku a-getillä tai sd-lock-utililla toimii vain tiedostoille, jotka on tallennettu uudella SD Connectilla, joka otettiin käyttöön lokakuussa 2024.

Vanhemmille SD Connect -tiedostoille ja muille Crypt4GH-salatuille tiedostoille sinun täytyy edelleen käyttää a-get-komentoa ja antaa vastaava salainen avain valitsimella --sk

a-get --sk my-key.sec  2000123-sens/old-data/sample1.txt.c4gh

Valitettavasti ei ole helppoa tapaa tietää, mitä salausmenetelmää SD Connectiin tallennetussa .c4gh-tiedostossa on käytetty.

Komentorivityökalut ja manuaalinen salauksen purku

Tässä luvussa käsitellään niiden Crypt4GH-salattujen tiedostojen salauksen purkamista, jotka eivät ole yhteensopivia nykyisen SD Connect -version kanssa. Näissä tapauksissa automaattinen salauksen purku ei toimi. Sen sijaan data täytyy ensin ladata paikalliselle tietokoneellesi, minkä jälkeen salaus puretaan komennolla crypt4gh tai Crypt4GH:n graafisella käyttöliittymällä.

Tyypillisiä tapauksia, joissa tätä manuaalista salauksen purkua tarvitaan, ovat tiedostot, jotka on tallennettu SD Connectiin vanhalla protokollalla, sekä tiedostot, jotka on viety SD Desktopista.

Näissä tapauksissa on pakollista, että sinulla on pääsy salaiseen avaimeen (jota kutsutaan usein yksityiseksi avaimeksi), joka vastaa datan salaamiseen käytettyä julkista avainta.

Tässä osiossa käsitellään vain niiden tiedostojen lataamista ja salauksen purkua, jotka on ladattu komentoriviltä käyttäen omaa salausavainparia. Jos haluat salata ja ladata tiedostoja komentoriviltä, katso tämä ohje, jossa havainnollistetaan crypt4gh-työkalun käyttöä tiedostojen lataamiseen Allakseen (näkyy SD Connectissa).

2.1 Valmistelu

Voit käyttää mitä tahansa Allas-yhteensopivaa työkalua salattujen tiedostojen lataamiseen Allaksesta. Yleisesti käytettyjä komentorivityökaluja ovat:

Allas-yhteensopivan työkalun lisäksi tarvitset Crypt4GH Encryption Utilityn. Crypt4GH on kirjoitettu Pythonilla. Python 3.6+ vaaditaan. Jos tarvitset apua Pythonin asentamisessa, seuraa näitä ohjeita.

  1. Asenna Crypt4GH:n komentorivityökalu. Voit asentaa Crypt4GH:n suoraan pip-työkalulla:

    pip install crypt4gh
    

    tai jos haluat mieluummin uusimmat lähdekoodit GitHubista:

    pip install -r crypt4gh/requirements.txt pip install ./crypt4gh
    

    tai jopa:

    pip install git+https://github.com/EGA-archive/crypt4gh.git
    
  2. Tavallinen -h-valitsin näyttää työkalun hyväksymät eri vaihtoehdot:

    $ crypt4gh -h
    Utility for the cryptographic GA4GH standard, reading from stdin and outputting to stdout.
    
    Usage:
       crypt4gh [-hv] [--log <file>] encrypt [--sk <path>] --recipient_pk <path> [--recipient_pk <path>]... [--range <start-end>] [--header <path>]
       crypt4gh [-hv] [--log <file>] decrypt [--sk <path>] [--sender_pk <path>] [--range <start-end>]
       crypt4gh [-hv] [--log <file>] rearrange [--sk <path>] --range <start-end>
       crypt4gh [-hv] [--log <file>] reencrypt [--sk <path>] --recipient_pk <path> [--recipient_pk <path>]... [--trim] [--header-only]
    
    Options:
       -h, --help             Prints this help and exit
       -v, --version          Prints the version and exits
       --log <file>           Path to the logger file (in YML format)
       --sk <keyfile>         Curve25519-based Private key
                            When encrypting, if neither the private key nor C4GH_SECRET_KEY are specified, we generate a new key 
       --recipient_pk <path>  Recipient's Curve25519-based Public key
       --sender_pk <path>     Peer's Curve25519-based Public key to verify provenance (akin to signature)
       --range <start-end>    Byte-range either as  <start-end> or just <start> (Start included, End excluded)
       -t, --trim             Keep only header packets that you can decrypt
       --header <path>        Where to write the header (default: stdout)
       --header-only          Whether the input data consists only of a header (default: false)
    
    Environment variables:
       C4GH_LOG         If defined, it will be used as the default logger
       C4GH_SECRET_KEY  If defined, it will be used as the default secret key (ie --sk ${C4GH_SECRET_KEY})
    

    Saatat huomata, että crypt4gh käyttää yksityisestä avaimesta valitsinta --sk. Tämä voi tuntua oudolta, mutta ilmeisesti crypt4gh käyttää termiä secure key yksityisestä avaimesta, mistä tulee sk, ja vastaavasti pk viittaa julkiseen avaimeen eikä yksityiseen avaimeen.

2.2 Tiedoston lataaminen ja salauksen purku

Tiedoston salauksen purkamiseen tarvitset salaisen avaimen, joka vastaa yhtä salausvaiheessa käytetyistä julkisista avaimista. Oletetaan esimerkissämme, että olet purkamassa tiedoston dog.jpg salausta. Olet salannut sen SD Desktopissa avaimella groupA-pub ja vienyt tiedoston sen jälkeen ämpäriin 2000123-export. Voit hakea tiedoston paikalliselle tietokoneellesi tekemällä sekä latauksen että salauksen purun komennolla a-put.

a-get --sk groupA.sec 2000123-export/dog.jpg.c4gh

Yllä oleva komento kysyy avaintiedoston salasanan, minkä jälkeen se lataa datan ja purkaa sen salauksen.

Vaihtoehtoisesti voit käyttää esimerkiksi rclonea datan lataamiseen:

rclone copy allas:2000123-export/dog.jpg.c4gh ./dog.jpg.c4gh

Sen jälkeen käytä salauksen purkuun komentoa crypt4gh decrypt:

crypt4gh decrypt --sk groupA.sec <dog.jpg.c4gh >dog.jpg

crypt4gh-komento käyttää vain vakiotuloa (stdin) ja vakiotulostetta (stdout), joten sinun täytyy käyttää komentotulkin uudelleenohjauksia: < tarkoittaa syötetiedostoa ja > tulostetiedostoa, joten <dog.jpg.c4gh lukee salatun tiedoston nimeltä dog.jpg.c4gh ja >dog.jpg kirjoittaa puretun tiedoston nimeltä dog.jpg.

Komento pyytää käyttäjää syöttämään salaisen avaimesi salasanan (passphrase). Turvallisuussyistä salasanaa ei näytetä, kun kirjoitat sitä.

Jos sinun täytyy purkaa suuren määrän Crypt4GH-salattujen tiedostojen salaus, voit tutustua ohjeeseen, jossa kuvataan, miten kaikki hakemiston tiedostot voidaan purkaa

Note

Jos purat tiedoston salauksen SD Desktopissa ja salauksessa on käytetty CSC Sensitive Data -julkista avainta, salauksen purku tehdään automaattisesti eikä sinun tarvitse määrittää salauksen purkuavaimia. Jos sinun täytyy purkaa suuren määrän tiedostojen salaus, katso ohje Kaikkien hakemiston tiedostojen salauksen purkaminen.

Lisätietoja datan salauksesta.

Ohjeet

Ominaisuudet SD Connectissa

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta