-
Tutkimusdata - Tallenna ja analysoi
-
Komentorivikäyttöliittymä
Taulukko käyttäjäoppaan sisällöstä
Komentorivikäyttöliittymä ja automatisoitu avainten hallinta
SD Connectin komentorivityökalu sd-lock-util sekä komennot a-put ja a-get tukevat SD Connect -yhteensopivaa datan lataamista ja lataamista palvelusta automaattisella salauksella ja salauksen purulla. Latauksen jälkeen dataa voidaan muokata tai analysoida, kun se on tuotu SD Desktopiin. Pienet tiedostot (alle 50 GB) voidaan myös ladata SD Connectin käyttöliittymän kautta, joka tarjoaa myös automaattisen salauksen purun.
Huomaa, että tiedostot, jotka on ladattu ennen helmikuuta 2025, salattiin manuaalisesti omalla salausavainparillasi, ja niiden salaus on edelleen purettava manuaalisesti lataamisen jälkeen.
Note
Kaikilla saman CSC-projektin jäsenillä on oikeus ladata SD Connectin kautta tallennettuja tiedostoja palveluun ja palvelusta. Tätä voidaan rajoittaa jakamalla tiedostoja käyttöoikeudella Read to SD Desktop toiseen Academic-tyyppiseen CSC-projektiin. Ota yhteyttä osoitteeseen servicedesk@csc.fi (aihe: SD Connect), jos tarvitset apua.
- 1. Taustatiedot
- 2. Suunnittele tarvittavien kansioiden määrä
- 3. Suunnittele kansioiden nimet
- Komentorivityökalut ja automatisoitu avainten hallinta
- Komentorivityökalut ja manuaalinen salauksen purku
- Ohjeet
1. Taustatiedot
SD Connect on osa CSC:n sensitiivisen datan palveluita tutkimukselle, ja se tarjoaa maksuttoman ja turvallisen datankäsittely-ympäristön akateemisille tutkimusprojekteille suomalaisissa yliopistoissa ja tutkimuslaitoksissa. SD Connect laajentaa Allas-objektitallennusjärjestelmää lisäämällä automaattisen salauskerroksen, mikä mahdollistaa sensitiivisen datan turvallisen tallennuksen. SD Connectiin tallennettua dataa voidaan käyttää myös SD Desktop -palvelun kautta. Vaikka SD Connectia käytetään yleensä SD Connectin selainkäyttöliittymän kautta, komentorivityökalut voivat joissakin tilanteissa tarjota tehokkaamman tavan hallita dataa.
Tässä dokumentissa annetaan ohjeet siihen, miten voit asentaa SD Connectin komentorivityökalut paikalliseen ympäristöösi (Linux, Mac) ja miten voit käyttää niitä lataamiseen SD Connectiin ja lataamiseen SD Connectista.
Note
Allas ei itsessään erottele SD Connectin kautta (käyttöliittymä tai komentorivityökalut) ladattua dataa ja muilla menetelmillä Altaaseen ladattua dataa toisistaan. Dataämpärit voivat sisältää sekoituksen SD Connect -dataa, muuta salattua dataa ja tavallista dataa. Käyttäjän vastuulla on hallita datatyyppejä ämpäreissä. On kuitenkin suositeltavaa tallentaa SD Connect -data erillisiin ämpäreihin ja kansioihin, jotta eri datatyypit eivät sekoitu.
2. Suunnittele tarvittavien kansioiden määrä
SD Connect perustuu pilvipohjaiseen objektitallennusinfrastruktuuriin. Tiedostoja voidaan ladata vain ylimmän tason eli pääkansioihin, jotka on luotu SD Connectilla: ylimmän tason "container or bucket", jota käytetään tiedostojen tai kansioiden tallentamiseen. Tällä on useita vaikutuksia siihen, miten datasi tulisi järjestää ja hallita:
-
Kun tiedostot on ladattu SD Connectiin, niitä ei voi muokata tai muuttaa. Siksi kansiorakenne on tärkeää suunnitella etukäteen. Datanhallinnan yksinkertaistamiseksi ja ongelmien välttämiseksi on suositeltavaa luoda erillinen kansio jokaiselle aineistolle tai kokeelle. Vältä sijoittamasta liian montaa tiedostoa yhteen kansioon; kukin kansio voi sisältää enintään 500.000 segmentoituja tiedostoja.
-
Alikansioita ei tueta: tiedostojen lataamista alikansioihin ei tueta.
-
Latauksen kesto: suurten aineistojen tai suurten erien lataaminen voi kestää useita tunteja. Lataukset pysäytetään automaattisesti 8 tunnin jälkeen.
-
Tiedostojen segmentointi: ladatut tiedostot jaetaan automaattisesti segmentteihin tallennuksen ja suorituskyvyn optimoimiseksi. Tämä segmentointi ei näy käyttöliittymässä, mutta se voi vaikuttaa suorituskykyyn.
3. Suunnittele kansioiden nimet
Kun luot kansioita SD Connectissa, yhteensopivuuden varmistamiseksi on noudatettava tiettyjä nimeämissääntöjä, mikä vaatii hieman suunnittelua.
Note
Ylimmän tason kansion nimeä ei voi muuttaa sen jälkeen, kun se on luotu SD Connectissa. Nämä säännöt koskevat vain palvelussa luotuja ylimmän tason kansioita, eivät paikalliselta tietokoneelta ladattuja alikansioita.
Kansion nimien täytyy:
- alkaa pienellä kirjaimella tai numerolla.
- olla 3–63 merkkiä pitkiä.
- käyttää latinalaisia aakkosia (a-z), numeroita (0-9) ja yhdysmerkkiä (-).
- olla yksilöllisiä kaikkien SD Connectin ja Allaksen kaikkien projektien olemassa olevien kansioiden joukossa. Jos et voi luoda uutta kansiota, toinen projekti saattaa jo käyttää valitsemaasi nimeä. Tämän tilanteen välttämiseksi on hyvä käytäntö sisällyttää kansion nimeen projektikohtaisia tunnisteita (esim. projektin tunnistenumero tai akronyymi).
Kansion nimet eivät saa sisältää:
- Isot kirjaimet, alaviiva (_) sekä aksenttimerkit ja erikoismerkit sisältävät kirjaimet (åäöe') eivät ole sallittuja.
- kaikki kansioiden nimet ovat julkisia; älä sisällytä niihin luottamuksellisia tietoja.
- Kansion nimiä ei voi muuttaa myöhemmin.
Komentorivityökalut ja automatisoitu avainten hallinta
Vaihe 1: a-toolsin ja sd-lock-utilin asentaminen paikalliseen ympäristöösi
Jotta voit ladata sensitiivistä dataa SD Connectiin komentoriviltä ja salata sen automaattisesti, sinun täytyy asentaa allas-cli-utils ja sd-lock-util kannettavallesi tai paikalliseen ympäristöösi (Mac tai Linux). Asennus voi vaatia root-oikeudet, ja tästä syystä saatat tarvita tukea organisaatiosi IT-yksiköltä.
Täältä löydät vaiheittaiset ohjeet a-commands- ja sd-lock-util-komennon asentamiseen.
Note
Jos sinun täytyy ladata ei-sensitiivistä dataa (kuten skriptejä, kontteja tai ohjelmistoja käytettäväksi SD Desktopissa), huomaa, että nämä työkalut ovat saatavilla myös CSC:n supertietokoneilla (Puhti, Mahti ja LUMI). Nämä järjestelmät on kuitenkin tarkoitettu vain ei-sensitiiviselle datalle. Sensitiivinen data on ladattava SD Connectiin asianmukaisia kanavia pitkin.
Vaihe 2: Yhteyden avaaminen SD Connectiin
Avataksesi SD Connect -yhteensopivan Allas-yhteyden sinun täytyy lisätä määrityskomennolle valitsin --sdc. CSC:n supertietokoneilla yhteys avataan komennoilla:
Paikallisissa asennuksissa yhteys avataan tyypillisesti seuraavan kaltaisilla komennoilla
export PATH=/some-local-path/allas-cli-utils:$PATH
source /some-local-path/allas-cli-utils/allas_conf -u your-csc-account --sdc
- Asetusprosessi kysyy ensin CSC-salasanasi (Haka- tai Virtu-salasanoja ei voi käyttää tässä). Sen jälkeen valitset käytettävän CSC-projektin. Tämä on sama kuin tavallinen Allaksen kirjautumisprosessi.
- SD Connectin tapauksessa prosessissa on ylimääräinen vaihe, jossa sinua pyydetään antamaan SD Connect API -token.
Tilapäisen SD Connect API -tokenin hakeminen:
- Kirjaudu SD Connectin selainkäyttöliittymään. Jos sinulla on useita CSC-projekteja, varmista, että olet valinnut saman SD Connect -projektin sekä komentorivillä että selainkäyttöliittymässä (vasen yläkulma).
- Napsauta selainkäyttöliittymän oikeasta yläkulmasta Support ja valitse sitten pudotusvalikosta Create API Token.
- Anna uudessa valintaikkunassa nimi tilapäiselle tokenillesi. Vältä erikoismerkkien käyttöä tokenin nimessä.
-
Napsauta Create Token. Token näytetään vain kerran. Kun näet tokenin, kopioi se (napsauta tokenin vasemmalla puolella olevaa kuvaketta). Tärkeää: varmista, että tallennat sen turvallisesti, sillä sitä ei voi hakea myöhemmin uudelleen.

-
Token on voimassa 24 tuntia, ja se poistetaan automaattisesti tämän ajan jälkeen. Liitä token komentoriville ja paina Enter käyttääksesi sitä.
SD Connect -yhteensopiva Allas-yhteys on nyt voimassa seuraavat kahdeksan tuntia. Voit käyttää komentoja kuten a-list ja a-delete sekä tavallisten Allas-objektien että SD Connect -objektien hallintaan.
Vaihe 3: Datan lataaminen palveluun ja automaattinen salaus
Dataa voidaan ladata SD Connectiin komennolla a-put käyttäen valitsinta --sdc.
Esimerkiksi tiedoston my-secret-table.csv lataamiseen sijaintiin 2000123-sens/dataset2 Altaassa käytä komentoa:
Tämä tuottaa SD Connect -objektin: 2000123-sens/dataset2/my-secret-table.csv.c4gh
Myös kaikkia muita a-put-komennon valitsimia ja ominaisuuksia voidaan käyttää. Esimerkiksi hakemistot
tallennetaan tar-tiedostoina, jos valitsinta --asis ei käytetä.
Komento:
tuottaa SD Connect -objektin: 2000123-sens/dataset2/my-secret-directory.tar.c4gh
Laajoihin datalatauksiin voit käyttää komentoa sd-lock-util lock. Esimerkiksi voit ladata paikallisen
hakemiston dataset3 ämpäriin 2000123-sens komennolla:
sd-lock-util ei tallenna hakemistoa tar-arkistotiedostona. Sen sijaan kaikki hakemiston tiedostot tallennetaan yksittäisinä objekteina, jotka nimetään hakemiston sijainnin mukaisesti.
Voit käyttää valitsinta --prefix määrittääksesi tietyn sijainnin kohdeämpärin sisällä:
Note
Älä käytä erikoismerkkejä tai välilyöntejä ämpärin nimessä.
Note
Sen jälkeen kun SD Connect päivitettiin lokakuussa 2024, Allakseen/SD Connectiin tallennetun salatun .c4gh-tiedoston käyttämän salausmenetelmän määrittäminen ei ole enää suoraviivaista. Jos käytät nyt uutta salausmenetelmää tiedostojen lataamiseen olemassa olevaan CSC-projektiin, varmista, että lisäät kansioihisi huomautuksen siitä, että salausprotokolla on muuttunut. Voit joko jakaa tämän tiedon kollegoillesi tai sisällyttää sen selkeästi kansion nimeen. Hyvänä käytäntönä suosittelemme uuden kansion luomista ja eri menetelmillä salattujen tiedostojen sekoittamisen välttämistä.
Vaihe 4: Datan lataaminen palvelusta ja automaattinen salauksen purku
Dataa voidaan ladata SD Connectista komennolla a-get. Jos SD Connect -yhteys on käytössä, a-get yrittää automaattisesti purkaa niiden objektien salauksen, joiden pääte on .c4gh.
Esimerkiksi komento:
tuottaa paikallisen tiedoston: my-secret-table.csv
Ja vastaavasti komento:
tuottaa paikallisen hakemiston: my-secret-directory
Suuria latauksia varten voit käyttää komentoa sd-lock-util unlock. Koko ämpärin lataamiseen voit käyttää komentoa:
Kuten latauksen yhteydessä, valitsinta --prefix voidaan käyttää valitsemaan osa ämpärin sisällöstä.
Esimerkiksi jos haluat ladata ämpäristä 2000123-sens vain objektit, joiden nimet alkavat merkkijonolla case-study2,
voit käyttää komentoa:
Huomaa, että automaattinen salauksen purku a-getillä tai sd-lock-utililla toimii vain tiedostoille, jotka on tallennettu uudella SD Connectilla, joka otettiin käyttöön lokakuussa 2024.
Vanhemmille SD Connect -tiedostoille ja muille Crypt4GH-salatuille tiedostoille sinun täytyy edelleen käyttää a-get-komentoa ja
antaa vastaava salainen avain valitsimella --sk
Valitettavasti ei ole helppoa tapaa tietää, mitä salausmenetelmää SD Connectiin tallennetussa .c4gh-tiedostossa on käytetty.
Komentorivityökalut ja manuaalinen salauksen purku
Tässä luvussa käsitellään niiden Crypt4GH-salattujen tiedostojen salauksen purkamista, jotka eivät ole yhteensopivia nykyisen SD Connect -version kanssa. Näissä tapauksissa automaattinen salauksen purku ei toimi. Sen sijaan data täytyy ensin ladata paikalliselle tietokoneellesi, minkä jälkeen salaus puretaan komennolla crypt4gh tai Crypt4GH:n graafisella käyttöliittymällä.
Tyypillisiä tapauksia, joissa tätä manuaalista salauksen purkua tarvitaan, ovat tiedostot, jotka on tallennettu SD Connectiin vanhalla protokollalla, sekä tiedostot, jotka on viety SD Desktopista.
Näissä tapauksissa on pakollista, että sinulla on pääsy salaiseen avaimeen (jota kutsutaan usein yksityiseksi avaimeksi), joka vastaa datan salaamiseen käytettyä julkista avainta.
Tässä osiossa käsitellään vain niiden tiedostojen lataamista ja salauksen purkua, jotka on ladattu komentoriviltä käyttäen omaa salausavainparia. Jos haluat salata ja ladata tiedostoja komentoriviltä, katso tämä ohje, jossa havainnollistetaan crypt4gh-työkalun käyttöä tiedostojen lataamiseen Allakseen (näkyy SD Connectissa).
2.1 Valmistelu
Voit käyttää mitä tahansa Allas-yhteensopivaa työkalua salattujen tiedostojen lataamiseen Allaksesta. Yleisesti käytettyjä komentorivityökaluja ovat:
Allas-yhteensopivan työkalun lisäksi tarvitset Crypt4GH Encryption Utilityn. Crypt4GH on kirjoitettu Pythonilla. Python 3.6+ vaaditaan. Jos tarvitset apua Pythonin asentamisessa, seuraa näitä ohjeita.
-
Asenna Crypt4GH:n komentorivityökalu. Voit asentaa Crypt4GH:n suoraan pip-työkalulla:
tai jos haluat mieluummin uusimmat lähdekoodit GitHubista:
tai jopa:
-
Tavallinen
-h-valitsin näyttää työkalun hyväksymät eri vaihtoehdot:$ crypt4gh -h Utility for the cryptographic GA4GH standard, reading from stdin and outputting to stdout. Usage: crypt4gh [-hv] [--log <file>] encrypt [--sk <path>] --recipient_pk <path> [--recipient_pk <path>]... [--range <start-end>] [--header <path>] crypt4gh [-hv] [--log <file>] decrypt [--sk <path>] [--sender_pk <path>] [--range <start-end>] crypt4gh [-hv] [--log <file>] rearrange [--sk <path>] --range <start-end> crypt4gh [-hv] [--log <file>] reencrypt [--sk <path>] --recipient_pk <path> [--recipient_pk <path>]... [--trim] [--header-only] Options: -h, --help Prints this help and exit -v, --version Prints the version and exits --log <file> Path to the logger file (in YML format) --sk <keyfile> Curve25519-based Private key When encrypting, if neither the private key nor C4GH_SECRET_KEY are specified, we generate a new key --recipient_pk <path> Recipient's Curve25519-based Public key --sender_pk <path> Peer's Curve25519-based Public key to verify provenance (akin to signature) --range <start-end> Byte-range either as <start-end> or just <start> (Start included, End excluded) -t, --trim Keep only header packets that you can decrypt --header <path> Where to write the header (default: stdout) --header-only Whether the input data consists only of a header (default: false) Environment variables: C4GH_LOG If defined, it will be used as the default logger C4GH_SECRET_KEY If defined, it will be used as the default secret key (ie --sk ${C4GH_SECRET_KEY})Saatat huomata, että crypt4gh käyttää yksityisestä avaimesta valitsinta
--sk. Tämä voi tuntua oudolta, mutta ilmeisesti crypt4gh käyttää termiä secure key yksityisestä avaimesta, mistä tuleesk, ja vastaavastipkviittaa julkiseen avaimeen eikä yksityiseen avaimeen.
2.2 Tiedoston lataaminen ja salauksen purku
Tiedoston salauksen purkamiseen tarvitset salaisen avaimen, joka vastaa yhtä salausvaiheessa käytetyistä julkisista avaimista. Oletetaan esimerkissämme, että olet purkamassa tiedoston dog.jpg salausta. Olet salannut sen SD Desktopissa avaimella groupA-pub ja vienyt tiedoston sen jälkeen ämpäriin 2000123-export.
Voit hakea tiedoston paikalliselle tietokoneellesi tekemällä sekä latauksen että salauksen purun komennolla a-put.
Yllä oleva komento kysyy avaintiedoston salasanan, minkä jälkeen se lataa datan ja purkaa sen salauksen.
Vaihtoehtoisesti voit käyttää esimerkiksi rclonea datan lataamiseen:
Sen jälkeen käytä salauksen purkuun komentoa crypt4gh decrypt:
crypt4gh-komento käyttää vain vakiotuloa (stdin) ja vakiotulostetta (stdout), joten sinun täytyy käyttää komentotulkin uudelleenohjauksia: < tarkoittaa syötetiedostoa ja > tulostetiedostoa, joten <dog.jpg.c4gh lukee salatun tiedoston nimeltä dog.jpg.c4gh ja >dog.jpg kirjoittaa puretun tiedoston nimeltä dog.jpg.
Komento pyytää käyttäjää syöttämään salaisen avaimesi salasanan (passphrase). Turvallisuussyistä salasanaa ei näytetä, kun kirjoitat sitä.
Jos sinun täytyy purkaa suuren määrän Crypt4GH-salattujen tiedostojen salaus, voit tutustua ohjeeseen, jossa kuvataan, miten kaikki hakemiston tiedostot voidaan purkaa
Note
Jos purat tiedoston salauksen SD Desktopissa ja salauksessa on käytetty CSC Sensitive Data -julkista avainta, salauksen purku tehdään automaattisesti eikä sinun tarvitse määrittää salauksen purkuavaimia. Jos sinun täytyy purkaa suuren määrän tiedostojen salaus, katso ohje Kaikkien hakemiston tiedostojen salauksen purkaminen.
Lisätietoja datan salauksesta.
Ohjeet
- Työkalut Allaksen asiakaspään salaukseen
- Kaikkien hakemiston tiedostojen salauksen purkaminen
- Allas-tallennuspalvelun käyttö sensitiivisen tutkimusdatan vastaanottamiseen