-
Datan tallentaminen CSC:llä
Datan tallentaminen CSC:llä
Yleiskatsaus
CSC:n palvelut datan tallentamiseen ovat maksutta tarjolla akateemiseen tutkimukseen, opetukseen ja koulutukseen suomalaisissa korkeakouluissa ja valtion tutkimuslaitoksissa. Aloittaaksesi palvelun käytön rekisteröi CSC-käyttäjätunnus ja luo projekti. Huomaa, että EUDAT-palveluilla on oma rekisteröintiprosessinsa.
CSC:n palvelut datan tallentamiseen
Tallennuspalveluiden vertailutaulukko
Palvelut sensitiiviselle datalle (SD Connect ja Federated EGA)
Allaksen käyttö aineiston ylläpitämiseen tutkimusprojektissa
Tutkimusdatan digitaalinen säilytyspalvelu
Aineistojen siirtäminen CSC:n ympäristössä
Mitä ottaa huomioon sopivaa tallennusratkaisua valittaessa
Kun etsit paikkaa datan tallentamiseen tutkimusprojektisi aikana, sinun kannattaa ottaa huomioon:
- sisältääkö data henkilötietoja ja/tai sensitiivistä dataa, katso sensitiivisen datan määritelmä
- miten dataa käytetään (varmuuskopiona, analyysivalmiina jne.)
- kuka päättää datan elinkaaresta
- mitä datallesi tapahtuu, jos poistut yliopistosta/tutkimus- organisaatiosta
- kenen täytyy päästä käsiksi dataan
- millaisia käyttöliittymiä tarvitaan (esim. selainpohjaiset graafiset käyttöliittymät äänelle/videolle/taulukoille, koneluettavat rajapinnat, käyttöjärjestelmään liitettävä polku jne.)
- kuinka paljon tallennustilaa tarvitaan ja onko
tarve kumulatiivinen
- pystytkö tarvittaessa maksamaan datan tallennuskustannukset
- kuinka suuria yksittäiset tiedostot ovat (esim. liian pieniä tai liian suuria tiedostoja ei ole järkevää tallentaa)
- pitäisikö tiedostonsiirto automatisoida esimerkiksi skriptillä
- tarvitsetko metadatan tallentamista datasi yhteyteen ja minkä tyyppistä metadataa
- millaista tietoturvatasoa datasi vaatii
Kun olet päättänyt, mitä tallennusratkaisua käytät, sinun kannattaa miettiä, miten organisoit datasi.
Kun tutkimusprojekti päättyy
Tutkimusprojektin päättyessä sinun tulee ottaa huomioon:
- mikä data tulisi julkaista
- kuinka pitkään sinun täytyy säilyttää dataa rahoittajan, julkaisijan tai kotiorganisaatiosi vaatimusten mukaisesti
- mikä data voidaan poistaa tässä vaiheessa
- onko sinulla arvokasta dataa, joka täytyy digitaalisesti säilyttää
Vaikka voi olla houkuttelevaa tallettaa kaikki datasi varmuuden vuoksi siltä varalta, että siitä olisi hyötyä tulevaisuudessa, tämä ei aina ole mahdollista, sillä kaiken arkistointi voi olla kallista ja aikaa vievää ja joissakin tapauksissa epäeettistä. Jos keräät dataa ihmisiltä tutkimukseen osallistuvilta henkilöiltä, sinun on myös varmistettava, että olet saanut heiltä tietoon perustuvan ja pätevän suostumuksen nimenomaan arkistointiin, jakamiseen ja uudelleenkäyttöön. Tiedostot, joita ei julkaista, arkistoida tai säilytetä, tulee poistaa, kun ne ovat täyttäneet tarkoituksensa. Tutkijoilla on lakisääteinen vastuu kerätystä datasta, ja sensitiivinen data tulee hävittää asianmukaisesti. Tiedostojen poistaminen ei riitä, sillä poistettua dataa voidaan palauttaa työkaluilla. Sinun on varmistettava, että data, jonka haluat hävittää, erityisesti "erityisiin henkilötietoryhmiin" kuuluva data, pyyhitään täysin kiintolevyiltä, siirrettäviltä levyiltä ja kaikenlaisista muista tallennusratkaisuista.
Säilyttäminen
Digitaalinen säilyttäminen tarkoittaa digitaalisen tiedon luotettavaa säilyttämistä useiden vuosikymmenten tai jopa vuosisatojen ajan. Laitteisto, ohjelmistot ja tiedostomuodot vanhenevat, vaikka tiedon on säilyttävä. Luotettava digitaalinen säilyttäminen edellyttää tiedon eheyden aktiivista seurantaa ja erilaisten riskien ennakointia. Metadatalla, joka kuvaa esimerkiksi tietosisältöä, alkuperätietoa ja sitä, miten sisältöä voidaan käyttää, on tässä keskeinen rooli.
Tutkimusdatan kansalliset digitaaliset säilytyspalvelut varmistavat digitaalisten tutkimusresurssien saatavuuden ja säilymisen. Täältä löydät lisätietoa kumppaniorganisaatioksi liittymisestä tutkimusdatan digitaaliseen säilytyspalveluun.
Lue lisää tutkimusdatan säilyttämisestä tästä videosta:
Kuinka paljon tallennustilaa tarvitaan
CSC:n palveluiden käyttäjän tulee arvioida tarvittavan tallennustilan määrä, esimerkiksi gibitavuina (GiB). Yksi tapa tehdä tämä on tarkistaa olemassa olevien tiedostojen koko ja arvioida lopullinen tilantarve niiden perusteella. Useimpien CSC:n palveluiden kiintiökokoa voidaan helposti kasvattaa (tai pienentää) MyCSC-asiakasportaalissa.
Note
Gibitavu (GiB) = 1 073 741 824 tavua eli noin 1,073 gigatavua (GB)
On myös hyvä huomata, että suurten datamäärien siirtäminen vie aikaa. Esimerkiksi 1 GiB:n tiedoston siirtäminen 10 Mbps:n yhteydellä kestää yleensä noin 10 minuuttia ja nopealla 100 Mb:n kiinteällä yhteydellä pari minuuttia. Suosittelemme käyttämään esimerkiksi kotiorganisaation tarjoamaa nopeaa kiinteää yhteyttä ja välttämään selainkäyttöliittymien käyttöä suurten tiedosto- tai datamäärien siirtämiseen.
Tiedostokokoyksiköt pienimmästä suurimpaan:
- 1 tavu (B) = digitaalisen tiedon perusyksikkö
- 1 kibitavu (KiB) = 1024 tavua
- 1 mebitavu (MiB) = 1024 kibitavua
- 1 gibitavu (GiB) = 1024 mebitavua
- 1 tebibitavu (TiB) = 1024 gibitavua
- 1 pebibitavu (PiB) = 1024 tebibitavua
Esimerkkitiedostokokoja eri datatyypeille
Huomaa, että tiedostokoot voivat vaihdella paljon esimerkiksi kuvan tai videon laadun mukaan.
| Tiedosto | Keskimääräinen tiedostokoko | Tiedostojen määrä 1 GiB:ssä | Tiedostojen määrä 25 GiB:ssä | Tiedostojen määrä 1 TiB:ssä |
|---|---|---|---|---|
| Tekstinkäsittelytiedosto | 730 KiB | 1400 | 35000 | 1436000 |
| Esitys (ppt) | 6 MiB | 170 | 4300 | 174000 |
| JPEG-kuva | 300 KiB | 3400 | 85000 | 3495000 |
| Älypuhelimella otettu JPEG-valokuva | 3 MiB | 340 | 8500 | 349000 |
| PDF-dokumentti | 3 MiB | 340 | 8500 | 349000 |
| MPEG-video | 650 MiB | 1 | 39 | 1600 |
| 30 min HD-video | 2,1 GiB | 0 | 12 | 490 |
| täysi DVD | 4,7 GiB | 0 | 6 | 218 |
| Ihmisen genomisekvenssi | 60 GiB | 0 | 0 | 17 |
Keskimääräinen tiedostokoko perustuu 14 000 tekstinkäsittelytiedoston, 1 000 esitysgrafiikkatiedoston, 4 miljoonan JPEG-kuvan, 27 000 PDF-tiedoston ja 7 000 tutkimukseen liittyvän MPEG-tiedoston tietoihin sekä viiden tutkimukseen liittymättömän 30 minuutin HD h264 -videon tietoihin.
Tallennuspalveluiden vertailutaulukko
Tarjoamme useita tallennusvaihtoehtoja tutkimuskäyttöön. Alla olevasta vertailutaulukosta löydät itsellesi sopivan tallennusratkaisun. Suosittelemme datahallintasuunnitelman laatimista, kun harkitset datan tallennusvaihtoehtoja. Jos sinulla on kysyttävää, asiakastukemme tarjoaa henkilökohtaista ohjausta ja asiantuntijatukea datallesi sopivan tallennusratkaisun valintaan.
- Tarjoamme pyynnöstä myös tallennuskapasiteettia (CEPH/NFS).
| Palvelu | Käyttötarkoitus | Tällä hetkellä saatavilla olevat kiintiöt* | Käyttöliittymät | Yhden käyttäjän vai projektipohjainen käyttöoikeus | Lisäominaisuudet | Palveluntarjoaja |
|---|---|---|---|---|---|---|
| Allas-objektitallennus | alustariippumaton datan tallennus ja jakaminen | 10 TB (lisää pyynnöstä) | S3- ja Swift-asiakasohjelmat. OpenStack Horizon, Puhdin ja Mahdin selainkäyttöliittymät. | projektiryhmä | mahdollistaa datan jakamisen palvelusta | CSC |
| Fairdata IDA -tallennuspalvelu | tutkimusdatan tallentaminen, jakaminen ja julkaiseminen | myönnetään hakemuksen perusteella (1 GB:stä noin 100 TB:hen) | selain, CLI | projektiryhmä | käyttäjät sitoutuvat julkaisemaan tallennetun datan Fairdata Etsin -palvelussa | OKM (palvelun tuottaa CSC) |
| Tallennus CSC:n pilviympäristöissä | väliaikaiset tai pysyvät tallennusresurssit virtuaalikoneiden kautta | 1 TB (lisää pyynnöstä) | lohkotallennus virtuaalikoneen kautta, big data -kehykset (Hadoop, Spark) | projektiryhmä | CSC | |
| Projektihakemistot CSC:n supertietokoneissa | levyalueet datan käsittelyyn | 50GB, 1-10 TB lyhytaikaisesti (lisää pyynnöstä) | tiedostojärjestelmä | projektiryhmä | Käyttämättömät tiedostot Puhdin scratch-alueella poistetaan 90 tai 180 päivän jälkeen kiintiöstä riippuen (katso ehdot) | CSC |
| EUDAT B2DROP | tiedostojen tallennus, jakaminen ja synkronointi | 20 GB | selain, työpöytä | yksi käyttäjä | mahdollistaa datan jakamisen palvelusta ja datan julkaisemisen EUDAT B2SHARE -palvelussa | EUDAT |
| Pukki DBaaS -relaatiotietokantapalvelu | datan tallentaminen ja käyttö relaatiotietokannoilla | enintään 50 GB | PostgreSQL-tietokanta-asiakasohjelmat. | projektiryhmä | Tietokantojen hallinta perustuu CSC-käyttäjätunnuksiin. Tietokannan käyttöön tarkoitetut tunnukset käyttäjä luo itse. | CSC |
| Sensitiivisen datan SD Connect | salatun tutkimusdatan tallentaminen, kerääminen ja jakaminen | 10 TB (lisää pyynnöstä) | Selain ja CLI | projektiryhmä | Mahdollistaa datan jakamisen palvelusta. Mahdollistaa salatun datan analysoinnin SD Desktop -palvelussa. Lisätietoa SD-palveluista. | CSC |
| Federated EGA | Palvelu tutkimuskäyttöön suostumuksella luovutetun ihmisen geneettisen datan ja fenotyyppiaineiston julkaisemiseen | Tapauskohtainen | komentorivikäyttöliittymä datan lataamiseen palveluun. Selainkäyttöliittymä hallintaan. | Käyttöoikeus perustuu sopimukseen | Datan julkaiseminen edellyttää kotiorganisaation ja CSC:n välistä sopimusta eikä ole maksutonta. Ulkoisille käyttäjille tarjotaan rajoitettu pääsy dataan CSC:n SD-palveluiden kautta. | CSC |
- Tarkempia tietoja saatavilla olevasta tallennuskapasiteetista on oletuskiintiöitä koskevissa tiedoissa.