Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Datan analysoinnin opas

Tämän oppaan tarkoitus on auttaa sinua valitsemaan oikeat työkalut ja ympäristön datan analysointiin. Lisäksi CSC järjestää laajan valikoiman koulutuksia, joista monet liittyvät data-analytiikkaan ja koneoppimiseen CSC:n laskentaympäristöissä. Lopuksi CSC:n asiantuntijat auttavat mielellään kaikissa datalähtöisen tutkimuksesi osa-alueissa, ja heihin voi ottaa yhteyttä CSC:n asiakastuen kautta.

Alkuun pääseminen

Päästäksesi alkuun sinun tulee:

Lopuksi projektilla täytyy olla pääsy niihin palveluihin, joita aiot käyttää. Alla kerrotaan lisää palveluistamme ja siitä, milloin niitä kannattaa käyttää.

CSC:n palvelut

Alla on lyhyt sanasto CSC:n palveluista, jotka ovat datan analysoinnin kannalta olennaisimpia.

Puhti on CSC:n supertietokone, jossa suurin osa laskennasta kannattaa tehdä. Puhdissa on laaja valikoima esiasennettuja sovelluksia, ja se skaalautuu erittäin raskaisiin laskentatehtäviin, mukaan lukien GPU-pohjainen prosessointi.

Allas on CSC:n datan tallennuspalvelu. Jos sinulla on suuria aineistoja tai sinun täytyy jakaa dataa projektisi ulkopuolisten henkilöiden kanssa, Allas voi olla hyvä vaihtoehto.

Pouta on CSC:n pilvipalvelu, jossa voit luoda oman virtuaalipalvelimen. Tämä antaa sinulle enemmän hallintaa laskentaympäristöön, mutta se ei välttämättä sovellu erittäin raskaisiin laskentatehtäviin. Pouta soveltuu myös paremmin sensitiivisen datan käsittelyyn, erityisesti ePouta-versio.

Rahti on CSC:n konttipilvi. Siellä voit helposti luoda virtuaalisia sovelluksia konttikuvien pohjalta.

Noppe on erinomainen palvelu, jos haluat vain suorittaa nopean analyysin suoraan selaimessasi. Noppe tukee Jupyteria Python-työkaluilla data-analyysiin ja koneoppimiseen sekä myös RStudioa.

Esimerkkikäyttötapauksia

Alku datalähtöisessä tutkimuksessa

Olet käyttänyt hieman Exceliä tai SPSS:ää, mutta nyt etsit tehokkaampia tapoja käsitellä dataasi.

Hyvä tapa aloittaa data-analytiikka on osallistua kurssille. Tulevia kursseja voit katsoa CSC:n koulutussivustolta. CSC:llä on myös itseopiskeluun soveltuvia koulutusmateriaaleja, kuten nämä johdantokurssit:

Jos työskentelet bioinformatiikan alalla, kannattaa tutustua myös Chipster-alustaan.

Verkossa on myös runsaasti data science -aiheista tietoa. Suosittuja lähteitä ovat esimerkiksi Udemy, Coursera ja edX.

Jos et halua pystyttää kehitysympäristöä omalle kannettavallesi, voit helposti käyttää Rahtia RStudio-ympäristön pystyttämiseen käyttämällä valmista RStudio-mallia mallikatalogista. Lisätietoa RStudio-mallista löytyy RStudio-openshift GitHub -repositoriosta.
Meillä on myös ohjeet Allas-oliosäilön käyttämiseen RStudiosta.

Skaalaa kannettavastasi ylöspäin (aloittelija)

Olet jo jonkin aikaa ajanut analyysejä R:llä tai Pythonilla, mutta olet saavuttanut oman kannettavasi tai pöytäkoneesi rajat. Ehkä tarvitset enemmän muistia tai nopeampaa prosessointia?

Useimmissa tapauksissa seuraava askel on siirtyä CSC:n supertietokone Puhtiin, joka on korkean suorituskyvyn laskentaklusteri (HPC). Tämä tarkoittaa, että kyse ei ole yhdestä tietokoneesta vaan monen tietokoneen kokonaisuudesta. Käyttäjät käyttävät Puhdin etupalvelinta (kirjautumissolmua), josta he voivat lähettää laskentatöitä jonotusjärjestelmään, joka huolehtii niiden jakamisesta klusterin eri tietokoneille (laskentasolmuille). Lue ohjeet Puhdin käyttöön pääsemisestä sekä siitä, miten laskentatöitä lähetetään Puhdin jonotusjärjestelmään.

Puhdissa on laaja valikoima esiasennettuja tieteellisen laskennan sovelluksia, mukaan lukien R ja RStudio Server sekä Python-kirjastot data-analyysiin. Jos huomaat jotain puuttuvan, ota rohkeasti yhteyttä asiakastukeemme.

Koska Puhti on jaettu laskentaympäristö, käyttäjien mahdollisuuksia on rajoitettu siinä, mitä he voivat tehdä, esimerkiksi räätälöityjen ohjelmistojen asentamisessa tai sensitiivisen datan käsittelyssä. Joissakin tapauksissa voi olla järkevää käyttää sen sijaan Poutaa oman virtuaalipalvelimen luomiseen. Tämä antaa sinulle enemmän hallintaa laskentaympäristöön, mutta se ei välttämättä sovellu erittäin raskaisiin laskentatehtäviin. Toinen vaihtoehto on Rahti, jossa voit luoda virtuaalisia sovelluksia konttikuvien pohjalta. Katso esimerkkejä koneoppimismallien käyttöönotosta Rahdissa.

Raskaat laskentatarpeet (edistynyt)

Olet jo asiantuntija, mutta paikallisen organisaatiosi resurssit eivät enää riitä tarpeisiisi.

Jos tarvitset voimakkaasti rinnakkaistettua laskentaa tai esimerkiksi GPU-kiihdytettyä prosessointia, Puhti on oikea ratkaisu (katso ohjeet yllä olevasta osiosta).

GPU-kiihdytettyyn koneoppimiseen tuemme TensorFlow’ta, PyTorchia, JAXia ja RAPIDSia.

Lisätietoja:

Jos käytät R:ää datan analysointiin, tuemme myös rinnakkaisia eräajoja R:ssä. Tarpeistasi riippuen R:llä on mahdollista toteuttaa monenlaisia rinnakkaislaskennan tapoja. Useita prosessoreita (ytimiä) ja säikeitä hyödyntävien töiden lisäksi on mahdollista ajaa taulukkotöitä, joissa analyysi jaetaan moniin osatehtäviin. Useita solmuja vaativiin analyyseihin R tukee myös useita Message Passing Interface (MPI) -pohjaisia töitä.

Kurssiympäristöt (opettajille)

Opetat kurssia, jonka harjoitukset vaativat monimutkaisia laskentaympäristöjä, mutta et halua käyttää arvokasta kurssiaikaa asennusvirheiden selvittämiseen.

Harkitse CSC:n Noppe-palvelun käyttöä. Se sisältää helppokäyttöisiä ympäristöjä datan ja ohjelmoinnin parissa työskentelyyn. Kurssiympäristöt tukevat Jupyteria, Pythonia (mukaan lukien monet koneoppimiskirjastot), R:ää / RStudio Serveriä ja Sparkia.

Jos suunnittelet Nopen käyttöä kurssillasi, muistathan lähettää ilmoituksen kurssisi vaatimuksista käyttämällä tätä verkkolomaketta.

CSC:n GitHub-repositorioiden kokoelma koulutuskäyttöön voi myös olla arvokas resurssi kurssin suunnittelussa ja opetusmateriaalien jakamisessa kurssin osallistujille.

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta