Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Megahit

Megahit on erittäin nopea kokoamistyökalu metagenomiikkadatalle.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.

Saatavuus

  • Puhti: 1.2.9

Käyttö

Puhdissa Megahit otetaan käyttöön lataamalla biokit-ympäristö:

module load biokit

Käyttöohjeen saat komennolla:

megahit -h

Metagenomiikkadatan kokoaminen voi vaatia hyvin paljon resursseja. Huomaa, että Megahitia ei tule ajaa Puhdin kirjautumissolmuilla. Kaikissa varsinaisissa analyysitehtävissä suosittelemme ajamaan Megahitin eräajona.

Esimerkki Megahit-eräajosta:

#!/bin/bash
#SBATCH --job-name=Megahit
#SBATCH --account=<project>
#SBATCH --time=12:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --output=megahit_out_8
#SBATCH --error=megahit_err_8
#SBATCH --cpus-per-task=8
#SBATCH --mem=32G
#SBATCH --partition=small

module load biokit
srun megahit -1 reads_1.fastq -2 reads_2.fastq -t $SLURM_CPUS_PER_TASK --m 32000000000 -o result_directory

Yllä olevassa esimerkissä <project> tulee korvata projektisi nimellä. Voit käyttää komentoa csc-projects CSC-projektiesi tarkistamiseen. Enimmäisajoaika on asetettu 12 tuntiin (--time=12:00:00). Koska Megahit käyttää säiepohjaista rinnakkaistusta, prosessi käsitellään yhtenä työnä, joka tulee suorittaa yhdellä solmulla (--ntasks=1, --nodes=1). Työ varaa kahdeksan ydintä (--cpus-per-task=8), jotka voivat käyttää yhteensä enintään 32 Gt muistia (--mem=32G). Huomaa, että käytettävien ytimien määrä täytyy määritellä myös varsinaisessa Megahit-komennossa. Tämä tehdään Megahitin valitsimella -t. Tässä tapauksessa käytämme muuttujaa $SLURM_CPUS_PER_TASK, joka sisältää arvon --cpus-per-task (voisimme yhtä hyvin käyttää arvoa -t 8, mutta silloin meidän täytyy muistaa muuttaa arvoa, jos varattujen CPU-ytimien määrä muuttuu).

Työ lähetetään eräajo järjestelmään komennolla sbatch. Jos eräajotiedoston nimi on esimerkiksi megahit_job.sh, lähetyskomento on:

sbatch megahit_job.sh 

Lisätietoa eräajojen suorittamisesta löytyy Puhdin käyttöoppaan eräajo-osiosta.

Lisätietoa

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta