-
Megahit
Megahit
Megahit on erittäin nopea kokoamistyökalu metagenomiikkadatalle.
Lisenssi
Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.
Saatavuus
- Puhti: 1.2.9
Käyttö
Puhdissa Megahit otetaan käyttöön lataamalla biokit-ympäristö:
Käyttöohjeen saat komennolla:
Metagenomiikkadatan kokoaminen voi vaatia hyvin paljon resursseja. Huomaa, että Megahitia ei tule ajaa Puhdin kirjautumissolmuilla. Kaikissa varsinaisissa analyysitehtävissä suosittelemme ajamaan Megahitin eräajona.
Esimerkki Megahit-eräajosta:
#!/bin/bash
#SBATCH --job-name=Megahit
#SBATCH --account=<project>
#SBATCH --time=12:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --output=megahit_out_8
#SBATCH --error=megahit_err_8
#SBATCH --cpus-per-task=8
#SBATCH --mem=32G
#SBATCH --partition=small
module load biokit
srun megahit -1 reads_1.fastq -2 reads_2.fastq -t $SLURM_CPUS_PER_TASK --m 32000000000 -o result_directory
Yllä olevassa esimerkissä <project> tulee korvata projektisi nimellä. Voit käyttää komentoa csc-projects CSC-projektiesi tarkistamiseen. Enimmäisajoaika on asetettu 12 tuntiin (--time=12:00:00). Koska Megahit käyttää säiepohjaista rinnakkaistusta, prosessi käsitellään yhtenä työnä, joka tulee suorittaa yhdellä solmulla (--ntasks=1, --nodes=1). Työ varaa kahdeksan ydintä (--cpus-per-task=8), jotka voivat käyttää yhteensä enintään 32 Gt muistia (--mem=32G). Huomaa, että käytettävien ytimien määrä täytyy määritellä myös varsinaisessa Megahit-komennossa. Tämä tehdään Megahitin valitsimella -t. Tässä tapauksessa käytämme muuttujaa $SLURM_CPUS_PER_TASK, joka sisältää arvon --cpus-per-task
(voisimme yhtä hyvin käyttää arvoa -t 8, mutta silloin meidän täytyy muistaa muuttaa arvoa, jos varattujen CPU-ytimien määrä muuttuu).
Työ lähetetään eräajo järjestelmään komennolla sbatch. Jos eräajotiedoston nimi on esimerkiksi megahit_job.sh, lähetyskomento on:
Lisätietoa eräajojen suorittamisesta löytyy Puhdin käyttöoppaan eräajo-osiosta.