Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

Megahit

Megahit on erittäin nopea kokoamistyökalu metagenomiikkadatalle.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.

Saatavuus

  • Puhti: 1.2.9

Käyttö

Puhdissa Megahit otetaan käyttöön lataamalla biokit-ympäristö:

module load biokit

Käyttöohjeen saat komennolla:

megahit -h

Metagenomiikkadatan kokoaminen voi vaatia hyvin paljon resursseja. Huomaa, että Megahitia ei tule ajaa Puhdin kirjautumissolmuilla. Kaikissa varsinaisissa analyysitehtävissä suosittelemme ajamaan Megahitin eräajona.

Esimerkki Megahit-eräajosta:

#!/bin/bash
#SBATCH --job-name=Megahit
#SBATCH --account=<project>
#SBATCH --time=12:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --output=megahit_out_8
#SBATCH --error=megahit_err_8
#SBATCH --cpus-per-task=8
#SBATCH --mem=32G
#SBATCH --partition=small

module load biokit
srun megahit -1 reads_1.fastq -2 reads_2.fastq -t $SLURM_CPUS_PER_TASK --m 32000000000 -o result_directory

Yllä olevassa esimerkissä <project> tulee korvata projektisi nimellä. Voit käyttää komentoa csc-projects CSC-projektiesi tarkistamiseen. Enimmäisajoaika on asetettu 12 tuntiin (--time=12:00:00). Koska Megahit käyttää säiepohjaista rinnakkaistusta, prosessi käsitellään yhtenä työnä, joka tulee suorittaa yhdellä solmulla (--ntasks=1, --nodes=1). Työ varaa kahdeksan ydintä (--cpus-per-task=8), jotka voivat käyttää yhteensä enintään 32 Gt muistia (--mem=32G). Huomaa, että käytettävien ytimien määrä täytyy määritellä myös varsinaisessa Megahit-komennossa. Tämä tehdään Megahitin valitsimella -t. Tässä tapauksessa käytämme muuttujaa $SLURM_CPUS_PER_TASK, joka sisältää arvon --cpus-per-task (voisimme yhtä hyvin käyttää arvoa -t 8, mutta silloin meidän täytyy muistaa muuttaa arvoa, jos varattujen CPU-ytimien määrä muuttuu).

Työ lähetetään eräajo järjestelmään komennolla sbatch. Jos eräajotiedoston nimi on esimerkiksi megahit_job.sh, lähetyskomento on:

sbatch megahit_job.sh 

Lisätietoa eräajojen suorittamisesta löytyy Puhdin käyttöoppaan eräajo-osiosta.

Lisätietoa

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta