wtdbg2

wtdbg2 on nopea de novo -kokoamistyökalu PacBio- tai Oxford Nanopore Technologies -sekvensointilaitteilla tuotetulle pitkän lukupituuden sekvenssidatalle.

wtdbg2

Lisenssi

Vapaasti käytettävä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.

Saatavuus

Puhti: 2.5

Käyttö

Puhdissa wtdbg2 otetaan käyttöön lataamalla biokit-moduuli:

module load biokit

Tämän jälkeen voit käyttää kokoamiskomentoa wtdbg2 ja konsensuskomentoa wrpoa-cns. wtdbg2 kokoaa raakaluennat ja tuottaa contig-asettelun sekä reunasekvenssit tiedostoon prefix.ctg.lay.gz. Ohjelma wtpoa-cns käyttää tätä tiedostoa syötteenä ja tuottaa lopullisen FASTA-muotoisen konsensuksen.

Tyypillinen työnvuo näyttää tältä:

wtdbg2 -x rs -g 4.6m -t 16 -i reads.fa.gz -fo prefix
wtpoa-cns -t 16 -i prefix.ctg.lay.gz -fo prefix.ctg.fa

Komennossa wtdbg2 -g on arvioitu genomin koko ja -x määrittää sekvensointiteknologian. Sen arvona voi olla rs PacBio RSII:lle, sq PacBio Sequelille, ccs PacBio CCS -luennoille ja ont Oxford Nanoporelle. Tämä valinta asettaa useita parametreja, ja sitä tulee käyttää ennen muita parametreja. Jos et saa hyvää kokoamistulosta, muita parametreja voi olla tarpeen säätää wtdbg2:n käyttöoppaan mukaisesti.

Suurten genomien (yli 10 Mb) tapauksessa wtdbg2:n kokoamisprosessi voi kestää useita tunteja tai päiviä. Puhdissa tällaiset suuret tehtävät tulee aina suorittaa eräajoina.

Alla on esimerkkieräajotiedosto C. elegans -genomin kokoamiseen.

Esimerkkiaineisto ladattiin ENA-tietokannasta komennoilla:

enaDataGet SRR5439404 -f fastq
mv SRR5439404/SRR5439404_subreads.fastq.gz ./

Varsinainen kokoamistehtävä suoritettiin alla olevalla eräajolla:

#!/bin/bash
#SBATCH --job-name=wtdbg2
#SBATCH --account=<project>
#SBATCH --time=12:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --output==wtdbg2_out_32_%j
#SBATCH --error=wtdbg2_err_32_%j
#SBATCH --cpus-per-task=32
#SBATCH --mem=64G
#SBATCH --partition=small

module load biokit

wtdbg2 -x rs -g100m -t $SLURM_CPUS_PER_TASK -i SRR5439404_subreads.fastq.gz -fo c_elegas_test
wtpoa-cns -t $SLURM_CPUS_PER_TASK -i c_elegas_test.ctg.lay.gz -fo c_elegabs.ctg.fa

Yllä olevassa esimerkissä <project> tulee korvata projektisi nimellä. Voit käyttää komentoa csc-projects CSC-projektiesi tarkistamiseen. Suoritusajan enimmäispituudeksi on asetettu 12 tuntia (--time=12:00:00). Koska wtdbg2 käyttää säiepohjaista rinnakkaistusta, prosessi käsitellään yhtenä työnä, joka tulee suorittaa yhdellä laskentasolmulla (--ntasks=1, --ntasks=1). Työ varaa 32 ydintä (--cpus-per-task=32), jotka voivat käyttää yhteensä enintään 64 Gt muistia (--mem=64G). Huomaa, että käytettävien ytimien määrä täytyy määritellä myös komennoissa wtdbg2 ja wtpoa-cns. Tämä tehdään valinnalla -t. Tässä tapauksessa käytämme muuttujaa $SLURM_CPUS_PER_TASK, joka sisältää arvon --cpus-per-task (voisimme käyttää myös arvoa -t 32, mutta silloin täytyy muistaa muuttaa arvoa, jos varattujen CPU-ytimien määrä muuttuu myöhemmin).

Työ lähetetään eräajojärjestelmään komennolla sbatch. Jos eräajotiedoston nimi on esimerkiksi wtdbg2_job.sh, lähetyskomento on:

sbatch wtdbg2_job.sh

Lisätietoja eräajojen suorittamisesta löytyy Puhdin käyttöoppaan eräajo-osiosta.

Lisätietoja

wtdbg2:n kotisivu