Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

wtdbg2

wtdbg2 on nopea de novo -kokoamistyökalu PacBio- tai Oxford Nanopore Technologies -sekvensointilaitteilla tuotetulle pitkän lukupituuden sekvenssidatalle.

Lisenssi

Vapaasti käytettävä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.

Saatavuus

  • Puhti: 2.5

Käyttö

Puhdissa wtdbg2 otetaan käyttöön lataamalla biokit-moduuli:

module load biokit

Tämän jälkeen voit käyttää kokoamiskomentoa wtdbg2 ja konsensuskomentoa wrpoa-cns. wtdbg2 kokoaa raakaluennat ja tuottaa contig-asettelun sekä reunasekvenssit tiedostoon prefix.ctg.lay.gz. Ohjelma wtpoa-cns käyttää tätä tiedostoa syötteenä ja tuottaa lopullisen FASTA-muotoisen konsensuksen.

Tyypillinen työnvuo näyttää tältä:

wtdbg2 -x rs -g 4.6m -t 16 -i reads.fa.gz -fo prefix
wtpoa-cns -t 16 -i prefix.ctg.lay.gz -fo prefix.ctg.fa

Komennossa wtdbg2 -g on arvioitu genomin koko ja -x määrittää sekvensointiteknologian. Sen arvona voi olla rs PacBio RSII:lle, sq PacBio Sequelille, ccs PacBio CCS -luennoille ja ont Oxford Nanoporelle. Tämä valinta asettaa useita parametreja, ja sitä tulee käyttää ennen muita parametreja. Jos et saa hyvää kokoamistulosta, muita parametreja voi olla tarpeen säätää wtdbg2:n käyttöoppaan mukaisesti.

Suurten genomien (yli 10 Mb) tapauksessa wtdbg2:n kokoamisprosessi voi kestää useita tunteja tai päiviä. Puhdissa tällaiset suuret tehtävät tulee aina suorittaa eräajoina.

Alla on esimerkkieräajotiedosto C. elegans -genomin kokoamiseen.

Esimerkkiaineisto ladattiin ENA-tietokannasta komennoilla:

enaDataGet SRR5439404 -f fastq
mv SRR5439404/SRR5439404_subreads.fastq.gz ./

Varsinainen kokoamistehtävä suoritettiin alla olevalla eräajolla:

#!/bin/bash
#SBATCH --job-name=wtdbg2
#SBATCH --account=<project>
#SBATCH --time=12:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --output==wtdbg2_out_32_%j
#SBATCH --error=wtdbg2_err_32_%j
#SBATCH --cpus-per-task=32
#SBATCH --mem=64G
#SBATCH --partition=small

module load biokit

wtdbg2 -x rs -g100m -t $SLURM_CPUS_PER_TASK -i SRR5439404_subreads.fastq.gz -fo c_elegas_test
wtpoa-cns -t $SLURM_CPUS_PER_TASK -i c_elegas_test.ctg.lay.gz -fo c_elegabs.ctg.fa

Yllä olevassa esimerkissä <project> tulee korvata projektisi nimellä. Voit käyttää komentoa csc-projects CSC-projektiesi tarkistamiseen. Suoritusajan enimmäispituudeksi on asetettu 12 tuntia (--time=12:00:00). Koska wtdbg2 käyttää säiepohjaista rinnakkaistusta, prosessi käsitellään yhtenä työnä, joka tulee suorittaa yhdellä laskentasolmulla (--ntasks=1, --ntasks=1). Työ varaa 32 ydintä (--cpus-per-task=32), jotka voivat käyttää yhteensä enintään 64 Gt muistia (--mem=64G). Huomaa, että käytettävien ytimien määrä täytyy määritellä myös komennoissa wtdbg2 ja wtpoa-cns. Tämä tehdään valinnalla -t. Tässä tapauksessa käytämme muuttujaa $SLURM_CPUS_PER_TASK, joka sisältää arvon --cpus-per-task (voisimme käyttää myös arvoa -t 32, mutta silloin täytyy muistaa muuttaa arvoa, jos varattujen CPU-ytimien määrä muuttuu myöhemmin).

Työ lähetetään eräajojärjestelmään komennolla sbatch. Jos eräajotiedoston nimi on esimerkiksi wtdbg2_job.sh, lähetyskomento on:

sbatch wtdbg2_job.sh 

Lisätietoja eräajojen suorittamisesta löytyy Puhdin käyttöoppaan eräajo-osiosta.

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta