-
Bowtie2
Bowtie2
Bowtie2 on erittäin nopea ja muistitehokas lyhyiden sekvenssilukujen kohdistustyökalu. Se kohdistaa lyhyitä DNA-sekvenssejä (lukuja) ihmisen genomiin yli 25 miljoonan 35 emäsparin pituisen luvun tuntinopeudella. Bowtie2 indeksoi genomin Burrows-Wheeler-indeksillä pitääkseen muistinkulutuksensa pienenä: tyypillisesti noin 2,2 Gt ihmisen genomille (2,9 Gt paripäiselle datalle).
Saatavilla on kaksi Bowtie-versiota: Bowtie2 ja Bowtie. Uudempi Bowtie2-ohjelma eroaa merkittävästi edeltäjästään Bowtiesta. Esimerkiksi näiden kahden työkalun komentorivivalinnat ovat erilaiset.
Lisenssi
Vapaasti käytettävä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.
Saatavuus
- Puhti: 2.3.5.1, 2.4.1, 2.4.4, 2.5.3
- Chipsterin graafinen käyttöliittymä
Käyttö
Puhdissa Bowtie2 voidaan ottaa käyttöön osana biokit-moduulikokoelmaa:
Biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien Bowtie2:n. Huomaa kuitenkin, että Puhdissa on myös muita bioinformatiikan työkaluja, joilla on erillinen käyttöönottokomento.
Tyypillisessä Bowtie2-ajossa sinun täytyy ensin indeksoida viitegenomi komennolla bowtie2-build. Tämä kannattaa tehdä scratch-hakemistossa kotihakemistosi sijaan. Esimerkiksi:
Vaihtoehtoisesti voit käyttää chipster_genomes-komentoa ladataksesi valmiiksi lasketut bowtie2-indeksit CSC:n Chipster-palvelimelta Puhtiin:
Kun viitegenomi on ladattu tai indeksoitu, varsinainen kohdistustyö voidaan käynnistää bowtie2-komennolla. Esimerkiksi yksipäisille luvuille tämä voidaan tehdä komennolla:
Paripäiselle datalle Bowtie2:n vähimmäissyntaksi on:
Esimerkkieräajokomentosarja Puhtiin
Puhdissa bowtie- ja bowtie2-ajot tulee suorittaa eräajoina. Alla on esimerkki eräajotiedostosta
Bowtie2:n paripäisen kohdistuksen ajamiseen Puhdissa. Uusimmat Bowtie2-versiot skaalautuvat hyvin, joten voit tehokkaasti käyttää
jopa 16 ydintä eräajossasi.
Huomaa, että eräajotiedostossa täytyy määritellä käytettävä projekti.
Voit tarkistaa kaikki projektit, joihin kuulut, komennoilla groups tai
csc-projects. Käytä MyCSC:tä saadaksesi tarkempia tietoja
tietystä projektista.
#!/bin/bash -l
#SBATCH --job-name=bowtie2
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=04:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=16
#SBATCH --account=project_123456
#SBATCH --mem=16000
module load biokit
bowtie2-build genome.fasta genome
bowtie2 -p $SLURM_CPUS_PER_TASK -x genome -1 reads_1.fq -2 reads_2.fq > output.sam
Yllä olevassa eräajoesimerkissä suoritetaan yksi tehtävä (--ntasks=1). Bowtie2-ajo käyttää 16 ydintä (--cpus-per-task=16) ja yhteensä 16 Gt muistia (--mem=16000).
Ajolle sallittu enimmäiskesto on neljä tuntia (--time=04:00:00).
Kaikki ytimet varataan yhdeltä laskentasolmulta (--nodes=1).
Esimerkissä käytettävä projekti on project_123456. Tämä arvo tulee korvata oman laskentaprojektisi nimellä.
Voit lähettää eräajotiedoston eräajojärjestelmään komennolla:
Katso lisätietoja eräajojen suorittamisesta Puhdin käyttöoppaasta.
Viitteet
Kun käytät Bowtie2:ta, viittaa seuraavaan julkaisuun:
Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359.
Tuki
Lisätietoja
Lisätietoja Bowtie2:sta löytyy Bowtie2:n kotisivulta.