-
VirusDetect
VirusDetect
VirusDetect on ohjelmisto laajamittaisten sRNA-aineistojen analysointiin virusten tunnistamista varten. Ohjelma tekee viiteohjatun kokoamisen kohdistamalla sRNA-lukuja tunnettuun virusviitetietokantaan (GenBank gbvrl) sekä de novo -kokoamisen käyttäen Velvetiä automaattisella parametrien optimoinnilla. Kootut kontigit verrataan virusviitteisiin virusten tunnistamiseksi. Kontigeja käsitellään määrittämättöminä kontigeina, jos ne eivät osu yhteenkään tunnettuun virukseen. Näiden määrittämättömien kontigien siRNA-profiilit tarjotaan ohjeelliseksi tueksi uusien virusten löytämiseen, kun niillä ei ole sekvenssisimilariteettia tunnettuihin viruksiin.
Lisenssi
Kehittäjien mukaan ohjelmisto on vapaasti käytettävä ja avointa lähdekoodia, mutta tarkkaa lisenssiä ei ole määritelty.
Saatavuus
- Puhti: 1.7, 1.8
- Chipsterin graafinen käyttöliittymä
Käyttö
Jotta voit käyttää VirusDetectiä Puhdissa, sinun on ensin ladattava biokit- ja virusdetect-moduulit.
Tämän jälkeen voit käynnistää VirusDetectin komennolla virus_detect.pl.
Esimerkiksi:
VirusDetectin kehittäjät suosittelevat poistamaan ribosomaalisen RNA:n (rRNA) sekvenssit syötesekvensseistä ennen VirusDetectin suorittamista. Tämä voidaan tehdä kohdistamalla sRNA-luvut Silva rRNA -tietokantaa vasten käyttäen Bowtieta. Puhdissa Silva-tietokanta on saatavilla polussa:
Varsinainen puhdistuskomento voisi näyttää tältä:
bowtie -v 1 -k 1 --un cleaned_reads.fastq -f -q /appl/data/bio/biodb/production/silva/Silva_rRNA_database reads.fastq sRNA_rRNA_match
Jos mahdollista, on suositeltavaa käyttää --host_reference-valintaa
isäntäorganismista peräisin olevan sRNA:n suodattamiseen. Tämä
suodatus tehdään ajamalla BWA-kohdistus isäntäorganismin genomia vasten.
CSC ei ylläpidä BWA-indeksejä Puhdissa,
mutta voit käyttää chipster_genomes-komentoa hakeaksesi Chipster-palvelun käyttämät
BWA-indeksit.
Yllä oleva komento listaa saatavilla olevat indeksit ja pyytää sinua valitsemaan yhden. Jos sopivaa lajia ei ole saatavilla, sinun täytyy tehdä isäntäorganismin genomin indeksointi ennen VirusDetectin suorittamista.
Esimerkiksi lajille Triticum aestivum tarvittavat BWA-indeksit voidaan luoda komennoilla:
ensemblfetch.sh triticum_aestivum
mv Triticum_aestivum.IWGSC.dna.toplevel.fa triticum_aestivum.fa
bwa index -p triticum_aestivum triticum_aestivum.fa
Huomaa, että BWA-indeksien luominen kasvien genomeille voi kestää useita tunteja.
Kun isäntägenomin BWA-indeksi on käytettävissä, voit käynnistää VirusDetect-ajon komennolla:
VirusDetectiä käytetään pääasiassa kasvivirusten tunnistamiseen (vrl_plant), mutta voit käyttää sitä myös muiden virusten tunnistamiseen. Valinta --reference määrittää käytettävän
virusviitesekvenssiaineiston. Saatavilla olevat viiteaineistot ovat:
Sekä VirusDetect että BWA-indeksointitehtävät vaativat usein merkittävästi laskentakapasiteettia. Tämän vuoksi sinun kannattaa käyttää eräajoja VirusDetect-ajojen suorittamiseen. Alla on esimerkkitiedosto eräajolle, jossa VirusDetect suoritetaan 8 laskentaytimellä ja 8 Gt muistilla. Alla olevan työn enimmäiskesto on asetettu 10 tuntiin.
#!/bin/bash -l
#SBATCH --job-name=VirusDetect
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --account=your_project_name
#SBATCH --time=10:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=8
#SBATCH --partition=small
#SBATCH --mem=8000
module load biokit
module load virusdetect
virus_detect.pl --thread_num 8 --reference vrl_plants --host_reference triticum_aestivum.fa reads_123.fastq
Yllä oleva eräajotiedosto voidaan lähettää eräajojärjestelmään komennolla:
Lisätietoja eräajojen suorittamisesta Puhdissa löytyy eräajo-ohjesivuilta.
VirusDetect kirjoittaa analyysin tulokset uuteen hakemistoon, jonka nimi muodostetaan kyselyaineiston mukaan muodossa result_<queryfile>. VirusDetect tuottaa suuren määrän tulostiedostoja. Tärkeimmät tiedostot ovat:
blastn.htmlTaulukko, jossa luetellaan viitevirukset, joille on tunnistettu vastaavat viruskontigit BLASTN:llä.blastx.htmlTaulukko, jossa luetellaan viitevirukset, joille on tunnistettu vastaavat viruskontigit BLASTX:llä.<query>.blastn.xlsTaulukko BLASTN-osumista virusviitetietokantaan.<query>.blastx.xlsTaulukko BLASTX-osumista virusviitetietokantaan.undetermined.htmlTaulukko, jossa luetellaan määrittämättömien kontigien pituus, siRNA-kokojakauma ja 21–22 nt:n osuus. Mahdolliset viruskontigit (21–22 nt > 50 %) on merkitty vihreällä.undetermined_blast.htmlTaulukko, jossa luetellaan kontigit, joilla on osumia virusviitetietokannassa mutta joita ei ole liitetty mihinkään viitevirukseen, koska ne eivät täyttäneet peitto- tai syvyyskriteerejä.
Koska monet tulostiedostoista ovat HTML-muodossa, niiden tarkastelu Puhdissa voi olla hankalaa.
Yksi vaihtoehto tulosten tarkasteluun on siirtää ne julkiseen ämpäriin Altaaseen. Esimerkiksi
(vaihda projnum oman projektinumerosi mukaiseksi):
module load allas
allas-conf
rclone copy -P results_cleaned_reads.fastq allas:virusdetect_projnum/results_cleaned_reads.fastq/
a-publish -b virusdetect_projnum -index dynamic
Nyt voit tarkastella tuloksia selaimellasi osoitteessa: