Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

VirusDetect

VirusDetect on ohjelmisto laajamittaisten sRNA-aineistojen analysointiin virusten tunnistamista varten. Ohjelma tekee viiteohjatun kokoamisen kohdistamalla sRNA-lukuja tunnettuun virusviitetietokantaan (GenBank gbvrl) sekä de novo -kokoamisen käyttäen Velvetiä automaattisella parametrien optimoinnilla. Kootut kontigit verrataan virusviitteisiin virusten tunnistamiseksi. Kontigeja käsitellään määrittämättöminä kontigeina, jos ne eivät osu yhteenkään tunnettuun virukseen. Näiden määrittämättömien kontigien siRNA-profiilit tarjotaan ohjeelliseksi tueksi uusien virusten löytämiseen, kun niillä ei ole sekvenssisimilariteettia tunnettuihin viruksiin.

Lisenssi

Kehittäjien mukaan ohjelmisto on vapaasti käytettävä ja avointa lähdekoodia, mutta tarkkaa lisenssiä ei ole määritelty.

Saatavuus

  • Puhti: 1.7, 1.8
  • Chipsterin graafinen käyttöliittymä

Käyttö

Jotta voit käyttää VirusDetectiä Puhdissa, sinun on ensin ladattava biokit- ja virusdetect-moduulit.

module load biokit
module load virusdetect

Tämän jälkeen voit käynnistää VirusDetectin komennolla virus_detect.pl. Esimerkiksi:

virus_detect.pl --reference vrl_plant reads.fastq

VirusDetectin kehittäjät suosittelevat poistamaan ribosomaalisen RNA:n (rRNA) sekvenssit syötesekvensseistä ennen VirusDetectin suorittamista. Tämä voidaan tehdä kohdistamalla sRNA-luvut Silva rRNA -tietokantaa vasten käyttäen Bowtieta. Puhdissa Silva-tietokanta on saatavilla polussa:

/appl/data/bio/biodb/production/silva/Silva_rRNA_database

Varsinainen puhdistuskomento voisi näyttää tältä:

bowtie -v 1 -k 1 --un cleaned_reads.fastq -f -q /appl/data/bio/biodb/production/silva/Silva_rRNA_database reads.fastq sRNA_rRNA_match

Jos mahdollista, on suositeltavaa käyttää --host_reference-valintaa isäntäorganismista peräisin olevan sRNA:n suodattamiseen. Tämä suodatus tehdään ajamalla BWA-kohdistus isäntäorganismin genomia vasten. CSC ei ylläpidä BWA-indeksejä Puhdissa, mutta voit käyttää chipster_genomes-komentoa hakeaksesi Chipster-palvelun käyttämät BWA-indeksit.

chipster_genomes bwa

Yllä oleva komento listaa saatavilla olevat indeksit ja pyytää sinua valitsemaan yhden. Jos sopivaa lajia ei ole saatavilla, sinun täytyy tehdä isäntäorganismin genomin indeksointi ennen VirusDetectin suorittamista.

Esimerkiksi lajille Triticum aestivum tarvittavat BWA-indeksit voidaan luoda komennoilla:

ensemblfetch.sh triticum_aestivum
mv Triticum_aestivum.IWGSC.dna.toplevel.fa triticum_aestivum.fa
bwa index -p triticum_aestivum triticum_aestivum.fa

Huomaa, että BWA-indeksien luominen kasvien genomeille voi kestää useita tunteja.

Kun isäntägenomin BWA-indeksi on käytettävissä, voit käynnistää VirusDetect-ajon komennolla:

virus_detect.pl --reference vrl_plant --host_reference triticum_aestivum.fa cleaned_reads.fastq

VirusDetectiä käytetään pääasiassa kasvivirusten tunnistamiseen (vrl_plant), mutta voit käyttää sitä myös muiden virusten tunnistamiseen. Valinta --reference määrittää käytettävän virusviitesekvenssiaineiston. Saatavilla olevat viiteaineistot ovat:

vrl_algae
vrl_bacteria
vrl_fungus
vrl_invertebrates
vrl_plants
vrl_vertebrates

Sekä VirusDetect että BWA-indeksointitehtävät vaativat usein merkittävästi laskentakapasiteettia. Tämän vuoksi sinun kannattaa käyttää eräajoja VirusDetect-ajojen suorittamiseen. Alla on esimerkkitiedosto eräajolle, jossa VirusDetect suoritetaan 8 laskentaytimellä ja 8 Gt muistilla. Alla olevan työn enimmäiskesto on asetettu 10 tuntiin.

#!/bin/bash -l
#SBATCH --job-name=VirusDetect
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --account=your_project_name
#SBATCH --time=10:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=8
#SBATCH --partition=small
#SBATCH --mem=8000

module load biokit
module load virusdetect

virus_detect.pl --thread_num 8 --reference vrl_plants --host_reference triticum_aestivum.fa reads_123.fastq

Yllä oleva eräajotiedosto voidaan lähettää eräajojärjestelmään komennolla:

sbatch batch_job_file.sh

Lisätietoja eräajojen suorittamisesta Puhdissa löytyy eräajo-ohjesivuilta.

VirusDetect kirjoittaa analyysin tulokset uuteen hakemistoon, jonka nimi muodostetaan kyselyaineiston mukaan muodossa result_<queryfile>. VirusDetect tuottaa suuren määrän tulostiedostoja. Tärkeimmät tiedostot ovat:

  • blastn.html Taulukko, jossa luetellaan viitevirukset, joille on tunnistettu vastaavat viruskontigit BLASTN:llä.
  • blastx.html Taulukko, jossa luetellaan viitevirukset, joille on tunnistettu vastaavat viruskontigit BLASTX:llä.
  • <query>.blastn.xls Taulukko BLASTN-osumista virusviitetietokantaan.
  • <query>.blastx.xls Taulukko BLASTX-osumista virusviitetietokantaan.
  • undetermined.html Taulukko, jossa luetellaan määrittämättömien kontigien pituus, siRNA-kokojakauma ja 21–22 nt:n osuus. Mahdolliset viruskontigit (21–22 nt > 50 %) on merkitty vihreällä.
  • undetermined_blast.html Taulukko, jossa luetellaan kontigit, joilla on osumia virusviitetietokannassa mutta joita ei ole liitetty mihinkään viitevirukseen, koska ne eivät täyttäneet peitto- tai syvyyskriteerejä.

Koska monet tulostiedostoista ovat HTML-muodossa, niiden tarkastelu Puhdissa voi olla hankalaa. Yksi vaihtoehto tulosten tarkasteluun on siirtää ne julkiseen ämpäriin Altaaseen. Esimerkiksi (vaihda projnum oman projektinumerosi mukaiseksi):

module load allas
allas-conf
rclone copy -P results_cleaned_reads.fastq allas:virusdetect_projnum/results_cleaned_reads.fastq/
a-publish -b virusdetect_projnum -index dynamic

Nyt voit tarkastella tuloksia selaimellasi osoitteessa:

https://a3s.fi/virusdetect_projnum/index.html

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta