Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Trinity

Trinityä käytetään transkriptomien de novo -rekonstruktioon RNA-seq-datasta. Trinity yhdistää kolme itsenäistä ohjelmistomoduulia: Inchworm, Chrysalis ja Butterfly, joita käytetään peräkkäin suurten RNA-seq-lukujoukkojen käsittelyyn. Trinity jakaa sekvenssidatan useisiin yksittäisiin de Bruijn -graafeihin, joista kukin kuvaa tietyn geenin tai lokuksen transkriptionaalista monimuotoisuutta, ja käsittelee sen jälkeen jokaisen graafin itsenäisesti täyspitkien silmukointi-isoformien erottamiseksi sekä johdettujen transkriptien tunnistamiseksi.

CSC:n Trinity-moduuli sisältää myös TransDecoder- ja Trinotate-työkalut Trinity-ajon tulosten analysointiin.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia Broad Institute License -lisenssillä.

Saatavuus

Puhti: 2.8.5, 2.11.0, 2.13.2, 2.14.0, 2.15.1

Käyttö

Trinityn käyttö

Puhdissa Trinity otetaan käyttöön komennolla:

module load biokit

biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien Trinityn version 2.8.5. Jos haluat käyttää uudempaa versiota, esimerkiksi 2.13.2:ta, suorita komento:

module load trinty/2.13.2

Trinityä tulee käyttää interaktiivisesti laskentasolmussa tai mieluiten eräajojärjestelmän kautta. Alla on esimerkki Trinityn eräajotiedostosta.

#!/bin/bash 
#SBATCH --job-name=trinity
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=48:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1  
#SBATCH --cpus-per-task=6
#SBATCH --mem=24000
#SBATCH --account=project_1234567

module load trinity/2.13.2

Trinity --seqType fq --max_memory 22G --left reads.left.fq --right \
reads.right.fq --SS_lib_type RF --CPU $SLURM_CPUS_PER_TASK \
--output trinity_run_out --grid_exec sbatch_commandlist

Yllä oleva eräajoskripti varaa työlle 6 laskentaydintä yhdestä solmusta. Esimerkkityön enimmäiskesto on tässä 48 tuntia. Kullekin ytimelle varataan noin 4 Gt muistia, joten kokonaismuistivaraus on 6 * 4 GB = 24 GB. Puhdissa sinun on käytettävä eräajovalintaa --account= määrittääksesi käytettävän projektin. Korvaa esimerkissä käytetty project_1234567 omalla projektillasi. Voit tarkistaa projektisi komennolla: csc-projects.

Varsinaisessa Trinity-komennossa käytettävien laskentaytimien määrä (--CPU) asetetaan ympäristömuuttujan $SLURM_CPUS_PER_TASK avulla. Tämä muuttuja sisältää --cpus-per-task-Slurm-valinnalla asetetun arvon.

Puhdissa voit myös käyttää hajautettua laskentaa Trinity-ajon nopeuttamiseen. Kun määritys

--grid_exec sbatch_commandlist

lisätään komentoon, osa analyysin vaiheista suoritetaan rinnakkaisten alitöiden joukkona. Suurissa Trinity-tehtävissä sbatch_commandlist-työkalun asetukset ovat liian rajoittuneet. Näissä tapauksissa korvaa sbatch_commandlist arvolla sbatch_commandlist_trinity.

--grid_exec sbatch_commandlist_trinity

Kun Trinity suoritetaan --grid_exec-valinnalla, se tuottaa suuren määrän väliaikaistiedostoja, ja on hyvin todennäköistä, että ylität oletusrajan 100 000 tiedostoa. Siksi on suositeltavaa hakea suurempaa tiedostomääräkiintiötä Puhdin scratch-alueelle ennen suurten Trinity-töiden lähettämistä. Voit lähettää pyynnön CSC:n asiakastukeen.

Kun eräajotiedosto on valmis, sen voi lähettää eräajojonojärjestelmään komennolla:

sbatch batch_job_file

Katso täältä lisätietoja eräajojen suorittamisesta.

Tutustu myös Trinityn verkkosivustoon, josta saat vinkkejä tarvittavien resurssien arviointiin.

autoTrinotaten käyttö

Voit analysoida Trinity-ajosi tuloksia autoTrinotate-työkalulla. Tarvitset kaksi tiedostoa, jotka syntyvät onnistuneesta Trinity-kokoamisesta.

  1. FASTA-muotoinen nukleotidisekvenssitiedosto, joka sisältää Trinityn luomat lopulliset kontigit (Trinity.fasta)
  2. geeni-transkripti-kartta syötteen FASTA-tiedostolle (Trinity.fasta.gene_to_trans_map)

Huomaa, että Trinityn versiosta riippuen näissä nimissä voi olla --output-valinnalla määritelty etuliite (esimerkiksi trinity_run_out.Trinity.fasta).

Kopioi analyysiäsi varten sqlite-mallitietokanta:

cp $TRINOTATE_HOME/databases/Trinotate.sqlite mydb.sqlite

Tämän jälkeen voit käynnistää autoTrinotate-työkalun komennolla:

$TRINOTATE_HOME/auto/autoTrinotate.pl --Trinotate_sqlite mydb.sqlite --transcripts Trinity.fasta --gene_to_trans_map  Trinity.fasta.gene_to_trans_map --conf $TRINOTATE_HOME/auto/conf.txt --CPU  $SLURM_CPUS_PER_TASK

Huomaa

autoTrinotate-analyysi voi vaatia paljon resursseja, joten komento kannattaa suorittaa interaktiivisessa istunnossa tai eräajona!

autoTrinotate tuottaa SQLite-tietokantatiedoston, jota voidaan analysoida edelleen komennolla:

$TRINOTATE_HOME/Trinotate

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta