-
Trinity
Trinity
Trinityä käytetään transkriptomien de novo -rekonstruktioon RNA-seq-datasta. Trinity yhdistää kolme itsenäistä ohjelmistomoduulia: Inchworm, Chrysalis ja Butterfly, joita käytetään peräkkäin suurten RNA-seq-lukujoukkojen käsittelyyn. Trinity jakaa sekvenssidatan useisiin yksittäisiin de Bruijn -graafeihin, joista kukin kuvaa tietyn geenin tai lokuksen transkriptionaalista monimuotoisuutta, ja käsittelee sen jälkeen jokaisen graafin itsenäisesti täyspitkien silmukointi-isoformien erottamiseksi sekä johdettujen transkriptien tunnistamiseksi.
CSC:n Trinity-moduuli sisältää myös TransDecoder- ja Trinotate-työkalut Trinity-ajon tulosten analysointiin.
Lisenssi
Vapaasti käytettävissä ja avointa lähdekoodia Broad Institute License -lisenssillä.
Saatavuus
Puhti: 2.8.5, 2.11.0, 2.13.2, 2.14.0, 2.15.1
Käyttö
Trinityn käyttö
Puhdissa Trinity otetaan käyttöön komennolla:
biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien
Trinityn version 2.8.5. Jos haluat käyttää uudempaa versiota, esimerkiksi 2.13.2:ta, suorita komento:
Trinityä tulee käyttää interaktiivisesti laskentasolmussa tai mieluiten eräajojärjestelmän kautta. Alla on esimerkki Trinityn eräajotiedostosta.
#!/bin/bash
#SBATCH --job-name=trinity
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=48:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=6
#SBATCH --mem=24000
#SBATCH --account=project_1234567
module load trinity/2.13.2
Trinity --seqType fq --max_memory 22G --left reads.left.fq --right \
reads.right.fq --SS_lib_type RF --CPU $SLURM_CPUS_PER_TASK \
--output trinity_run_out --grid_exec sbatch_commandlist
Yllä oleva eräajoskripti varaa työlle 6 laskentaydintä yhdestä solmusta. Esimerkkityön enimmäiskesto on tässä 48 tuntia.
Kullekin ytimelle varataan noin 4 Gt muistia, joten kokonaismuistivaraus on 6 * 4 GB = 24 GB. Puhdissa sinun on käytettävä eräajovalintaa
--account= määrittääksesi käytettävän projektin. Korvaa esimerkissä käytetty project_1234567 omalla projektillasi. Voit tarkistaa
projektisi komennolla: csc-projects.
Varsinaisessa Trinity-komennossa käytettävien laskentaytimien määrä (--CPU) asetetaan ympäristömuuttujan $SLURM_CPUS_PER_TASK avulla.
Tämä muuttuja sisältää --cpus-per-task-Slurm-valinnalla asetetun arvon.
Puhdissa voit myös käyttää hajautettua laskentaa Trinity-ajon nopeuttamiseen. Kun määritys
lisätään komentoon, osa analyysin vaiheista suoritetaan rinnakkaisten alitöiden joukkona.
Suurissa Trinity-tehtävissä sbatch_commandlist-työkalun asetukset ovat liian rajoittuneet. Näissä tapauksissa
korvaa sbatch_commandlist arvolla sbatch_commandlist_trinity.
Kun Trinity suoritetaan --grid_exec-valinnalla, se tuottaa suuren määrän väliaikaistiedostoja, ja on
hyvin todennäköistä, että ylität oletusrajan 100 000 tiedostoa. Siksi on suositeltavaa hakea
suurempaa tiedostomääräkiintiötä Puhdin scratch-alueelle ennen suurten Trinity-töiden lähettämistä. Voit lähettää pyynnön
CSC:n asiakastukeen.
Kun eräajotiedosto on valmis, sen voi lähettää eräajojonojärjestelmään komennolla:
Katso täältä lisätietoja eräajojen suorittamisesta.
Tutustu myös Trinityn verkkosivustoon, josta saat vinkkejä tarvittavien resurssien arviointiin.
autoTrinotaten käyttö
Voit analysoida Trinity-ajosi tuloksia autoTrinotate-työkalulla. Tarvitset kaksi tiedostoa, jotka syntyvät onnistuneesta Trinity-kokoamisesta.
- FASTA-muotoinen nukleotidisekvenssitiedosto, joka sisältää Trinityn luomat lopulliset kontigit (
Trinity.fasta) - geeni-transkripti-kartta syötteen FASTA-tiedostolle (
Trinity.fasta.gene_to_trans_map)
Huomaa, että Trinityn versiosta riippuen näissä nimissä voi olla --output-valinnalla määritelty etuliite (esimerkiksi trinity_run_out.Trinity.fasta).
Kopioi analyysiäsi varten sqlite-mallitietokanta:
Tämän jälkeen voit käynnistää autoTrinotate-työkalun komennolla:
$TRINOTATE_HOME/auto/autoTrinotate.pl --Trinotate_sqlite mydb.sqlite --transcripts Trinity.fasta --gene_to_trans_map Trinity.fasta.gene_to_trans_map --conf $TRINOTATE_HOME/auto/conf.txt --CPU $SLURM_CPUS_PER_TASK
Huomaa
autoTrinotate-analyysi voi vaatia paljon resursseja, joten komento kannattaa suorittaa interaktiivisessa istunnossa tai eräajona!
autoTrinotate tuottaa SQLite-tietokantatiedoston, jota voidaan analysoida edelleen komennolla: