-
Trinity
Trinity
Trinityä käytetään transkriptomien de novo -rekonstruktioon RNA-seq-datasta. Trinity yhdistää kolme itsenäistä ohjelmistomoduulia: Inchworm, Chrysalis ja Butterfly, joita käytetään peräkkäin suurten RNA-seq-lukujoukkojen käsittelyyn. Trinity jakaa sekvenssidatan useisiin yksittäisiin de Bruijnin graafeihin, joista kukin kuvaa tietyn geenin tai lokuksen transkriptionaalista monimuotoisuutta, ja käsittelee sitten jokaisen graafin itsenäisesti täyspitkien silmukointiisomuotojen erottamiseksi sekä johdettujen transkriptien selvittämiseksi.
CSC:n Trinity-moduuli sisältää myös TransDecoder- ja Trinotate-työkalut Trinity-ajon tulosten analysointiin.
Lisenssi
Vapaasti käytettävissä ja avointa lähdekoodia Broad Institute License -lisenssillä.
Saatavuus
Puhdissa: 2.8.5, 2.11.0, 2.13.2, 2.14.0, 2.15.1
Käyttö
Trinityn käyttö
Puhdissa Trinity otetaan käyttöön komennolla:
biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien
Trinityn version 2.8.5. Jos haluat käyttää uudempaa versiota, esimerkiksi 2.13.2:ta, suorita komento:
Trinityä tulisi käyttää interaktiivisesti laskentasolmussa tai mieluiten eräajojärjestelmän kautta. Alla on esimerkki Trinityn eräajotiedostosta.
#!/bin/bash
#SBATCH --job-name=trinity
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=48:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=6
#SBATCH --mem=24000
#SBATCH --account=project_1234567
module load trinity/2.13.2
Trinity --seqType fq --max_memory 22G --left reads.left.fq --right \
reads.right.fq --SS_lib_type RF --CPU $SLURM_CPUS_PER_TASK \
--output trinity_run_out --grid_exec sbatch_commandlist
Yllä oleva eräajoskripti varaa työlle 6 laskentaydintä yhdestä solmusta. Esimerkkityön enimmäiskesto on tässä 48 tuntia.
Kullekin ytimelle varataan noin 4 GB muistia, joten kokonaismuistivaraus on 6 * 4 GB = 24 GB. Puhdissa sinun on käytettävä eräajon valintaa
--account= määrittääksesi käytettävän projektin. Korvaa esimerkissä käytetty project_1234567 omalla projektillasi. Voit tarkistaa
projektisi komennolla: csc-projects.
Varsinaisessa Trinity-komennossa käytettävien laskentaytimien määrä (--CPU) asetetaan ympäristömuuttujalla $SLURM_CPUS_PER_TASK.
Tämä muuttuja sisältää --cpus-per-task-Slurm-valinnalla asetetun arvon.
Puhdissa voit myös käyttää hajautettua laskentaa Trinity-ajon nopeuttamiseen. Kun määritys:
lisätään komentoon, osa analyysivaiheiden tehtävistä suoritetaan rinnakkaisten alitöiden joukkona.
Suurissa Trinity-tehtävissä sbatch_commandlist-työkalun asetukset ovat liian rajoittuneet. Näissä tapauksissa
korvaa sbatch_commandlist komennolla sbatch_commandlist_trinity.
Kun Trinity suoritetaan --grid_exec-valinnalla, se tuottaa suuren määrän väliaikaistiedostoja, ja on
hyvin todennäköistä, että ylität oletusrajan 100 000 tiedostoa. Siksi on suositeltavaa hakea
suurempaa tiedostomääräkiintiötä Puhdin scratch-alueelle ennen suurten Trinity-töiden lähettämistä. Voit lähettää pyynnön
CSC:n asiakastukeen.
Kun eräajotiedosto on valmis, sen voi lähettää eräajojonojärjestelmään komennolla:
Katso täältä lisätietoja eräajojen suorittamisesta.
Tutustu myös Trinityn verkkosivustoon, josta saat vinkkejä tarvittavien resurssien arviointiin.
autoTrinotaten käyttö
Voit analysoida Trinity-ajosi tuloksia autoTrinotate-työkalulla. Tarvitset kaksi tiedostoa, jotka syntyvät onnistuneesta Trinity-kokoamisesta.
- FASTA-muotoinen nukleotidisekvenssitiedosto, joka sisältää Trinityn luomat lopulliset kontigit (
Trinity.fasta) - geeni-transkripti-kartta syötteen fasta-tiedostolle (
Trinity.fasta.gene_to_trans_map)
Huomaa, että Trinityn versiosta riippuen näissä nimissä voi olla --output-valinnalla määritetty etuliite (esim. trinity_run_out.Trinity.fasta).
Kopioi analyysiäsi varten sqlite-tietokannan mallipohja:
Tämän jälkeen voit käynnistää autoTrinotate-työkalun komennolla:
$TRINOTATE_HOME/auto/autoTrinotate.pl --Trinotate_sqlite mydb.sqlite --transcripts Trinity.fasta --gene_to_trans_map Trinity.fasta.gene_to_trans_map --conf $TRINOTATE_HOME/auto/conf.txt --CPU $SLURM_CPUS_PER_TASK
Huomaa
autoTrinotate-analyysi voi vaatia paljon resursseja, joten komento kannattaa suorittaa interaktiivisessa istunnossa tai eräajona!
autoTrinotate tuottaa SQLite-tietokantatiedoston, jota voidaan analysoida edelleen komennolla: