Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

Trinity

Trinityä käytetään transkriptomien de novo -rekonstruktioon RNA-seq-datasta. Trinity yhdistää kolme itsenäistä ohjelmistomoduulia: Inchworm, Chrysalis ja Butterfly, joita käytetään peräkkäin suurten RNA-seq-lukujoukkojen käsittelyyn. Trinity jakaa sekvenssidatan useisiin yksittäisiin de Bruijnin graafeihin, joista kukin kuvaa tietyn geenin tai lokuksen transkriptionaalista monimuotoisuutta, ja käsittelee sitten jokaisen graafin itsenäisesti täyspitkien silmukointiisomuotojen erottamiseksi sekä johdettujen transkriptien selvittämiseksi.

CSC:n Trinity-moduuli sisältää myös TransDecoder- ja Trinotate-työkalut Trinity-ajon tulosten analysointiin.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia Broad Institute License -lisenssillä.

Saatavuus

Puhdissa: 2.8.5, 2.11.0, 2.13.2, 2.14.0, 2.15.1

Käyttö

Trinityn käyttö

Puhdissa Trinity otetaan käyttöön komennolla:

module load biokit

biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien Trinityn version 2.8.5. Jos haluat käyttää uudempaa versiota, esimerkiksi 2.13.2:ta, suorita komento:

module load trinity/2.13.2

Trinityä tulisi käyttää interaktiivisesti laskentasolmussa tai mieluiten eräajojärjestelmän kautta. Alla on esimerkki Trinityn eräajotiedostosta.

#!/bin/bash 
#SBATCH --job-name=trinity
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=48:00:00
#SBATCH --ntasks=1
#SBATCH --nodes=1  
#SBATCH --cpus-per-task=6
#SBATCH --mem=24000
#SBATCH --account=project_1234567

module load trinity/2.13.2

Trinity --seqType fq --max_memory 22G --left reads.left.fq --right \
reads.right.fq --SS_lib_type RF --CPU $SLURM_CPUS_PER_TASK \
--output trinity_run_out --grid_exec sbatch_commandlist

Yllä oleva eräajoskripti varaa työlle 6 laskentaydintä yhdestä solmusta. Esimerkkityön enimmäiskesto on tässä 48 tuntia. Kullekin ytimelle varataan noin 4 GB muistia, joten kokonaismuistivaraus on 6 * 4 GB = 24 GB. Puhdissa sinun on käytettävä eräajon valintaa --account= määrittääksesi käytettävän projektin. Korvaa esimerkissä käytetty project_1234567 omalla projektillasi. Voit tarkistaa projektisi komennolla: csc-projects.

Varsinaisessa Trinity-komennossa käytettävien laskentaytimien määrä (--CPU) asetetaan ympäristömuuttujalla $SLURM_CPUS_PER_TASK. Tämä muuttuja sisältää --cpus-per-task-Slurm-valinnalla asetetun arvon.

Puhdissa voit myös käyttää hajautettua laskentaa Trinity-ajon nopeuttamiseen. Kun määritys:

--grid_exec sbatch_commandlist

lisätään komentoon, osa analyysivaiheiden tehtävistä suoritetaan rinnakkaisten alitöiden joukkona. Suurissa Trinity-tehtävissä sbatch_commandlist-työkalun asetukset ovat liian rajoittuneet. Näissä tapauksissa korvaa sbatch_commandlist komennolla sbatch_commandlist_trinity.

--grid_exec sbatch_commandlist_trinity

Kun Trinity suoritetaan --grid_exec-valinnalla, se tuottaa suuren määrän väliaikaistiedostoja, ja on hyvin todennäköistä, että ylität oletusrajan 100 000 tiedostoa. Siksi on suositeltavaa hakea suurempaa tiedostomääräkiintiötä Puhdin scratch-alueelle ennen suurten Trinity-töiden lähettämistä. Voit lähettää pyynnön CSC:n asiakastukeen.

Kun eräajotiedosto on valmis, sen voi lähettää eräajojonojärjestelmään komennolla:

sbatch batch_job_file

Katso täältä lisätietoja eräajojen suorittamisesta.

Tutustu myös Trinityn verkkosivustoon, josta saat vinkkejä tarvittavien resurssien arviointiin.

autoTrinotaten käyttö

Voit analysoida Trinity-ajosi tuloksia autoTrinotate-työkalulla. Tarvitset kaksi tiedostoa, jotka syntyvät onnistuneesta Trinity-kokoamisesta.

  1. FASTA-muotoinen nukleotidisekvenssitiedosto, joka sisältää Trinityn luomat lopulliset kontigit (Trinity.fasta)
  2. geeni-transkripti-kartta syötteen fasta-tiedostolle (Trinity.fasta.gene_to_trans_map)

Huomaa, että Trinityn versiosta riippuen näissä nimissä voi olla --output-valinnalla määritetty etuliite (esim. trinity_run_out.Trinity.fasta).

Kopioi analyysiäsi varten sqlite-tietokannan mallipohja:

cp $TRINOTATE_HOME/databases/Trinotate.sqlite mydb.sqlite

Tämän jälkeen voit käynnistää autoTrinotate-työkalun komennolla:

$TRINOTATE_HOME/auto/autoTrinotate.pl --Trinotate_sqlite mydb.sqlite --transcripts Trinity.fasta --gene_to_trans_map  Trinity.fasta.gene_to_trans_map --conf $TRINOTATE_HOME/auto/conf.txt --CPU  $SLURM_CPUS_PER_TASK

Huomaa

autoTrinotate-analyysi voi vaatia paljon resursseja, joten komento kannattaa suorittaa interaktiivisessa istunnossa tai eräajona!

autoTrinotate tuottaa SQLite-tietokantatiedoston, jota voidaan analysoida edelleen komennolla:

$TRINOTATE_HOME/Trinotate

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta