Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

STAR

STAR (Spliced Transcripts Alignment to a Reference) on nopea NGS-lukujen kohdistin RNA-seq-datalle.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.

Saatavuus

Puhti: 2.7.10a, 2.7.11a

Käyttö

Alla luetellut STAR-komennot aktivoidaan lataamalla biokit-moduuli.

module load biokit

Ennen kuin voit suorittaa varsinaisen kohdistustyön, fasta-muotoinen viitegenomi täytyy indeksoida. Puhdissa viitegenomin indeksien työkopiot sekä muut suuret tiedostot tulee tallentaa /scratch-hakemistoon.

Käytön helpottamiseksi aseta ympäristömuuttuja osoittamaan /scratch-hakemistoosi. (Korvaa esimerkissä käytetty polku oikealla polulla.)

export SCRATCH=/scratch/project_12345/$USER

Luo hakemisto viitegenomin indeksille:

mkdir $SCRATCH/star-genome

Tämän jälkeen indeksointi voidaan tehdä komennolla:

STAR --runMode genomeGenerate --genomeDir $SCRATCH/star-genome --genomeFastaFiles /path/to/genome/genome.fasta --runThreadN 2

Kun indeksointi on valmis, varsinainen kohdistustehtävä voidaan käynnistää. STAR tuottaa kohdistuksen tulosteen kiinteillä tiedostonimillä. Siksi on suositeltavaa, että jokainen STAR-ajo suoritetaan uudessa, tyhjässä hakemistossa. Puhdissa tämä uusi ajohakemisto tulee luoda projektisi /scratch-hakemistoon. Uusi hakemisto nimeltä starjob1 voidaan luoda komennolla:

mkdir $SCRATCH/starjob1

Tämän jälkeen varsinainen kohdistustyö voidaan käynnistää komennoilla:

cd $SCRATCH/starjob1
STAR --genomeDir $SCRATCH/star-genomes --readFilesIn my_reads.fastq

STARin oletusparametrit ovat tyypillisiä 2x76- tai 2x101-Illumina-lukujen kohdistamiseen ihmisen genomiin.

Puhdissa kaikki laskentatehtävät tulee suorittaa eräajoina. Eräajoissa voit myös hyödyntää säiepohjaista rinnakkaistamista. Alla on esimerkki STARin eräajotiedostosta. Työ käyttää kuutta laskentaydintä yhdeltä laskentasolmulta. Muistivaraus on 24 Gt. Huomaa, että sinun täytyy muuttaa --account-asetus vastaamaan projektiasi.

#!/bin/bash -l
#SBATCH --job-name=STAR
#SBATCH --output=STAR.stdout
#SBATCH --error=STAR.stderr
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=6
#SBATCH --account=project_1234567
#SBATCH --mem=24000

export SCRATCH=/scratch/project_12345/$USER

# calculate indexes. You don't need to recalculte the indexes if they already exist.
mkdir $SCRATCH/star-genome
STAR --runMode genomeGenerate --genomeDir $SCRATSCH/star-genome --genomeFastaFiles /path/to/genome/genome.fasta --runThreadN $SLURM_CPUS_PER_TASK

# Run the mapping task
STAR --genomeDir $SCRATCH/star-genome --readFilesIn my-reads.fastq --runThreadN $SLURM_CPUS_PER_TASK

Eräajokomentosarja käynnistetään komennolla sbatch. Esimerkiksi:

sbatch starjob1.sh

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta