Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Minimap2

Minimap2 on nopea yleiskäyttöinen kohdistusohjelma DNA:n tai pitkien mRNA-sekvenssien kohdistamiseen suurta viitetietokantaa vasten. Sitä voidaan käyttää seuraaviin tarkoituksiin:

  • tarkkojen lyhyiden lukujen kohdistamiseen (mieluiten yli 100 emäksen pituiset)
  • 1 kb:n genomisten lukujen kohdistamiseen, kun virhetaso on 15 % (esim. PacBio- tai Oxford Nanopore -genomiset luvut)
  • täyspitkien kohinaisten Direct RNA- tai cDNA-lukujen kohdistamiseen
  • kokoamiskontigien tai läheisesti sukua olevien, satojen megabastien pituisten kokonaisten kromosomien kohdistamiseen ja vertailuun

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia MIT-lisenssillä.

Saatavuus

  • Puhti: 2.24, 2.28
  • Chipsterin graafinen käyttöliittymä

Käyttö

Puhdissa Minimap2:ta voidaan käyttää osana biokit-moduulikokoelmaa:

module load biokit

Biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien Minimap2:n. Huomaa kuitenkin, että Puhdissa on myös muita bioinformatiikan työkaluja, joille on erilliset käyttöönottokomennot. Kun biokit-moduuli on ladattu, Minimap2 käynnistyy komennolla:

minimap2

Ilman valintoja minimap2 ottaa syötteeksi viitetietokannan ja kyselysekvenssitiedoston ja tuottaa likimääräisen kohdistuksen ilman emästason kohdistusta (eli ei CIGARia) PAF-muodossa:

minimap2 ref.fa query.fq > approx-mapping.paf

Jos haluat tulosteen SAM-muodossa, voit käyttää valintaa -a.

Eri datatyypeille Minimap2 täytyy säätää optimaalisen suorituskyvyn ja tarkkuuden saavuttamiseksi. Valinnalla -x voit käyttää käyttötapauskohtaisia parametrikokonaisuuksia, jotka Minimap2:n kehittäjät ovat ennalta määritelleet ja suosittelevat.

Kohdista pitkät kohinaiset genomiset luvut (map-pb and map-ont)

  • PacBio-aliluvut (map-db):
minimap2 -ax map-pb ref.fa pacbio-reads.fq > aln.sam
  • Oxford Nanopore -luvut (map-ont):
minimap2 -ax map-ont ref.fa ont-reads.fq > aln.sam 

Kohdista pitkät mRNA-/cDNA-luvut (splice)

  • PacBio Iso-seq / perinteinen cDNA
minimap2 -ax splice -uf ref.fa iso-seq.fq > aln.sam
  • Nanopore 2D cDNA-seq
minimap2 -ax splice ref.fa nanopore-cdna.fa > aln.sam
  • Nanopore Direct RNA-seq
minimap2 -ax splice -uf -k14 ref.fa direct-rna.fq > aln.sam
  • kohdistus SIRV-kontrollia vasten
minimap2 -ax splice --splice-flank=no SIRV.fa SIRV-seq.fa

Etsi päällekkäisyydet pitkien lukujen välillä (ava-pb and aca-ont)

  • PacBio-lukujen päällekkäisyys
minimap2 -x ava-pb reads.fq reads.fq > ovlp.paf
  • Oxford Nanopore -lukujen päällekkäisyys
minimap2 -x ava-ont reads.fq reads.fq > ovlp.paf

Kohdista lyhyet tarkat genomiset luvut (sr)

Huomaa, että Minimap2 ei toimi hyvin lyhyiden silmukoitujen lukujen kanssa.

  • yksittäispään kohdistus
minimap2 -ax sr ref.fa reads-se.fq > aln.sam
  • paripään kohdistus
minimap2 -ax sr ref.fa read1.fq read2.fq > aln.sam
  • paripään kohdistus
minimap2 -ax sr ref.fa reads-interleaved.fq > aln.sam 

Koko genomin / kokoamisen kohdistus (asm5)

  • kokoamisesta kokoamiseen
minimap2 -ax asm5 ref.fa asm.fa > aln.sam

Esimerkkieräajokomento Puhdille

Puhdissa Minimap2-työt tulee ajaa eräajoina. Alla on esimerkki eräajotiedostosta Minimap2:n paripääkohdistuksen ajamiseen Puhdissa.

#!/bin/bash -l
#SBATCH --job-name=minimap2
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=04:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=8
#SBATCH --account=<project>
#SBATCH --mem=16000

module load biokit
minimap2 -t $SLURM_CPUS_PER_TASK -ax splice -uf ref.fa iso-seq.fq > aln.sam

Yllä olevassa eräajoesimerkissä suoritetaan yksi tehtävä (--ntasks=1). Minimap2-työ käyttää 8 ydintä (--cpus-per-task=8) ja yhteensä 16 Gt muistia (--mem=16000). Työn enimmäiskesto on neljä tuntia (--time=04:00:00). Kaikki ytimet varataan yhdeltä laskentasolmulta (--nodes=1). Resurssivarausten lisäksi sinun täytyy määrittää eräajotyöllesi laskutusprojekti. Tämä tehdään korvaamalla <project> projektisi nimellä. Voit käyttää komentoa csc-projects nähdäksesi, mitä projekteja sinulla on Puhdissa.

Voit lähettää eräajotiedoston eräajo järjestelmään komennolla:

sbatch batch_job_file.bash

Katso lisätietoja eräajojen suorittamisesta Puhdin käyttöoppaasta.

Tuki

CSC:n asiakastuki

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta