Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

Minimap2

Minimap2 on nopea yleiskäyttöinen kohdistusohjelma DNA:n tai pitkien mRNA-sekvenssien kohdistamiseen suurta viitetietokantaa vasten. Sitä voidaan käyttää seuraaviin tarkoituksiin:

  • tarkkojen lyhyiden lukujen kohdistamiseen (mieluiten yli 100 emäksen pituiset)
  • 1 kb:n genomisten lukujen kohdistamiseen, kun virhetaso on 15 % (esim. PacBio- tai Oxford Nanopore -genomiset luvut)
  • täyspitkien kohinaisten Direct RNA- tai cDNA-lukujen kohdistamiseen
  • kokoamiskontigien tai läheisesti sukua olevien, satojen megabastien pituisten kokonaisten kromosomien kohdistamiseen ja vertailuun

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia MIT-lisenssillä.

Saatavuus

  • Puhti: 2.24, 2.28
  • Chipsterin graafinen käyttöliittymä

Käyttö

Puhdissa Minimap2:ta voidaan käyttää osana biokit-moduulikokoelmaa:

module load biokit

Biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien Minimap2:n. Huomaa kuitenkin, että Puhdissa on myös muita bioinformatiikan työkaluja, joille on erilliset käyttöönottokomennot. Kun biokit-moduuli on ladattu, Minimap2 käynnistyy komennolla:

minimap2

Ilman valintoja minimap2 ottaa syötteeksi viitetietokannan ja kyselysekvenssitiedoston ja tuottaa likimääräisen kohdistuksen ilman emästason kohdistusta (eli ei CIGARia) PAF-muodossa:

minimap2 ref.fa query.fq > approx-mapping.paf

Jos haluat tulosteen SAM-muodossa, voit käyttää valintaa -a.

Eri datatyypeille Minimap2 täytyy säätää optimaalisen suorituskyvyn ja tarkkuuden saavuttamiseksi. Valinnalla -x voit käyttää käyttötapauskohtaisia parametrikokonaisuuksia, jotka Minimap2:n kehittäjät ovat ennalta määritelleet ja suosittelevat.

Kohdista pitkät kohinaiset genomiset luvut (map-pb and map-ont)

  • PacBio-aliluvut (map-db):
minimap2 -ax map-pb ref.fa pacbio-reads.fq > aln.sam
  • Oxford Nanopore -luvut (map-ont):
minimap2 -ax map-ont ref.fa ont-reads.fq > aln.sam 

Kohdista pitkät mRNA-/cDNA-luvut (splice)

  • PacBio Iso-seq / perinteinen cDNA
minimap2 -ax splice -uf ref.fa iso-seq.fq > aln.sam
  • Nanopore 2D cDNA-seq
minimap2 -ax splice ref.fa nanopore-cdna.fa > aln.sam
  • Nanopore Direct RNA-seq
minimap2 -ax splice -uf -k14 ref.fa direct-rna.fq > aln.sam
  • kohdistus SIRV-kontrollia vasten
minimap2 -ax splice --splice-flank=no SIRV.fa SIRV-seq.fa

Etsi päällekkäisyydet pitkien lukujen välillä (ava-pb and aca-ont)

  • PacBio-lukujen päällekkäisyys
minimap2 -x ava-pb reads.fq reads.fq > ovlp.paf
  • Oxford Nanopore -lukujen päällekkäisyys
minimap2 -x ava-ont reads.fq reads.fq > ovlp.paf

Kohdista lyhyet tarkat genomiset luvut (sr)

Huomaa, että Minimap2 ei toimi hyvin lyhyiden silmukoitujen lukujen kanssa.

  • yksittäispään kohdistus
minimap2 -ax sr ref.fa reads-se.fq > aln.sam
  • paripään kohdistus
minimap2 -ax sr ref.fa read1.fq read2.fq > aln.sam
  • paripään kohdistus
minimap2 -ax sr ref.fa reads-interleaved.fq > aln.sam 

Koko genomin / kokoamisen kohdistus (asm5)

  • kokoamisesta kokoamiseen
minimap2 -ax asm5 ref.fa asm.fa > aln.sam

Esimerkkieräajokomento Puhdille

Puhdissa Minimap2-työt tulee ajaa eräajoina. Alla on esimerkki eräajotiedostosta Minimap2:n paripääkohdistuksen ajamiseen Puhdissa.

#!/bin/bash -l
#SBATCH --job-name=minimap2
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=04:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=8
#SBATCH --account=<project>
#SBATCH --mem=16000

module load biokit
minimap2 -t $SLURM_CPUS_PER_TASK -ax splice -uf ref.fa iso-seq.fq > aln.sam

Yllä olevassa eräajoesimerkissä suoritetaan yksi tehtävä (--ntasks=1). Minimap2-työ käyttää 8 ydintä (--cpus-per-task=8) ja yhteensä 16 Gt muistia (--mem=16000). Työn enimmäiskesto on neljä tuntia (--time=04:00:00). Kaikki ytimet varataan yhdeltä laskentasolmulta (--nodes=1). Resurssivarausten lisäksi sinun täytyy määrittää eräajotyöllesi laskutusprojekti. Tämä tehdään korvaamalla <project> projektisi nimellä. Voit käyttää komentoa csc-projects nähdäksesi, mitä projekteja sinulla on Puhdissa.

Voit lähettää eräajotiedoston eräajo järjestelmään komennolla:

sbatch batch_job_file.bash

Katso lisätietoja eräajojen suorittamisesta Puhdin käyttöoppaasta.

Tuki

CSC:n asiakastuki

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta