-
Minimap2
Minimap2
Minimap2 on nopea yleiskäyttöinen kohdistusohjelma DNA:n tai pitkien mRNA-sekvenssien kohdistamiseen suurta viitetietokantaa vasten. Sitä voidaan käyttää seuraaviin tarkoituksiin:
- tarkkojen lyhyiden lukujen kohdistamiseen (mieluiten yli 100 emäksen pituiset)
- 1 kb:n genomisten lukujen kohdistamiseen, kun virhetaso on 15 % (esim. PacBio- tai Oxford Nanopore -genomiset luvut)
- täyspitkien kohinaisten Direct RNA- tai cDNA-lukujen kohdistamiseen
- kokoamiskontigien tai läheisesti sukua olevien, satojen megabastien pituisten kokonaisten kromosomien kohdistamiseen ja vertailuun
Lisenssi
Vapaasti käytettävissä ja avointa lähdekoodia MIT-lisenssillä.
Saatavuus
- Puhti: 2.24, 2.28
- Chipsterin graafinen käyttöliittymä
Käyttö
Puhdissa Minimap2:ta voidaan käyttää osana biokit-moduulikokoelmaa:
Biokit-moduuli ottaa käyttöön joukon yleisesti käytettyjä bioinformatiikan työkaluja, mukaan lukien Minimap2:n. Huomaa kuitenkin, että Puhdissa on myös muita bioinformatiikan työkaluja, joille on erilliset käyttöönottokomennot. Kun biokit-moduuli on ladattu, Minimap2 käynnistyy komennolla:
Ilman valintoja minimap2 ottaa syötteeksi viitetietokannan ja kyselysekvenssitiedoston ja tuottaa likimääräisen kohdistuksen ilman emästason kohdistusta (eli ei CIGARia) PAF-muodossa:
Jos haluat tulosteen SAM-muodossa, voit käyttää valintaa -a.
Eri datatyypeille Minimap2 täytyy säätää optimaalisen suorituskyvyn ja tarkkuuden saavuttamiseksi.
Valinnalla -x voit käyttää käyttötapauskohtaisia parametrikokonaisuuksia, jotka Minimap2:n kehittäjät ovat ennalta määritelleet ja suosittelevat.
Kohdista pitkät kohinaiset genomiset luvut (map-pb and map-ont)
- PacBio-aliluvut (map-db):
- Oxford Nanopore -luvut (map-ont):
Kohdista pitkät mRNA-/cDNA-luvut (splice)
- PacBio Iso-seq / perinteinen cDNA
- Nanopore 2D cDNA-seq
- Nanopore Direct RNA-seq
- kohdistus SIRV-kontrollia vasten
Etsi päällekkäisyydet pitkien lukujen välillä (ava-pb and aca-ont)
- PacBio-lukujen päällekkäisyys
- Oxford Nanopore -lukujen päällekkäisyys
Kohdista lyhyet tarkat genomiset luvut (sr)
Huomaa, että Minimap2 ei toimi hyvin lyhyiden silmukoitujen lukujen kanssa.
- yksittäispään kohdistus
- paripään kohdistus
- paripään kohdistus
Koko genomin / kokoamisen kohdistus (asm5)
- kokoamisesta kokoamiseen
Esimerkkieräajokomento Puhdille
Puhdissa Minimap2-työt tulee ajaa eräajoina. Alla on esimerkki eräajotiedostosta Minimap2:n paripääkohdistuksen ajamiseen Puhdissa.
#!/bin/bash -l
#SBATCH --job-name=minimap2
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=04:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=8
#SBATCH --account=<project>
#SBATCH --mem=16000
module load biokit
minimap2 -t $SLURM_CPUS_PER_TASK -ax splice -uf ref.fa iso-seq.fq > aln.sam
Yllä olevassa eräajoesimerkissä suoritetaan yksi tehtävä (--ntasks=1). Minimap2-työ
käyttää 8 ydintä (--cpus-per-task=8) ja yhteensä 16 Gt muistia (--mem=16000).
Työn enimmäiskesto on neljä tuntia (--time=04:00:00). Kaikki ytimet
varataan yhdeltä laskentasolmulta (--nodes=1). Resurssivarausten lisäksi
sinun täytyy määrittää eräajotyöllesi laskutusprojekti. Tämä
tehdään korvaamalla <project> projektisi nimellä. Voit
käyttää komentoa csc-projects nähdäksesi, mitä projekteja sinulla on Puhdissa.
Voit lähettää eräajotiedoston eräajo järjestelmään komennolla:
Katso lisätietoja eräajojen suorittamisesta Puhdin käyttöoppaasta.
Tuki
Lisätietoja
- Lisätietoja Minimap2:sta löytyy Minimap2:n kotisivulta.