HMMER

Piilotetut Markovin mallit (HMM) ovat matemaattisia työkaluja, joita voidaan käyttää toisiinsa liittyvien tai samankaltaisten sekvenssialueiden kuvaamiseen ja analysointiin.
HMM-mallit voidaan johtaa monisekvenssikohdistuksista siten, että ne sisältävät paikkakohtaista tietoa siitä, millä todennäköisyydellä tietyt nukleotidit tai aminohapot esiintyvät kohdistuksen kussakin kohdassa.

HMMER-paketti sisältää työkaluja sekvenssikohdistuksiin perustuvien HMM-mallien luomiseen ja muokkaamiseen, niiden käyttämiseen tietokantahauissa sekä sekvenssikohdistusten laajentamiseen.

Tietokantahaut HMM-profiileilla voivat vaatia tavallisilla tietokoneilla erittäin pitkiä laskenta-aikoja.

HMMER

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.

Saatavuus

Puhti: 3.2.1, 3.3.2, 3.4

Käyttö

Ottaaksesi HMMERin oletusversion käyttöön Puhdissa, lataa biokit-moduuli:

module load biokit

Jos haluat käyttää jotakin muuta versiota, lataa kyseinen HMMER-moduulin versio. Esimerkiksi:

module load hmmer/3.2.1

Tämän jälkeen kunkin hmmer-komennon komentorivivalinnat voi tarkistaa valinnalla -h. Esimerkiksi:

hmmsearch -h

Pfam-tietokanta

Puhdissa voit käyttää Pfam-A-tietokantaa HMMER-komennoilla. Voit myös luoda omia HMM-tietokantojasi. Esimerkiksi proteiinisekvenssin vertaaminen Pfam-A HMM -tietokantaan voidaan tehdä seuraavilla komennoilla.

Avaa ensin interaktiivinen eräajotehtäväistunto ja lataa biokit:

sinteractive -m 4G -c 4
module load biokit

Natiivilla HMMERillä voit nopeuttaa hmmpfam- ja hmmserach-komentoja käyttämällä useita prosessoreita. Käytettävien prosessorien määrä, esimerkiksi 4, annetaan valinnalla --cpu 4, mutta luku kannattaa korvata ympäristömuuttujalla, jossa arvo on jo valmiina, eli $SLURM_CPUS_PER_TASK, jotta se pysyy aina synkronissa eräajokomentosarjan pyynnön kanssa:

hmmscan --cpu $SLURM_CPUS_PER_TASK $PFAMDB/pfam_a.hmm protein.fasta > result.txt

Puhdissa HMMER-ajot tulee suorittaa interaktiivisina eräajotehtävinä tai tavallisina eräajotehtävinä. Tässä on esimerkki eräajotiedostosta, joka käyttää 4 prosessoriydintä:

#!/bin/bash 
#SBATCH --job-name=hmmer_job
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=04:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1  
#SBATCH --cpus-per-task=4
#SBATCH --account=project_123456
#SBATCH --mem=8000

module load biokit
hmmscan --cpu $SLURM_CPUS_PER_TASK $PFAMDB/pfam_a.hmm protein.fasta > result.txt

Työ lähetetään komennolla (missä batch_job_file on eräajotiedostosi nimi):

sbatch batch_job_file

Lisätietoja eräajojen suorittamisesta on Laskennan käyttöoppaassa.

Lisätietoja

HMMERin käyttöopas