-
HMMER
HMMER
Piilotetut Markovin mallit (HMM) ovat matemaattisia työkaluja, joita voidaan käyttää toisiinsa liittyvien tai samankaltaisten sekvenssialueiden kuvaamiseen ja analysointiin.
HMM-mallit voidaan johtaa monisekvenssikohdistuksista siten, että ne sisältävät paikkakohtaista tietoa siitä, millä todennäköisyydellä tietyt nukleotidit tai aminohapot esiintyvät kohdistuksen kussakin kohdassa.
HMMER-paketti sisältää työkaluja sekvenssikohdistuksiin perustuvien HMM-mallien luomiseen ja muokkaamiseen, niiden käyttämiseen tietokantahauissa sekä sekvenssikohdistusten laajentamiseen.
Tietokantahaut HMM-profiileilla voivat vaatia tavallisilla tietokoneilla erittäin pitkiä laskenta-aikoja.
Lisenssi
Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.
Saatavuus
- Puhti: 3.2.1, 3.3.2, 3.4
Käyttö
Ottaaksesi HMMERin oletusversion käyttöön Puhdissa, lataa biokit-moduuli:
Jos haluat käyttää jotakin muuta versiota, lataa kyseinen HMMER-moduulin versio. Esimerkiksi:
Tämän jälkeen kunkin hmmer-komennon komentorivivalinnat voi tarkistaa valinnalla -h. Esimerkiksi:
Pfam-tietokanta
Puhdissa voit käyttää Pfam-A-tietokantaa HMMER-komennoilla. Voit myös luoda omia HMM-tietokantojasi. Esimerkiksi proteiinisekvenssin vertaaminen Pfam-A HMM -tietokantaan voidaan tehdä seuraavilla komennoilla.
Avaa ensin interaktiivinen eräajotehtäväistunto ja lataa biokit:
Natiivilla HMMERillä voit nopeuttaa hmmpfam- ja hmmserach-komentoja käyttämällä useita
prosessoreita. Käytettävien prosessorien määrä, esimerkiksi 4, annetaan valinnalla --cpu 4,
mutta luku kannattaa korvata ympäristömuuttujalla, jossa arvo on jo valmiina, eli
$SLURM_CPUS_PER_TASK, jotta se pysyy aina synkronissa eräajokomentosarjan pyynnön kanssa:
Puhdissa HMMER-ajot tulee suorittaa interaktiivisina eräajotehtävinä tai tavallisina eräajotehtävinä. Tässä on esimerkki eräajotiedostosta, joka käyttää 4 prosessoriydintä:
#!/bin/bash
#SBATCH --job-name=hmmer_job
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=04:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=4
#SBATCH --account=project_123456
#SBATCH --mem=8000
module load biokit
hmmscan --cpu $SLURM_CPUS_PER_TASK $PFAMDB/pfam_a.hmm protein.fasta > result.txt
Työ lähetetään komennolla (missä batch_job_file on eräajotiedostosi nimi):
Lisätietoja eräajojen suorittamisesta on Laskennan käyttöoppaassa.