Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

HMMER

Piilotetut Markovin mallit (HMM) ovat matemaattisia työkaluja, joita voidaan käyttää toisiinsa liittyvien tai samankaltaisten sekvenssialueiden kuvaamiseen ja analysointiin.
HMM-mallit voidaan johtaa monisekvenssikohdistuksista siten, että ne sisältävät paikkakohtaista tietoa siitä, millä todennäköisyydellä tietyt nukleotidit tai aminohapot esiintyvät kohdistuksen kussakin kohdassa.

HMMER-paketti sisältää työkaluja sekvenssikohdistuksiin perustuvien HMM-mallien luomiseen ja muokkaamiseen, niiden käyttämiseen tietokantahauissa sekä sekvenssikohdistusten laajentamiseen.

Tietokantahaut HMM-profiileilla voivat vaatia tavallisilla tietokoneilla erittäin pitkiä laskenta-aikoja.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv3 -lisenssillä.

Saatavuus

  • Puhti: 3.2.1, 3.3.2, 3.4

Käyttö

Ottaaksesi HMMERin oletusversion käyttöön Puhdissa, lataa biokit-moduuli:

module load biokit

Jos haluat käyttää jotakin muuta versiota, lataa kyseinen HMMER-moduulin versio. Esimerkiksi:

module load hmmer/3.2.1

Tämän jälkeen kunkin hmmer-komennon komentorivivalinnat voi tarkistaa valinnalla -h. Esimerkiksi:

hmmsearch -h

Pfam-tietokanta

Puhdissa voit käyttää Pfam-A-tietokantaa HMMER-komennoilla. Voit myös luoda omia HMM-tietokantojasi. Esimerkiksi proteiinisekvenssin vertaaminen Pfam-A HMM -tietokantaan voidaan tehdä seuraavilla komennoilla.

Avaa ensin interaktiivinen eräajotehtäväistunto ja lataa biokit:

sinteractive -m 4G -c 4
module load biokit

Natiivilla HMMERillä voit nopeuttaa hmmpfam- ja hmmserach-komentoja käyttämällä useita prosessoreita. Käytettävien prosessorien määrä, esimerkiksi 4, annetaan valinnalla --cpu 4, mutta luku kannattaa korvata ympäristömuuttujalla, jossa arvo on jo valmiina, eli $SLURM_CPUS_PER_TASK, jotta se pysyy aina synkronissa eräajokomentosarjan pyynnön kanssa:

hmmscan --cpu $SLURM_CPUS_PER_TASK $PFAMDB/pfam_a.hmm protein.fasta > result.txt

Puhdissa HMMER-ajot tulee suorittaa interaktiivisina eräajotehtävinä tai tavallisina eräajotehtävinä. Tässä on esimerkki eräajotiedostosta, joka käyttää 4 prosessoriydintä:

#!/bin/bash 
#SBATCH --job-name=hmmer_job
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=04:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1  
#SBATCH --cpus-per-task=4
#SBATCH --account=project_123456
#SBATCH --mem=8000

module load biokit
hmmscan --cpu $SLURM_CPUS_PER_TASK $PFAMDB/pfam_a.hmm protein.fasta > result.txt

Työ lähetetään komennolla (missä batch_job_file on eräajotiedostosi nimi):

sbatch batch_job_file

Lisätietoja eräajojen suorittamisesta on Laskennan käyttöoppaassa.

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta