-
Kraken
Kraken
Kraken on sekvenssiluokitin, joka liittää DNA-sekvensseille taksonomisia luokituksia. Kraken tutkii kyselysekvenssin sisältämiä k-meerejä ja käyttää näiden k-meerien sisältämää tietoa tietokannan kyselyyn. Tietokanta yhdistää k-meerit alimpaan yhteiseen esi-isään kaikista genomeista, joiden tiedetään sisältävän tietyn k-meerin.
Lisenssi
Vapaasti käytettävissä ja avointa lähdekoodia MIT-lisenssillä.
Saatavuus
- Puhti: 2.1.2
Käyttö
Kraken sisältyy biokit-moduuliin. Ota se käyttöön suorittamalla komento:
Tämä lataa Kraken2-paketin, jonka voi käynnistää komennolla kraken2. Esimerkiksi:
Puhdissa on saatavilla useita Kraken2-viitetietokantoja. Oletuksena Kraken2 käyttää
standard-tietokantaa, joka perustuu NCBI:n taksonomiseen tietoon ja RefSeqin täydellisiin genomeihin
bakteerien, arkeonien ja virusten domeeneissa sekä ihmisen genomiin ja
tunnettujen vektorien kokoelmaan (UniVec_Core).
Puhdissa saatavilla olevat tietokannat ovat:
| Name | Mem. request | Description |
|---|---|---|
| standard | 40 GB | NCBI:n taksonominen tieto sekä RefSeqin täydelliset genomit bakteerien, arkeonien ja virusten domeeneista, yhdessä ihmisen genomin ja tunnettujen vektorien kokoelman (UniVec_Core) kanssa. |
| krak_microb | 44 GB | RefSeqin bakteeri-, arkea-, virus-, sieni- ja alkueläingenomit |
| 16S_Greengenes_k2db | 1 GB | Greengenes 16S -data |
| 16S_RDP_k2db | 1 GB | RDP 16S -data |
| 16S_SILVA132_k2db | 1 GB | Silva 132 16S -data |
| 16S_SILVA138_k2db | 1 GB | Silva 138 16S -data |
| minikraken_8GB_20200312 | 1 GB |
Kraken2:n käyttö suuren viitetietokannan kanssa vaatii paljon muistia. Esimerkiksi työt, joissa käytetään standardia Kraken2-tietokantaa, vaativat 40 GB muistia. Siksi Kraken kannattaa käytännössä aina suorittaa eräajona. Alla on esimerkkiajo Krakenille käyttäen 4 ydintä, 40 GB muistia ja 6 tunnin ajoaikaa:
#!/bin/bash -l
#SBATCH --job-name=kraken2
#SBATCH --output=output_%j.txt
#SBATCH --error=errors_%j.txt
#SBATCH --time=06:00:00
#SBATCH --partition=small
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --cpus-per-task=4
#SBATCH --account=project_123456
#SBATCH --mem=40000
module load biokit
kraken2 -db standard --threads $SLURM_CPUS_PER_TASK input.fasta --output results.txt
Voit lähettää eräajotiedoston eräajojärjestelmään komennolla:
Katso lisätietoja eräajojen suorittamisesta Puhdin käyttöoppaasta.