Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

CD-HIT

CD-HITiä voidaan käyttää suurten sekvenssijoukkojen klusterointiin tai identtisten tai hyvin samankaltaisten sekvenssien poistamiseen sekvenssijoukosta.
CD-HITiä käytetään usein työkaluna tuottamaan ei-redundantti sekvenssijoukko suuren sekvenssijoukon jatkoanalyysiä varten.
CD-HIT tunnistaa fasta- ja fastq-sekvenssimuodot.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv2 -lisenssillä.

Saatavuus

Puhti: 4.8.1

Käyttö

CD-HITin käyttöönottokomento Puhdissa on:

module load biokit

Käyttöönottokomennon jälkeen palvelin tunnistaa CD-HIT-komennot. CD-HIT-paketti sisältää monia ohjelmia. Merkittävimmät niistä ovat:

Program Description
cd-hit Proteiinisekvenssien klusterointi- ja redundanssinpoistotyökalu
cd-hit-est Nukleiinihapposekvenssien klusterointi- ja redundanssinpoistotyökalu (vain sekvensseille, jotka eivät sisällä introneita)
cd-hit-2d Työkalu kahden proteiinisekvenssijoukon vertailuun
cd-hit-est-2d Työkalu kahden nukleiinihapposekvenssijoukon vertailuun
cd-hit-454 Ohjelma keinotekoisten duplikaattien tunnistamiseen raakamuotoisista 454-sekvensointiluennista
cd-hit Klusteroi peptidisekvenssejä
psi-cd-hit Klusteroi proteiineja alle 40 %:n raja-arvolla
cd-hit-lap Tunnista päällekkäiset luennit
cd-hit-dup Tunnista duplikaatit yksittäisistä tai pareittaisista Illumina-luennoista
cd-hit-454 Tunnista duplikaatit 454-luennoista
h-cd-hit Hierarkkinen klusterointi

Täydellinen ohjelmaluettelo löytyy CD-HITin käyttöoppaasta.

Voit listata CD-HIT-ohjelmien komentorivivalinnat käyttämällä valintaa -help. Esimerkiksi:

cd-hit -help

Yksinkertainen proteiinisekvenssijoukon analyysi voidaan tehdä esimerkiksi komennolla:

cd-hit -i my_proteins.fasta -o reduced_set.fasta -c 0.95

Yllä oleva esimerkkikomento tuottaa kaksi tulostiedostoa:

  • reduced_set.fasta sisältää karsitun sekvenssijoukon. Tässä tapauksessa, jos kaksi sekvenssiä ovat yli 95-prosenttisesti identtisiä, vain pidempi niistä sisällytetään tuloksiin.
  • reduced_set.fasta.clstr sisältää tietoa niiden sekvenssien klusteroinnista, joiden samankaltaisuus on suurempi kuin annettu kynnysarvo (tässä tapauksessa 95 %).

Tuki

CSC Service Desk

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta