Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

CD-HIT

CD-HITiä voidaan käyttää suurten sekvenssijoukkojen klusterointiin tai identtisten tai hyvin samankaltaisten sekvenssien poistamiseen sekvenssijoukosta.
CD-HITiä käytetään usein työkaluna tuottamaan ei-redundantti sekvenssijoukko suuren sekvenssijoukon jatkoanalyysiä varten.
CD-HIT tunnistaa fasta- ja fastq-sekvenssimuodot.

Lisenssi

Vapaasti käytettävissä ja avointa lähdekoodia GNU GPLv2 -lisenssillä.

Saatavuus

Puhti: 4.8.1

Käyttö

CD-HITin käyttöönottokomento Puhdissa on:

module load biokit

Käyttöönottokomennon jälkeen palvelin tunnistaa CD-HIT-komennot. CD-HIT-paketti sisältää monia ohjelmia. Merkittävimmät niistä ovat:

Program Description
cd-hit Proteiinisekvenssien klusterointi- ja redundanssinpoistotyökalu
cd-hit-est Nukleiinihapposekvenssien klusterointi- ja redundanssinpoistotyökalu (vain sekvensseille, jotka eivät sisällä introneita)
cd-hit-2d Työkalu kahden proteiinisekvenssijoukon vertailuun
cd-hit-est-2d Työkalu kahden nukleiinihapposekvenssijoukon vertailuun
cd-hit-454 Ohjelma keinotekoisten duplikaattien tunnistamiseen raakamuotoisista 454-sekvensointiluennista
cd-hit Klusteroi peptidisekvenssejä
psi-cd-hit Klusteroi proteiineja alle 40 %:n raja-arvolla
cd-hit-lap Tunnista päällekkäiset luennit
cd-hit-dup Tunnista duplikaatit yksittäisistä tai pareittaisista Illumina-luennoista
cd-hit-454 Tunnista duplikaatit 454-luennoista
h-cd-hit Hierarkkinen klusterointi

Täydellinen ohjelmaluettelo löytyy CD-HITin käyttöoppaasta.

Voit listata CD-HIT-ohjelmien komentorivivalinnat käyttämällä valintaa -help. Esimerkiksi:

cd-hit -help

Yksinkertainen proteiinisekvenssijoukon analyysi voidaan tehdä esimerkiksi komennolla:

cd-hit -i my_proteins.fasta -o reduced_set.fasta -c 0.95

Yllä oleva esimerkkikomento tuottaa kaksi tulostiedostoa:

  • reduced_set.fasta sisältää karsitun sekvenssijoukon. Tässä tapauksessa, jos kaksi sekvenssiä ovat yli 95-prosenttisesti identtisiä, vain pidempi niistä sisällytetään tuloksiin.
  • reduced_set.fasta.clstr sisältää tietoa niiden sekvenssien klusteroinnista, joiden samankaltaisuus on suurempi kuin annettu kynnysarvo (tässä tapauksessa 95 %).

Tuki

CSC Service Desk

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta