Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Entrez Direct

Edirect eli Entrez Direct on työkalupaketti sekvenssien ja muun datan noutamiseen NCBI:n sekvenssitietokannoista annettujen hakutermien perusteella. Paketti koostuu useista komennoista:

  1. Navigointitoiminnot tukevat Entrez-tietokantojen selaamista:
    • esearch suorittaa uuden Entrez-haun indeksoitujen kenttien termeillä.
    • elink hakee naapureita (tietokannan sisällä) tai linkkejä (tietokantojen välillä).
    • efilter suodattaa tai rajaa aiemman haun tuloksia.
  2. Tietueita voidaan noutaa määritetyissä muodoissa tai asiakirjayhteenvedoiksi:
    • efetch lataa tietueita tai raportteja määritetyssä muodossa.
  3. Halutut kentät XML-tuloksista voidaan poimia ilman ohjelman kirjoittamista:
    • xtract muuntaa Edirectin XML-tulosteen taulukoksi data-arvoista.
  4. Tarjolla on myös useita lisätoimintoja:
    • einfo hakee tietoa Entrez-tietokannan indeksoiduista kentistä.
    • epost lataa palveluun yksilöllisiä tunnisteita (UID) tai sekvenssien accession-numeroita.
    • nquire lähettää URL-pyynnön verkkosivulle tai CGI-palveluun

Lisenssi

Vapaasti kaikkien käyttäjien käytettävissä. Public Domain -ilmoitus.

Saatavuus

Puhti: 13.4

Käyttö

Yllä luetellut edirect-komennot otetaan käyttöön lataamalla biokit-moduuli.

module load biokit

Tämän jälkeen voit esimerkiksi käyttää komentoja esearch ja efetch proteiini- tai nukleotidisekvenssimerkintöjen noutamiseen, joiden annotaatio vastaa annettuja hakutermejä. Hakutermeissä voit käyttää myös jokerimerkkiä *, joka vastaa mitä tahansa merkkijonoa. Haku ei erottele isoja ja pieniä kirjaimia: "Mus" ja "mus" tuottavat samat osumat. Voit myös kohdistaa haun tiettyihin hakutietokannan kenttiin (avainsanat, tekijä, organismi, accession, geenin nimi, proteiinin nimi, sekvenssin pituus jne.). Sekvenssin pituuden tapauksessa alue tulee määritellä syntaksilla from:to. Esimerkiksi: 120:125.

Yleensä on viisasta käyttää ensin pelkkää esearch-komentoa, jotta saat käsityksen siitä, kuinka monta osumaa löytyy. Esimerkiksi haku:

esearch -db nucleotide -query barc

ilmoittaa, että osumia löytyi 267791.

<ENTREZ_DIRECT>
  <Db>nucleotide</Db>
  <WebEnv>NCID_1_7176041_130.14.18.48_9001_1567161450_1478919739_0MetA0_S_MegaStore</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>267791</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

Tässä tapauksessa voi olla järkevää tarkentaa hakua ennen kuin hakumäärittely ohjataan putkella efetch-komennolle varsinaista datan noutamista varten. Yksi haku voi sisältää useita hakutermejä, jotka yhdistetään loogisilla operaattoreilla (AND, OR, NOT). Vastaavat sekvenssit voidaan tallentaa useissa muodoissa; esimerkiksi fasta- tai GenBank-muodot ovat tuettuja. Alla oleva komento noutaa vain yhden merkinnän, Lyngbya majuscula barbamide biosynthesis gene clusterin, joka sisältää geenin nimeltä braC.

esearch -db nucleotide -query "barc [GENE] AND Lyngbya majuscula [ORGN]" | efetch -format gb > barc_Lm.gb

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta