Entrez Direct

Edirect eli Entrez Direct on työkalupaketti sekvenssien ja muun datan noutamiseen NCBI:n sekvenssitietokannoista annettujen hakutermien perusteella. Paketti koostuu useista komennoista:

Navigointitoiminnot tukevat Entrez-tietokantojen selaamista:
- esearch suorittaa uuden Entrez-haun indeksoitujen kenttien termeillä.
- elink hakee naapureita (tietokannan sisällä) tai linkkejä (tietokantojen välillä).
- efilter suodattaa tai rajaa aiemman haun tuloksia.
Tietueita voidaan noutaa määritetyissä muodoissa tai asiakirjayhteenvedoiksi:
- efetch lataa tietueita tai raportteja määritetyssä muodossa.
Halutut kentät XML-tuloksista voidaan poimia ilman ohjelman kirjoittamista:
- xtract muuntaa Edirectin XML-tulosteen taulukoksi data-arvoista.
Tarjolla on myös useita lisätoimintoja:
- einfo hakee tietoa Entrez-tietokannan indeksoiduista kentistä.
- epost lataa palveluun yksilöllisiä tunnisteita (UID) tai sekvenssien accession-numeroita.
- nquire lähettää URL-pyynnön verkkosivulle tai CGI-palveluun

Entrez Direct

Lisenssi

Vapaasti kaikkien käyttäjien käytettävissä. Public Domain -ilmoitus.

Saatavuus

Puhti: 13.4

Käyttö

Yllä luetellut edirect-komennot otetaan käyttöön lataamalla biokit-moduuli.

module load biokit

Tämän jälkeen voit esimerkiksi käyttää komentoja esearch ja efetch proteiini- tai nukleotidisekvenssimerkintöjen noutamiseen, joiden annotaatio vastaa annettuja hakutermejä. Hakutermeissä voit käyttää myös jokerimerkkiä *, joka vastaa mitä tahansa merkkijonoa. Haku ei erottele isoja ja pieniä kirjaimia: "Mus" ja "mus" tuottavat samat osumat. Voit myös kohdistaa haun tiettyihin hakutietokannan kenttiin (avainsanat, tekijä, organismi, accession, geenin nimi, proteiinin nimi, sekvenssin pituus jne.). Sekvenssin pituuden tapauksessa alue tulee määritellä syntaksilla from:to. Esimerkiksi: 120:125.

Yleensä on viisasta käyttää ensin pelkkää esearch-komentoa, jotta saat käsityksen siitä, kuinka monta osumaa löytyy. Esimerkiksi haku:

esearch -db nucleotide -query barc

ilmoittaa, että osumia löytyi 267791.

<ENTREZ_DIRECT>
  <Db>nucleotide</Db>
  <WebEnv>NCID_1_7176041_130.14.18.48_9001_1567161450_1478919739_0MetA0_S_MegaStore</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>267791</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

Tässä tapauksessa voi olla järkevää tarkentaa hakua ennen kuin hakumäärittely ohjataan putkella efetch-komennolle varsinaista datan noutamista varten. Yksi haku voi sisältää useita hakutermejä, jotka yhdistetään loogisilla operaattoreilla (AND, OR, NOT). Vastaavat sekvenssit voidaan tallentaa useissa muodoissa; esimerkiksi fasta- tai GenBank-muodot ovat tuettuja. Alla oleva komento noutaa vain yhden merkinnän, Lyngbya majuscula barbamide biosynthesis gene clusterin, joka sisältää geenin nimeltä braC.

esearch -db nucleotide -query "barc [GENE] AND Lyngbya majuscula [ORGN]" | efetch -format gb > barc_Lm.gb

Lisätietoja

Edirect-ohje