-
Entrez Direct
Entrez Direct
Edirect eli Entrez Direct on työkalupaketti sekvenssien ja muun datan noutamiseen NCBI:n sekvenssitietokannoista annettujen hakutermien perusteella. Paketti koostuu useista komennoista:
- Navigointitoiminnot tukevat Entrez-tietokantojen selaamista:
esearchsuorittaa uuden Entrez-haun indeksoitujen kenttien termeillä.elinkhakee naapureita (tietokannan sisällä) tai linkkejä (tietokantojen välillä).efiltersuodattaa tai rajaa aiemman haun tuloksia.
- Tietueita voidaan noutaa määritetyissä muodoissa tai asiakirjayhteenvedoiksi:
efetchlataa tietueita tai raportteja määritetyssä muodossa.
- Halutut kentät XML-tuloksista voidaan poimia ilman ohjelman kirjoittamista:
xtractmuuntaa Edirectin XML-tulosteen taulukoksi data-arvoista.
- Tarjolla on myös useita lisätoimintoja:
einfohakee tietoa Entrez-tietokannan indeksoiduista kentistä.epostlataa palveluun yksilöllisiä tunnisteita (UID) tai sekvenssien accession-numeroita.nquirelähettää URL-pyynnön verkkosivulle tai CGI-palveluun
Lisenssi
Vapaasti kaikkien käyttäjien käytettävissä. Public Domain -ilmoitus.
Saatavuus
Puhti: 13.4
Käyttö
Yllä luetellut edirect-komennot otetaan käyttöön lataamalla biokit-moduuli.
Tämän jälkeen voit esimerkiksi käyttää komentoja esearch ja efetch proteiini- tai nukleotidisekvenssimerkintöjen noutamiseen, joiden annotaatio vastaa annettuja hakutermejä. Hakutermeissä voit käyttää myös jokerimerkkiä *, joka vastaa mitä tahansa merkkijonoa. Haku ei erottele isoja ja pieniä kirjaimia: "Mus" ja "mus" tuottavat samat osumat. Voit myös kohdistaa haun tiettyihin hakutietokannan kenttiin (avainsanat, tekijä, organismi, accession, geenin nimi, proteiinin nimi, sekvenssin pituus jne.). Sekvenssin pituuden tapauksessa alue tulee määritellä syntaksilla from:to. Esimerkiksi: 120:125.
Yleensä on viisasta käyttää ensin pelkkää esearch-komentoa, jotta saat käsityksen siitä, kuinka monta osumaa löytyy.
Esimerkiksi haku:
ilmoittaa, että osumia löytyi 267791.
<ENTREZ_DIRECT>
<Db>nucleotide</Db>
<WebEnv>NCID_1_7176041_130.14.18.48_9001_1567161450_1478919739_0MetA0_S_MegaStore</WebEnv>
<QueryKey>1</QueryKey>
<Count>267791</Count>
<Step>1</Step>
</ENTREZ_DIRECT>
Tässä tapauksessa voi olla järkevää tarkentaa hakua ennen kuin hakumäärittely ohjataan putkella efetch-komennolle varsinaista datan noutamista varten. Yksi haku voi sisältää useita hakutermejä, jotka yhdistetään loogisilla operaattoreilla (AND, OR, NOT). Vastaavat sekvenssit voidaan tallentaa useissa muodoissa; esimerkiksi fasta- tai GenBank-muodot ovat tuettuja. Alla oleva komento noutaa vain yhden merkinnän, Lyngbya majuscula barbamide biosynthesis gene clusterin, joka sisältää geenin nimeltä braC.
esearch -db nucleotide -query "barc [GENE] AND Lyngbya majuscula [ORGN]" | efetch -format gb > barc_Lm.gb