Hyppää sisältöön

Docs CSC now features an automatic Finnish translation. Click here for more information.

Warning!

Puhti and Mahti will be decommissioned after Roihu becomes available. Users should clean up unnecessary files and move any required data by the end of August 2026. See the Roihu data preparation instructions for details.

Puhti scratch is very full: keep only active data there and move or delete everything else. No new Puhti scratch quota will be granted.

Entrez Direct

Edirect eli Entrez Direct on työkalupaketti sekvenssien ja muun datan noutamiseen NCBI:n sekvenssitietokannoista annettujen hakutermien perusteella. Paketti koostuu useista komennoista:

  1. Navigointitoiminnot tukevat Entrez-tietokantojen selaamista:
    • esearch suorittaa uuden Entrez-haun indeksoitujen kenttien termeillä.
    • elink hakee naapureita (tietokannan sisällä) tai linkkejä (tietokantojen välillä).
    • efilter suodattaa tai rajaa aiemman haun tuloksia.
  2. Tietueita voidaan noutaa määritetyissä muodoissa tai asiakirjayhteenvedoiksi:
    • efetch lataa tietueita tai raportteja määritetyssä muodossa.
  3. Halutut kentät XML-tuloksista voidaan poimia ilman ohjelman kirjoittamista:
    • xtract muuntaa Edirectin XML-tulosteen taulukoksi data-arvoista.
  4. Tarjolla on myös useita lisätoimintoja:
    • einfo hakee tietoa Entrez-tietokannan indeksoiduista kentistä.
    • epost lataa palveluun yksilöllisiä tunnisteita (UID) tai sekvenssien accession-numeroita.
    • nquire lähettää URL-pyynnön verkkosivulle tai CGI-palveluun

Lisenssi

Vapaasti kaikkien käyttäjien käytettävissä. Public Domain -ilmoitus.

Saatavuus

Puhti: 13.4

Käyttö

Yllä luetellut edirect-komennot otetaan käyttöön lataamalla biokit-moduuli.

module load biokit

Tämän jälkeen voit esimerkiksi käyttää komentoja esearch ja efetch proteiini- tai nukleotidisekvenssimerkintöjen noutamiseen, joiden annotaatio vastaa annettuja hakutermejä. Hakutermeissä voit käyttää myös jokerimerkkiä *, joka vastaa mitä tahansa merkkijonoa. Haku ei erottele isoja ja pieniä kirjaimia: "Mus" ja "mus" tuottavat samat osumat. Voit myös kohdistaa haun tiettyihin hakutietokannan kenttiin (avainsanat, tekijä, organismi, accession, geenin nimi, proteiinin nimi, sekvenssin pituus jne.). Sekvenssin pituuden tapauksessa alue tulee määritellä syntaksilla from:to. Esimerkiksi: 120:125.

Yleensä on viisasta käyttää ensin pelkkää esearch-komentoa, jotta saat käsityksen siitä, kuinka monta osumaa löytyy. Esimerkiksi haku:

esearch -db nucleotide -query barc

ilmoittaa, että osumia löytyi 267791.

<ENTREZ_DIRECT>
  <Db>nucleotide</Db>
  <WebEnv>NCID_1_7176041_130.14.18.48_9001_1567161450_1478919739_0MetA0_S_MegaStore</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>267791</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

Tässä tapauksessa voi olla järkevää tarkentaa hakua ennen kuin hakumäärittely ohjataan putkella efetch-komennolle varsinaista datan noutamista varten. Yksi haku voi sisältää useita hakutermejä, jotka yhdistetään loogisilla operaattoreilla (AND, OR, NOT). Vastaavat sekvenssit voidaan tallentaa useissa muodoissa; esimerkiksi fasta- tai GenBank-muodot ovat tuettuja. Alla oleva komento noutaa vain yhden merkinnän, Lyngbya majuscula barbamide biosynthesis gene clusterin, joka sisältää geenin nimeltä braC.

esearch -db nucleotide -query "barc [GENE] AND Lyngbya majuscula [ORGN]" | efetch -format gb > barc_Lm.gb

Lisätietoja

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta