Stomach Health > elodec Zdravje >  > Gastric Cancer > želodčni rak

Plos ONE: DBGC: Database človeške želodčne raka

Povzetek

Baza človeške želodčne raka (DBGC) je celovita baza podatkov, ki združuje različne človeške želodčne povezane z rakom podatkovnih virov. Človeški želodca, povezanih z rakom transkriptomike projekti, proteomika projekti, mutacije, biomarkerjev in drog občutljive genov iz različnih virov so bili zbrani in poenotili v tej bazi podatkov. Poleg tega so epidemiološke statistika bolnikov želodca raka na Kitajskem in v clinicopathological informacij obrazloženim primerov raka želodca vključena tudi v DBGC. Prepričani smo, da bo ta baza podatkov zelo olajšala raziskave o raku človeškega želodca na številnih področjih. DBGC je brezplačno na voljo na http://bminfor.tongji.edu.cn/dbgc/index.do

Navedba: Wang C, Zhang J, Cai M, Zhu Z, Gu W, Yu Y, et al . (2015) DBGC: Database človeške želodčne raka. PLoS ONE 10 (11): e0142591. doi: 10,1371 /journal.pone.0142591

Urednik: Arun Sreekumar, Baylor College of Medicine, UNITED STATES

Prejeto: 18. februar 2015; Sprejeto: 24. oktober 2015; Objavljeno: 13 november 2015

Copyright: © 2015 Wang et al. To je prost dostop članek razširja pod pogoji Creative Commons Attribution License, ki omogoča neomejeno uporabo, distribucijo in razmnoževanje v katerem koli mediju, pod pogojem, da prvotni avtor in vir knjižijo

Razpoložljivost podatkov: Podatki so pri roki preko Datadryad (https://datadryad.org). Edinstvena številka za pristop je: doi:. 10,5061 /dryad.271dk

Financiranje: To delo je delno podprta s sredstvi iz državnega Natural Science Foundation Kitajske (81172329, 31571363, 81372644, 81372645 in 8157111077), kitajski National High Tech Program (2012AA02A504 in 2012AA02A203), Mednarodni projekt Cooperative od Shanghai znanost in tehnologijo Komisije (12410706400), fundacija za inovacije translacijske medicine Shanghai Jiao Tong University School of Medicine (15ZH1002 in 15ZH3001), Fong Shu Fook Tong Foundation in prebavil karcinomom BIOBANK Projekt Shanghai Jiao Tong University School of Medicine. Med financerji imel nobene vloge pri oblikovanju študije, zbiranje in analizo podatkov, sklep, da se objavi, ali pripravi rokopisa

nasprotujočimi si interesi.. Avtorji so izjavili, da ne obstajajo konkurenčni interesi

Uvod

Kot eden najpogostejših rakov, raka želodca ima tretjo najvišjo smrtnost in četrto največjo obolevnost vseh rakov po svetu [1]. Po statističnih podatkih GloboCan leta 2012, nove želodčne primerov raka oštevilčene skoraj milijon (952.000), in več kot 700.000 smrti so rak želodca povzročil; Skoraj polovica teh bolnikov je prišel iz Kitajske (405,000 novih primerov in 325.000 smrti) [1, 2]. Čeprav sta smrtnost in obolevnost za rakom želodca v zadnjih letih zmanjšalo, 5-letno preživetje ostaja zelo nizka [3]. Zato bo rak želodca ostala ena izmed najtežjih izzivov za raziskovalce in zdravnike za dolgo časa [4].

Raziskovalci po vsem svetu so končali številne genomika, transkriptomika, proteinomiko in epidemiološke preiskave in kliničnih preskušanj v zvezi s patogenezo in zdravljenja raka želodca [5-10]. Te preiskave so ustvarili velike količine podatkov, pomembnih za rakom želodca in hitrost teh preiskav se pospešuje s hitro rastjo znanja raka, zmanjšanje stroškov za odkrivanje in računanja, in širjenje interneta [11]. Ti podatki vsebujejo pomembne informacije za preiskovanje in zdravljenja raka želodca. Vendar pa je zaradi omejenega ozadja poznavanja zdravniki in temeljnih raziskovalcev je potencial teh podatkov ni mogoče v celoti razviti. Nove tehnologije in raziskovalne metode še vedno zahtevajo razvoj; Vendar, nizka učinkovitost pri upravljanju podatkov je osnovna omejitev tega razvoja [12]. Zaradi dolgoročnega kopičenja decentralizirane raziskave, ti podatki in njihovi formati zadovoljila le individualne potrebe, brez vključevanja in standardizacije in posledično za diverzifikacijo, izomerizacijo in razčleniti podatkov raka [13, 14].

Trenutno so bogate klinične in temeljne raziskave v zvezi z rakom želodca načrtovanih ali v teku. Različne vrste podatkov, ki so shranjeni v različnih podatkovnih baz [13], brez delitve ali komunikacije. Tako močno povezane informacije ostanejo izolirani, v kaj se imenujejo "informacijske otoke«. Na eni strani, podatki seciranju povečuje težavnost rudarjenja podatkov, medtem ko na drugi strani pa preprečuje, da bi zdravnikom s polno uporabo rezultatov temeljnih raziskav za razvoj kliničnih preskušanj in aplikacije in ohranja temeljne raziskovalce iz naslova opravljanja učinkovitih raziskovalnih študij, ki se sklicujejo klinično pomembne informacije [15].

v tem primeru pridobivanje celovite informacije o raku želodca ni lahka naloga, in deli teh podatkov lahko izgine v ocean interneta, kar bi bilo zelo žalostno.

Ta raziskava je izkoristil sredstev iz interneta in publikacije iz kitajskega centra za nadzor in preprečevanje bolezni (CDC) in želodca Cancer Center za diagnostiko in zdravljenje, Key Laboratory želodčne neoplazme v Šanghaju. Ta študija je sistematično zbirati različne vrste želodcu podatkov, povezanih z rakom, integrirana te podatkovne vire, po filtraciji in standardizacije, in na koncu oblikovali prvo obsežno bazo znanja za analizo raka želodca.

Materiali in metode

podatki viri

Baza Human Rak želodca (DBGC) je vključil naslednje želodca, povezanih z rakom virov:

  • Epidemiološke statistike bolnikov želodca z rakom na Kitajskem iz CDC publikacij
  • Clinicopathological informacije o želodčnega tkiva raka po kirurški odstranitvi iz bolnikov, diagnosticiranih v Šanghaju Ruijin bolnišnici
  • molekularnih bioloških podatkov o raku želodca iz javnih virov na spletu (vključno želodcu mutacij, povezanih z rakom, biomarkerjev, drog občutljiv genov, transkriptomike projektov in ustreza diferencialno izraženih genov in proteomika projekti in ustrezajo različno izražene beljakovine)
  • neobdelanih podatkov raziskav iz Shanghai Institute of prebavnih kirurgijo in Shanghai Key Laboratory želodčne novotvorb

    Zbirka podatkov

    1) Epidemiološke statistika bolnikov želodca raka na Kitajskem.

    CDC ima vzpostavljen sistem poročanja raku že vrsto let in se je nabralo obilo epidemioloških podatkov o bolnikih z rakom na Kitajskem. Epidemiološke statistika raka želodca, vključno s številom primerov, smrt število, stopnjo pojavnosti (surovo hitrost, starostno prilagojena stopnja in kumulativna stopnja), stopnja umrljivosti (surova mer, tečajev, starosti prilagojen in kumulativna stopnja) in pojavnosti (ali umrljivosti) razporeditev po starostnih skupinah so bili pridobljeni ročno iz CDC publikacij. DBGC 1.0 zajema vse epidemiološke statistiko za vse tipične regijah Kitajske od leta 2004 do 2009, in dodatni statistični podatki bodo vključeni v nadgrajeni različici.

    2) Clinicopathological informacije o želodčnega tkiva raka.

    Clinicopathological podatke je Shanghai Ruijin Hospital. Metode za razvrščanje in počivališča na splošno uporabljajo za želodčne diagnozo raka so označeni s pomočjo primerov želodca raka zboleli v bolnišnici Ruijin. Tipični želodca raka tkiva različnih stopnjah in vrstah so bili izbrani iz želodca BIOBANK raka, ki smo jih vzdržuje že vrsto let. Vse informacije o bolniku so anonimni in de-identificirati pred našo analizo.

    3) molekularnih bioloških podatkov o raku želodca iz javnih virov na spletu.

    molekularnih bioloških podatki so bili pridobljeni in kurator iz spletnih virov. Podatki transkriptomike so bili zbrani iz podatkovne baze GEO (http://www.ncbi.nlm.nih.gov/geo/) in EBI podatkovne baze (http://www.ebi.ac.uk/). Podatki proteomika bili pridobljeni iz objavljene literature z ročnim branja in standardizaciji [16, 17]. Podatki mutacij so bili zbrani iz podatkovne baze dbVar (http://www.ncbi.nlm.nih.gov/dbvar/), OMIM baze podatkov (http://www.ncbi.nlm.nih.gov/omim/), HGMD baze podatkov (http://www.hgmd.org/) in objavljene literature [18, 19]. Vsi podatki biomarkerjev so bili pridobljeni iz objavljene literature [20, 21]. povezanih z drogami, geni so bili pridobljeni iz podatkovne baze PharmGKB (http://www.pharmgkb.org/), CancerDR baze podatkov (http://crdd.osdd.net/raghava/cancerdr/) in objavljene literature [22, 23]. Oblikovali smo podrobnejših meril za koriščenje za vsako vrsto molekularno bioloških virov podatkov, vsak postopek zbiranja podatkov morali slediti teh standardov za zagotovitev usklajenosti podatkov. Natančnejši postopek zbiranja je naveden spodaj:

    transkriptomike podatke:

  • Iskanje po podatkovni bazi GEO z naslednjimi ključnimi besedami :( "v želodcu novotvorbe" [MeSH Pogoji] ali "raka želodca" [vsa polja] ) in "Homo sapiens" [porgn].
  • Filter rezultatov ročno, in izberite publikacij, povezanih z rakom človeške želodčne za nadaljnjo informacijsko ekstrakcijo.
  • razvrstitev programov glede na velikost vzorca in tip vzorca .
  • podatki objava Extract (naslov, čas objave, vrste eksperiment, vrsto tkiva, količina vzorca, opis vzorca, vzorec poskusa, vzorec nadzora, ploščadi, GSE ID, GSM ID, povezave za prenos in literatura citiranje ) ročno, ki se nanašajo na MIAME (Minimum informacije o mikromrež Experiment).
  • Pre-procesa surove podatke (serija matrične datoteke v zbirki podatkov GEO), ki uporabljajo Perl za odpravo razlik pri različnih platformah.
  • Extract diferencialno izraženih genov s pomočjo R jezika

    podatki Proteomika:

  • Iskanje neobdelanih podatkov v PubMed z naslednjimi ključnimi besedami: ( "proteinomiko" [MeSH Pogoji] ali "proteinomiko" [ ,,,0],Vsa polja]) IN ( "v želodcu novotvorbe" [MeSH Terms] OR ( "želodec" [all Področja] IN "novotvorba" [all Področja]) ali "v želodcu novotvorba" [all Fields] OR ( "želodca" [all Fields] iN "rak" [Vsa polja]) ALI "rak želodca" [Vsa polja]).
  • Filter rezultatov ročno, in izberite proteinomiko publikacij, povezanih z rakom človeške želodčne za nadaljnjo informacijsko ekstrakcijo.
  • Uporabite te dokumente kot semena literature in ponovno filtrirati reference.
  • razvrsti publikacij po velikosti vzorca in vrste vzorca.
  • Ročno brati dokumente in povzemanje informacij objave (naslov, čas objave, vzorec količina, vzorec eksperiment, kontrolni vzorec, opis vzorca, metoda, uporabljena tehnologija, krat spremembe, do regulirane količine beljakovin, down-urejena beljakovin količino in sklic) in ustrezne up-urejena beljakovine in dol-reguliranih beljakovin (na podlagi zaključkov avtorji)

    podatki mutacija:.

  • Iskanje po bazah podatkov OMIM, HGMD in dbVar uporabo ključnih besed "raka želodca" in povzemanje informacij mutacija (genov, tip mutacije, opis cDNA , opis polni AA, opis AA, in sklic)
  • iskanje v PubMed z naslednjimi ključne besede:. ( "mutacije" [MeSH pogoji] ali "mutacije" [Vsa polja]) iN ( "želodec novotvorbe "[MeSH Terms] OR (" želodec "[All Fields] in" novotvorbe "[Vsa polja]) ali" v želodcu novotvorbe "[Vsa polja] OR (" želodca "[Vsa polja] in" rak "[Vsa polja]) ALI "rak želodca" [Vsa polja]).
  • filter rezultatov ročno, in izberite dokumente, povezane z rakom človeške želodčne za nadaljnjo informacijsko ekstrakcijo.
  • Vzemite te dokumente kot literature semen in filtrom sklicevanja znova.
  • Preberite te dokumente in povzemanje informacij mutacij ročno (gen, tip mutacije, opis cDNA, opis polni AA, opis AA, in sklic).
  • Odstrani podvojeni podatki iz štirih virov

    Biomarker podatkov:.

  • iskanje v PubMed z naslednjimi ključnimi besedami:
    ( "bioloških označevalcev" [MeSH Pogoji] OR ( "biološke" [All polja] IN "markerji" [All Področja]) ALI "biološki markerji" [All Področja] ALI "biomarkerjev" [Vsa polja]) IN ( "v želodcu novotvorba" [MeSH Terms] OR ( "želodec" [All Področja] IN " novotvorbe "[All Področja]) OR" v želodcu novotvorbe "[All Področja] OR (" želodca "[All Področja] in" rak "[Vsa polja]) ALI" rak želodca "[Vsa polja]).
  • ročno Filter rezultatov in izberite dokumente, povezane z rakom človeške želodčne za nadaljnjo informacijsko ekstrakcijo.
  • Vzemite te dokumente kot semena literature in ponovno filtrirati reference.
  • Preberite te dokumente in izvleček mutacijo podatki ročno (ime biološkega označevalca, polno ime, vrsta, stopnja, opis, mehanizem, občutljivost, specifičnost in sklic).
  • razvrsti biomarkerjev po vrsti biomarkerjev, fazi, specifičnosti in občutljivosti.

    Drug občutljivih podatkov.

  • Iskanje PharmGKB uporabo ključnih besed "raka na želodcu" in ročno izvleči informacije o drogah občutljiv (ime drog, ime gen, vrsto genov, mehanizem, in sklic)
  • Iskanje v PubMed z naslednjimi ključnimi besedami: "odpornost" [vseh področjih] in ( "želodčnih neoplazme" [MeSH Pogoji] OR ( "želodec" [vseh področjih] IN "novotvorbe" [All Področja]) OR "želodec novotvorbe "[Vsa polja] OR (" želodca "[Vsa polja] in" rak "[Vsa polja]) ALI" rak želodca "[Vsa polja])
  • Filter rezultatov ročno in izberite dokumenti povezani z človeškega želodca odpornost proti raku zdravilo za nadaljnjo informacijsko ekstrakcijo.
  • Vzemite te dokumente kot semena literature in ponovno filtrirati reference.
  • Povzemite 19 zdravil, ki se običajno uporablja za klinično zdravljenje raka želodca (5- fluorouridin, kamptotecin, karboplatina, cisplatina, docetaksela, doksorubicina, doksorubicin hidroklorida, epirubicin, etopozid, fluorouracila, irinotekan, levkovorina, mitomicin c, oksaliplatin, paklitaksel, tamoksifen, trastuzumab, vinblastin in vinkristin).
    Jemanje "cisplatin", kakor primer, iskanje v PubMed s ključnimi besedami:
    ( "cisplatina" [MeSH Terms] ALI "cisplatin" [Vsa polja]) in "upor" [Vsa polja] IN ( "v želodcu novotvorbe" [MeSH Terms] OR ( " želodec "[All Fields] in" novotvorbe "[Vsa polja]) ali" v želodcu novotvorbe "[Vsa polja] OR (" želodca "[Vsa polja] in" rak "[Vsa polja]) ALI" rak želodca "[Vsa polja ]).
  • Filter rezultatov ročno, in izberite dokumente v zvezi s človeškim želodčne odpornosti rak drog za nadaljnjo informacijsko ekstrakcijo.
  • Vzemite te dokumente kot semena literature in ponovno filtrirati reference.
  • Preberite te papirje in izločiti informacije o drogah občutljiv ročno (ime drog, ime gen, vrsto genov, mehanizem, in sklic).

    obrazloženi vsi geni in droge v tej bazi podatkov za pomoč uporabniki bolje razumeli in uporabo teh podatkov vire. Geni so označeni v skladu z NCBI (http://www.ncbi.nlm.nih.gov), HGNC (http://www.genenames.org/~~HEAD=pobj), Ensembl (http://feb2014.archive.ensembl.org /) in Gene kartice (http://www.genecards.org/). Zdravila so označeni v skladu z DrugBank (http://www.drugbank.ca/).

    Poleg tega so bile tudi mutacije, ugotovljene pri projektu TCGA zabeležijo genov v DBGC. Uporabniki lahko najdejo vse mutacije določenega gena, odkritih v projektu TCGA. Te mutacije so bili obdelani s ICGC (https://dcc.icgc.org), ki temelji na podatkih TCGA in navedeni vsaka mutacija v DBGC.

    Poleg tega je bilo izvedenih nekaj želodca, povezanih z rakom temeljni raziskovalni projekti naš raziskovalne skupine. opisi projektov in surovi podatki so na voljo v DBGC za prenos in nadaljnjo analizo.

    Database Gradbena

    DBGC je relacijska baza podatkov s podatkovno plast MySQL. Uporabniku prijazen vmesnik je bil zasnovan za organiziranje in prikaz podatkovne vire uporablja HTML in JavaScript. Interakcija med plasti podatkov in spletnega vmesnika je bila zaključena z Java EE platformo.

    Rezultati in diskusija

    Database Opis

    Ta baza je sestavljena predvsem iz treh vzdolžnih podatkovnih sistemov , epidemioloških, clinicopathological in molekularno bioloških podatkov (Slika 1). Molekularnih bioloških podatkov je sestavljen iz želodca transkriptomike, povezanih z rakom, proteomika, mutacije, biomarkerja in podatkov genskih drog občutljiv. Splošni statistični podatki teh podatkov so navedene v tabeli 1. Poleg epidemioloških statistiko bolnikov z rakom želodca na Kitajskem in clinicopathological informacij dnevnem primerov raka želodca, so bili vsi ti podatki, pridobljeni iz javnih zbirk podatkov, publikacij in objavljene literature.

    Baze podatkov Vmesniki

    1) za hitro iskanje (slika 2). Hitro iskanje Funkcija modul omogoča identifikacijo vloge gena ali proteina pri raku želodca možne preko vnosom ključne besede v iskalno polje, ki se nahaja v navigacijski vrstici. Rezultat iskanja vam bo povedal, ali je gen ali protein različno izražena v vseh transkriptomike projektov ali proteomika projektov in ali je bilo ugotovljeno, da biomarker za rakom želodca ali gena drog občutljiv. Poleg tega, če ima gen vsako mutacijo, ki je povezano z rakom želodca, podroben seznam bo prikazan na strani z rezultati. Na primer, z uporabo "EGFR" kot ključno besedo, lahko sklepamo, da je bilo ugotovljeno, da up-urejena gena v GSE51936 in GSE27342 in kot navzdol urejeno gena v GSE29630. Ustrezni protein gena EGFR je bilo ugotovljeno, da up-regulirani beljakovin v 3 proteomika projektov (PubMed IDS: 23161554, 24263233 in 24722433). EGFR so poročali kot prognoze dejavnik raka želodca in je povezana z odpornostjo na zdravila irinotekan, ki je pogosto uporabljena zdravila za zdravljenje raka želodca. Štiri mutacije EGFR v zvezi z rakom želodca so poročali (c.2361G > A, c.2402A > G, c.2573T > G, c.2588G > A).

    2) Brskanje in iskanje (Slika 3). Uporaba navigacije, lahko uporabniki kliknejo ustrezne elemente za brskanje virov podatkov, predvidenih v DBGC. Podrobne informacije bodo navedene spodaj. Vzpostavili smo tudi številne iskalne kriterije za vsako vrsto podatkovnega vira, preko katerih bo vidna vse postavke podatkov, ki izpolnjujejo pogoje.

    3) Naša baza podatkov se razlikuje od drugih spletnih virov zaradi vključitve epidemioloških statistike želodca bolnikov z rakom na Kitajskem. Uporabniki lahko primerjajo statistike po spolu (moški in ženske), območja (mest in podeželja), in starost ob diagnozi ali smrti. Številka zadeve, smrt število, pogostost hitrost in smrtnost v izbranem letu območju je mogoče prikazati v obeh grafov in tabele obliki (slika 4).

    Pogovor

    Rak želodca je vodilni rak po vsem svetu tako v umrljivosti in obolevnosti. Večja incidenca in umrljivost zaradi raka želodca so opazili pri azijskih regijah, zlasti na Kitajskem. Epidemiološke statistični podatki raka želodca v tej bazi podatkov so bili pridobljeni predvsem iz publikacij CDC, ki je bil vpleten v malignih študij tumorskih več desetletij in ima sedež obsežne arhive malignih bolnikov tumor na Kitajskem. Ti podatki so igrali pomembno vlogo pri spodbujanju preprečevanja raka in zdravje pri oblikovanju politik na Kitajskem [24-26]. Skozi pridobivanje želodčne podatke raka epidemiologijo v tej bazi podatkov, lahko raziskovalci in zdravniki hitro ugotovi epidemiološke trende raka želodca na Kitajskem.

    želodca, povezanih z rakom mutacije, biomarkerji, drog občutljiv geni, transkriptomike projekti in ustrezne diferencialno izraženi geni, in proteomika poskusi in ustrezne različno izražene beljakovine so ročno zbrani iz spletnih baz podatkov in objavljene literature. Hitro iskanje Funkcija zagotavlja DBGC raziskovalcem omogoča identifikacijo vloge gena ali proteina raka želodca. Te diferencialno izraženi geni in proteini vsebujejo bogate pomembne informacije o raku želodca, in številne analitične študije, ki lahko izvajajo njihovo uporabo.

    Naša raziskovalna skupina se ukvarja z raziskavami raka želodca za več let in se je nabralo veliko izkušenj v tumor epidemiološke raziskave, želodca clinicopathology rak in biomarkerjev raziskave, BioBank stavba, molekularne raziskave biološki mehanizem, analiza bioinformatika in gradnja baze podatkov obsežno [27-30]. Da bi zagotovili povpraševanje in analize orodja, ki so bolj udoben in praktičen za raziskovalce z rakom želodca, smo zgradili to bazo podatkov. Trenutna verzija je 1.0. Ker so velike količine podatkov, ki jih različne eksperimentalne platforme na različnih področjih zelo razpršena in heterogena, lahko nekaj koristnih informacij so zamudili v našem procesu zbiranja podatkov. Še naprej bomo pridobivanje teh podatkov in posodabljanje najnovejše podatke za dolgo časa, da se zagotovi pravočasnost in popolnost podatkov. V naslednji različici, nameravamo kritje najnovejše človekovih želodca, povezanih z rakom mutacije, biološke označevalce in drog občutljiv gene. Podatki transkriptomike bo poudarek na naslednjo različico, v kateri bodo vsi transkriptomike projekti ponovno analizirajo, za pridobivanje diferencialno izraženih genov pri različnih vrednostih sprememb krat. Tako bi lahko uporabniki poizvedujejo, ali je določen gen različno izražena skozi konfiguracijo vrst vzorcev in krat vrednosti spremembe.

    Zaključek

    Baza podatkov je opisana v tem članku, je DBGC, je celovit in spletno -accessible baza raka človeške želodčne. Ta baza podatkov je integriran različnih podatkovnih virov, povezanih z rakom želodca in pod pogojem, več enostavnih za uporabo na spletu temelječih funkcionalnih modulov. Prepričani smo, da bo DBGC pomembno orodje za želodčne zdravniki raka, tumorjev temeljnih raziskovalcev, raka na genomu, raziskovalce, vladne zdravstvene politike in bolnikov z rakom želodca.