Database of Human Gastric Cancer (DBGC) er en omfattende database som integrerer ulike menneskelige mage kreft-relaterte dataressurser. Menneske mage kreft-relaterte transcriptomics prosjekter, proteomikk prosjekter, mutasjoner, biomarkører og narkotika-sensitive gener fra forskjellige kilder ble samlet og enhetlig i denne databasen. Videre epidemiologiske statistikk over mage kreftpasienter i Kina og clinicopathological informasjon merket med magekrefttilfeller ble også integrert i DBGC. Vi tror at denne databasen vil i stor grad legge til rette for forskning om menneskelig magekreft på mange felt. DBGC er fritt tilgjengelig på http://bminfor.tongji.edu.cn/dbgc/index.do
Citation: Wang C, Zhang J, Cai M, Zhu Z, Gu W, Yu Y, et al . (2015) DBGC: En Database of Human Gastric Cancer. PLoS ONE 10 (11): e0142591. doi: 10,1371 /journal.pone.0142591
Redaktør: Arun Sreekumar, Baylor College of Medicine, USA
mottatt: 18 februar 2015; Godkjent: 24 oktober 2015; Publisert: 13.11.2015
Copyright: © 2015 Wang et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Datatilgjengelighet: Data er Tilgjengelige via Datadryad (https://datadryad.org). Det unike sjonsnummer er: doi:. 10,5061 /dryad.271dk
Finansiering: Dette arbeidet ble delvis støttet med tilskudd fra Natural Science Foundation National of China (81172329, 31571363, 81372644, 81372645 og 8157111077), kinesisk National High Tech Program (2012AA02A504 og 2012AA02A203), International Cooperative prosjekt fra Shanghai Science and Technology Commission (12410706400), Innovasjon Foundation of translasjonell medisin av Shanghai Jiao Tong University School of Medicine (15ZH1002 og 15ZH3001), Fong Shu Fu Tong Foundation og Gastrointestinal Carcinoma biobank Prosjekt av Shanghai Jiao Tong University School of Medicine. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Som en av de vanligste kreftformene, har magekreft den tredje høyeste dødelighet og fjerde høyest sykelighet av alle krefttilfeller i verden [1]. Ifølge GloboCan statistikken i 2012, nye magekrefttilfeller nummerert nesten millioner (952 000), og mer enn 700.000 dødsfall ble forårsaket av magekreft; nesten halvparten av disse pasientene kom fra Kina (405.000 nye tilfeller og 325.000 dødsfall) [1, 2]. Selv om både dødelighet og sykelighet av magekreft har sunket de siste årene, er fortsatt den 5-års overlevelse ganske lav [3]. Derfor vil magekreft er fortsatt en av de vanskeligste utfordringene for forskere og leger i lang tid [4].
Forskere verden over har gjennomført mange genomikk, transcriptomics, proteomikk, og epidemiologiske undersøkelser og kliniske studier om patogenesen og behandling av magekreft [5-10]. Disse undersøkelsene har generert store mengder data som er relevante for magekreft, og hastigheten på disse undersøkelsene er akselererende med den raske veksten av kreft kunnskap, redusert kostnadene for påvisning og beregning, og spredningen av Internett [11]. Disse dataene inneholder viktig informasjon for å undersøke og herding magekreft. Men på grunn av den begrensede bakgrunnskunnskap av klinikere og fundamentale forskere, potensialet i disse data kan ikke fullt utviklet. Ny teknologi og forskningsmetoder krever fortsatt utvikling; imidlertid lav effektivitet i å håndtere data er en primær begrensning av denne utvikling [12]. På grunn av den langsiktig oppbygging av desentralisert forskning, disse dataene og deres formater bare tilfredsstille individuelle behov, mangler integrasjon og standardisering og resulterer i spredning, isomerisering, og disseksjon av kreftdata [13, 14].
i dag er rikelig kliniske og grunnleggende studier om magekreft planlagt eller pågår. Ulike typer data blir lagret i ulike databasesystemer [13], uten å dele eller kommunikasjon. Dermed sterkt korrelert informasjon forblir isolert, i det som kalles "informasjons øyer". På den ene siden, øker data disseksjon vanskeligheten av data mining, mens på den annen side, det hindrer klinikere fra å gjøre full bruk av resultatene av grunnleggende forskning for å utvikle kliniske studier og programmer og holder grunnleggende forskere fra å utføre effektive utforskende studier som refererer klinisk relevant informasjon [15].
i denne situasjonen hente omfattende informasjon om magekreft er ikke en lett oppgave, og deler av disse dataene kan forsvinne i havet av internett, noe som ville være svært uheldig.
Denne forskningen tok fordel av ressurser fra Internett og publikasjoner fra den kinesiske Center for Disease Control and Prevention (CDC) og Gastric Cancer Center for diagnostisering og behandling, Key Laboratory of Gastric Svulster i Shanghai. Denne studien systematisk samlet inn ulike typer mage kreft-relaterte data, integrert disse dataressurser etter filtrering og standardisering, og til slutt dannet den første omfattende kunnskapsgrunnlag for å analysere magekreft.
data Resources
Database of human Gastric Cancer (DBGC) har integrert følgende mage kreft-relaterte ressurser:
datainnsamling
1) epidemiologiske statistikk over mage kreftpasienter i Kina.
CDC har hatt et etablert kreft rapporteringssystem i mange år og har samlet rikelig epidemiologisk informasjon om kreftpasienter i Kina. De epidemiologiske statistikk for magekreft, inkludert saksnummer, død nummer, insidensraten (råolje rente, aldersjustert og kumulativ rate), dødelighet (råolje rente, aldersjustert og kumulativ rate), og forekomst (eller dødelighet) fordeling av aldersgruppe ble hentet manuelt fra CDC publikasjoner. DBGC 1.0 dekker alle epidemiologiske statistikk for alle typiske regioner i Kina fra årene 2004 til 2009, og ytterligere statistikk vil bli inkludert i den oppgraderte versjonen.
Clinicopathological informasjon ble gitt av Shanghai Ruijin Hospital. Klassifikasjons- og iscenesettelse metoder som vanligvis brukes for magekreft diagnose ble kommentert ved hjelp av magekrefttilfeller diagnostisert på Ruijin Hospital. Typiske mage kreft vev av ulike stadier og typer ble valgt ut fra en magekreft biobank at vi har opprettholdt i mange år. All pasientinformasjon ble anonymisert og avidentifisert før vår analyse.
Molekylærbiologiske data ble hentet ut og kuratert fra elektroniske ressurser. Transcriptomics data ble samlet inn fra GEO database (http://www.ncbi.nlm.nih.gov/geo/) og EBI database (http://www.ebi.ac.uk/). Proteomikk data ble hentet fra publisert litteratur gjennom manuell lesing og standardisering [16, 17]. Mutasjon data ble samlet inn fra dbVar database (http://www.ncbi.nlm.nih.gov/dbvar/), OMIM database (http://www.ncbi.nlm.nih.gov/omim/), HGMD database (http://www.hgmd.org/), og publisert litteratur [18, 19]. Alle biomarkør data ble ekstrahert fra publisert litteratur [20, 21]. Narkotikarelaterte gener ble hentet fra PharmGKB database (http://www.pharmgkb.org/), CancerDR database (http://crdd.osdd.net/raghava/cancerdr/) og publisert litteratur [22, 23]. Vi laget detaljerte utvinning standarder for hver type molekylærbiologiske data ressurs, og hver datainnsamlingsprosedyre måtte følge disse standardene for å sikre data koherens. Den detaljerte samling prosedyren er gitt under:
transcriptomics data:
proteomics data:
Mutation data:.
Biomarker data.
narkotika~~POS=TRUNC sensitive data.
Vi kommenterte alle gener og narkotika i denne databasen til å hjelpe brukere forstår bedre og bruke disse dataressurser. Genene er merket i henhold til NCBI (http://www.ncbi.nlm.nih.gov), HGNC (http://www.genenames.org/), Ensembl (http://feb2014.archive.ensembl.org /) og Gene kort (http://www.genecards.org/). Stoffet er merket i henhold til DrugBank (http://www.drugbank.ca/).
Videre mutasjoner oppdaget i TCGA prosjektet ble også tatt med for å kommentere gener i DBGC. Brukere kan finne alle mutasjoner av en viss gen oppdaget i TCGA prosjektet. Disse mutasjoner ble behandlet med ICGC (https://dcc.icgc.org) basert på informasjonen og TCGA betegnet med hver mutasjon i DBGC.
I tillegg har flere magekreftrelaterte fundamentale forskningsprosjekter er gjennomført av vår forskning team. Prosjektbeskrivelser og rådata er gitt i DBGC for nedlasting og videre analyse.
DBGC er en relasjonsdatabase med en MySQL datalaget. Et brukervennlig grensesnitt designet for å organisere og vise dataressurser ved hjelp av HTML og Javascript. Samspillet mellom datalaget og webgrensesnittet ble gjennomført ved bruk av Java EE plattform.
Diskusjon
Database Beskrivelse
Denne databasen består i hovedsak av tre langsgående datasystemer
Resultater og , epidemiologiske, clinicopathological og molekylærbiologiske data (fig 1). De molekylærbiologiske data består av mage kreft-relaterte transcriptomics, proteomikk, mutasjon, biomarkør og narkotika sensitive genet data. Den samlede statistikken for disse dataene er oppført i tabell 1. Sammen med de epidemiologiske statistikk over mage kreftpasienter i Kina og clinicopathological informasjon merket med magekrefttilfeller, ble alle disse data hentet fra offentlige databaser, publikasjoner og publisert litteratur.
Database grensesnitt
1) Quick Search (fig 2). Den raske søkefunksjonen modulen gjør identifisere rollen av et gen eller protein i magekreft mulig via taste inn søkeord i søkeboksen plassert på navigasjonslinjen. Søkeresultatet vil fortelle deg om genet eller proteinet er uttrykt forskjellig i noen transcriptomics prosjekter eller proteomikk prosjekter og om det har blitt identifisert som en biomarkør for magekreft eller et medikament-sensitive genet. Dessuten, hvis genet har noen mutasjon som er relatert til magekreft, en detaljert liste vil bli vist på resultatsiden. For eksempel bruker "EGFR" som søkeord, kan vi konkludere med at det ble identifisert som en oppregulert genet i GSE51936 og GSE27342 og som en nedregulert genet i GSE29630. Den tilsvarende protein av genet EGFR ble identifisert som en opp-regulert protein i 3 proteomikk prosjekter (PubMed Ids: 23161554, 24263233 og 24722433). EGFR har blitt rapportert som en prognose faktor av magekreft og er relatert til medikamentresistens til irinotecan, som er et vanlig brukt medikament for behandling av magekreft. Fire mutasjoner i EGFR relatert til magekreft er rapportert (c.2361G > A, c.2402A > G, c.2573T > G, c.2588G > A).
2) bla og søke (Fig 3). Ved hjelp av navigasjon, kan brukerne klikke tilsvarende elementer for å bla gjennom dataressurser som er gitt i DBGC. Detaljert informasjon vil bli listet nedenfor. Vi har også etablert flere søkekriterier for hver type data ressurs der alle dataelementer som oppfyller vilkårene vil bli vist.
3) Vår database skiller seg fra andre elektroniske ressurser på grunn av inkludering av epidemiologiske statistikk over mage kreftpasienter i Kina. Brukere kan sammenligne statistikk etter kjønn (mann og kvinne), område (urban og rural), og alder ved diagnose eller død. Saksnummer, død nummer, forekomst og dødelighet i en valgt intervallet kan vises i både grafen og tabellen format (figur 4).
Magekreft er en ledende kreft over hele verden i både dødelighet og sykelighet. Høyere forekomst og dødelighet av magekreft er observert i asiatiske regioner, spesielt i Kina. De epidemiologiske statistiske data av magekreft i denne databasen ble oppnådd primært fra publikasjoner av CDC, som har vært engasjert i ondartede kreftstudier i flere tiår og har etablert omfattende arkiv av ondartet svulst pasienter i Kina. Disse dataene har spilt en viktig rolle i å fremme kreft forebyggende og helsefremmende politikkutforming i Kina [24-26]. Gjennom å hente mage kreft epidemiologi data i denne databasen, kan forskere og klinikere raskt finne de epidemiologiske trender av magekreft i Kina.
magekreft relaterte mutasjoner, biomarkører, narkotika-sensitive gener, transcriptomics prosjekter og tilsvarende forskjellig uttrykte gener, og proteomikk eksperimenter og tilsvarende ulikt uttrykte proteiner ble manuelt hentet fra online databaser og publisert litteratur. Den raske søkefunksjonen gitt av DBGC gjør forskerne å identifisere rollen av et gen eller protein i magekreft. Disse forskjellig uttrykt gener og proteiner inneholder rikelig viktig informasjon om magekreft, og mange analytiske studier kan gjennomføres ved hjelp av dem.
Vårt forskningsteam har vært engasjert i magekreft forskning i mange år og har akkumulert betydelig erfaring i tumor epidemiologisk forskning, magekreft clinicopathology og biomarkør forskning, biobank bygning, molekylærbiologisk mekanisme forskning, bioinformatikk analyse og store database konstruksjon [27-30]. Å gi forespørsel og analyseverktøy som er mer praktisk og praktisk for mage kreftforskere, bygget vi denne databasen. Den gjeldende versjonen er 1.0. Fordi store mengder data som genereres av ulike eksperimentelle plattformer i ulike felt er sterkt spredt og heterogen, kan noen nyttig informasjon har vært savnet i vårt arbeid med datainnsamling. Vi vil fortsette å hente disse dataene og oppdatere de nyeste dataene i lang tid for å sikre aktualitet og fullstendigheten av dataene. I neste versjon, skal vi dekke de nyeste menneskelige mage kreft-relaterte mutasjoner, biomarkører og narkotika-sensitive gener. Transcriptomics data vil bli lagt vekt på den neste versjonen, der alle transcriptomics prosjektene vil bli re-analysert for å hente ut forskjellig uttrykte gener på ulike fold endre verdier. Dermed kan brukerne søke om et bestemt gen er uttrykt forskjellig gjennom konfigurasjonen av prøvetype og brett endringsverdien.
Databasen er beskrevet i denne artikkelen, DBGC, er en omfattende og web -accessible database av menneskelig magekreft. Denne databasen har integrert en rekke data ressurser knyttet til magekreft og gitt flere enkle å bruke web-baserte funksjonelle moduler. Vi tror at DBGC vil være et viktig verktøy for magekreft klinikere, tumor grunnleggende forskere, kreft genom forskere, offentlige helse politikere og mage kreftpasienter.