Stomach Health > Maag Gezondheid >  > Gastric Cancer > Maagkanker

PLoS ONE: DBGC: een database van Human maagkanker

Abstract

De Database van Human maagkanker (DBGC) is een uitgebreide database die verschillende maag-kanker-gerelateerde data personele integreert. Menselijke maag-kanker-gerelateerde projecten transcriptomics, proteomics projecten, mutaties, biomarkers en drugs-gevoelige genen uit verschillende bronnen werden verzameld en verenigd in deze databank. Bovendien werden epidemiologische statistieken van maagkanker patiënten in China en clinicopathologische informatie geannoteerd met maagkanker gevallen ook geïntegreerd in de DBGC. Wij zijn van mening dat deze databank veel onderzoek met betrekking tot de menselijke maagkanker op vele gebieden zal vergemakkelijken. DBGC is vrij beschikbaar op http://bminfor.tongji.edu.cn/dbgc/index.do

Visum: Wang C, Zhang J, Cai M, Zhu Z, Gu W, Yu Y, et al . (2015) DBGC: een database van Human maagkanker. PLoS ONE 10 (11): e0142591. doi: 10.1371 /journal.pone.0142591

Editor: Arun Sreekumar, Baylor College of Medicine, VERENIGDE STATEN

Ontvangen: 18 februari 2015; Aanvaard: 24 oktober 2015; Gepubliceerd: 13 november 2015

Copyright: © 2015 Wang et al. Dit is een open toegang Artikel gedistribueerd onder de voorwaarden van de Creative Commons Attribution License, die onbeperkt gebruik, distributie en reproductie maakt in elk medium, op voorwaarde dat de oorspronkelijke auteur en de bron worden gecrediteerd

Data Availability: Gegevens zijn availabe via Datadryad (https://datadryad.org). Het unieke toetreding nummer is: doi:. 10,5061 /dryad.271dk

Financiering: Dit werk werd gedeeltelijk ondersteund door subsidies van de National Natural Science Foundation of China (81172329, 31571363, 81372644, 81372645 en 8157111077), Chinees National High Tech Program (2012AA02A504 en 2012AA02A203), International Cooperative Project van Shanghai Science and Technology Commissie (12410706400), Stichting Innovatie van Translational Medicine van Shanghai Jiao Tong University School of Medicine (15ZH1002 en 15ZH3001), Fong Shu Fook Tong Foundation en gastro-intestinale carcinoom biobank Project van Shanghai Jiao Tong University School of Medicine. De financiers hadden geen rol in de studie design, het verzamelen van gegevens en analyse, besluit te publiceren, of de voorbereiding van het manuscript

Competing belangen:.. De auteurs hebben verklaard dat er geen tegenstrijdige belangen bestaan ​​

Introductie

Als een van de meest voorkomende vormen van kanker, maagkanker heeft de derde hoogste letaliteit en vierde hoogste morbiditeit van kankers wereldwijd [1]. Volgens de GLOBOCAN statistieken in 2012, nieuwe maagkanker gevallen geteld bijna een miljoen (952.000), en meer dan 700.000 sterfgevallen werden veroorzaakt door maagkanker; bijna de helft van deze patiënten kwamen uit China (405.000 nieuwe gevallen en 325.000 doden) [1, 2]. Hoewel zowel de dodelijkheid en morbiditeit van maagkanker in de afgelopen jaren zijn gedaald, de 5-jaarsoverleving blijft vrij laag [3]. Daarom zal maagkanker een van de moeilijkste uitdagingen voor onderzoekers en artsen voor een lange tijd [4] te blijven.

Onderzoekers over de hele wereld hebben veel genomics, transcriptomics, proteomics, en epidemiologisch onderzoek en klinische proeven met betrekking tot de pathogenese afgerond en therapieën van maagkanker [5-10]. Deze onderzoeken hebben grote hoeveelheden gegevens maagkanker relevant gegenereerd, en de snelheid van deze onderzoeken versnelt de snelle groei van kankercellen kennis, verminderde kosten voor detectie en berekening en verspreiding van het internet [11]. Deze gegevens bevatten belangrijke informatie voor het onderzoek naar en het genezen van maagkanker. Vanwege de beperkte achtergrondkennis medici en fundamentele onderzoekers, het potentieel van deze gegevens niet volledig ontwikkeld. Nieuwe technologieën en onderzoeksmethoden moeten nog ontwikkeling; De lage efficiëntie bij het beheer van data is een belangrijkste beperking van deze ontwikkeling [12]. Vanwege de lange-termijn accumulatie gedecentraliseerd onderzoek deze databank hun formaat alleen aan individuele behoeften ontbreekt integratie en standaardisatie en resulteert in de diversificatie isomerisatie en dissectie van gegevens over kanker [13, 14].

momenteel zijn een overvloed aan klinische en fundamentele studies over maagkanker lopende of overwogen. Diverse soorten gegevens worden opgeslagen in verschillende databases [13], zonder delen of communicatie. Zo sterk gecorreleerde informatie blijft geïsoleerd, in wat 'informatie-eilanden' genoemd. Aan de ene kant, data dissectie verhoogt de moeilijkheidsgraad van data mining, terwijl aan de andere kant, het voorkomt clinici uit volledig gebruik te maken van de resultaten van fundamenteel onderzoek naar klinische proeven en toepassingen te ontwikkelen en houdt fundamentele onderzoekers van het uitvoeren van efficiënte verkennende studies die verwijzen naar klinisch relevante informatie [15].

in deze situatie, het ophalen van uitgebreide informatie over maagkanker is geen gemakkelijke taak, en het delen van deze gegevens kunnen verdwijnen in de oceaan van het internet, wat erg jammer zou zijn.

Dit onderzoek maakte gebruik van de middelen van het internet en publicaties van de Chinese Center for Disease control and Prevention (CDC) en maagkanker Centrum voor diagnose en behandeling, Key Laboratory van Gastric Neoplasmata in Shanghai. Dit onderzoek systematisch worden verzameld verschillende types van maag-kanker-gerelateerde gegevens, geïntegreerd deze middelen gegevens na filtratie en standaardisatie, en tenslotte vormden de eerste uitgebreide kennisbank voor het analyseren van maagkanker.

Materialen en methoden

gegevens Resources

de Database van Human maagkanker (DBGC) heeft de volgende maag-kanker gerelateerde bronnen geïntegreerd:

  • Epidemiologische statistieken van maagkanker patiënten in China van CDC publicaties
  • clinicopathologische informatie over maagkanker weefsel na chirurgische resectie van patiënten gediagnosticeerd in Shanghai Ruijin Hospital
  • Moleculair biologische gegevens over maagkanker uit publieke online middelen (met inbegrip van maag-kanker-gerelateerde mutaties, biomarkers, geneesmiddel-gevoelige genen, transcriptomics projecten en overeenkomstige differentieel tot expressie van genen, en proteomics projecten en de bijbehorende differentieel tot expressie gebrachte eiwitten)
  • Ruwe onderzoeksgegevens van het Shanghai Institute of digestieve heelkunde en Shanghai Key Laboratory van Gastric Neoplasmata

    data Collection

    1) epidemiologische statistieken van maagkanker patiënten in China.

    Het CDC heeft een gevestigde kanker meldingssysteem voor vele jaren en heeft een overvloed aan epidemiologische informatie over patiënten met kanker in China opgebouwd. De epidemiologische statistieken van maagkanker, zoals zaaknummer, dood nummer, incidentie (ruwe tarief, leeftijd gecorrigeerde snelheid en cumulatieve), sterftecijfer (ruwe tarief, leeftijd gecorrigeerde snelheid en cumulatieve), en de incidentie (of sterfte) verdeling per leeftijdsgroep werden met de hand gewonnen uit CDC publicaties. DBGC 1.0 omvat alle epidemiologische statistieken voor alle typische regio's van China uit de jaren 2004-2009, en de extra statistieken zullen worden opgenomen in de verbeterde versie.

    2) clinicopathologische informatie over maagkanker weefsel.

    clinicopathologische informatie verstrekt door Shanghai Ruijin Hospital. De indeling en enscenering methoden algemeen gebruikt voor de diagnose maagkanker werden geannoteerd met behulp van maagkanker gevallen gediagnosticeerd in Ruijin Hospital. Typische maagkanker weefsels van verschillende stadia en types werden geselecteerd uit een maagkanker biobank die wij al jaren gehandhaafd. Alle patiëntgegevens werd geanonimiseerd en de-geïdentificeerd voor onze analyse.

    3) Moleculair biologische gegevens over maagkanker uit publieke online bronnen.

    Moleculair biologische gegevens werden geëxtraheerd en samengesteld uit online bronnen. Transcriptomics gegevens werden verzameld uit de GEO-database (http://www.ncbi.nlm.nih.gov/geo/) en EBI database (http://www.ebi.ac.uk/). Proteomics data werden geëxtraheerd uit de gepubliceerde literatuur door middel van handmatige lezen en standaardisatie [16, 17]. Mutatie gegevens werden verzameld uit de dbVar database (http://www.ncbi.nlm.nih.gov/dbvar/), OMIM database (http://www.ncbi.nlm.nih.gov/omim/), HGMD databank (http://www.hgmd.org/) en gepubliceerde literatuur [18, 19]. Alle biomarker data werden geëxtraheerd uit gepubliceerde literatuur [20, 21]. Drugsgerelateerde genen werden geëxtraheerd uit de PharmGKB database (http://www.pharmgkb.org/), CancerDR database (http://crdd.osdd.net/raghava/cancerdr/) en gepubliceerde literatuur [22, 23]. We ontwierpen gedetailleerde extractie normen voor elk type moleculaire biologische gegevens bron en elke datacollectieprocedure moest deze normen volgen gegevens coherentie te waarborgen. De uitgebreide collectie procedure is voorzien hieronder:

    Transcriptomics gegevens:

  • Zoeken in de GEO-database met behulp van de volgende trefwoorden :( "maag gezwellen" [MeSH Woorden] OR "maagkanker" [All Fields] ) en "Homo sapiens" [porgn].
  • Filter de resultaten handmatig, en selecteer de publicaties in verband met de menselijke maagkanker voor verdere informatie-extractie.
  • classificeren van de programma's door de steekproefgrootte en het type monster .
  • Extract publicatie verstrekte informatie (titel, publicatie tijd, experiment type, weefsel, hoeveelheid van het monster, sample omschrijving, monster van experiment, steekproef van controle, platform, GSE ID, GSM-id's, download links en literatuur citatie ) met de hand, verwijzend naar MIAME (Minimale Informatie Over een Microarray Experiment).
  • Pre-proces onbewerkte gegevens (reeks matrix bestanden in de GEO-database) met behulp van Perl om de verschillen uit diverse platforms te elimineren.
  • Extract differentieel tot expressie van genen met behulp van R taal

    proteomics data:

  • Zoek ruwe gegevens in PubMed met de volgende trefwoorden: ( "proteomics" [MeSH Woorden] OR "proteomics" [ ,,,0],alle velden]) AND ( "maag nieuwvormingen" [MeSH Woorden] OR ( "maag" [All Fields] AND "gezwellen" [All Fields]) OR "maag gezwellen" [All Fields] OR ( "maag" [All Fields] AND "kanker" [All Fields]) OR "maagkanker" [All Fields]).
  • Filter de resultaten handmatig, en selecteer de proteomics publicaties in verband met de menselijke maagkanker voor verdere informatie-extractie.
  • Gebruik deze papieren als zaad literatuur en opnieuw filter instellen voor het gevonden.
  • classificeren van de publicaties van de steekproefgrootte en het type monster.
  • de hand te lezen kranten en haal publicatie verstrekte informatie (titel, publicatie tijd, sample hoeveelheid, monster experiment, sample controle, sample omschrijving, technologie gebruikte methode, vouw verandering, up-gereguleerd eiwit hoeveelheid, down-gereguleerd eiwit hoeveelheid en referentie) en de bijbehorende up-gereguleerd eiwitten en down-gereguleerd eiwitten (op basis van de conclusies van de auteurs)

    mutation gegevens:.

  • Zoeken in de OMIM, HGMD en dbVar databases met behulp van de trefwoorden "maagkanker" en extract mutatie informatie (gen mutatie type, de beschrijving van cDNA , beschrijving van de volledige AA, beschrijving van AA, en referentie)
  • Zoeken in PubMed met de volgende trefwoorden:. ( "mutation" [MeSH Woorden] OR "mutation" [All Fields]) AND ( "maag nieuwvormingen "[MeSH Woorden] OR (" maag "[All Fields] AND" gezwellen "[All Fields]) OR" maag gezwellen "[All Fields] OR (" maag "[All Fields] AND" kanker "[All Fields]) OR "maagkanker" [All Fields]).
  • filter de resultaten handmatig, en selecteer de documenten die verband houden met de menselijke maagkanker voor verdere informatie-extractie.
  • Neem deze documenten als zaad literatuur en filter de referenties opnieuw.
  • Lees deze papieren en mutatie informatie handmatig uit te pakken (gen, het type mutatie, beschrijving van cDNA, beschrijving van de volledige AA, beschrijving van AA, en referentie).
  • Verwijder dubbele data uit de vier bronnen

    Biomarker gegevens:.

  • Zoeken in PubMed met behulp van de volgende trefwoorden:
    ( "biologische markers" [MeSH Woorden] OR ( "biologisch" [All Fields] AND "markers" [All Fields]) OR "biologische markers" [All Fields] OR "biomarker" [All Fields]) AND ( "maag nieuwvormingen" [MeSH Woorden] OR ( "maag" [All Fields] AND " gezwellen "[All Fields]) OR" maag gezwellen "[All Fields] OR (" maag "[All Fields] AND" kanker "[All Fields]) OR" maagkanker "[All Fields]).
  • handmatig Filter de resultaten, en selecteert u de papieren in verband met menselijke maagkanker voor verdere informatie-extractie.
  • Neem deze documenten als zaad literatuur en opnieuw filter instellen voor het gevonden.
  • Lees deze documenten en extract mutatie handmatig (biomarker naam, volledige naam, type, podium, beschrijving, mechanisme, gevoeligheid, specificiteit, en referentie).
  • classificeren de biomarkers type biomarker, podium, specificiteit en gevoeligheid.

    drug-gevoelige gegevens.

  • Zoeken in PharmGKB met behulp van de trefwoorden "maagkanker" en drugs-gevoelige informatie (naam van het geneesmiddel, naam gen, type gen, mechanisme, en referentie) handmatig uit te pakken
  • Zoeken in PubMed met de volgende trefwoorden: 'verzet' [All Fields] AND ( "maag nieuwvormingen" [MeSH Woorden] OR ( "maag" [All Fields] AND "gezwellen" [All Fields]) OR "maag gezwellen "[All Fields] OR (" maag "[All Fields] AND" kanker "[All Fields]) OR" maagkanker "[All Fields])
  • Filter de resultaten handmatig, en selecteer de documenten die verband houden met menselijke maagkanker resistentie tegen geneesmiddelen voor de volgende informatie-extractie.
  • Neem deze documenten als zaad literatuur en opnieuw filter instellen voor het gevonden.
  • Vat de 19 drugs in het algemeen gebruikt voor de klinische behandeling van maagkanker (5- fluoruridine, camptothecine, carboplatine, cisplatine, docetaxel, doxorubicine, doxorubicine hydrochloride, epirubicine, etoposide, fluorouracil, irinotecan, leucovorin, mitomycine c, oxaliplatine, paclitaxel, tamoxifen, trastuzumab, vinblastine en vincristine).
    nemen "cisplatine" als een voorbeeld, zoeken in PubMed met behulp van trefwoorden:
    ( "cisplatine" [MeSH Woorden] OR "cisplatine" [All Fields]) en "verzet" [All Fields] AND ( "maag nieuwvormingen" [MeSH Woorden] OR ( " maag "[All Fields] AND" gezwellen "[All Fields]) OR" maag gezwellen "[All Fields] OR (" maag "[All Fields] AND" kanker "[All Fields]) OR" maagkanker "[All Fields ]).
  • Filter de resultaten handmatig, en selecteer de documenten die verband houden met de menselijke maagkanker resistentie tegen geneesmiddelen voor de volgende informatie-extractie.
  • Neem deze documenten als zaad literatuur en opnieuw filter instellen voor het gevonden.
  • Lees deze documenten en extract drugs-gevoelige informatie handmatig in (naam van het geneesmiddel, naam gen, type gen, mechanisme, en referentie).

    We geannoteerde alle genen en drugs zijn in deze databank te helpen gebruikers beter te begrijpen en te gebruiken deze middelen gegevens. De genen zijn geannoteerd volgens NCBI (http://www.ncbi.nlm.nih.gov), HGNC (http://www.genenames.org/), Ensembl (http://feb2014.archive.ensembl.org /) en Gene Cards (http://www.genecards.org/). De drugs zijn geannoteerd volgens drugbank (http://www.drugbank.ca/).

    Bovendien mutaties ontdekt in de TCGA project werden ook opgenomen om genen in de DBGC annoteren. Gebruikers kunnen alle mutaties van een bepaalde gedetecteerd in de TCGA project gen te vinden. Deze mutaties werden verwerkt door ICGC (https://dcc.icgc.org) op basis van TCGA databank referentie voor elke mutatie in de DBGC.

    Bovendien hebben verscheidene maag-kankergerelateerde fundamenteel onderzoeksprojecten uitgevoerd door ons onderzoeksteam. Projectbeschrijvingen en ruwe gegevens worden verstrekt in de DBGC voor het downloaden en verdere analyse.

    Database Bouw

    De DBGC is een relationele database met een MySQL datalaag. Een gebruiksvriendelijke interface is ontworpen om zich te organiseren en weer te geven gegevensbronnen met behulp van HTML en JavaScript. De interactie tussen de datalaag en de web-interface werd voltooid met behulp van de Java EE Platform.

    Resultaten en discussie

    Database Beschrijving

    Deze database bestaat hoofdzakelijk uit drie longitudinale datasystemen , epidemiologisch, klinisch-pathologische en moleculair biologische data (figuur 1). De moleculaire biologische gegevens bestaan ​​uit maag-kanker-gerelateerde transcriptomics, proteomics, mutatie, biomarker en drugs-gevoelige gen gegevens. De totale statistieken van deze gegevens staan ​​in tabel 1. Naast de statistische studies van patiënten met maagkanker in China en de klinische en gegevens geannoteerd met maagkanker gevallen zijn al deze gegevens uit openbare databanken, publicaties en gepubliceerde literatuur.

    Database Interfaces

    1) Quick Search (figuur 2). De snelle zoekfunctie module maakt het identificeren van de rol van een gen of eiwit bij maagkanker mogelijk via het invoeren van trefwoorden in het zoekvak gelegen aan de navigatiebalk. Het zoekresultaat zal u vertellen of het gen of proteïne differentieel tot expressie wordt gebracht in een transcriptomics projecten of proteomics projecten en of het is geïdentificeerd als een biomarker voor maagkanker of een drug-gen dat gevoelig is. Bovendien, als het gen heeft elke mutatie die verband houdt met maagkanker, een gedetailleerd overzicht weergegeven van de resultaten pagina. Bijvoorbeeld met behulp van "EGFR" als zoekwoord, kunnen we concluderen dat het werd geïdentificeerd als een up-gereguleerd gen in GSE51936 en GSE27342 en als een down-gereguleerd gen in GSE29630. De bijbehorende eiwit van het gen EGFR werd geïdentificeerd als een up-gereglementeerde eiwit in 3 proteomics projecten (PubMed Ids: 23161554, 24263233 en 24722433). EGFR is beschreven als een factor prognose van maagkanker en heeft betrekking op geneesmiddelresistentie voor irinotecan, hetgeen een algemeen gebruikte geneesmiddel voor de behandeling van maagkanker. Vier mutaties van EGFR in verband met maagkanker zijn gemeld (c.2361G > A, c.2402A > G, c.2573T > G, c.2588G > A).

    2) Bekijk en Search (Fig 3). Met behulp van de navigatie, kunnen gebruikers bijbehorende items klikken om de gegevens middelen die in de DBGC bladeren. Gedetailleerde informatie hieronder weergegeven. Wij hebben ook een aantal criteria voor elk type gegevens bron waardoor alle data items die aan de voorwaarden voldoen, worden weergegeven.

    3) Onze databank onderscheidt zich van andere online bronnen als gevolg van de integratie van de epidemiologische statistieken van de maag kankerpatiënten in China. Gebruikers kunnen de statistieken naar geslacht (mannelijk en vrouwelijk), het gebied (stad en platteland) en leeftijd te vergelijken bij diagnose of de dood. Zaaknummer, dood nummer, incidentie en sterfte in een geselecteerde jaar bereik kan worden weergegeven in zowel de grafiek en tabelvorm (Fig 4).

    Discussie

    Maagkanker is een toonaangevende kanker wereldwijd in zowel de mortaliteit en morbiditeit. Hogere incidentie en mortaliteit van maagkanker waargenomen in Aziatische gebieden, vooral in China. De epidemiologische statistische gegevens van maagkanker in deze databank zijn verkregen in de eerste plaats uit publicaties van de CDC, die betrokken is geweest bij kwaadaardige tumor studies gedurende meerdere decennia en heeft uitgebreide archieven van kwaadaardige tumor patiënten in China gevestigd. Deze gegevens hebben een belangrijke rol bij het bevorderen van de preventie van kanker en de gezondheid van de beleidsvorming in China [24-26] gespeeld. Door middel van het ophalen van de maagkanker epidemiologische gegevens in de database, kunnen onderzoekers en clinici snel de epidemiologische trends van maagkanker in China vast te stellen.

    Maag-kanker-gerelateerde mutaties, biomarkers, geneesmiddel-gevoelige genen, transcriptomics projecten en overeenkomstige differentieel uitgedrukt genen, en proteomics experimenten en de bijbehorende differentieel tot expressie gebrachte eiwitten werden handmatig verzameld uit online databases en gepubliceerde literatuur. De snelle zoekfunctie dmv de DBGC kunnen onderzoekers de rol van een gen of eiwit bij maagkanker identificeren. Deze differentieel tot expressie van genen en eiwitten bevatten een overvloed aan belangrijke informatie over maagkanker, en vele analytische studies zouden kunnen worden uitgevoerd met behulp van hen.

    Ons onderzoeksteam is bezig met maagkanker onderzoek voor vele jaren en heeft veel ervaring in de tumor geaccumuleerd epidemiologisch onderzoek, maagkanker clinicopathology en biomarker onderzoek, biobank gebouw, moleculair biologisch mechanisme onderzoek, bio-informatica analyse en grootschalige database-constructie [27-30]. Om onderzoek en analyse-instrumenten die meer handig en praktisch voor maagkanker onderzoekers bieden, bouwen we deze databank. De huidige versie is 1.0. Omdat de grote hoeveelheden gegevens gegenereerd door verschillende experimentele platforms op verschillende gebieden zijn sterk verspreide en heterogene, kan een aantal nuttige informatie zijn gemist in ons proces van het verzamelen van gegevens. We blijven het ophalen van deze gegevens en het bijwerken van de meest recente gegevens voor een lange tijd om de tijdigheid en volledigheid van de gegevens te waarborgen. In de volgende versie, willen we de nieuwste menselijke maag-kanker-gerelateerde mutaties, biomarkers en drugs-gevoelige genen te dekken. Transcriptomics data zal de nadruk van de volgende versie, waarin alle transcriptomics projecten zullen opnieuw worden geanalyseerd om differentieel tot expressie van genen bij verschillende fold change waarden te extraheren zijn. Zo konden gebruikers te vragen of een bepaald gen dat differentieel tot expressie wordt gebracht door middel van het configureren van het soort monster en vouw verandering waarde.

    Conclusie

    De in dit artikel, de DBGC, beschreven database is een uitgebreide en web -accessible databank van menselijke maagkanker. Deze database heeft verschillende databronnen verband met maagkanker geïntegreerd en voorzien van een aantal eenvoudig te gebruiken web gebaseerde functionele modules. Wij zijn van mening dat de DBGC een belangrijk instrument voor maagkanker clinici, tumor fundamenteel onderzoek wetenschappers, kanker genoom onderzoekers, overheid gezondheid beleidsmakers, en maagkanker patiënten zullen zijn.