Stomach Health > Estomac Santé >  > Gastric Cancer > Cancer de l'estomac

PLOS ONE: DBGC: Une base de données de cancer gastrique humain

Résumé

La base de données du cancer gastrique humain (DBGC) est une base de données complète qui intègre les diverses ressources gastriques humaines de données liées au cancer. projets relatifs aux gastriques liés au cancer transcriptomique, protéomique, des mutations, des biomarqueurs et des gènes sensibles aux médicaments provenant de sources différentes ont été recueillies et unifiées dans cette base de données. En outre, les statistiques épidémiologiques des patients atteints de cancer gastrique en Chine et de l'information clinico annotée avec des cas de cancer gastrique ont également été intégrés dans le DBGC. Nous croyons que cette base de données facilitera grandement la recherche concernant le cancer gastrique humaine dans de nombreux domaines. DBGC est disponible gratuitement à http://bminfor.tongji.edu.cn/dbgc/index.do

Citation: Wang C, Zhang J, Cai M, Zhu Z, Gu W, Yu Y, et al . (2015) DBGC: Une base de données de cancer gastrique humain. PLoS ONE 10 (11): e0142591. doi: 10.1371 /journal.pone.0142591

Editeur: Arun Sreekumar, Baylor College of Medicine, ETATS-UNIS

Reçu le 18 Février 2015; Accepté: Octobre 24 2015; Publié le 13 Novembre, 2015

Droit d'auteur: © 2015 Wang et al. Ceci est un article en accès libre distribué sous les termes de la licence Creative Commons Attribution, qui permet une utilisation sans restriction, la distribution et la reproduction sur tout support, pourvu que l'auteur et la source originelle sont crédités

Disponibilité des données: Les données sont availabe par l'intermédiaire Datadryad (https://datadryad.org). Le numéro d'accès unique est: doi:. 10,5061 /dryad.271dk

Financement: Ce travail a été partiellement financé par des subventions de la National Science Foundation naturel de Chine (81172329, 31571363, 81372644, 81372645 et 8157111077), Chinois Programme national High Tech (2012AA02A504 et 2012AA02A203), projet international Cooperative de Shanghai, la science et la technologie (12410706400), Fondation de l'innovation du Translational Medicine de Shanghai University School of Medicine Jiao Tong (15ZH1002 et 15ZH3001), Fondation Fong Shu Fook Tong et gastro-Carcinome projet Biobanque de Shanghai University School of Medicine Jiao Tong. Les bailleurs de fonds ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier, ou de la préparation du manuscrit

Intérêts concurrents:.. Les auteurs ont déclaré aucun conflit d'intérêts existent

Introduction

Comme l'un des cancers les plus fréquents, le cancer gastrique est le troisième létalité plus élevé et au quatrième rang de la morbidité de tous les cancers dans le monde [1]. Selon les statistiques Globocan en 2012, de nouveaux cas de cancer gastrique numérotés près d'un million (952 000), et plus de 700.000 décès ont été causés par le cancer de l'estomac; près de la moitié de ces patients est venu de Chine (405.000 nouveaux cas et 325.000 décès) [1, 2]. Bien que les deux la létalité et de morbidité du cancer gastrique ont diminué ces dernières années, le taux de survie à 5 ans reste faible [3]. Par conséquent, le cancer gastrique reste l'un des défis les plus difficiles pour les chercheurs et les médecins pour une longue période [4].

Les chercheurs du monde entier ont accompli beaucoup de génomique, transcriptomique, protéomique, et des enquêtes épidémiologiques et des essais cliniques concernant la pathogenèse et les thérapies de cancer gastrique [5-10]. Ces enquêtes ont généré de grandes quantités de données pertinentes pour le cancer gastrique, et la vitesse de ces enquêtes est l'accélération de la croissance rapide des connaissances sur le cancer, une diminution des coûts de détection et de calcul, et la propagation de l'Internet [11]. Ces données contiennent des informations importantes pour l'étude et le traitement du cancer gastrique. Cependant, en raison de la connaissance de base limitée des cliniciens et des chercheurs fondamentaux, le potentiel de ces données ne peut pas être pleinement développé. Les nouvelles technologies et méthodes de recherche ont encore besoin de développement; Cependant, la faible efficacité dans la gestion des données est une première limite de ce développement [12]. En raison de l'accumulation à long terme de la recherche décentralisée, ces données et leurs formats ne répondent aux besoins individuels, manque d'intégration et de normalisation et aboutissant à la diversification, l'isomérisation, et la dissection des données sur le cancer [13, 14].

à l'heure actuelle, les études cliniques et fondamentales abondantes concernant le cancer gastrique sont prévues ou en cours. Différents types de données sont stockées dans différents systèmes de base de données [13], sans partage ou de communication. Ainsi, fortement corrélée informations reste isolé, dans ce qu'on appelle des «îlots d'information». D'une part, la dissection de données augmente la difficulté de l'extraction de données, tandis que d'autre part, elle empêche les cliniciens de tirer pleinement parti des résultats de la recherche fondamentale pour développer des essais cliniques et des applications et permet aux chercheurs fondamentaux de la réalisation d'études exploratoires efficaces qui font référence informations cliniquement pertinentes [15].

dans ce cas, la récupération des informations complètes sur le cancer gastrique est pas une tâche facile, et des parties de ces données peuvent disparaître dans l'océan de l'Internet, ce qui serait très malheureux.

Cette recherche a profité des ressources de l'Internet et des publications du Centre chinois pour le Centre du cancer gastrique pour le diagnostic et le traitement, Laboratoire clé de gastrique Tumeurs à Shanghai Disease Control and Prevention (CDC) et. Cette étude systématique recueilli différents types de données liés au cancer gastrique, intégré ces ressources de données après la filtration et de la normalisation, et finalement formé la première base de connaissances complète pour l'analyse de cancer de l'estomac.

Matériel et méthodes

ressources
données

La base de données de Human Gastric Cancer (DBGC) a intégré les ressources gastriques liés au cancer suivants:

  • statistiques épidémiologiques des patients atteints de cancer gastrique en Chine de publications CDC
  • informations clinicopathologique sur les tissus de cancer gastrique après résection chirurgicale de patients diagnostiqués à Shanghai Hôpital Ruijin
  • les données de biologie moléculaire sur le cancer gastrique à partir des ressources en ligne publiques (y compris les mutations gastriques liés au cancer, des biomarqueurs, des gènes sensibles aux médicaments, les projets de transcriptomique et les gènes exprimés de manière différentielle correspondante, et en protéomique et les protéines différentiellement exprimés correspondant)
  • les données de recherche brutes de l'Institut de Shanghai de chirurgie digestive et Shanghai Laboratoire clé de Tumeurs gastriques

    collecte de données

    1) statistiques épidémiologiques des patients atteints de cancer gastrique en Chine.

    Le CDC a eu un système d'information sur le cancer établi depuis de nombreuses années et a accumulé des informations épidémiologiques abondantes sur les patients atteints de cancer en Chine. Les statistiques épidémiologiques sur le cancer gastrique, y compris le nombre de cas, le nombre de décès, taux d'incidence (taux brut, le taux ajusté selon l'âge et le taux cumulatif), le taux de mortalité (taux brut, le taux ajusté selon l'âge et le taux cumulatif), et l'incidence (ou de la mortalité) répartition par groupe d'âge ont été extraites manuellement à partir des publications du CDC. DBGC 1.0 couvre toutes les statistiques épidémiologiques pour toutes les régions typiques de la Chine depuis les années 2004 à 2009, et des statistiques supplémentaires seront inclus dans la version améliorée.

    2) informations clinicopathologique sur les tissus de cancer de l'estomac.

    informations clinicopathologique a été fourni par l'hôpital Ruijin de Shanghai. Les méthodes de classification et de mise en scène généralement utilisés pour le diagnostic de cancer gastrique ont été annotés en utilisant des cas de cancer gastrique diagnostiqués à l'hôpital Ruijin. tissus de cancer gastrique typiques des différentes étapes et types ont été sélectionnés à partir d'une biobanque de cancer de l'estomac que nous avons maintenu pendant des années. Toutes les informations patient a été anonymisées et dépersonnalisés avant notre analyse.

    3) Les données de biologie moléculaire sur le cancer gastrique à partir de ressources publiques en ligne.

    données biologiques moléculaires ont été extraites et organisée à partir de ressources en ligne. les données de transcriptomique ont été collectées à partir de la base de données GEO (http://www.ncbi.nlm.nih.gov/geo/) et base de données EBI (http://www.ebi.ac.uk/). données protéomiques ont été extraites de la littérature publiée par la lecture manuelle et la normalisation [16, 17]. données Mutation ont été collectées à partir de la base de données dbVar (http://www.ncbi.nlm.nih.gov/dbvar/), base de données OMIM (http://www.ncbi.nlm.nih.gov/omim/), base de données HGMD (http://www.hgmd.org/), et de la littérature publiée [18, 19]. Toutes les données de biomarqueurs ont été extraites de la littérature publiée [20, 21]. les gènes liés à la drogue ont été extraites de la base de données PharmGKB (http://www.pharmgkb.org/), base de données CancerDR (http://crdd.osdd.net/raghava/cancerdr/) et de la littérature publiée [22, 23]. Nous avons conçu des normes d'extraction détaillées pour chaque type de ressource de données de biologie moléculaire, et chaque procédure de collecte des données devait suivre ces normes pour assurer la cohérence des données. La procédure de collecte détaillée est fournie ci-dessous:
    données

    Transcriptomique:

  • Recherchez la base de données GEO en utilisant les mots-clés suivants :( "néoplasmes de l'estomac" [MeSH Terms] OU "cancer de l'estomac" [Tous les champs] ) eT "Homo sapiens" [porgn].
  • Filtrer les résultats manuellement, et sélectionnez les publications liées au cancer gastrique humaine pour l'extraction de l'information suivante.
  • Classez les programmes selon la taille de l'échantillon et le type d'échantillon .
  • renseignements pour la publication Extrait (titre, durée de publication, type d'expérience, le type de tissu, la quantité d'échantillon, la description de l'échantillon, l'échantillon de l'expérience, l'échantillon de contrôle, la plate-forme, GSE ID, ID GSM, les liens de téléchargement, et la littérature citation ) manuellement, se référant à MIAME (minimum d'informations sur une expérience de biopuces).
  • données brutes pré-traitement (fichiers de la matrice de la série dans la base de données GEO) en utilisant Perl pour éliminer les différences de diverses plates-formes
    Extrait des gènes exprimés de manière différentielle en utilisant un langage de R

    données Proteomics:

  • Rechercher des données brutes dans PubMed en utilisant les mots-clés suivants: ( "protéomique" [MeSH Terms] OR "protéomique" [ ,,,0],Tous les champs]) ET ( "néoplasmes de l'estomac" [MeSH Terms] OU ( "l'estomac" [Tous les champs] ET "néoplasmes" [Tous les champs]) OU "néoplasmes de l'estomac" [Tous les champs] OU ( "gastrique" [Tous les champs] eT "cancer" [Tous les champs]) OU "cancer de l'estomac" [Tous les champs]).
  • Filtrer les résultats manuellement, et sélectionnez les protéomique publications liées au cancer gastrique humaine pour l'extraction de l'information suivante.
  • Utilisez ces documents que la littérature de semences et de filtrer les références à nouveau.
  • Classez les publications par la taille de l'échantillon et le type d'échantillon.
  • lire manuellement les documents et extraire des informations de publication (titre, temps de publication, échantillon quantité, expérience de l'échantillon, le contrôle de l'échantillon, la description de l'échantillon, la méthode de la technologie utilisée, fold change, régulée à la hausse la quantité de protéines, la quantité de protéine régulée à la baisse, et de référence) et correspondant protéines régulés à la hausse et la baisse réglementés protéines (sur la base des conclusions de la auteurs)

    données mutation:.

  • Recherche dans les bases de données OMIM, HGMD et dbVar en utilisant les mots-clés "de cancer gastrique" et extraire l'information de mutation (gène, type de mutation, la description de l'ADNc , description complète AA, description des AA et référence)
  • recherche dans PubMed en utilisant les mots-clés suivants:. ( "mutation" [MeSH termes] OU "mutation" [Tous les champs]) eT ( "néoplasmes de l'estomac "[MeSH termes] OU (" l'estomac "[Tous les champs] ET" néoplasmes "[Tous les champs]) OU" néoplasmes de l'estomac "[Tous les champs] OR (" gastrique "[Tous les champs] ET" cancer "[Tous les champs]) OU "cancer de l'estomac" [Tous les champs]).
  • Filtrer les résultats manuellement, puis sélectionnez les documents liés au cancer gastrique humaine pour l'extraction de l'information suivante.
  • Prenez ces documents que la littérature des semences et le filtre les références à nouveau.
  • Lisez ces documents et extraire des informations de mutation manuellement (gène, le type de mutation, la description de l'ADNc, description complète AA, description des AA et référence).
  • Supprimer les données en double des quatre sources

    données Biomarker:.

  • Recherche dans PubMed en utilisant les mots-clés suivants:
    ( «marqueurs biologiques» [MeSH Terms] OU ( "biologiques" [Tous les champs] ET "marqueurs" [Tous les champs]) ou «marqueurs biologiques» [Tous les champs] OR "biomarqueurs" [Tous les champs]) ET ( "néoplasmes de l'estomac" [MeSH Terms] OU ( "l'estomac" [Tous les champs] ET " néoplasmes "[Tous les champs]) ou" néoplasmes de l'estomac "[Tous les champs] OR (" gastrique "[Tous les champs] ET" cancer "[Tous les champs]) OU" cancer de l'estomac "[Tous les champs]).
  • Filtrer les résultats manuellement, puis sélectionnez les documents liés au cancer gastrique humaine pour l'extraction de l'information suivante.
  • Prends ces documents que la littérature de semences et de filtrer les références à nouveau.
  • Lire ces documents et extraire mutation informations manuellement (nom de biomarqueur, le nom complet, le type, le stade, la description, le mécanisme, la sensibilité, la spécificité et référence).
  • Classez les biomarqueurs par type de biomarqueur, le stade, la spécificité et la sensibilité.

    les données des médicaments sensibles.

  • Rechercher dans PharmGKB en utilisant les mots-clés "cancer de l'estomac" et extraire manuellement des informations sensibles aux médicaments (nom du médicament, le nom du gène, le type de gène, mécanisme et référence)
  • Recherche dans PubMed en utilisant les mots-clés suivants: "résistance" [Tous les champs] ET ( "néoplasmes de l'estomac" [MeSH Terms] OU ( "l'estomac" [Tous les champs] ET "néoplasmes" [Tous les champs]) ou "néoplasmes de l'estomac "[Tous les champs] OR (" gastrique "[Tous les champs] eT" cancer "[Tous les champs]) OU" cancer de l'estomac "[Tous les champs])
  • Filtrer les résultats manuellement, puis sélectionnez les documents relatifs à la résistance humaine gastrique médicament contre le cancer pour l'extraction de l'information suivante.
  • Prenez ces documents que la littérature de semences et de filtrer les références à nouveau.
  • Résumer les 19 médicaments généralement utilisés pour le traitement clinique du cancer gastrique (5- fluorouridine, la camptothécine, le carboplatine, le cisplatine, le docétaxel, la doxorubicine, le chlorhydrate de doxorubicine, l'épirubicine, l'étoposide, le fluorouracile, l'irinotécan, la leucovorine, la mitomycine c, l'oxaliplatine, le paclitaxel, le tamoxifène, le trastuzumab, la vinblastine et vincristine).
    Prendre «cisplatine» comme Par exemple, la recherche dans PubMed en utilisant des mots-clés:
    ( «cisplatine» [MeSH termes] OR "cisplatine" [Tous les champs]) ET "résistance" [Tous les champs] ET ( "néoplasmes de l'estomac" [MeSH termes] OU ( " estomac "[Tous les champs] ET" néoplasmes "[Tous les champs]) OU" néoplasmes de l'estomac "[Tous les champs] OR (" gastrique "[Tous les champs] ET" cancer "[Tous les champs]) OU" cancer de l'estomac "[Tous les domaines ]).
  • filtrer les résultats manuellement, puis sélectionnez les documents relatifs à la résistance aux médicaments contre le cancer gastrique humaine pour l'extraction de l'information suivante.
  • Prenez ces documents que la littérature de semences et de filtrer les références à nouveau.
  • Lisez ces documents et extraire de l'information sensible aux drogues manuellement (nom du médicament, le nom du gène, le type de gène, le mécanisme, et la référence).

    Nous annotée tous les gènes et les médicaments dans cette base de données pour aider les utilisateurs à mieux comprendre et à utiliser ces ressources de données. Les gènes sont annotées conformément au NCBI (http://www.ncbi.nlm.nih.gov), HGNC (http://www.genenames.org/), Ensembl (http://feb2014.archive.ensembl.org /) et Gene Cartes (http://www.genecards.org/). Les médicaments sont annotés selon DrugBank (http://www.drugbank.ca/).

    En outre, les mutations détectées dans le projet TCGA ont également été inclus pour annoter gènes dans le DBGC. Les utilisateurs peuvent trouver toutes les mutations d'un certain gène détecté dans le projet TCGA. Ces mutations ont été traitées par ICGC (https://dcc.icgc.org) sur la base des données TCGA et référencées par chaque mutation dans le DBGC.

    En outre, plusieurs projets de recherche fondamentale gastriques liés au cancer ont été menées par notre équipe de recherche. Les descriptions des projets et les données brutes sont fournies dans le DBGC pour le téléchargement et une analyse plus approfondie.

    Base de données Construction

    Le DBGC est une base de données relationnelle avec une couche de données MySQL. Une interface conviviale a été conçue pour organiser et ressources de données d'affichage en utilisant HTML et JavaScript. L'interaction entre la couche de données et l'interface web a été réalisée en utilisant la plate-forme Java EE.

    Résultats et discussion

    Base de données Description

    Cette base de données est principalement constitué de trois systèmes de données longitudinales , les données biologiques épidémiologiques, anatomocliniques et moléculaires (figure 1). Les données biologiques moléculaires sont constitués de transcriptomique gastriques liés au cancer, la protéomique, la mutation, biomarqueurs et des données de gènes sensibles aux médicaments. Les statistiques globales de ces données sont énumérées dans le tableau 1. En plus des statistiques épidémiologiques des patients atteints de cancer gastrique en Chine et les informations clinicopathologique annotée avec des cas de cancer gastrique, toutes ces données ont été extraites des bases de données publiques, des publications et de la littérature publiée.

    Interfaces de base de données

    1) Recherche rapide (Fig 2). Le rapide module de fonction de recherche permet d'identifier le rôle d'un gène ou d'une protéine dans le cancer gastrique possible via la saisie des mots-clés dans le champ de recherche situé à la barre de navigation. Le résultat de la recherche vous dira si le gène ou la protéine est différentiellement exprimé dans tous les transcriptomique projets ou protéomique et si elle a été identifiée comme un biomarqueur pour le cancer gastrique ou un gène sensible aux médicaments. En outre, si le gène a toute mutation qui est liée au cancer de l'estomac, une liste détaillée sera affichée sur la page de résultats. Par exemple, en utilisant "EGFR" comme mot clé, nous pouvons conclure qu'il a été identifié comme un gène régulé à la hausse dans GSE51936 et GSE27342 et comme un gène régulé à la baisse dans GSE29630. La protéine correspondante de l'EGFR de gène a été identifié comme étant une protéine régulée à la hausse en 3 protéomique (PubMed Ids: 23161554, 24263233 et 24722433). EGFR a été rapportée en tant que facteur de pronostic du cancer gastrique et est lié à la résistance aux médicaments à l'irinotecan, qui est un médicament couramment utilisé pour le traitement du cancer gastrique. Quatre mutations de l'EGFR liés au cancer gastrique ont été rapportés (c.2361G > A, c.2402A > G, c.2573T > G, c.2588G > A).

    2) Parcourir et Rechercher (Fig 3). Utilisation de la navigation, les utilisateurs peuvent cliquer sur les éléments correspondants pour parcourir les ressources de données fournies dans le DBGC. Des informations détaillées seront énumérés ci-dessous. Nous avons également établi plusieurs critères de recherche pour chaque type de ressource de données à travers lequel tous les éléments de données qui remplissent les conditions seront affichées.

    3) Notre base de données est différente des autres ressources en ligne en raison de l'inclusion des statistiques épidémiologiques de l'estomac patients atteints de cancer en Chine. Les utilisateurs peuvent comparer les statistiques par sexe (hommes et femmes), zone (urbaine et rurale), et l'âge au moment du diagnostic ou de la mort. Numéro de cas, le nombre de décès, le taux d'incidence et le taux de mortalité dans une plage de l'année sélectionnée peuvent être affichées à la fois graphique et le tableau Format (figure 4).

    Discussion

    Le cancer gastrique est un cancer leader dans le monde entier à la fois la mortalité et la morbidité. Incidence plus élevée et la mortalité du cancer gastrique sont observées dans les régions d'Asie, notamment en Chine. Les données statistiques épidémiologiques de cancer gastrique dans cette base de données ont été obtenues principalement des publications de la CDC, qui a été engagé dans des études de tumeurs malignes pendant plusieurs décennies et a établi des archives complètes des patients atteints de tumeurs malignes en Chine. Ces données ont joué un rôle important dans la promotion de la prévention du cancer et de l'élaboration des politiques de santé en Chine [24-26]. Grâce à la récupération des données d'épidémiologie du cancer gastrique dans cette base de données, les chercheurs et les cliniciens peuvent rapidement déterminer les tendances épidémiologiques de cancer de l'estomac en Chine.

    mutations liées au cancer gastrique, biomarqueurs, des gènes sensibles aux médicaments, les projets de transcriptomique et correspondants différentiellement les gènes exprimés et protéomique des expériences et des protéines différentiellement exprimés correspondantes ont été recueillies manuellement à partir des bases de données en ligne et de la littérature publiée. La fonction de recherche rapide fournie par le DBGC permet aux chercheurs d'identifier le rôle d'un gène ou d'une protéine dans le cancer gastrique. Ces gènes et protéines différentiellement exprimées contiennent abondante des informations importantes sur le cancer gastrique, et de nombreuses études analytiques pourraient être menées à les utiliser.

    Notre équipe de recherche a été engagé dans la recherche de cancer de l'estomac pendant de nombreuses années et a accumulé une expérience considérable dans la tumeur la recherche épidémiologique, clinicopathology de cancer de l'estomac et de la recherche sur les biomarqueurs, la construction de biobanque, la recherche de mécanisme biologique moléculaire, l'analyse de la bioinformatique et la construction de bases de données à grande échelle [27-30]. Fournir enquête et des outils d'analyse qui sont plus commode et pratique pour les chercheurs de cancer gastrique, nous avons construit cette base de données. La version actuelle est 1.0. Parce que les grandes quantités de données générées par les différentes plates-formes expérimentales dans différents domaines sont fortement dispersées et hétérogènes, des informations utiles ont pu être oubliés dans notre processus de collecte des données. Nous allons continuer la récupération de ces données et mettre à jour les données les plus récentes pendant une longue période afin d'assurer la rapidité et l'exhaustivité des données. Dans la prochaine version, nous avons l'intention de couvrir les nouveaux droits gastriques liés au cancer des mutations, des biomarqueurs et des gènes sensibles aux médicaments. les données de transcriptomique seront l'accent de la prochaine version, dans laquelle tous les projets de transcriptomique seront ré-analysés pour extraire les gènes exprimés de manière différentielle à différentes valeurs de changement de pli. Ainsi, les utilisateurs peuvent interroger si un certain gène est exprimé de manière différentielle à travers la configuration du type d'échantillon et de plier le changement de valeur.

    Conclusion

    La base de données décrit dans cet article, le DBGC, est un ensemble complet et web base de données -Accessible du cancer gastrique humain. Cette base de données a intégré une variété de sources de données liées au cancer gastrique et fourni plusieurs modules fonctionnels faciles à utiliser sur le Web. Nous croyons que le DBGC sera un outil important pour les cliniciens gastriques de cancer, tumeur scientifiques de la recherche fondamentale, les chercheurs du génome du cancer, les décideurs publics de santé et les patients atteints de cancer gastrique.