Stomach Health > Saúde estômago >  > Gastric Cancer > Câncer de intestino

PLOS ONE: DBGC: um banco de dados gástrico humano Cancer

Abstract

O Banco de Dados de câncer gástrico humano (DBGC) é um banco de dados abrangente que integra vários recursos de dados relacionados com o cancro gástrico humano. projetos humanos gástricos relacionados com o cancro transcriptômica, proteômica projectos, mutações, biomarcadores e genes sensíveis a fármacos de diferentes fontes foram coletadas e unificada neste banco de dados. Além disso, as estatísticas epidemiológicas de pacientes com câncer gástrico na China e informações clínico-patológico anotado com casos de câncer gástrico também foram integrados ao DBGC. Acreditamos que esta base de dados vai facilitar muito a pesquisa sobre o câncer gástrico humano em muitos campos. DBGC está livremente disponível em http://bminfor.tongji.edu.cn/dbgc/index.do

Citation: Wang C, Zhang J, Cai M, Zhu Z, Gu W, Yu Y, et al . (2015) DBGC: Um banco de dados de câncer gástrico humano. PLoS ONE 10 (11): e0142591. doi: 10.1371 /journal.pone.0142591

editor: Arun Sreekumar, Baylor College of Medicine, United States |

Recebido: 18 de fevereiro de 2015; Aceito: 24 de outubro de 2015; Publicação: 13 de novembro de 2015

Direitos de autor: © 2015 Wang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Dados Disponibilidade: Os dados são availabe através Datadryad (https://datadryad.org). O número de acesso único é: doi:. 10,5061 /dryad.271dk

Financiamento: Este trabalho foi parcialmente financiado por doações do National Science Foundation Natural da China (81172329, 31571363, 81372644, 81372645 e 8157111077), chinês Programa nacional de alta Tecnologia (2012AA02A504 e 2012AA02A203), Projeto Cooperativa Internacional de Xangai Comissão de Ciência e Tecnologia (12410706400), Innovation Foundation of Translational Medicine da Shanghai Jiao Tong University School of Medicine (15ZH1002 e 15ZH3001), Fong Shu Fook Tong Foundation e Gastrointestinal Carcinoma Projeto biobanco da Shanghai Jiao Tong University School of Medicine. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Como um dos cânceres mais comuns, câncer gástrico tem o terceiro maior letalidade e quarta maior morbidade de todos os cânceres em todo o mundo [1]. De acordo com as estatísticas GLOBOCAN em 2012, novos casos de câncer gástrico numeradas quase um milhão (952.000), e mais de 700.000 mortes foram causadas por câncer gástrico; quase metade desses pacientes vieram da China (405.000 novos casos e 325.000 mortes) [1, 2]. Embora tanto a letalidade e morbidade do câncer gástrico têm diminuído nos últimos anos, a taxa de sobrevida em 5 anos permanece bastante baixa [3]. Portanto, câncer gástrico continuará a ser um dos desafios mais difíceis para pesquisadores e médicos por um longo tempo [4].

Os pesquisadores em todo o mundo tenham concluído muitos genômica, transcriptômica, proteômica e exames epidemiológicos e ensaios clínicos sobre a patogênese e terapias de câncer gástrico [5-10]. Estas investigações têm gerado grandes quantidades de dados relevantes para câncer gástrico, ea velocidade dessas investigações está a acelerar com o rápido crescimento do conhecimento do câncer, diminuição dos custos de detecção e de computação, e propagação da Internet [11]. Estes dados contêm informações importantes para a investigação e cura do câncer gástrico. No entanto, devido ao conhecimento de fundo limitado de médicos e pesquisadores fundamentais, o potencial destes dados não podem ser totalmente desenvolvido. Novas tecnologias e métodos de pesquisa ainda exigem o desenvolvimento; no entanto, a baixa eficiência no gerenciamento de dados é uma limitação principal deste desenvolvimento [12]. Devido à acumulação de longo prazo da investigação descentralizada, estes dados e os seus formatos só satisfazer as necessidades individuais, na falta de integração e padronização e resultando na diversificação, isomerização, e dissecção de dados de câncer [13, 14].

no momento, estudos clínicos e fundamentais abundantes sobre câncer gástrico estão previstas ou em andamento. Vários tipos de dados são armazenados em diferentes sistemas de bases de dados [13], sem partilha ou de comunicação. Assim, fortemente correlacionada informações permanece isolado, no que são chamados de "ilhas de informação". Por um lado, a dissecção de dados aumenta a dificuldade de mineração de dados, enquanto que, por outro lado, impede os médicos de fazer pleno uso dos resultados da investigação fundamental para desenvolver ensaios clínicos e aplicações e mantém pesquisadores fundamentais de realizar estudos exploratórios eficientes que fazem referência informação clinicamente relevante [15].

Nesta situação, a recuperação de informações completas sobre câncer gástrico não é uma tarefa fácil, e partes desses dados podem desaparecer no oceano da Internet, o que seria muito infeliz.

Esta pesquisa levou vantagem dos recursos da Internet e publicações do Centro chinês para Controle e Prevenção de Doenças (CDC) e Centro de Câncer gástrico de Diagnóstico e Tratamento, Laboratório Principal de gástricas Neoplasias em Xangai. Este estudo sistematicamente recolhidos vários tipos de dados relacionados com o cancro gástrico, integrado esses recursos de dados após filtração e padronização, e, finalmente, formou a primeira base de conhecimento abrangente para a análise de câncer gástrico.

Materiais e Métodos

recursos de dados

O Banco de dados de Human câncer gástrico (DBGC) integrou os seguintes recursos gástricos relacionados com o cancro:

  • estatísticas epidemiológicas de pacientes com câncer gástrico na China a partir de publicações CDC
  • informações clínico-patológico sobre tecidos de câncer gástrico após a ressecção cirúrgica de pacientes diagnosticados em Shanghai Ruijin Hospital
  • Os dados de biologia molecular em câncer gástrico de recursos públicos em linha (incluindo mutações gástricas relacionadas com o cancro, biomarcadores, genes sensíveis à droga, projetos transcriptômica e correspondente genes diferencialmente expressos, e proteómica projectos e correspondente proteínas diferencialmente expressos)
  • os dados de investigação brutos do Instituto Xangai de Cirurgia Digestiva e Xangai chave do Laboratório de gástricas Neoplasias

    Recolha de dados

    1) as estatísticas epidemiológicas de pacientes com câncer gástrico na China.

    A CDC teve um sistema de informação do câncer estabelecida há muitos anos e acumulou informação epidemiológica abundante em pacientes com câncer na China. As estatísticas epidemiológicas do câncer gástrico, incluindo o número do processo, número de morte, taxa de incidência (taxa bruta, a taxa ajustada por idade e taxa acumulada), a taxa de mortalidade (taxa bruta, a taxa ajustada por idade e taxa acumulada) e incidência (ou mortalidade) distribuição por faixa etária foram extraídas manualmente a partir de publicações do CDC. DBGC 1.0 abrange todas as estatísticas epidemiológicas para todas as regiões típicas de China dos anos de 2004 a 2009, e as estatísticas adicionais serão incluídos na versão atualizada.

    2) informações clinico-patológica sobre tecido de câncer gástrico.

    informações clinico-patológica foi fornecido pela Shanghai Ruijin Hospital. Os métodos de classificação e estadiamento geralmente utilizados para o diagnóstico de câncer gástrico foram anotados usando casos de câncer gástrico diagnosticados em Ruijin Hospital. tecidos de câncer gástrico típicos de diferentes fases e tipos foram selecionados a partir de um biobanco câncer gástrico que temos mantido durante anos. Todas as informações paciente foi anónimos e de-identificados antes de nossa análise.

    3) Os dados de biologia molecular em câncer gástrico de recursos públicos on-line.

    Os dados de biologia molecular foram extraídos e com curadoria de recursos on-line. dados transcriptomics foram coletadas a partir do banco de dados do GEO (http://www.ncbi.nlm.nih.gov/geo/) e banco de dados EBI (http://www.ebi.ac.uk/). dados de proteômica foram extraídos da literatura publicada através da leitura manual e normalização [16, 17]. dados de mutação foram coletados do banco de dados dbVar (http://www.ncbi.nlm.nih.gov/dbvar/), banco de dados OMIM (http://www.ncbi.nlm.nih.gov/omim/), banco de dados HGMD (http://www.hgmd.org/), e da literatura [18, 19]. Todos os dados dos biomarcadores foram extraídos a partir da literatura publicada [20, 21]. genes relacionados com a droga foram extraídos da base de dados PharmGKB (http://www.pharmgkb.org/), base de dados CancerDR (http://crdd.osdd.net/raghava/cancerdr/) e literatura publicada [22, 23]. Nós projetamos normas detalhadas de extração para cada tipo de recurso de dados de biologia molecular, e cada procedimento de coleta de dados teve que seguir essas normas para assegurar a coerência dos dados. O procedimento de coleta detalhada é fornecida abaixo:
    dados

    transcriptómica:

  • Pesquise o banco de dados GEO utilizando as seguintes palavras-chave :( "neoplasias de estômago" [MeSH Terms] ou "câncer de estômago" [todos os campos] ) e "Homo sapiens" [porgn].
  • Filtrar os resultados manualmente, e selecionar as publicações relacionadas com o cancro gástrico humano para a extração de informações posteriores.
  • Classificar os programas por tamanho da amostra e tipo de amostra .
  • informação de publicação Extract (título, data de publicação, tipo de experiência, tipo de tecido, quantidade de amostra, descrição da amostra, amostra de experiência, amostra de controle, plataforma, GSE ID, GSM IDs, links para download, e citação literária ) manualmente, referindo-se Miame (Informações mínimas sobre um experimento Microarray).
  • dados brutos Pré-processo (arquivos de matriz série no banco de dados GEO) usando Perl para eliminar as diferenças de diversas plataformas.
  • Extrato de genes diferencialmente expressos usando a linguagem R

    os dados Proteomics:

  • Pesquisar dados brutos em PubMed usando as seguintes palavras-chave: ( "proteômica" [MeSH Terms] ou "proteômica" [ ,,,0],Todos os campos]) e ( "neoplasia de estômago" [MeSH Terms] ou ( "estômago" [todos os campos] e "neoplasias" [todos os campos]) ou "neoplasias de estômago" [todos os campos] ou ( "gástrica" ​​[todos os campos] e "câncer" [todos os campos]) OR "câncer gástrico" [todos os campos]).
  • Filtrar os resultados manualmente, e selecione a proteômica publicações relacionadas com o cancro gástrico humano para a extração de informações posteriores.
  • Use esses papéis como a literatura de sementes e filtrar as referências novamente.
  • Classificar as publicações pelo tamanho da amostra e tipo de amostra.
  • ler manualmente documentos e extrair informação de publicação (título, data de publicação, amostra quantidade, exemplo de experimento, controle de amostra, descrição da amostra, método de tecnologia utilizada, dobre mudança,-regulada quantidade de proteína, quantidade de proteína regulada para baixo, e de referência) e correspondente-regulada proteínas e para baixo-regulados proteínas (com base em conclusões da autores)

    os dados mutação:.

  • Pesquisa nas bases de dados OMIM, HGMD e dbVar usando as palavras "câncer gástrico" e extrair informações mutação (genes, tipo de mutação, descrição de cDNA , descrição de AA completo, descrição do AA, e referência)
  • Pesquisar no PubMed usando as seguintes palavras-chave:. ( "mutação" [MeSH Terms] ou "mutação" [todos os campos]) e ( "neoplasia de estômago "[MeSH Terms] ou (" estômago "[todos os campos] e" neoplasias "[todos os campos]) ou" neoplasias de estômago "[todos os campos] OR (" gástrica "[todos os campos] E" câncer "[todos os campos]) OR "câncer gástrico" [todos os campos]).
  • Filtrar os resultados manualmente, e selecionar os trabalhos relacionados ao câncer gástrico humano para a extração de informações posteriores.
  • Tome esses papéis como a literatura de sementes e filtro as referências novamente.
  • Leia estes documentos e extrair informações mutação manualmente (gene, tipo de mutação, descrição do cDNA, descrição do AA completo, descrição do AA, e referência).
  • Remover dados duplicados das quatro fontes

    os dados Biomarcador:.

  • Pesquisa em PubMed usando as seguintes palavras-chave:
    ( "marcadores biológicos" [MeSH Terms] ou ( "biológicas" [Todos campos] e "marcadores" [todos os campos]) ou "marcadores biológicos" [todos os campos] OU "biomarcadores" [todos os campos]) e ( "neoplasias de estômago" [MeSH Terms] ou ( "estômago" [todos os campos] E " neoplasias "[todos os campos]) OU" neoplasias de estômago "[todos os campos] OR (" gástrica "[todos os campos] E" câncer "[todos os campos]) OR" câncer gástrico "[todos os campos]).
  • filtrar os resultados manualmente, e selecione os documentos relacionados ao câncer gástrico humano para a extração de informações posteriores.
  • Tome esses papéis como a literatura de sementes e filtrar as referências novamente.
  • Leia estes documentos e extrair mutação informações manualmente (nome biomarcador, nome completo, tipo, estágio, descrição, mecanismo, sensibilidade, especificidade e referência).
  • Classificar os biomarcadores por tipo de biomarcador, palco, especificidade e sensibilidade.

    os dados sensíveis à droga:.

  • Procurar em PharmGKB usando as palavras "câncer gástrico" e extrair manualmente as informações sensíveis ao medicamento (nome do medicamento, nome do gene, tipo de gene, mecanismo, e referência)
  • Pesquisa em PubMed usando as seguintes palavras-chave: "resistência" [todos os campos] E ( "neoplasia de estômago" [MeSH Terms] ou ( "estômago" [todos os campos] e "neoplasias" [todos os campos]) OU "neoplasias do estômago "[todos os campos] OR (" gástrica "[todos os campos] e" câncer "[todos os campos]) OR" câncer gástrico "[todos os campos])
  • filtrar os resultados manualmente, e selecione os documentos relacionados com a resistência humana gástrica droga contra o câncer para a extração de informações posteriores.
  • Tome esses papéis como a literatura de sementes e filtrar as referências novamente.
  • Faça um resumo dos 19 medicamentos geralmente utilizados para o tratamento clínico de câncer gástrico (5- fluorouridina, camptotecina, carboplatina, cisplatina, docetaxel, doxorrubicina, cloridrato de doxorrubicina, epirrubicina, etoposido, fluorouracilo, irinotecano, leucovorina, mitomicina C, oxaliplatina, paclitaxel, tamoxifeno, trastuzumab, vinblastina e vincristina).
    Tomando "cisplatina" como por exemplo, a pesquisa no PubMed usando palavras-chave:
    ( "cisplatina" [MeSH Terms] ou "cisplatina" [todos os campos]) e "resistência" [todos os campos] E ( "neoplasia de estômago" [MeSH Terms] ou ( " estômago "[todos os campos] e" neoplasias "[todos os campos]) ou" neoplasias de estômago "[todos os campos] OR (" gástrica "[todos os campos] E" câncer "[todos os campos]) OR" câncer gástrico "[Todos os campos ]).
  • filtrar os resultados manualmente, e selecionar os trabalhos relacionados à resistência aos medicamentos cancro gástrico humano para a extração de informações posteriores.
  • Tome esses papéis como a literatura de sementes e filtrar as referências novamente.
  • Leia estes documentos e extrair informações sensíveis às drogas manualmente (nome do medicamento, nome do gene, tipo de gene, mecanismo, e referência).

    Nós anotada todos os genes e drogas neste banco de dados para ajudar usuários melhor entender e usar esses recursos de dados. Os genes são anotada de acordo com NCBI (http://www.ncbi.nlm.nih.gov), HGNC (http://www.genenames.org/), Ensembl (http://feb2014.archive.ensembl.org /) e Gene Cards (http://www.genecards.org/). As drogas são anotadas de acordo com drugbank (http://www.drugbank.ca/).

    Além disso, mutações detectadas no projeto TCGA também foram incluídos para anotar genes no DBGC. Os usuários podem encontrar todas as mutações de um determinado gene detectado no projeto TCGA. Estas mutações foram processadas por ICGC (https://dcc.icgc.org) com base em dados TCGA e referenciados por cada mutação no DBGC.

    Além disso, foram realizados vários projectos de investigação fundamentais relacionadas com o cancro gástrico pela nossa equipa de investigação. descrições de projetos e dados brutos são fornecidos no DBGC para download e posterior análise.

    Banco de Dados Construção

    O DBGC é um banco de dados relacional com uma camada de dados MySQL. A interface amigável foi projetado para organizar e recursos de dados de exibição usando HTML e JavaScript. A interação entre a camada de dados ea interface web foi concluída usando a plataforma Java EE.

    Resultados e Discussão

    Banco de Dados Descrição

    Este banco de dados consiste principalmente de três sistemas de dados longitudinais , dados biológicos epidemiológicos, clínico-patológicos e moleculares (Fig 1). Os dados de biologia molecular consistem em transcriptomics gástricas relacionadas com o cancro, proteômica, mutação, biomarcadores e dados de genes sensíveis à droga. As estatísticas globais destes dados estão listadas na Tabela 1. Junto com as estatísticas epidemiológicas de pacientes com câncer gástrico na China e as informações clínico-patológico anotado com casos de câncer gástrico, todos estes dados foram extraídos de bancos de dados públicos, publicações e literatura publicada.

    Interfaces de banco de dados

    1) Pesquisa Rápida (Fig 2). O módulo de função rápida pesquisa faz identificar o papel de um gene ou proteína no cancro gástrico possível através informar palavras-chave na caixa de pesquisa localizada na barra de navegação. O resultado da pesquisa irá dizer se o gene ou proteína é diferencialmente expressos em quaisquer projectos ou proteômica projectos transcriptômica e se ele foi identificado como um biomarcador para o câncer gástrico ou um gene sensível ao fármaco. Além disso, se o gene tem qualquer mutação que está relacionada com o cancro gástrico, uma lista detalhada será apresentada na página de resultados. Por exemplo, usando "EGFR" como uma palavra-chave, pode-se concluir que ele foi identificado como um gene sobre-regulada em GSE51936 e GSE27342 e como um gene regulado para baixo em GSE29630. A proteína correspondente do EGFR gene foi identificado como uma proteína up-regulamentado em 3 projectos proteómica (PubMed IDs: 23161554, 24263233 e 24722433). O EGFR foi relatada como um factor de prognóstico do cancro gástrico e está relacionada com a resistência ao fármaco de irinotecano, o qual é uma droga utilizada para o tratamento do cancro gástrico. Quatro mutações de EGFR relacionadas com câncer gástrico têm sido relatados (c.2361G > A, c.2402A > G, c.2573T > G, c.2588G > A).

    2) Procurar e Pesquisar (Fig 3). Usando a navegação, os usuários podem clicar em itens correspondentes para ver alguns dos recursos de dados fornecidos no DBGC. Informações detalhadas serão listados abaixo. Temos também estabeleceu vários critérios de pesquisa para cada tipo de recurso de dados através do qual todos os itens de dados que preencham as condições serão exibidos.

    3) Nosso banco de dados difere de outros recursos on-line por causa da inclusão de estatísticas epidemiológicas da gástrica pacientes com câncer na China. Os usuários podem comparar as estatísticas por sexo (masculino e feminino), área (urbana e rural), e idade no momento do diagnóstico ou morte. número do processo, número de morte, taxa de incidência e mortalidade em uma escala do ano seleccionada pode ser exibida tanto em formato gráfico e tabela (Fig 4).

    Discussão

    O câncer gástrico é um câncer líder em todo o mundo, tanto a mortalidade e morbidade. maior incidência e mortalidade de câncer gástrico são observadas em regiões da Ásia, particularmente na China. Os dados estatísticos epidemiológicos de câncer gástrico neste banco de dados foram obtidos principalmente a partir de publicações do CDC, que tem se empenhado em estudos de tumores malignos durante várias décadas e estabeleceu arquivos abrangentes de pacientes com tumores malignos na China. Estes dados têm desempenhado um papel importante na promoção da prevenção do câncer e de políticas de saúde na China [24-26]. Através de recuperar os dados de epidemiologia do câncer gástrico nesta base de dados, pesquisadores e clínicos pode determinar rapidamente as tendências epidemiológicas do câncer gástrico na China.

    mutações relacionadas ao câncer gástrico, biomarcadores, genes sensíveis à droga, projetos transcriptômica e correspondentes diferencialmente genes expressos, e proteómica experiências e correspondentes proteínas diferencialmente expressos foram colhidas manualmente a partir de bancos de dados on-line e literatura publicada. A função de busca rápida fornecido pelo DBGC permite aos pesquisadores identificar o papel de um gene ou proteína no cancro gástrico. Estes genes e proteínas diferencialmente expressos contêm informações importantes abundante sobre o câncer gástrico, e muitos estudos analíticos podem ser realizados utilizando-los.

    Nossa equipe de pesquisa tem se empenhado na pesquisa do câncer gástrico por muitos anos e acumulou uma experiência considerável no tumor investigação epidemiológica, clinicopathology câncer gástrico e pesquisa com biomarcadores, construção biobanco, a pesquisa mecanismo biológico molecular, análise de bioinformática e construção de banco de dados em larga escala [27-30]. Para fornecer informações de listas e ferramentas de análise que são mais conveniente e prático para pesquisadores de câncer gástrico, construímos esta base de dados. A versão atual é 1,0. Devido a grande quantidade de dados gerados por diferentes plataformas experimentais em diferentes campos são muito dispersa e heterogênea, algumas informações úteis podem ter sido perdidas em nosso processo de coleta de dados. Vamos continuar recuperar esses dados e atualizar os dados mais recentes por um longo tempo para garantir a actualidade e integridade dos dados. Na próxima versão, temos a intenção de cobrir os novos humanos gástricas relacionadas ao câncer mutações, biomarcadores e genes sensíveis à droga. dados transcriptomics será a ênfase da próxima versão, em que todos os projetos transcriptômica será re-analisados ​​para extrair genes diferencialmente expressos em diferentes valores de mudança vezes. Assim, os usuários podem consultar se um determinado gene é diferencialmente expressos durante a configuração do tipo de amostra e dobrar valor de alteração.

    Conclusão

    O banco de dados descrito neste artigo, o DBGC, é uma abrangente e web banco de dados -accessible de câncer gástrico humano. Esta base de dados tem integrado uma variedade de recursos de dados relacionados ao câncer gástrico e forneceu vários módulos funcionais fáceis de usar web-based. Acreditamos que a DBGC será uma ferramenta importante para os clínicos de câncer gástrico, tumor cientistas fundamentais de pesquisa, pesquisadores do genoma do câncer, formuladores de políticas de saúde do governo, e pacientes com câncer gástrico.