Stomach Health > Желудок Здоровье >  > Gastric Cancer > Рак желудка

PLoS ONE: DBGC: База данных человеческого рака желудка

Абстрактный
<р> База данных человеческого рака желудка (DBGC) представляет собой всеобъемлющую базу данных, которая интегрирует различные рак желудка, связанных с информационными ресурсами человека. были собраны и объединены в этой базе данных рака желудка человека, связанных с транскриптомика проектов, протеомики проектов, мутации, биомаркеров и чувствительных к медикаментам гены из разных источников. Кроме того, эпидемиологические статистические данные о больных раком желудка в Китае и клинико-патологическими информации с аннотацией желудка случаев рака были также интегрированы в DBGC. Мы считаем, что эта база данных будет в значительной степени содействовать проведению исследований по поводу рака желудка человека во многих областях. DBGC находится в свободном доступе на http://bminfor.tongji.edu.cn/dbgc/index.do
<р> Образец цитирования: Ван C, Чжан J, M Cai, Чжу Z, Гу W, Y Ю., и др , (2015) DBGC: База данных человеческого рака желудка. PLoS ONE 10 (11): e0142591. DOI: 10.1371 /journal.pone.0142591
<р> Редактор: Арун Срикумар, Бейлор медицинский колледж, США
<р> Поступило: 18 февраля 2015; Принято: 24 октября, 2015 года; Опубликовано: 13 ноября 2015
<р> Copyright: © 2015 Wang и др. Это статья открытого доступа распространяется в соответствии с условиями лицензии Creative Commons Attribution, которая позволяет неограниченное использование, распространение и воспроизведение на любом носителе, при условии, что оригинальный автор и источник кредитуются
<р> Доступность данных: Данные Availabe через Datadryad (https://datadryad.org). Уникальный номер доступа является: DOI:. 10,5061 /dryad.271dk
<р> Финансирование: Эта работа была частично поддержана грантами от Национального фонда естественных наук Китая (81172329, 31571363, 81372644, 81372645 и 8157111077), китайский Национальный High Tech Program (2012AA02A504 и 2012AA02A203), Международного кооперативного проекта из Шанхая науки и техники Комиссии (12410706400), Инновационный фонд трансляционной медицины Shanghai Jiao Tong University школы медицины (15ZH1002 и 15ZH3001), Фонг Шу Фук Тонг фонд и желудочно-кишечного тракта карциноме биобанк Проект Shanghai Jiao Tong University школы медицины. Доноры не играет никакой роли в дизайн исследования, сбора и анализа данных, решение о публикации или подготовки рукописи
<р> Конкурирующие интересы:.. Авторы заявили, что не существует никаких конкурирующих интересов

Введение
<р> Как один из наиболее распространенных видов рака, рак желудка занимает третье место по летальности и четвертое место заболеваемости всех случаев рака во всем мире [1]. Согласно статистике GloboCan в 2012 году новых случаев рака желудка насчитывала почти миллион (952000), и более 700000 смертей были вызваны раком желудка; почти половина из этих пациентов пришли из Китая (405,000 новых случаев заболевания и 325000 смертей) [1, 2]. Несмотря на то, как летальность и заболеваемость раком желудка снизилась в последние годы, уровень 5-летней выживаемости остается достаточно низким [3]. Таким образом, рак желудка будет оставаться одним из самых трудных задач для исследователей и врачей в течение длительного времени [4].

Исследователи во всем мире завершили много геномики, протеомики, транскриптомика и эпидемиологические исследования и клинические испытания в отношении патогенеза и терапии рака желудка [5-10]. Эти исследования породили огромное количество данных, имеющих отношение к раку желудка, и скорость этих исследований ускоряется с быстрым ростом знаний рака, снижение затрат на обнаружение и вычисление и распространение Интернета [11]. Эти данные содержат важную информацию для исследования и лечения рака желудка. Тем не менее, из-за ограниченного фоновых знаний врачей и фундаментальных исследователей, потенциал этих данных не может быть полностью развит. Новые технологии и методы исследования до сих пор требуют разработки; Тем не менее, низкая эффективность в управлении данными является основным ограничением этого развития [12]. Благодаря долгосрочному накоплению децентрализованных исследований, эти данные и их форматы только удовлетворяют индивидуальные потребности, отсутствие интеграции и стандартизации, и в результате диверсификации, изомеризации и рассечение данных рака [13, 14]
. <Р> в настоящее время, обильные клинические и фундаментальные исследования, касающиеся рака желудка планируются или в стадии разработки. Различные типы данных хранятся в разных системах баз данных [13], без обмена или общения. Таким образом, сильнокоррелированная информация остается изолированным, в так называемых «информационных островов». С одной стороны, рассечение данных увеличивает сложность интеллектуального анализа данных, а с другой стороны, это не позволяет врачам от полного использования результатов фундаментальных исследований по разработке клинических испытаний и приложений и поддерживает фундаментальные исследователей от выполнения эффективных поисковых исследований, которые ссылаются клинически значимой информации [15].
<р> в этой ситуации получение всесторонней информации о раке желудка не является легкой задачей, и часть этих данных может исчезнуть в океане Интернета, что было бы очень прискорбно.

Это исследование воспользовались ресурсов из Интернета и публикаций из китайского Центра по контролю и профилактике заболеваний (CDC) и рака желудка центр диагностики и лечения, Key Лаборатория желудочных новообразованиями в Шанхае. В данном исследовании систематически собирали различные типы желудочного данных, связанных с раком, интегрированы эти ресурсы данных после фильтрации и стандартизации, и, наконец, сформировали первую всеобъемлющую базу знаний для анализа рака желудка.

Материалы и методы

Данные ресурсы
<р> База данных рака желудка человека (DBGC) интегрировал следующие рака желудка, связанных с ресурсами:

  • Эпидемиологические статистики больных раком желудка в Китае из публикаций CDC
  • клинико-патологическими информацию о желудочной ткани рака после хирургической резекции у больных диагностируется в Шанхае Жуйцзинь больницы
    <литий> Молекулярно-биологические данные о раке желудка от государственных интернет-ресурсов (в том числе рака желудка, связанных с мутациями, биомаркеров, генов, чувствительных к медикаментам, транскриптомике проектов и соответствующие дифференциально выраженные гены, и протеомики проектов и соответствующих дифференциально выраженные протеины)
    <литий> Сырье исследовательские данные из Шанхайского института хирургии пищеварительных и Шанхай Ключевые лаборатории желудочных Неоплазмы

    Сбор данных <бр>

    1) Эпидемиологические статистика больных раком желудка в Китае.
    <р> CDC была устоявшаяся система отчетности рака на протяжении многих лет и накопила богатый эпидемиологическую информацию о больных раком в Китае. Эпидемиологические статистика рака желудка, в том числе номер дела, номер смертности, уровень заболеваемости (общий коэффициент, возраст выровненный уровень и кумулятивный показатель), коэффициент смертности (сырой скорости, с поправкой на возраст ставки и совокупный показатель) и заболеваемости (или смертности) распределение по возрастным группам были извлечены вручную из публикаций CDC. DBGC 1.0 охватывает все эпидемиологические статистические данные для всех типичных районов Китая от года 2004 до 2009, а также дополнительные статистические данные будут включены в обновленной версии.

    2) клинико-патологическими информацию о желудочной ткани рака.
    <Р> клинико-патологическими информация была предоставлена ​​Шанхай Жуйцзинь больницы. Методы классификации и постановка, как правило, используемые для диагностики рака желудка были аннотированный использованием желудочных случаев рака, диагностированных в Жуйцзинь больницы. Типичные желудочные раковые ткани различных стадий и типов были выбраны из желудка биобанке рака, который мы сохранили в течение многих лет. Вся информация, пациентка была анонимной и обезличенной до нашего анализа.

    3) Молекулярно-биологические данные о раке желудка из открытых интернет-ресурсов.
    <Р> Молекулярно-биологические данные были извлечены и куратором из интернет-ресурсов. Данные транскриптомика были собраны из базы данных GEO (http://www.ncbi.nlm.nih.gov/geo/) и база данных EBI (http://www.ebi.ac.uk/). Данные протеомики были взяты из опубликованной литературы с помощью ручного чтения и стандартизации [16, 17]. Данные Мутации были собраны из базы данных dbVar (http://www.ncbi.nlm.nih.gov/dbvar/), база данных OMIM (http://www.ncbi.nlm.nih.gov/omim/), база данных HGMD (http://www.hgmd.org/), и опубликованной литературы [18, 19]. Все данные биомаркеров были взяты из опубликованной литературы [20, 21]. гены, связанные с наркотиками были извлечены из базы данных PharmGKB (http://www.pharmgkb.org/), база данных CancerDR (http://crdd.osdd.net/raghava/cancerdr/) и опубликованной литературы [22, 23]. Мы разработали детальные стандарты добычи для каждого типа молекулярно-биологических ресурсов данных, и каждая процедура сбора данных должны были следовать этим стандартам для обеспечения согласованности данных. Подробная процедура сбора представлена ​​ниже:
    данных <р> транскриптомика:
  • Поиск в базе данных GEO, используя следующие ключевые слова :( "новообразования желудка" [MeSH Термины] или "рак желудка" [Все поля] ) и "гомо сапиенс" [porgn].
  • Фильтр результатов вручную, а выбрать публикации, связанные с раком желудка человека для последующего извлечения информации.
  • Классифицировать программы от размера выборки и типа образца .
  • информация Извлечение публикации (название, время публикации, тип эксперимента, тип ткани, количество образца, описание образца, образец эксперимента, образец скачать ссылки управления, платформы, GSE ID, идентификаторы GSM, и литература цитирования ) вручную, ссылаясь на MIAME (минимальная информация о Microarray эксперимента).
  • Предварительная обработка исходных данных (серия матричные файлы в базе данных GEO) с использованием Perl, чтобы устранить различия из различных платформ.
    <литий .> Extract дифференцированно выраженных генов с использованием языка R

    <р> данные протеомики:
  • Поиск необработанных данных в PubMed, используя следующие ключевые слова: ( "протеомика" [MeSH Термины] ИЛИ "протеомика" [ ,,,0],Все поля]) и ( "желудка новообразования" [MeSH Термины] ИЛИ ( "желудок" [Все поля] И "новообразования" [Все поля]) или "желудка новообразования" [Все поля] ИЛИ ( "желудочный" [Все поля] и "рак" [Все поля]) ИЛИ "рак желудка" [все поля]).
  • Фильтр результатов вручную, а затем выберите протеомики публикации, связанные с раком желудка человека для последующего извлечения информации.
  • Используйте эти документы в качестве посевного литературы и снова отфильтровать ссылки.
  • Классифицировать публикаций по размеру выборки и типа образца.
  • вручную чтения документов и извлечения информации (название, время публикации, образец количество, образец эксперимент, контрольный образец, описание выборки, метод технологии, используемые, сложите изменения, повышающей регуляции количества белка, вниз регулируется количество белка, а также ссылки) и соответствующие повышающей регуляции белков и вниз регулируемых белков (на основе выводов из самых авторов)

    <р> данные мутация:
    .
  • Поиск в базах данных OMIM, HGMD и dbVar, используя ключевые слова "рак желудка" и извлечения информации мутации (генные, тип мутации, описание кДНК , описание полного АА, описание АА, и ссылки)
  • Поиск в PubMed, используя следующие ключевые слова:. ( "мутация" [MeSH Условия] или "мутация" [Все поля]) и ( "новообразования желудка "[MeSH Условия] или (" желудок "[Все поля] И" новообразованиями "[Все поля]) или" желудка новообразования "[Все поля] ИЛИ (" желудочный "[Все поля] и" рак "[Все поля]) ИЛИ "рак желудка" [все поля]).
  • фильтр результатов вручную, а затем выберите документы, связанные с раком желудка человека для последующего извлечения информации.
  • Возьмите эти документы в качестве посевного литературы и фильтр ссылки снова.
  • Прочитайте эти документы и извлекать информацию мутации вручную (ген, тип мутации, описание кДНК, описание полного АА, описание АА, и ссылка).
  • Удаление дубликатов данных из четырех источников

    биомаркеров данных:.

  • Поиск в PubMed, используя следующие ключевые слова:
    ( "биологические маркеры" [MeSH Термины] ИЛИ ( "биологические" [все Поля] и "маркеры" [Все поля]) ИЛИ "биологические маркеры" [Все поля] ИЛИ "биомаркеров" [Все поля]) и ( "желудка новообразования" [MeSH Термины] ИЛИ ( "желудок" [Все поля] И " новообразованиями "[Все поля]) или" желудок "новообразованиями [Все поля] ИЛИ (" желудочный "[Все поля] И" рак "[Все поля]) ИЛИ" рак желудка "[все поля]).
    <литий> Фильтр результатов вручную и выберите документы, связанные с раком желудка человека для последующего извлечения информации.
  • Возьмите эти документы в качестве посевного литературы и снова отфильтровать ссылки.
  • Прочитайте эти документы и извлекать мутации информация вручную (имя биомаркером, полное имя, тип, стадия, описание, механизм, чувствительность, специфичность и ссылка).
  • Классифицировать биомаркеров от типа биомаркером, стадии, специфичности и чувствительности.

    <р> данные с лекарственной чувствительностью:.
  • Поиск в PharmGKB, используя ключевые слова "рак желудка" и вручную извлечь лекарственно-зависимую информацию (название лекарственного препарата, название гена, тип гена, механизм, и ссылки)
  • Поиск в PubMed, используя следующие ключевые слова: "сопротивление" [Все поля] и ( "желудка новообразования" [MeSH Термины] ИЛИ ( "желудок" [Все поля] И "новообразования" [Все поля]) или "желудка новообразования "[Все поля] ИЛИ (" желудочный "[Все поля] и" рак "[Все поля]) ИЛИ" рак желудка "[Все поля])
  • фильтровать результаты вручную и выберите документы, связанные с желудка сопротивление человеческого лекарство от рака для последующего извлечения информации.
  • Возьмите эти документы в качестве посевного литературы и снова отфильтровать ссылки.
  • Подытожьте 19 препаратов, обычно используемых для клинического лечения рака желудка (5- фторуридин, камптотецин, карбоплатин, цисплатин, доцетаксел, доксорубицин, доксорубицин гидрохлорид, эпирубицина, этопозид, фторурацил, иринотекан, лейковорин, митомицин C, оксалиплатина, паклитаксел, тамоксифен, трастузумаб, винбластин, винкристин и).
    Принимая "цисплатин", как пример, поиск в PubMed с помощью ключевых слов:
    ( "цисплатин" [MeSH Термины] ИЛИ "цисплатин" [Все поля]) и "сопротивление" [Все поля] и ( "желудка новообразования" [MeSH Термины] ИЛИ ( " желудок "[Все поля] И" новообразованиями "[Все поля]) или" желудка новообразования "[Все поля] ИЛИ (" желудочный "[Все поля] и" рак "[Все поля]) ИЛИ" рак желудка "[Все поля ]).
  • Фильтр результатов вручную, а затем выберите документы, связанные с желудка человека лекарственной устойчивости рака для последующего извлечения информации.
  • Возьмите эти документы в качестве посевного литературы и снова отфильтровать ссылки. <бр>
  • Прочитайте эти документы и извлекать лекарственно-зависимую информацию вручную (название лекарственного препарата, название гена, тип гена, механизм, и ссылки).

    <р> Мы аннотированных все гены и лекарства в этой базе данных, чтобы помочь пользователям лучше понять и использовать эти ресурсы данных. Гены аннотированный согласно NCBI (http://www.ncbi.nlm.nih.gov), HGNC (http://www.genenames.org/~~HEAD=pobj), Ensembl (http://feb2014.archive.ensembl.org /) и Джин-карты (http://www.genecards.org/). Препараты аннотированный согласно DrugBank (http://www.drugbank.ca/).
    <Р> Кроме того, мутации, обнаруженные в проекте TCGA также были включены для аннотирования генов в DBGC. Пользователи могут найти все мутации определенного гена, обнаруженного в проекте TCGA. Эти мутации были обработаны ICGC (https://dcc.icgc.org) на основе данных TCGA и ссылается каждой мутации в DBGC.
    <Р> Кроме того, было проведено несколько рака желудка, связанных с проектов фундаментальных исследований нашей исследовательской группой. Описания проектов и исходные данные представлены в DBGC для загрузки и дальнейшего анализа.

    База данных Построение
    <р> DBGC является реляционной базой данных с уровня данных MySQL. Удобный интерфейс был разработан для организации и ресурсов отображения данных с помощью HTML и JavaScript. Взаимодействие между слоем данных и веб-интерфейс был завершен с использованием платформы Java EE.

    Результаты и обсуждение

    База данных Описание
    <р> Эта база данных состоит в основном из трех продольных информационных систем , эпидемиологические, клинико-патологические и молекулярно-биологические данные (рис 1). В молекулярно-биологические данные состоят из рака желудка, связанных с транскриптомику, протеомики, мутации, биомаркеров и данных генов, чувствительных к медикаментам. Общие статистические данные этих данных приведены в таблице 1. Наряду с эпидемиологической статистикой больных раком желудка в Китае и клинико-патологическими информации с аннотацией желудка случаев рака, все эти данные были взяты из публичных баз данных, публикаций и опубликованной литературы.

    Интерфейсы базы данных
    <р> 1) Быстрый поиск (рис 2). Быстрый модуль Функция поиска позволяет идентифицировать роль гена или белка в развитии рака желудка возможно с помощью ввода ключевых слов в поле поиска, расположенного по адресу навигационной панели. Результат поиска покажет вам ли ген или белок дифференциально экспрессируется в любых проектах или протеомики проектов транскриптомике и имеет ли он был идентифицирован как биомаркер рака желудка или гена лекарственной чувствительностью. Более того, если ген имеет любую мутацию, которая связана с раком желудка, подробный список будет отображаться на странице результатов. Например, с помощью "EGFR" в качестве ключевого слова, мы можем заключить, что он был идентифицирован как повышающей регуляции гена в GSE51936 и GSE27342 и в качестве понижающей регуляции гена в GSE29630. Соответствующий белок гена EGFR был идентифицирован как повышающей регуляции белка в 3 протеомики проектов (PubMed Идентификаторы: 23161554, 24263233 и 24722433). EGFR, сообщалось как фактор прогноза рака желудка и связана с лекарственной устойчивостью к иринотекан, которая является широко используемым препаратом для лечения рака желудка. Четыре мутации EGFR, связанные с раком желудка было зарегистрировано (c.2361G ≫ A, c.2402A &GТ; G, c.2573T > G, c.2588G &GТ; A).
    <Р> 2) Просмотр и поиск (рис 3). С помощью навигации, пользователи могут нажать соответствующие пункты для просмотра ресурсов данных, предоставленных в DBGC. Более подробная информация будет приведена ниже. Мы также установили несколько критериев поиска для каждого типа ресурса данных, через которые будут отображены все элементы данных, которые удовлетворяют условиям.
    <Р> 3) Наша база данных отличается от других интернет-ресурсов из-за включения эпидемиологической статистики желудка больных раком в Китае. Пользователи могут сравнить статистику с разбивкой по полу (мужской и женской), района (городских и сельских), и возраст на момент постановки диагноза или смерти. номер дела, номер смерть, Заболеваемость и смертность в выбранном диапазоне год может отображаться как в графическом и табличном формате (рис 4).

    Обсуждение
    <р> Рак желудка является ведущим рака во всем мире и в смертности и заболеваемости. Более высокая заболеваемость и смертность от рака желудка наблюдаются в азиатских регионах, особенно в Китае. Эпидемиологические статистические данные рака желудка в этой базе данных были получены в основном из публикаций CDC, которая занимается в злокачественных опухолей исследований в течение нескольких десятилетий и установил всеобъемлющие архивы злокачественных опухолей у пациентов в Китае. Эти данные сыграли важную роль в содействии профилактике рака и здоровья выработки политики в Китае [24-26]. Через извлечения желудка данные эпидемиологии рака в этой базе данных, исследователи и врачи могут быстро определить эпидемиологические тенденции рака желудка в Китае.
    <Р> рак желудка, связанных с мутациями, биомаркеры, гены, чувствительных к медикаментам, транскриптомика проекты и соответствующие дифференцированно выраженные гены, и протеомики эксперименты и соответствующие дифференциально экспрессируются белки вручную собирали из онлайновых баз данных и опубликованной литературы. Функция быстрого поиска обеспечивается DBGC позволяет исследователям определить роль гена или белка в развитии рака желудка. Эти дифференциально выраженные гены и белки содержат обильную важную информацию о раке желудка, и многие аналитические исследования можно было бы провести их использованием.

    Наша исследовательская группа занимается желудочной исследований рака в течение многих лет и накопила значительный опыт в области опухоли эпидемиологические исследования, желудка clinicopathology рака и исследования биомаркеров, биобанк здание, молекулярные исследования биологический механизм, анализ биоинформатики и построение базы данных крупномасштабной [27-30]. Для того, чтобы обеспечить спрос и инструменты анализа, которые являются более удобным и практичным для исследователей рака желудка, мы построили эту базу данных. Текущая версия 1.0. Поскольку большие объемы данных, генерируемых различными экспериментальными платформ в различных областях сильно разрознены, и гетерогенными, некоторая полезная информация может быть упущена в нашем процессе сбора данных. Мы будем продолжать получение этих данных и обновления последних данных в течение длительного времени, чтобы обеспечить своевременность и полноту данных. В следующей версии мы намерены охватить новейшие рака желудка человека, связанных с мутациями, биомаркеры и гены лекарственно чувствительными. Данные транскриптомика будет акцент следующей версии, в которой все транскриптомика проекты будут повторно проанализированы для извлечения дифференциально выраженных генов при различных значениях изменения раза. Таким образом, пользователи могут запрашивать ли дифференциально экспрессируется некоторый ген путем настройки типа образца и сложите значение изменения.

    Вывод

    В базе данных описано в этой статье, в DBGC, является всеобъемлющим и веб -достижима базы данных рака желудка человека. Эта база данных интегрирована различные ресурсы данных, связанных с раком желудка и при условии, несколько простых в использовании веб-функциональных модулей. Мы считаем, что DBGC станет важным инструментом для желудка клиницистов рака, опухолевые фундаментальных исследований ученых, генома рака исследователей, государственных директивных органов здравоохранения, а также у больных раком желудка.

  • Рак желудка