Stomach Health > Желудок Здоровье >  > Gastric Cancer > Рак желудка

PLoS ONE: Оценка риска рака желудка, вызванной Helicobacter Pylori Использование CaGa Sequence Маркеры

Абстрактный

Фон
<р> В качестве маркера хеликобактерной
, цитотоксин-ассоциированный ген А (CagA) было выявлено, что основным фактором вирулентности причиной заболеваний желудочно-кишечных , Однако молекулярные механизмы, лежащие в основе развития различных гастродуоденальных заболеваний, вызванных CagA-положительными H. Pylori
инфекции остаются неизвестными. Современные исследования ограничиваются оценкой связи между заболеваниями и числом-Pro-Ile-Tyr-Ala-Glu (EPIYA) мотивов в штамме CagA. Для более глубокого понимания взаимосвязи между последовательностью CagA и его вирулентности к раку желудка, мы предложили системный подход энтропии на основе для выявления связанных с раком остатков в промежуточных областях CagA и использовали контролируемый метод машинного обучения для рака и нераковых случаев классификация.

Методология
<р> расчета по энтропии на основе использовали для обнаружения ключевых остатков CagA интронов в качестве желудочного биомаркеров рака. Для каждого остатка, были рассчитаны как комбинаторной энтропии и фона энтропии, и разность энтропии использовалась в качестве критерия для выбора функции остатка. Затем значения особенность подавались в опорных векторов (SVM) с ядром Radial Basis Function (RBF), и были настроены два параметра, чтобы получить оптимальное значение F с помощью поиска сетки. Два других популярных методов классификации последовательности доменный и HMMER, также были применены к тем же данным для сравнения.

Вывод изображения <р> Наш метод достиг 76% и 71% точность классификации для Западной и Восточной Азии подтипы, соответственно, что значительно лучше, чем у BLAST и HMMER. Это исследование показывает, что небольшие вариации аминокислот в этих важных остатков может привести к вирулентности дисперсии штаммов CagA что приводит к различным заболеваниям гастродуоденальной. Это исследование дает не только полезный инструмент для прогнозирования корреляции между новым CagA штамма и болезней, но и общей новой основы для обнаружения биологических биомаркеров последовательности в популяционных исследованиях
<р> Цитирование:. Чжан C, Сюй S, Сюй D (2012) Оценка риска рака желудка Вызванный хеликобактерной
Использование CagA последовательности маркеров. PLoS ONE 7 (5): e36844. DOI: 10.1371 /journal.pone.0036844
<р> Редактор: Нияз Ахмед, Университет Хайдарабад, Индия
<р> Поступило: 13 ноября 2011 года; Принято: 11 апреля 2012 года; Опубликовано: 15 мая 2012
<р> Copyright: © 2012 Чжан и др. Это статья с открытым доступом распространяется в соответствии с условиями лицензии Creative Commons Attribution, которая позволяет неограниченное использование, распространение и воспроизведение на любом носителе, при условии, что оригинальный автор и источник кредитуются

Финансирование:. Эта работа была частично поддержана Национальным институтом здравоохранения США [номер гранта R21 /R33 GM078601] и международного обмена и сотрудничества Управления Нанкин медицинского университета, Китай. Доноры не играет никакой роли в дизайн исследования, сбора и анализа данных, решение о публикации или подготовки рукописи
<р> Конкурирующие интересы:.. Авторы заявили, что не существует никаких конкурирующих интересов

Введение

Helicobacter Pylori (H.)
является грамотрицательная завиток в форме бактерии, обитающие в желудке человека и инфицировано более половины населения земного шара [1], [2], [ ,,,0],3]. Недавние исследования показали, что это связано с заболеваниями гастродуоденальной зоны, в том числе двенадцатиперстной кишки [4], язвы желудка [5] и хронического гастрита. Что еще более важно, это является существенным фактором риска развития рака желудка [6], [7], [8]. Он был классифицирован как класс 1 человека канцероген Всемирной организации здравоохранения с 1994 года [1].
<Р> В качестве маркера H. пилори
, цитотоксин-ассоциированный ген А (CagA) было выявлено путем дальнейшего анализа, является основным фактором вирулентности. H. Pylori
штаммы, несущие ген CagA увеличивают фактор риска заболеваний гастродуоденальной тремя складками над штаммами CagA-отрицательных [6], [9], [10]. CagA, который кодируется геном CagA, является белком, 125-140 кДа. Он содержит 1142-1320 аминокислот и имеет вариабельную область в области С-концевым, в котором различные короткие последовательности (такие, как EPIYA мотив) повторяют 1-7 раза. После того, как H. пилори
колонизацию на поверхности эпителия желудка, CagA может быть транслокации в желудочном эпителиальной клетки с помощью системы секреции IV типа. После того, как вводят в клетку-хозяина, CagA локализуется в плазматической мембране и может быть фосфорилируется Src-семейства тирозинкиназ на специфических тирозиновых остатков пяти аминокислотам (EPIYA) мотив [11], [12], [13] , [14]. Тирозин-фосфорилируется CagA затем специфически связывается с ШП-2 тирозин фосфатазы 11,15 для активации фосфорилазы, который вызывает каскадный эффект, мешающего сигнальной трансдукции клетки-хозяина, что приводит к перестройке цитоскелета клетки-хозяина и образование колибри фенотип [11], [16]. В то же время посредством активации митоген-активируемой протеинкиназы (МАРК), внеклеточной регулируемой киназы (ERK) [17] и фокусного адгезионная киназа (FAK), CagA также может привести к диссоциации клеток и рост инфильтративные опухоли [18], [19 ], [20], [21]. Такой процесс делает CagA самым важным фактором вирулентности в H. пилори
[22].
<р> В вариабельной области CagA, есть несколько различных интроны между этими мотивами EPIYA. Один экземпляр EPIYA плюс интрон идентифицируется как сегмент EPIYA. Четыре уникальных типов сегментов EPIYA были найдены в CagA, определяется как EPIYA-A, -B, -C и -D [11]. CagA изолированы от стран Восточной Азии, обозначенных как Восточной Азии CagA, содержит EPIYA-A, EPIYA-B и EPIYA-D мотивы. CagA из западных стран, EPIYA-D, заменяется EPIYA-C. Сильнее фосфорилирования мотив связывания активность EPIYA-D мотива приводит к большим морфологическим изменениям, чем то, что мотив EPIYA-C может вызвать в инфицированных клетках [11]. Это увеличена активность связывания этого EPIYA-D-мотив и результирующие морфологические изменения, который идентифицирует его как потенциальный фактор, чтобы объяснить более высокий уровень заболеваемости раком желудка в странах Восточной Азии [23], [24].

Предыдущие исследования показали, изменение числа EPIYA мотив повторяется как для Восточной Азии и Западной CagA, которые могут повлиять на биологическую активность. Ямаока и др. [25] обнаружили, что в Колумбии и США, способность CaGa-положительных H. пилори
чтобы вызвать желудочное атрофии слизистой оболочки и кишечной метаплазией может быть связано с числом EPIYA мотивов в штамме CagA. Argent и др. [16] пришли к такому же выводу позже. Тем не менее, противоположные мнения были опубликованы Lai и др. [26] на основе результатов нет взаимосвязи между количеством EPIYA мотивов в штамме CagA и клинической картины заболевания в пределах 58 изолятов из Тайваня. Учитывая размеры и географическое ограничение этих исследований, обоснованность этого заключения остается под вопросом. Помимо количества мотива повторами EPIYA, разница последовательность деформаций в вариабельных областей также может вызвать существенное отличие от вирулентности, которые могут относиться к различным патогенным способностей Н. пилори
[27].
<р> Из-за сложных и вариантов последовательностей в CagA, отношения между полиморфизмом CagA и клинических заболеваний стала очень интересной задачей исследования. Однако молекулярные механизмы, лежащие в основе различных желудочно-кишечных заболеваний, вызванных CagA-положительными H. Pylori
инфекции остаются неизвестными. До настоящего времени большинство исследований до сих пор ограничены открытием или оценки корреляции между количеством CagA EPIYA мотивов и болезней [28].
<Р> В этой статье мы предлагаем систематический метод анализа не только количество EPIYA мотивы в CagA последовательности, но и конкретные модели прямой последовательности промежуточных областей. Во-первых, мы вводим вычисление энтропии для обнаружения остатков в вариабельной области CagA в качестве желудочных биомаркеров рака. Затем мы используем контролируемую процедуру обучения для классификации рака и нераковых, используя информацию обнаруженных остатков в CagA как особенностей. Мы выбираем машины опорных векторов (SVM), как бинарный классификатор и сравнить наш метод с другими. Наш подход доказывает не только нашу гипотезу о том, что последовательность вариабельной области CagA содержит информацию для различения различных заболеваний, но и служит полезным инструментом для прогнозирования корреляции между новыми CagA штаммов и болезней и для выявления биомаркеров, а также.

Методы

Данные Препроцессирование
<р> на основании предыдущего описания в работе. [15], мы назвали мотив EPIYA и следующие промежуточные областям R1, R2, R3, R3 ', R4 и R4' (рисунок 1). На рисунке 2 показано положение соотношение между мотивом EPIYA (R1) и других промежуточных областей, используя типы CaGa A-B-D (подтип Восточной Азии) и А-В-С (Западный подтип) в качестве примеров. R2 относительно сохраняется на обоих подтипов, но есть существенные различия между промежуточными регионами R3 и R3 ', а также между R4 и R4'. Подтип Восточной Азии и Западной подтипа рассматривались как две независимые группы. Их данные были обработаны и результаты были проанализированы в пределах каждой группы в отдельности.
<Р> Все промежуточные области были извлечены из последовательностей CagA и поместить в соответствующие подтипов группы, а затем несколько выравниваний были применены для каждой группы в отдельности с помощью Clustal X версии 2.0.3 [29]. Профили последовательности (рисунок 1) был построен с использованием Weblogo 3 [30].

Обнаружение остатков
<р> Так как CagA связан с почти всех гастродуоденальных заболеваний и простого анализа EPIYA мотив повторами не делает дают статистически значимых различий между этими заболеваниями, информация, указывающая конкретное заболевание может быть спрятаны в промежуточных областях. Это исследование предполагает, что существует множество остатков или остатков комбинаций, которые могут быть полезны в качестве маркера конкретного заболевания. Это исследование фокусируется на рак желудка и использует группы рака /не рака в качестве примера.
<Р> На основе выровненных последовательностей для каждой промежуточной области, специфические остатки были идентифицированы путем сравнения разности комбинаторной энтропии [31] между раком и нераковых групп. Эта процедура включает в себя следующие шаги:
<р> Во-первых, мы разделим данные множественные выравнивания для всех промежуточных регионов на две группы: желудочная группа рака и группа нераковых. Для каждого столбца множественных выравниваний, мы вычисляем фон энтропию (. Eq 1) и комбинаторной энтропии (. Eq 2), описывается следующим образом: (1), где представляет собой количество последовательностей в группе к
. указывает количество остатков типа в столбце I
группы к
. это количество остатков типа в столбце я
. представляет собой общее количество последовательностей в выравнивании (2), где
<р> Затем вычисляется разность энтропии между комбинаторной энтропии и фоновой энтропии:.. (3)
<р> Рисунок 3 иллюстрирует понятие энтропии с использованием трех крайних случаев. В случае, если P1, аминокислоты "случайным образом и равномерно распределены" по всем группам и нет никакого существенно сохраняется шаблон для этой позиции. Случай Р2 представляет 'глобально законсервированный' шаблон и все аминокислоты являются одинаковыми на обеих группах. В случае Р3, некоторые специфические аминокислоты сохраняются только в определенных группах, и различные группы имеют разные аминокислоты. Мы называем этот случай 'локально законсервированы.
<Р> По результатам расчета разности энтропии для этих трех случаях комбинаторной энтропии для обоих' глобально консервативными 'случаях и' локально сохраняющихся '. Для 'случайным образом и равномерно распределенной' случае, получает максимальное значение. Можно выделить «законсервированы» и «случайным образом и равномерно распределенные" случаи, основанные на комбинаторной энтропии, но это не поможет выбрать 'локально сохраненную «случай из всех« законсервированы »случаи. Если принять во внимание фоновой энтропии в то же время, получает максимальное значение 0 и среднего значения для "случайным образом и равномерно распределенной 'случае,' глобально законсервированы 'случае,' локально законсервированы 'случай, соответственно. И, наконец, различия для этих трех случаев :,, и получает минимальное значение. Следовательно, разность энтропии является собственным измерения для обнаружения 'локально сохраненную' образец последовательности.

Функция-энтропия Расчет
<р> Исходя из приведенного выше расчета, можно определить, что правильная группировка может свести к минимуму разность энтропии для тех остатков, относящихся к "локально" законсервированного случае. Чтобы выполнить тест, одна последовательность выбрана в то время как остальная часть последовательностей разделены на желудочную группы по изучению рака и группой неонкологического. Для всех выбранных остатков, выбранная последовательность помещается в желудочную группу рака, чтобы вычислить разность энтропии, а затем ее помещают в группу неонкологического, чтобы получить соответствующую разность значений энтропии. И, наконец, получено для всех выбранных остатков, которые используются в качестве признаков энтропии.

Классификация CaGa последовательностей

Dataset.
<Р> Мы искали Национальный центр биотехнологической информации (NCBI ), швейцарско-Prot /Трепещите и DDBJ белка базы данных и получили 535 штаммов H. пилори
CagA белка. Среди них есть 287 Восточной Азии штаммы подтипов и 248 западных штаммов подтипа. В Восточной Азии подтипа группы, 47 из 287 штаммов от больных раком желудка, а остальные от других болезней. В Западной подтипа группы, есть 37 штаммов из больных раком желудка, а также остатки от других заболеваний или нормального контроля, в том числе 24 штаммов из добровольцев, чье здоровье (болезнь) статус был неизвестен.

Рабочий процесс.
<р> на рисунке 4 показан рабочий процесс процедуры классификации /прогнозирования:
  • Выберите один штамм в качестве тест-штамма
  • Применить бутстраповские процедуру для остальных штаммов, чтобы получить. тренировочные штаммы.
  • Вычислить функцию энтропии для тестируемого штамма, основанного на обучении штаммов и сохранить его в качестве тестовых данных.
  • Вычислить функцию энтропии для каждого штамма в наборе обучения на основе штамма обучение штаммов и сохранить их в качестве обучающих данных.
    <литий> Создать модель классификации с помощью обучающих данных.
  • Классифицировать тестовые данные в соответствии с моделью классификации.
  • Повторите эту процедуру пять раз, а затем вычислить среднее значение как конечный результат.

    Бутстрэппинг.
    <р> Одним из основных вопросов в построении модели классификации в данном случае является большая разница размеров выборки между рак и нераковых группы, которые могут вызвать смещение в результатах классификации. Процедура самонастройки была применена для решения этой проблемы. В каждой группе подтипа, для каждого набора данных обучения /тестирования, все образцы неонкологические были включены, а затем штаммы были непрерывно взяты из группы рака на случайной основе до достижения того же размера группы без рака. В этом случае были использованы все имеющиеся данные, хотя были использованы образцы рака несколько раз, учитывая их меньший размер по сравнению с группой неонкологического. Эта процедура была применена в пять раз, чтобы генерировать пять независимых наборов обучения для каждой тестовой последовательности. В результате классификации /прогноз среднее из этих пяти независимых результатов.

    Перекрестная проверка.

    Поскольку размер данных мал, несмываемый один из (ЛОО) процедура перекрестной проверки была выполнена. Это не только оценка эффективности классификатор по данным обучения /тестирования, но и оценка мощности предсказания для новых случаев.

    SVM.
    <Р> Мы выбрали SVM в качестве бинарного классификатора и используется функция-энтропии векторов для обучения и тестирования классификатор. В случае двух классов мягкой маржинальной классификации, решающая функция является взвешенной линейной комбинацией определяется следующим образом: (4), где представляет собой определенную пользователем функцию ядра, которая измеряет сходство между входным вектором признаков и векторами признаков в обучении набор данных. это вес присваивается вектора признаков подготовки и указывает на то, был ли штамм CagA метили с положительным классом (+1) или отрицательного класса (-1). Изначальная задача оптимизации имеет вид: минимизировать (5) с учетом (6) где. м является общее количество штаммов. это фиктивная переменная, которая измеряет степень некорректным нулевой точки. является параметром стоимости, которая позволяет торговать от ошибки обучения от сложности модели. ш вектор нормали и Ь смещение
    . <р> После сравнения результатов полиномиальное, TANH и гауссовских радиальными базисными ядрами, результат, полученный с RBF ядра работали лучшие, где Гауссовские радиальные базисные ядра (RBF :) предназначены для обучения общего назначения, когда нет никаких предварительных знаний о данных. SVM пакет Light (http://svmlight.joachims.org/) [32] был использован для создания нашего приложения. Параметры и были настроены, чтобы получить лучшую модель для подготовки данных, как показано в следующем. Все остальные параметры SVM были установлены в их значения по умолчанию
    оценка

    Производительность
    <р> Для того, чтобы оценить производительность классификатора, различные меры производительности применяются:.. Точность, чувствительность и специфичность. Истинный положительный (TP) представляет собой последовательность рака, связанных с классифицировано как таковое, в то время как ложный положительный результат (ФП) является не связанных с раком последовательность классифицирован как рак, связанных, ложный отрицательный (FN) представляет собой последовательность рака, связанных с классифицироваться как -cancer связаны и истинный отрицательный (TN) представляет собой последовательность, не связанных с раком классифицированной как не связанных с раком. Точность, чувствительность (Sn), специфичность (Sp) и коэффициент корреляции Мэттьюз (ЦУП) классификации определяется следующим образом: (7) (8) (9) (10) Так как существует только два параметра для ядра RBF и они независимы, мы применили сетку-поиска для определения оптимальных параметров классификатора. Мы использовали гармонические средства чувствительности и специфичности в качестве целевой функции для оптимизации производительности модели для обучающей выборки, которая определяется следующим образом:
    (11)

    Результаты

    Обнаружение остатков и расчет по функциям

    в таблице 1 перечислены все обнаруженные ключевые остатков путем вычисления разности энтропии в каждой промежуточной области как для Западной и Восточной Азии подтипов. Хотя есть некоторые географические вариации CagA последовательностей между Западной и Восточной Азии подтипов, некоторые наиболее часто встречающиеся остатки до сих пор можно было бы узнать, чтобы отличить рак и не раковых групп. Это позволяет предположить, что эти остатки могут быть очень важны при определении вирулентности CagA и соотношение между CagA и некоторых специфических заболеваний.
    <Р> Остаток позиции показаны на рисунке 5. В предыдущем исследовании [27] показывает, что разные сегменты EPIYA могут связываться с различными киназ, например, EPIYA-R2 и EPIYA-R3 /R3 'связывание с с-концевой Src-киназы (Csk) в то время как EPIYA-R4 и EPIYA-R4' связываются с ШП-2-киназы, чтобы вызвать колибри фенотип. Взаимодействие CagA-Csk вниз регулирует передачу сигналов CagA-SHP-2, что возмущает клеточные функции для управления вирулентности CagA. Установлено, что большинство обнаруженных остатков принадлежат R2 и 'областей и несколько остатков в R4 /R4' R3 /R3 областей обнаружены. Это может быть потому, что R4 /R4 'имеет более консервативную последовательность, чем R2, и R4 /R4' короче, чем R3 /R3 '. Мы полагаем, что различные остаточные структуры в R2 или регионах R3 /R3 'может изменить способность понижающего регулирования сигнализации CagA-SHP-2, поэтому изменение вирулентности CagA.
    <Р> Ren и др. обнаружили, что CaGa multimerizes в клетках млекопитающих [33]. Это мультимеризация не зависит от фосфорилирования тирозина, но это связано с мотивом "FPLxRxxxVxDLSKVG", который назван СМ-мотив в промежуточной области в R3 '. Поскольку мультимеризация является необходимым условием для CagA-SHP-2 сигнализации сложный и последующее дерегулирование SHP-2, КМ мотив играет важную роль в CaGa-положительных H. Pylori
    -опосредованного желудка патогенез. С несколькими мотивами CM H. штаммы пилори
    имеют много вероятно, связано с серьезными заболеваниями гастродуоденальной [33], [34], но это наблюдение не может объяснить, почему различные гастродуоденальные заболевания могут быть разработаны с точно таким же числом СМ мотивов. Наше исследование обнаружило две остатки в СМ мотив промежуточной области R3 ', что может привести к изменению мультимеризацию, тем самым изменяя вирулентности CagA. Это согласуется с предыдущим открытием [35], что разность между последовательностью Восточной Азии КМ и Западной КМ определяет сродство связывания между CagA и SHP-2.
    <Р> В то время как основные остатки, обнаруженные может выявить некоторые различия между раком и нераковых групп, ни один из остатков не может быть маркером для рака, как показано на рисунке 5. Это исследование предсказывает, что одна специальная комбинация всех или частичных обнаруженных остатков может иметь высокую корреляцию с одним конкретным заболеванием. Чтобы проверить, несколько линейных статистических моделей, например, линейной регрессии и логистической регрессии, были применены к обнаруженным признаков, чтобы оценить важность каждого остатка и соотношение между выбранными остатками и рака. Тем не менее, ни одна из вышеуказанных моделей не были в состоянии производить статистически значимый результат. Поскольку функции не могут быть установлены с помощью простых линейных моделей для прогнозирования рака, применяя метод машинного обучения для анализа и классификации этих данных становится необходимым.

    Обучение параметров для классификации
    <р> Используя западную подтипа группу в качестве пример, свободная сетка-поиска была впервые исполнена на и (6А) и обнаружили, что лучше всего вокруг, чтобы получить максимальное значение F со скоростью ЛОО перекрестной проверки 76%. Затем мельче поиск сетки проводился на окрестности и лучшее значение F было получено с 79,7% LOO перекрестной проверки на. Та же процедура была использована для Восточной Азии подтипа группы и лучший ЛОО скорости перекрестной проверки было достигнуто на 72,6%.
    <Р> Так как нет никаких предыдущих исследований или расчетные методы на ту же тему, оценивая выполнение этой новый метод исследования является трудным. Для оценки информационного содержания последовательностей с точки зрения их разборчивого власти, чтобы предсказать рак, случайная процедура перетасовка была использована для создания контрольной группы. Во-первых, все последовательности из западного подтипа были помещены вместе, чтобы построить бассейн последовательности. Во-вторых, мы случайным образом выбрали одинаковое количество последовательностей в группе рака из пула последовательности и обрабатывают остаток последовательностей как группы неонкологического. Затем вся процедура обучения была применена к вновь перемешиваются данных, чтобы найти лучшее. Вышеуказанные шаги были повторены пять раз, чтобы произвести пять независимых перемешиваются наборов данных. С наивысшим F
    значения, что составляет 46,6% был выбран и ее контурный график показан на рисунке 6B. Это случайно перетасовки оценка была также применена к Восточной Азии данных подтипов и лучший F
    значение было на уровне 54,3%. При сравнении двух графиков показывает существенную разницу F
    значения между данными с правильной группировкой раковых и нераковых случаев в обучении и лучших случайным образом перемешиваются данных. Результат наводит на мысль, что промежуточные регионы являются информативными для различения между раком и нераковых групп и наш метод может эффективно использовать информацию.

    Классификация Производительность
    <р> Существуют в основном три категории классификации последовательностей методы: на основе функция, расстояние последовательности на основе и на основе модели. Метод, который мы описали в данной статье относится к художественному на основе категории. Мы выбрали два наиболее популярных инструментов классификации последовательности в качестве репрезентативного методов двух других категорий для сравнения. BLAST [36] был выбран для категории на основе расстояния последовательности, так как она является наиболее широко используемым инструментом сравнения последовательностей. Для модели на основе категории, скрытая модель Маркова является самым распространенным методом для анализа последовательности и ее широко используемым инструментом, HMMER [37], был выбран. Для процедуры классификации обоих BLAST и HMMER, мы использовали параметры по умолчанию инструментов, применил тот же Лоо кросс-валидацию как наш метод, и использовали те же формулы оценки, перечисленные в разделе Метод.
    <Р> Таблица 2 приведены результаты классификации для всех трех методов. Метод СВМ выполняет значительно лучше, чем два других подходов. BLAST достигается близкую точность методу Энтропия-SVM, но он предсказал много ложных негативов с низкой чувствительностью. HAMMER достигается высокая чувствительность, но с небольшим количеством специфичности. Учитывая F
    ценности и
    значения Корпорации вызовов тысячелетия, результаты прогнозирования из BLAST и молотом почти случайным образом.
    <Р> В результате классификации и контур участка (рисунок 6) решительно поддерживают наши гипотеза, то есть, информация о выбранных остатков в промежуточные участки, могут быть использованы для классификации соотношение между CagA последовательностями и раком желудка, хотя различие между профилями раковых и нераковых групп не очень сильна.
    <Н3> Сравнение среди различных заболеваний

    H. Pylori
    инфекция связана с большинством заболеваний гастродуоденальной, среди которых рак желудка является наиболее тяжелым из которых погибли более 700000 человек во всем мире каждый год [38]. Так как H. пилори
    является основным фактором риска развития рака желудка (GC), открытие механизма H. пилори
    посредническую GC становится первоочередной задачей в этой области. По сравнению с другими заболеваниями, информация диагноз GC из общедоступных данных относительно точной, и это еще одна важная причина, чтобы сосредоточиться на GC в данной работе. Наши исследования не ограничиваются GC, хотя. Мы также попытались оценить отношения между дисперсией CagA последовательностей и различных заболеваний.
    <Р> Так как большинство данных были собраны из общедоступных баз данных без точной информации диагноза, перед применением нашего метода к данным CagA, мы вручную куратором аннотаций болезни для всех штаммов путем анализа литературы. В таблице S1 приведены распределения основных заболеваний как для западной и подтипов групп East Asain. Из-за ограничения числа деформации некоторых заболеваний, таких как атрофический гастрит (АГ) и язвенной болезни желудка (GU), мы в конце концов выбрали хронический гастрит (ХГ) и двенадцатиперстной кишки (DU) в качестве контрольной группы для оценки. Группа DU в подтипе Восточной Азии содержит 79 штаммов, и процедура самонастройки была применена ко всем другим группам, чтобы сделать то же самое число штаммов, группы Восточной Азии DU. Этот шаг гарантирует, что все сравнения в том же масштабе, так как значение комбинаторной энтропии зависит от числа последовательностей. Мы использовали формулу (3), чтобы вычислить разность значений энтропии каждой позиции между GC и CG /ДУ групп, а затем суммируются все энтропийные различия как общего разница между GC и CG /ДУ группами, как показано в таблице S2. Путем сравнения результатов между двумя группами в пределах одной географической подтипа (Восточной Азии или Западной подтипа), это согласуется с клинической точки зрения, что гастрит имеет прочные отношения к раку, чем DU [39] (как правило, случаи гастрита могут содержать некоторые незарегистрированными или не диагностируется хронический атрофический гастрит и кишечные метаплазии случаи, с которыми пациенты имеют высокий риск развития GC). Рассматривая ту же болезненного пару между двумя географическими подтипов, он также объяснил вирулентную разницу между Восточной Азии и западных подтипов. Кроме того, из-за высокого сходства между различными группами болезней подтипа Восточной Азии, даже с большим количеством данных, мы по-прежнему не может достичь той же точности классификации как Западной подтипа группы.

    На основании приведенных выше результатов, CagA последовательности показывают потенциал различать несколько гастродуоденальных заболеваний. Для того чтобы оценить эффективность классификации, мы использовали группу DU заменить группу нераковых, а затем снова применили всю процедуру классификации без самозагрузки, поскольку эти два заболевания группы имеют сопоставимые размеры. Таблица S3 показывает результаты классификации. Несмотря на то, с клинической точки зрения, DU имеет negtive корреляцию с GC среди всех гастродуоденальных заболеваний [40], производительность классификации двух подтипов групп была лишь незначительно улучшена. Таким образом связанных с раком штаммы CagA могут иметь некоторые уникальные шаблоны последовательности, сравнивающие ко всем другим гастродуоденальных заболеваний. Следовательно, настройка подмножества контрольной группы не может быть в состоянии улучшить точность классификации.

    Обсуждение
    <р> Хотя исследования показывают, что существуют маркеры последовательности, чтобы различать группы рака и группе без рака , основные профили этих двух групп слишком похожи, чтобы отличить с помощью традиционных методов, так как CagA последовательности в целом высоко консервативны. Поэтому мы сосредоточились на определении информативных остатков, количественной информации этих выбранных остатков, а затем использовать его для разработки классификатор, который может предсказать, принадлежит ли новая последовательность в группе рака или группе без рака. Этот метод не только проливает свет на отношения между CagA последовательностями и рака желудка, но также может стать полезным инструментом для диагностики рака желудка или прогноза.

    Механизмы H. пилори
    вызывая различные заболевания гастродуоденальной пока не ясны, однако вполне вероятно, что различные гастродуоденальные заболевания, вызванные H. пилори
    инфекции Share некоторые модели последовательности в промежуточных областях. Небольшие вариации аминокислот в этих важных остатков может привести к вирулентности дисперсии штаммов CagA что приводит к различным заболеваниям гастродуоденальной. Хотя CagA может быть маркером для выявления потенциального риска развития рака, используя CagA в одиночку, чтобы отличить все гастродуоденальных заболеваний не является реалистичным. В качестве будущего исследования, мы будем разрабатывать новые модели, которые отличают различные желудочно-кишечных заболеваний от CaGa и других генов.

    Поддержка Информация
    таблице S1. .
    Количество штаммов в каждой болезни
    DOI: 10.1371 /journal.pone.0036844.s001
    (DOC)
    Таблица S2. .
    Общая разница энтропии между раком желудка и двух других групп заболеваний
    DOI: 10.1371 /journal.pone.0036844.s002
    (DOC)
    Таблица S3. производительность
    Классификация между раком желудка и двенадцатиперстной кишки групп язвенных как для Западной и Восточной Азии подтипов
    DOI:. 10,1371 /journal.pone.0036844.s003
    (DOC)

  • Рак желудка

    Other Languages