Stomach Health > Желудок Здоровье >  > Gastric Cancer > Рак желудка

PLoS ONE: экспрессии генов Подписи можно выделить Классы рака желудка и Stages

Абстрактный
<р> Microarray экспрессии генов данных 54 парного рака желудка и прилегающих к нему нераковых тканей желудка были проанализированы с целью установить подписи гена, ответственного за сорта рака (хорошо, moderately-, poorly- или ун-дифференцированная) и стадии (I, II, III и IV), которые были определены патологоанатомами. Наш статистический анализ привел к выявлению ряда комбинаций генов, экспрессия которых образцы служат также подписями различных марок и различных стадий рака желудка. Было обнаружено, что 19-ген подписи, чтобы иметь власть между распоряжении высоко- и низкокачественных видов рака желудка в целом, с общей точностью классификации на 79,6%. Развернутую панель 198-ген позволяет стратификацию раков на четыре класса и контроля, что приводит к общему соглашению о классификации 74,2% между каждой марки, обозначенной патологоанатомов и нашего прогноза. Две подписи для различных стадий рака, состоящие из 10 генов и 9 генов, соответственно, обеспечивают высокую точность классификации на 90,0% и 84,0%, в том числе ранне-, рака и контроля запущенной стадии. Функциональный и путь анализы на эти гены подписи показывают значительную актуальность полученных подписей классов рака и прогрессии. Насколько нам известно, это представляет собой первое исследование по идентификации генов, экспрессия которых образцы могут служить в качестве маркеров для сортов рака и стадий
<р> Цитирование:. Цуй J, Li F, G Ван, Fang X, Puett JD, Сюй Y (2011) экспрессии генов Подписи можно выделить Классы рака желудка и этапы. PLoS ONE 6 (3): e17819. DOI: 10.1371 /journal.pone.0017819
<р> Редактор: Аманда Толанд, Государственный университет штата Огайо медицинский центр, Соединенные Штаты Америки
<р> Поступило: 24 ноября 2010 года; Принято: 9 февраля 2011 года; Опубликовано: 18 марта, 2011
<р> Copyright: © 2011 Кюи и др. Это статья с открытым доступом распространяется в соответствии с условиями лицензии Creative Commons Attribution, которая позволяет неограниченное использование, распространение и воспроизведение на любом носителе, при условии, что оригинальный автор и источник кредитуются

Финансирование:. Это исследование была частично поддержана Национальным научным фондом (DEB-0830024, DBI-0542119), Национальным институтом здоровья (1R01GM075331), в "Выдающийся ученый" грант от Грузии рака коалиции и семенного фонда совместно с венчурным фондом президента и Канцелярия вице-президента по исследованиям университета Джорджии. Доноры не играет никакой роли в дизайн исследования, сбора и анализа данных, решение о публикации или подготовки рукописи
<р> Конкурирующие интересы:.. Авторы заявили, что не существует никаких конкурирующих интересов

Введение
<р> градация Рак является мерой злокачественности рака и агрессивностью. Популярная система классификации использует четыре уровня злокачественности (G1-G4), что отражает совокупный уровень клеточного появления аномалии, отклонения в скорости роста от нормальных клеток и степень инвазивности и распространения. Эти патологические меры были признаны в общем согласовании с уровнем клеточной дифференцировки (американской совместной комиссии по Cancer) [1]. Следовательно, {G1, G2, G3, G4} также упоминается как хорошо, moderately-, poorly- и ун-дифференцированный, соответственно. В настоящее время, не было универсальной системой классификации для всех видов рака. Вместо этого, различные системы классификации были предложены для различных видов рака. Например, система [2] Глисон, пожалуй, самый известный для сортировки клетки аденокарциномы в раке простаты в то время как система Блума-Ричардсона [3] используется для рака молочной железы, а также система Фурман [4] используется для рака почки
. <р> рак желудка, второй ведущей причиной рака, связанных смерти во всем мире, особенно распространена в азиатских странах, в том числе Китая, Кореи и Японии [5]. В США эта болезнь протекает бессимптомно у ~21,500 новых случаев в 2008 году вместе с 10.800 смертей [6]. В отличие от других видов рака, рака желудка еще не имеют общепринятой схемы классификации. Градация была в основном делается на основе достаточно общих принципов классификации рака от организаций, как Американская Объединенной комиссии по рака. Есть несколько систем классификации рака желудка в гистологических подтипов, в том числе и с помощью Лорен [7], Всемирная организация здравоохранения (ВОЗ) [8] и Goseki и др. [9], [10], которые определяют подтипы в соответствии с конструктивными особенностями рака, гистопатологических появлений клеток, и уровень слизи, соответственно. Тем не менее, это в значительной степени спорным относительно того, любой из этих систем действительно отношение к степени злокачественности и живучести, таким образом, иметь не был широко используется для классификации рака желудка [11]. Не хватает из хорошо налаженной системы классификации для рака желудка остается одним из основных препятствий, препятствующей прогрессу в этой области.
<Р> Мы представляем вычислительный исследование здесь целью определить набор генов, экспрессия которых образцы могут хорошо различать среди рака желудка различных марок, как Oncotype DX, панель 21-гена для выявления рака молочной железы с низким уровнем риска [12]. Эти гены, чьи паттерны экспрессии различают рак желудка различных сортов, получить полезную информацию в отношении разработки экспрессии на основе системы классификации генов рака желудка. Кроме того, мы также представляем наши выводы по экспрессии генов, общих для моделей рака на разных стадиях развития, потенциально служить в качестве молекулярных подписей для желудка стадий рака.


Результаты

A. Идентификация генов с изменениями экспрессии коррелируют с оценками раком
<р> 17800 генов человека были профилированные в данном исследовании, используя Affymatrix экзона Массивы. Из 54 образцов рака, 8 хорошо дифференцируются (WD), 9 умеренно дифференцированные (MD), 35 слабо дифференцированы (PD) и 2 недифференцированные (UD). были найдены в общей сложности 452 генов, дифференциально выражены как определяется с использованием следующих критериев: уровни экспрессии при раке и соответствующей контрольной ткани показывают по меньшей мере, в 2 раза изменить, и статистическую значимость, P
-value , иметь такой уровень изменения экспрессии является ≪ 0,05 (см Материалы и методы, названия генов приведены в таблице S1). Среди 452 генов, 97 однозначно в UD, 62 в PD, 8 в МД и 16 однозначно в WD представляют собой Основной набор Каталог дифференциально выраженных генов, которые последовательно определены путем применения различных стратегий классификации с использованием paired- выборочная информация или нет. Этот набор включает в себя гены, проявляющие самое последовательное изменение экспрессии (более чем в 2 раза) при раке в сравнении
тканей управления, которые были признаны дифференциально экспрессируются гены с высокой степенью надежности, полученных с помощью нескольких статистических тестов. В противоположность этому, весь набор 452 генов представляют собой расширенный набор. Мы отметили, что есть общая тенденция, что число дифференциально экспрессированных генов возрастает как рак желудка, по отношению к нормальной ткани, более слабо дифференцированы, как показано на рисунке 1. Это наблюдение согласуется с нашими общими знаниями, малотоксичны дифференцированные раковые заболевания, как правило, имеют более выраженные гены дифференцированно и являются более агрессивными; исключение для WD, как показано на рисунке 1, могут отражать небольшие размеры WD и MD-группы.
<р> Затем мы проверили, если некоторые гены могут иметь их изменения экспрессии коррелируют с оценками рака. Для этого, мы рассчитали коэффициент корреляции Спирмена (CC) между средним выражением каждого гена во всех образцах каждого сорта и четырех классов рака. Было установлено, что выражение изменения 99 генов коррелируют идеально с оценками WD-MD-PD-UD (| CC
| = 1, P
-значение ≪ 0,05) (подробнее см в таблице S2). Среди этих генов являются POF1B
, MET
, CEACAM6
, ZNF367
, GKN1
, LiPF <бр>, SLC5A5
, MUC13
, CLDN1
, MMP7 и ATP4A
, которые все, как известно, связанных с раком. На рисунке 2 показаны четыре примера с положительными или отрицательными корреляциями. Среди них, MUC13
было сообщено как хороший маркер уровня дифференциации слизистой оболочки желудочно-кишечного тракта [13]. Повышенная экспрессия MUC13 было обнаружено, чтобы вызвать морфологические изменения, в том числе рассеяния клеток вследствие интерференции с функцией молекул клеточной адгезии [14]; Таким образом, повышенная экспрессия наряду с дифференциацией может свидетельствовать повысить межклеточную адгезию
<р> Мы отметили, что гены с их экспрессии изменения коррелировали с оценками рака сильно обогащены из секретируемых или мембранных белков. (P- &ЛТ; 0,05) , которые участвуют в нескольких сигнальных путей, таких как ErbB, FAS, NOD-подобных рецепторов, PPAR и передачи сигналов Wnt, а также молекул клеточной адгезии (АМСГ) и плотных контактов. Это не удивительно, так как эти пути, по существу, участвуют в росте клеток и гибели клеток, а также метастазирование рака. Такие изменения в экспрессии генов этих путей, участвующих в передаче сигнала и внеклеточной связи, может содержать сведения о прогрессии рака.

B. Идентификация генов подписей для сортов рака
<р> Мы рассмотрели 452 дифференциально выраженных генов, с целью идентификации генов, чьи паттерны экспрессии могут с хорошей точностью и надежностью, отличить рак желудка различных сортов. Анализ классификации (см методы) впервые была проведена между двумя группами рака (сильно и слабо дифференцированной), а затем распространяется на пять групп, а именно четырех классов рака и контроля. Опорный вектор машины (SVM) основе был применен регрессивный подход устранение особенность, с использованием линейного ядра для классификации рака (см методы).
<Р> В конце 19-ген группы был идентифицирован, который может различать между высокой и плохо дифференцированные раки с общим соглашением на 79,2%, на основании выражения сгиба изменения при раке в сравнении
тканей управления. Аналогичным образом, 198-ген группа может различить среди четырех различных сортов рака и контрольной группы в соответствии с их экспрессии генов, что приводит к 74,2% общей точности классификации. Оба набора генов были выбраны на основе большинства голосов (по крайней мере, 70% концентрации) Схема из результатов классификации на 500 наборов случайным образом отобранных из 54 наборов образцов, а также их значение рейтинга (см методы для получения подробной информации).
<Р> 19-ген подписи состоит из ADIPOQ, COL6A3, TNS1, SCN7A, DES, VIL1, COL3A1, C2orf40, SMYD1, ACTG2, Meis1, C7, GPR174, SHCBP1, DUSP1, DNAJB5, HIATL1, IL17RB и FAT. Пристальный взгляд на функциональную аннотацию этих генов показало, что их белковые продукты участвуют в росте клеток и дифференцировки (IL17RB, SMYD1, SHCBP1), подвижность клеток (ACTG2), ангиогенез и ремоделирование тканей (ADIPOQ), канцерогенез (ECRG4), матрицы синтез белка (COL3A1, COL6A3), и другие, как G-белками рецептора 174 (GPR174), щеточной каемки цитоскелета (VIL1), мембрана атаки комплекса (C7) и натриевого канала (SCn7A).
<р> 17 из из 19 генов, плюс дополнительно 181 генов, образуют 198-группу генов, экспрессия модели можно выделить четыре сорта рака и контроля. Их функции охватывают деление клеток, иммунный ответ, трансдукции сигнала и регуляции транскрипции, в дополнение к вышеупомянутым категориям. В целом, 39 из 99 генов класса-коррелируют являются частью этого 198-гена подписи, в том числе CLDN1, MUC13, VIL1, HIATL1, CDCA7, HIST1H2BM и FAT (полный список в таблице S3).
<Р> В дополнение к этому броской все подписи для пятипозиционный классификации, мы также выявлены и проанализированы класса специфических подписей генов для каждого сорта рака. Например, LAPTM4B является одним из таких представителей. Этот ген дает высокую точность классификации CANER и контрольных образцов в группе WD с AUC (площадь под кривой) = 0,97 (рисунок 3). Использование 7.04, как выражение обрезания, этот ген может также отличить рак от контрольных образцов в группе WD с чувствительностью = 87,5% и специфичность = 100%. Этот результат не является неожиданным, так как известно, что LAPTM4B имеет важное значение для роста и выживаемость клеток, и его повышающая регуляция было установлено, что коррелирует с уровнем дифференциации гепатоцеллюлярной карциномы [15]. В общей сложности 40 таких генов подписи найдены специально для группы WD; 18, 20 и 255 генов являются специфическими для группы MD, PD и UD, соответственно (подробности см в таблице S4).
<Р> Мы также идентифицировали одиночные дискриминаторов ген для каждой группы класса по отношению к остальной части образцов, в том числе контроль, как и в таблице 1. например, сигнатура для группы PD включают повышающей регуляции генов, MYO1B
для WD; GKN2
для MD; CTSA
для PD; и понижающей регуляции генов, RHOJ,
для группы UD. Эти одного гена дискриминаторов показывают значительные AUCs, начиная от 0,76 до 0,99, в то время как общая классификация точности полученный 5-кратным диапазоном перекрестной проверки от 70,0% до 97,0% для разных групп. Последующее поиск к
-gene комбинации (к = 2, 3, 4) для каждой группы рака путем исчерпывающе пройдя через все комбинации к
-gene группы также определены. <Бр>

C. Идентификация подписей генов патологической стадии

Используя аналогичный анализ для тех из вышесказанного, мы определили подписи гена на ранней стадии (стадия I + II) и прогрессирующий рак стадии (стадия III + IV). В таблице 2 отражены наиболее дискриминационные одиночные маркеры генов, с точностью классификации в пределах от 75,0% до 81,4%. Подписи нескольких генов были также проверены на различных стадий рака. Например, были обнаружены две подписи, что особенно эффективно в различных стадий рака, а именно 10-гена группы (CPS1 + DEFA5 + DES + DMN + GFRA3 + MUC17 + OR9G1 + REEP3 + TMED6 + ТТН) и 9-ген группу (ДПТ + EIF1AX + FAM26D + IFITM2 + LOC401498 + OR2AE1 + PRRG1 + REEP3 + RTKN2) , который может различать ранний и передовые рак желудка от остальной части образцов (в том числе контрольных образцов) с договорами 90,0% и 84,0%, соответственно. Общая точность классификации по трем группам, рано, продвинутый и контроль, составляет 71,4%.
<Р> Функциональный анализ этих генов подписных показал кое-что интересное. Например, среди белковых продуктов на ранней стадии подписи генов, GFRA3
, MUC17
, OR9G1
, REEP3 и TMED6
являются мембранные белки , в основном рецепторы, которые преобразовывают внеклеточные сигналы. DEFA5
является бактерицидная пептид полагают, участвует в защите хозяина, который высоко выраженной в подвздошной кишке [16]. CPS1
, DES и ТТН
участвуют в многочисленных обменных процессов, функции мышц и M фазы митотического клеточного цикла, соответственно. Мы полагаем, что эти СИГНАЛА и immune- родственные гены могут представлять собой раннюю ненормальность клеток тканей во время онкогенеза в целом.
<Р> были найдены несколько генов, чтобы быть как в классификации рака и постановка подписей, таких как CPS1, DES, GFRA3, TMED6 и ДПТ, что указывает на некоторую биологическую значимость между дифференциацией рака и прогрессии. Затем мы исследовали, является ли экспрессия гена подписей стадирования связаны с патологическими стадии. Среди них те, сильно коррелируют с различными патологическими стадий LANCL3
, MFAP2 и PPA1
(Рисунок 4), показывая последовательное вверх и вниз регулирования, соответственно, наряду с прогрессированием рака.

D. Идентификация дифференциально выраженных генов независимыми сортов рака и стадий
<р> В дополнение к дифференциальной экспрессии специфического к определенным подгруппам рака желудка, мы также исследовали, если некоторые гены дифференциально экспрессируются в раке желудка в целом, независимо от сорта и этапы. 62 таких генов были обнаружены с последовательным дифференциальным выражением, по крайней мере, в 2 раза изменений при раке по сравнению с
соответствующих опорных тканей. Мы отметили, что они в основном участвуют в внеклеточных процессов, таких как фокусное адгезии, кулачки, плотного контакта, взаимодействия рецептора цитокина-цитокин и взаимодействия ЕСМ-рецепторов, каскад активации плазминогена, а также сигнальных путей, включая сигнализацию Wnt и сигнализации интегрина, которые тесно отношение к росту клеток и контроля пролиферации клеток. Поиск по нашей внутренней базе данных (http://bioinfosrv1.bmb.uga.edu/DMarker/), которая включает в себя общественные наборы данных микрочипов из GEO [17], Oncomine [18] и SMD [19], охватывающих более 53 заболеваний человека, в том числе рак, мы обнаружили, что дифференциальные паттерны экспрессии генов 15 являются весьма специфическими для рака желудка, таких как GKN2, CLDN7, Thy1, GIF и PGA4, в то время как большинство других являются общими для нескольких типов рака. Например, наиболее общие из них включают несколько членов семейства генов коллагена (COL1A2, COL3A1 и COL1A1), Карциноэмбриональный антиген, связанных с клеточной адгезии молекулы (CEACAM6), матричные металлопротеиназы (MMP1, MMP7 и ММР12), топоизомеразы (top2a) и секретируется фосфопротеином (SPP1).
<р> только три, CLDN7
, CLDN1 и ДПТ
, из этих генов значительно дифференцированы во всех классах или стадий рака желудка. Мы можем видеть из рис 5А и 5В, что и CLDN7 и CLDN1
высоко выражены при раке в сравнении
контрольных образцов во всех классах и этапах, с умеренным повышением в начале раковых тканей, в то время как ДПТ
подавлялась во всех этих группах. Последовательная паттерн экспрессии во всех подгруппах рака может указывать, что эти гены участвуют во многих основных биологических путей, участвующих в формировании и прогрессировании рака. Как известно, эти два клаудин белки, клаудин-1 и клаудин-7, являются интегральными мембранными белками решающее значение для формирования плотных соединений, поддерживая адгезию клетки к клетке и регулирования парацеллюлярная и трансцеллюлярного транспорта растворенных веществ через человека эпителием и эндотелием, которые дифференцированно экспрессируются в различных видов рака, таких как рак шейки матки неоплазии [20], карциномы почек [21] и кишечном типе рака желудка [22]. Dermatopontin ( ДПТ
) представляет собой внеклеточный матрикс белок служит в качестве линии связи между поверхностью дермальные фибробласты клетки и ее внеклеточного матрикса. Ее снижение экспрессии также были обнаружены в обоих маточных лейомиомы и келоидов [23]. ROC показано на рисунке 5С указывает на то, что эти гены могли бы быть использованы в качестве эффективных маркеров для диагностики рака желудка в целом.

E. Проверка идентифицированных подписей на публичных наборов данных
<р> паттерны экспрессии наших идентифицированных генов подписи были проверены в отношении двух общественных наборов данных, а именно: Ким
и Такено
наборы данных (см материалы и методы), чтобы определить общность этих подписей генов. Как показано на рисунке 6, распределение экспрессии дифференциалов между нашими данными и Ким
набор данных значительно согласные, что свидетельствует о том, что общая применимость наших выявленных маркеров. Из 19 и 12 перекрывающихся генов из указанных выше классов-коррелированных и перечень генов стадии-коррелируют, 10 и 5 показывают аналогичные модели экспрессии через раков классов G1-2 /G3-4 и I-IV стадии в Ким
данных, соответственно, что отражает высокую консистенцию в паттернов экспрессии этих генов среди различных наборов образцов.
<р> в целом, наш 19-ген подписи для сортов рака показали хорошие результаты на Ким
данные и получили 78,0% точность классификации на 5-кратной кросс проверки с точки зрения разграничения плохо из сильно дифференцированных видов рака. Точно так же, подписи двухступенчатые (10-гена и 9-групп генов) получены соответствующие точностей 84,0% и 76,0% по сравнению с Ким
наборе данных. 198-гена подпись не была проверена, так как Ким
набор данных обеспечивает только откидные изменение вместо исходных данных выражения.
<Р> Интересно, что мы уже отмечали, что существует умеренная корреляция между экспрессией генов нашего Выделены группы сигнатур и рецидива рака на основе перитонеального рецидива информации данных Такено в работе [24]. В частности, четыре подписи, 19-, 198-, 10- и 9-групп генов, можно предсказать, в брюшную рецидивы с общей точностью 66,0%, 87,2%, 73,0% и 55,3%, соответственно, с учетом разницы между relapse- свободные и перитонеальный-рецидивом пациентов в исследовании Такено [24].

Обсуждение
<р> микрочипов экспрессии генов анализы на рак желудка ранее определили экспрессию генов моделей для прогнозирования прогноза [25], [26] и общий диагноз рака [27], [28] (как рассмотрено в таблице S6), но ни для желудка подтипов рака или классификации. Здесь мы представили анализ на 54 пар рака и прилегающих к ним опорных тканей из того же числа больных раком желудка и определили молекулярных сигнатур для классов рака и стадий.
<Р> Известно, что различные классификации и анализа генов селекции может привести к различным подписей генов, что создает серьезную проблему о стабильности и полезности выбранных подписей генов. Чтобы справиться с этой проблемой, мы применили исчерпывающие поиски подписей к-гена (K < = 4) в сочетании с надежной процедурой выбора признаков с большинством голосов при к > 4, что обеспечивает стабильность выявленных генов подписи. С другой стороны, из-за сложного характера данных рака экспрессии генов, общее убеждение в том, что различные методы классификации могут привести к различным подписей, но не меньшее значение, поскольку они могут соответствовать разным путям, связанных с различными аспектами рака , В дополнение к этим техническим отклонениях, ограниченный размер выборки и разнородность существующих среди подгрупп рака отмечены как другие основные факторы, влияющие на выбранные маркеры.

В заключение, мы показали здесь, что паттерны экспрессии генов могут быть использованы как эффективные сигнатуры для желудка классификации рака и постановки, а также прогностического предсказания. Были предложены два типа подписей для обслуживания различных диагностических целей, каждая из которых показывает определенное отношение к злокачественности рака и прогрессии рака. Такие попытки использования молекулярно-класса и Сценическое подписи, как ожидается, значительно выиграют развитие персонализированной медицины и может привести к появлению новых маркеров в сыворотке крови.

Материалы и методы

Образцы тканей
<р> Образцы были взяты из первичных злокачественных раковых заболеваний желудка у пациентов с необработанными во время первоначальной хирургической процедуры в трех дочерних больницах университета Цзилинь колледжа медицины и Цзилинь онкологической больницы Provincial, Чанчунь, Китай. Для каждого образца ткани рака, образец ткани соответствующий эталонный была собрана из соседнего доброкачественное области, что хирург резекцию с целью обеспечения положительной рентабельности. Все образцы быстро замораживают в жидком азоте в течение 10 минут после иссечения и хранили при -196C до экстракции РНК. Для выделения РНК, были использованы 100 мкм участки каждого образца.
<Р> Все медицинские записи и секции рака были исследованы хирургическим патологоанатомом, и были сделаны гистологический диагноз и классификация TNM согласно всемирной организации здравоохранения (ВОЗ критерии) и система классификации Международного союза против рака. Эталонные образцы были подвергнуты тщательному гистологическими анализами, чтобы гарантировать полное отсутствие раковых клеток. Письменное информированное согласие было получено от всех пациентов, который был одобрен Институциональным наблюдательным советом Университета Джорджии, Афины, Джорджия, США и китайским IRB контроль человека предметов в Цзилинь университетского колледжа медицины и больницы провинции Цзилинь рака, Чанчуне , Китай.

Подробная информация пациента, такие как возраст, пол, гистологического типа, дифференциальный класс, патологической стадии и истории употребления алкоголя /курения приведен в таблице S5.

микрочипов эксперименты
<р> образцы РНК анализировали с использованием GeneChip Human экзоне 1.0 ST (Affymetrix), в соответствии с протоколом, детально описанной в выражении GeneChip Анализ Техническое руководство (P /N 900223) для эксперимента массива и предыдущем докладе [29]. Микрочипов были отсканированы с помощью сканера GeneChip® 3000 с GeneChip® Операционная система (ГСНК). Все данные MIAME податливыми и необработанные данные были депонированы в базу данных GEO (ID: GSE27342).

Microarray Анализ данных
<р> Результаты экспрессии генов были обобщены на основе исходных интенсивностей зонда с использованием Robust многокристальные Средняя [30] и APT пакет (http://www.affymetrix.com/partnerSupplementaryprograms/programs/developer/tools/powertools.affx), следующие три основных этапа, включая коррекцию фона, квантильному нормализации и log2-преобразования. были удалены Гены, имеющие очень низкую экспрессию в обоих рака и эталонных образцах; В частности, ген был удален, если его максимум (Expr.cancer, Expr.normal)
была ниже 4 (нормализованная интенсивность сигнала).
<р> две различные стратегии были применены для оценки значимости генов, в зависимости от того, что сравнивали условия и является ли парные или непарные образцы должны быть использованы. Для сравнения рака против контрольных образцов групп, непарные тесты были проведены, чтобы исследовать, если две группы выражения различны, в то время как парные тесты были применены для изучения последовательности изменений экспрессии во всех парах. В дополнение к Уилкоксона-ранговый критерий, мы также применяется еще один простой статистический тест для выявления генов с последовательным дифференциальным выражением при раке по сравнению с
ссылки на ткани, следующим образом. Для каждого гена, К <югу> ехр
, число пар рака /опорных тканей, экспрессия которых складными изменение (FC) больше, чем к
(например, к
= 2) было рассмотрено; если Р-значение для наблюдаемого K <суб> ехр
было меньше, чем 0,05, то ген считается дифференцированно выражены в большинстве пар рак и опорный ткани (см сопровождающую информацию). Наша рассчитывается P-значение не корректировалась на тестировании несколько гипотез, чтобы избежать каких-либо потерь генов, которые потенциально могут быть эффективными в последующей стадии классификации.

Выбор генов и классификация
<р> Для к -gene подписи (к &л; = 4), мы провели исчерпывающий поиск всех комбинаций K-генов среди дифференцированно выраженных генов, выявленных на предыдущем шаге, с использованием линейного SVM на основе классификации подход, и общая точность была оценена с использованием 5-кратная кросс-проверка. При к &соли 4, другой подход, используя эвристический поиск был применен, поскольку исчерпывающий поиск слишком много времени, чтобы быть практичным для нашей задачи. Детали следующим образом.
<Р> Весь набор выражение данные были случайным образом разделены на учебные и испытательные наборы, каждый из которых содержит половину образцов. Это повтор ли в течение 500 раз, чтобы произвести 500 комплектов данных, обучение /тест для классификации. Линейная SVM был использован для обучения классификатор [31], [32]. Он строит гиперплоскость, отделяющую два различных класса векторов признаков с максимальным запасом. Эта гиперплоскость строится путем нахождения вектора ш и переменную Ь которые сводят к минимуму, которая удовлетворяет следующим условиям:
<р>, для (образцов рака) и (нормальные образцы). Здесь есть вектор функция, является индексом группы, W представляет собой вектор нормали к гиперплоскости, является расстоянием от гиперплоскости до начала координат и является евклидова норма ш. После определения ш и Ь значений, заданный вектор х можно классифицировать с помощью; положительное или отрицательное значение указывает на то, что вектор х принадлежит к положительному или отрицательному классу, соответственно. Подписи гену каждого обучающего набора были выбраны с помощью рекурсивной процедуры исключения функция (РСЕ), который является оболочкой, которая выбирает гены прогнозирующих, устраняя гены, не прогнозирующих в соответствии с функцией гена ранга генерируемой из системы классификации [33]. Ранжирование критерий основан на изменении целевой функции при удалении каждого гена. Для повышения эффективности обучения, эта целевая функция представляется в виде функции стоимости J
для я
-ю функцию, вычисленный с использованием только обучающей выборки. Когда ген удаляется или его вес W <суб> I сводится к нулю, то изменение функции стоимости J (I)
дается. Случай соответствует удалению я
-ю ген. Изменение функции стоимости показывает, какой вклад гена в решающей функции и служит показателем генного ранжирования
.

500 комплектов подготовки /испытаний были случайным образом разделены на 10 группы образцов. Каждая группа образцов была затем использована для получения подписи, на основе большинства голосов и оценке генов ранга согласованности между 50 учебных и тестовых наборов. В 10 различных подписей, полученные из 10 групп были сопоставлены с целью оценки уровня согласованности среди отобранных генов. В каждой группе подмножества генов были выбраны РСЕ-SVM из каждого тренировочного набора, а производительность на подмножествах была оценена из соответствующего тестового набора. Чтобы получить ген ранжирования критерия последовательной для всех итераций РСЕ функции ранжирования на каждом шаге итерации была получена из SVM классификатор, который дал лучшую среднюю точность классификации более 50 тестовых наборов.

Открытые данные микрочипов рака желудка
<р> Два набора данных общественных микрочипов были загружены из базы данных GEO для сравнительных исследований, Ким
(GSE3438) и наборы данных Такено
(GSE15081). Первый из них [34] включает в себя экспрессию гена 50 больных раком желудка (из Кореи) на разных этапах и уровня дифференциации, который был использован для проверки согласованности наших выявленных подписей. Данные Такено [24] включает в себя 141 первичных желудка тканей рака после радикальной операции, с последующей перитонеального обострений информации. Эти наборы данных обеспечивают нормализованное отношение log2 опухоли и нормальной экспрессии.

Поддержка Информация
Таблица S1.
Статистика 452 генов, которые дифференциально экспрессируются в любом из группы четырех классов, определяется с использованием следующих критериев: уровни экспрессии при раке и соответствующей контрольной ткани показывают по меньшей мере, в 2 раза изменить, и обрезание для статистической значимости наличия этот уровень изменения выражения является P
-value &ЛТ; 0,05
DOI:. 10,1371 /journal.pone.0017819.s001
(XLSX)
Таблица S2.
99 гены имеют их выражение изменения прекрасно коррелируют с оценками WD-MD-PD-UD (| CC
| = 1, р
-value &л; 0,05).
DOI: 10.1371 /journal.pone.0017819.s002
(XLSX)
Таблица S3.
Список имен гена 198-гена подписи, среди которых 39 являются ген-класса коррелируют. CC:. Коэффициент корреляции
DOI: 10.1371 /journal.pone.0017819.s003
(XLSX)
Таблица S4.
Список 40 генов подписи, которые найдены специально для группы WD; 18, 20 и 255 генов являются специфическими для группы MD, PD и UD, соответственно
DOI:. 10,1371 /journal.pone.0017819.s004
(XLSX)
Таблица S5.

Other Languages