Stomach Health > Salud estómago >  > Gastric Cancer > Cáncer gástrico

PLOS ONE: Las firmas de expresión genética pueden distinguir los grados cáncer gástrico y Stages

Extracto

Microarray de datos de expresión de genes de cáncer gástrico 54 emparejado y los tejidos no cancerosos gástricos adyacentes fueron analizados, con el objetivo de establecer firmas de genes para grados de cáncer (bien, moderada-, poorly- o no-diferenciada) y las etapas (I, II, III y IV), que han sido determinados por los patólogos. Nuestro análisis estadístico condujo a la identificación de un número de combinaciones de genes cuyos patrones de expresión servir así como las firmas de diferentes grados y las diferentes etapas de cáncer gástrico. Se encontró que una firma de 19 genes que tienen poder de discernir entre los cánceres gástricos de alta y de baja calidad, en general, con la precisión de la clasificación general en el 79,6%. Un panel 198-gen ampliado permite la estratificación de los cánceres en cuatro grados y control, dando lugar a un acuerdo clasificación general de 74,2% entre cada grado designado por los patólogos y nuestra predicción. Dos firmas para la estadificación del cáncer, que consta de 10 genes y 9 genes, respectivamente, proporcionan una precisión alta clasificación en el 90,0% y el 84,0%, entre, el cáncer en estadio avanzado temprana y control. Funcional y vía de análisis sobre estas firma genes revelan la importancia significativa de las firmas derivados a grados y progresión del cáncer. A lo mejor de nuestro conocimiento, este es el primer estudio sobre la identificación de genes cuyos patrones de expresión pueden servir como marcadores para el cáncer grados y etapas

Visto:. Cui J, Li F, G Wang, Fang X, Puett JD, Xu y (2011) Las firmas de expresión genética pueden distinguir los grados y etapas de cáncer gástrico. PLoS ONE 6 (3): e17819. doi: 10.1371 /journal.pone.0017819

Editor: Amanda Toland, Ohio State University Medical Center, Estados Unidos de América

Recibido: 24 Noviembre 2010; Aceptado: 9 Febrero 2011; Publicado: 18 Marzo 2011

Derechos de Autor © 2011 Cui et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este estudio fue apoyado en parte por la National Science Foundation (DEB-0830024, DBI-0542119), los Institutos nacionales de Salud (1R01GM075331), una subvención "Académico Distinguido" de la Coalición de cáncer de Georgia, y un fondo semilla conjuntamente de Venture Fondo del presidente y la Oficina del Vicepresidente de Investigación de la Universidad de Georgia. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

clasificación el cáncer es una medida de la malignidad y la agresividad de un cáncer. Un sistema de clasificación populares utiliza cuatro niveles de malignidad (G1-G4), que refleja el nivel combinado de anormalidad celular aspecto, la desviación de la tasa de crecimiento de las células normales y el grado de invasividad y la difusión. Se han encontrado estas medidas patológicos que estar en concordancia general con el nivel de diferenciación celular (Comisión Conjunto sobre el Cáncer) [1]. Por lo tanto {G1, G2, G3, G4} se refirió también a también-, moderada-, poorly- y nu diferenciado, respectivamente. A partir de ahora, no ha habido un sistema de clasificación universal para todos los tipos de cáncer. En lugar de ello, se han propuesto diferentes sistemas de clasificación para los diferentes tipos de cáncer. Por ejemplo, el sistema de Gleason [2] es probablemente el más conocido de clasificación de células de adenocarcinoma en el cáncer de próstata, mientras que el sistema Bloom-Richardson [3] se utiliza para el cáncer de mama, y ​​el sistema Fuhrman [4] se utiliza para el cáncer de riñón .

el cáncer gástrico, la segunda causa principal de muerte por cáncer en todo el mundo, es particularmente frecuente en los países asiáticos, entre ellos china, Corea y Japón [5]. En los EE.UU., esta enfermedad asintomática tenía ~21,500 nuevos casos en 2008, junto con 10.800 muertes [6]. A diferencia de otros tipos de cáncer, el cáncer gástrico no tiene todavía un sistema de clasificación generalmente aceptada. La clasificación se ha hecho en su mayoría sobre la base de las directrices generales en lugar de cáncer de clasificación de organizaciones como la Comisión Conjunto sobre el Cáncer. Hay algunos sistemas de clasificación de los cánceres gástricos en subtipos histológicos, incluidas las de la Lauren [7], la Organización Mundial de la Salud (OMS) [8] y Goseki, et al. [9], [10], que definir subtipos de acuerdo con las características estructurales del cáncer, las apariencias histopatológicos de las células, y el nivel de moco, respectivamente. Sin embargo, es en gran medida controversial respecto a si cualquiera de estos sistemas es realmente relevante para el grado de malignidad y capacidad de supervivencia, por tanto, no habiendo sido ampliamente utilizados para la clasificación de cáncer gástrico [11]. El que carece de un sistema de clasificación bien establecida para el cáncer gástrico sigue siendo un obstáculo importante que dificulta el progreso en este campo.

Se presenta un estudio computacional en el presente documento, con el objetivo de identificar un conjunto de genes cuyos patrones de expresión también puede distinguir entre los cánceres gástricos de diferentes grados, como Oncotype DX, un panel de 21 genes para la identificación de cáncer de mama de bajo riesgo [12]. Estos genes, cuyos patrones de expresión distinguir los cánceres gástricos de diferentes grados, proporcionan información útil para desarrollar un sistema de clasificación basado en la expresión de genes para el cáncer gástrico. Además, también presentamos nuestras conclusiones sobre los patrones de expresión de genes comunes a los cánceres en diferentes etapas de desarrollo, lo que podría servir como firmas moleculares para la estadificación del cáncer gástrico.

Resultados

A. La identificación de los genes con los cambios de expresión se correlacionaba con los grados de cáncer

17.800 genes humanos se perfila en este estudio, el uso de Affymatrix Exon Arrays. De las 54 muestras de cáncer, 8 son bien diferenciados (WD), 9 moderadamente diferenciado (MD), 35 pobremente diferenciado (PD) y 2 indiferenciado (UD). Se encontró un total de 452 genes diferencialmente expresados ​​como se determina utilizando los siguientes criterios: los niveles de expresión en el cáncer y el espectáculo de tejido de control correspondiente cambio de al menos 2 veces, y la significación estadística, P-valor
, de tener este nivel de cambio de expresión es < 0,05 (ver material y Métodos; los nombres de genes se enumeran en la Tabla S1). Entre los 452 genes, 97 de forma única en la UD, en la EP 62, 8 y 16 en MD única en WD representan un Básica Red de genes expresados ​​diferencialmente, que se identifican sistemáticamente mediante la aplicación de diferentes estrategias de clasificación mediante el paired- información de la muestra o no. Este conjunto incluye genes que muestran el cambio de expresión más consistente (más de 2 veces) en el cáncer de frente
control de los tejidos, los cuales tendrían la consideración de los genes expresados ​​diferencialmente con una alta fiabilidad, derivados a través de múltiples pruebas estadísticas. Por el contrario, todo el conjunto de 452 genes representan un conjunto extendido. Hemos observado que hay una tendencia general que el número de los genes expresados ​​diferencialmente aumenta como cáncer gástrico, con relación al tejido normal, es más pobremente diferenciado, como se muestra en la Figura 1. Esta observación está de acuerdo con nuestro conocimiento general de que menos- cánceres diferenciados tienden a tener más genes expresados ​​diferencialmente y son más agresivos; la excepción de WD, como se muestra en la Figura 1, podría reflejar los pequeños tamaños de la WD y los grupos MD.

después se comprueba si algunos genes pueden tener sus cambios de expresión se correlacionan con los grados de cáncer. Para ello, se ha calculado el coeficiente de correlación de Spearman (CC) entre el medio de expresión de cada gen en todas las muestras de cada grado y los cuatro grados de cáncer. Se encontró que los cambios de expresión de los genes 99 se correlacionan perfectamente con los grados WD-MD-PD-UD (| CC
| = 1, P-valor
< 0,05) (ver detalles en la Tabla S2). Entre estos genes son POF1B
, MET
, CEACAM6
, ZNF367
, GKN1
, LIPF
, SLC5A5
, MUC13
, CLDN1
, MMP7 y ATP4A
, que son todos conocidos por ser relacionada con el cáncer. La figura 2 muestra cuatro ejemplos con cualquiera de las correlaciones positivas o negativas. Entre ellos, MUC13
ha sido reportado como un buen marcador para el nivel de diferenciación de la mucosa gastrointestinal [13]. El aumento de expresión MUC13 se ha encontrado para inducir cambios morfológicos, incluyendo la dispersión de células a través de la interferencia con la función de moléculas de adhesión celular [14]; Por lo tanto, un aumento de la expresión junto con la diferenciación puede indicar una mayor adhesión célula-célula

Hemos observado que los genes con sus cambios de expresión se correlacionan con los grados de cáncer son altamente enriquecido entre las proteínas secretadas o de membrana. (valor P < 0,05) , que participar en múltiples vías de señalización tales como ErbB, FAS, receptor NOD-como, PPAR y la señalización de Wnt, así como moléculas de adhesión celular (CAMs) y uniones estrechas. Esto no es sorprendente, ya que estas vías están implicadas esencialmente en el crecimiento celular y la muerte celular, así como la metástasis del cáncer. Tales cambios en los patrones de expresión de genes de estas vías, que participan en la transducción de señales y la comunicación extracelular, pueden proporcionar pistas sobre la progresión del cáncer.

B. Identificación de las firmas de genes para los grados de cáncer

Hemos examinado los 452 genes expresados ​​diferencialmente, con el objetivo de identificar los genes cuya expresión puede patrones, con una buena precisión y fiabilidad, distinguir los cánceres gástricos de diferentes grados. Se llevó a cabo el análisis de clasificación (ver Métodos) por primera vez entre dos grupos de cáncer (de alta y pobremente diferenciados), y luego se extendió a cinco grupos, a saber, cuatro grados de cáncer y el control. Una máquina de vectores de soporte (SVM) a base de enfoque se aplicó en función de eliminación regresiva, usando un núcleo lineal para la clasificación del cáncer (ver Métodos).

Al final, se identificó un grupo de 19 genes que pueden distinguir entre altamente y mal cánceres con un acuerdo global diferenciado al 79,2%, basado en la expresión factor de cambio en el cáncer de frente
tejidos de control. Del mismo modo, un grupo de 198-gen puede distinguir entre los cuatro grados de cáncer diferentes y el grupo de control en función de su expresión génica, dando lugar a la precisión de clasificación global 74,2%. Ambos conjuntos de genes fueron seleccionados con base en una votación por mayoría (al menos el 70% de consistencia) esquema de los resultados de la clasificación sobre 500 juegos incluidos en la muestra al azar de los 54 conjuntos de muestras, junto con su clasificación (ver Métodos para más detalles) importancia.

La firma de 19 genes consiste en ADIPOQ, COL6A3, TNS1, SCN7A, DES, VIL1, COL3A1, C2orf40, SMYD1, actg2, MEIS1, C7, GPR174, SHCBP1, dusp1, DNAJB5, HIATL1, IL17RB, y la grasa. Una mirada cercana a la anotación funcional de estos genes reveló que sus productos proteicos están involucrados en el crecimiento y la diferenciación celular (IL17RB, SMYD1, SHCBP1), la motilidad celular (actg2), la angiogénesis y la remodelación tisular (ADIPOQ), la carcinogénesis (ECRG4), matriz la síntesis de proteínas (COL3A1, COL6A3), y otros como la proteína G-receptor acoplado 174 (GPR174), citoesqueleto del borde en cepillo (VIL1), complejo de ataque a la membrana (C7), y el canal de sodio (SCn7A).

17 hacia fuera de los 19 genes, además de un 181 genes adicionales, forman un grupo 198-gen cuyo patrón de expresión puede distinguir los cuatro grados de cáncer y el control. Sus funciones abarcan la división celular, la respuesta inmune, la transducción de la señal y la regulación de la transcripción, además de las categorías anteriores. En general, 39 de los 99 genes correlacionados grado-son parte de esta firma de 198 genes, incluyendo CLDN1, MUC13, VIL1, HIATL1, CDCA7, HIST1H2BM y FAT (ver la lista completa en la Tabla S3).

Además de este cajón de sastre de la firma para la clasificación de cinco vías, también identificó y analizó firmas genéticas específicas de un grado para cada grado del cáncer. Por ejemplo, LAPTM4B es un tal representante. Este gen proporciona una alta precisión de la clasificación para las muestras Caner y de control en el grupo WD con las AUC (área bajo la curva) = 0,97 (Figura 3). El uso de 7,04 como el punto de corte de expresión, este gen puede así distinguir el cáncer de las muestras de control en el grupo de WD con sensibilidad = 87,5% y una especificidad = 100%. Este resultado no es sorprendente, ya que se sabe que LAPTM4B es esencial para el crecimiento y la supervivencia celular, y su regulación ha encontrado que se correlaciona con el nivel de diferenciación de carcinoma hepatocelular [15]. En total, 40 de estos genes de la firma se encuentran específicamente para el grupo WD; 18, 20 y 255 genes son específicos para el grupo MD, PD y UD, respectivamente (ver detalles en la Tabla S4).

También hemos identificado un único gen discriminadores para cada grupo de grados contra el resto de las muestras, incluyendo el control, como se resume en la Tabla 1. por ejemplo, las firmas para el grupo PD incluyen los genes regulados, MYO1B Opiniones de WD; GKN2 Opiniones de MD; CTSA Opiniones de PD; y un gen regulado hacia abajo, RHOJ, España para el grupo UD. Estos discriminadores de un solo gen muestran AUC importantes, que van 0,76-0,99, mientras que las precisiones de clasificación globales obtenidos por 5 veces la validación cruzada gama de 70,0% a 97,0% para los diferentes grupos. Una búsqueda posterior de k
combinaciones -Gene (k = 2, 3, 4) para cada grupo de cáncer de manera exhaustiva pasando por todas las combinaciones de k
grupos -Gene también identificaron.

C. Identificación de las firmas de genes para la etapa patológica

El uso de análisis similares a los de la anterior, se han identificado genes de las firmas en la primera etapa (etapa I + II) y el cáncer en estadio avanzado (estadio III + IV). La tabla 2 destaca los marcadores de genes individuales más discriminativos, con la precisión de la clasificación que van desde 75,0% a 81,4%. firmas de múltiples genes también se revisaron para la estadificación del cáncer. Por ejemplo, se encontraron dos firmas para ser particularmente eficaz en la estadificación del cáncer, es decir, un grupo 10-gen (CPS1 + DEFA5 + DES + DMN + GFRA3 + MUC17 + OR9G1 + REEP3 + TMED6 + TTN) y un grupo 9-gen (DPT + EIF1AX + FAM26D + IFITM2 + LOC401498 + OR2AE1 + PRRG1 + REEP3 + RTKN2) , que puede distinguir el temprano y los tipos de cáncer gástrico avanzado desde el resto de las muestras (incluyendo muestras de control) con los acuerdos de 90,0% y 84,0%, respectivamente. La precisión general de clasificación en los tres grupos, inicial, avanzada y control, es del 71,4%.

Un análisis funcional de estos genes firma reveló algo interesante. Por ejemplo, entre los productos proteicos de las primeras etapas de la firma genes, GFRA3
, MUC17
, OR9G1
, REEP3 y TMED6 ¿Cuáles son proteínas de membrana , en su mayoría receptores que transducen señales extracelulares. DEFA5
es un péptido microbicida se cree que participan en la defensa del huésped que está altamente expresado en el íleon [16]. CPS1
, DES y TTN
están involucrados en varios procesos metabólicos, la función muscular y la fase M del ciclo celular mitótico, respectivamente. Especulamos que estos genes SEÑALIZACIÓN y inmuno-relacionadas pueden representar principios anormalidad de las células del tejido durante la oncogénesis en general.

Se encontraron unos pocos genes que, tanto en la clasificación del cáncer y las firmas de plataforma, tales como CPS1, DES, GFRA3, TMED6 y DPT, lo que indica cierta relevancia biológica entre la diferenciación y progresión del cáncer. A continuación, examinó si la expresión de genes de las firmas de estadificación se asocia con estadios patológicos. Entre ellos, los altamente correlacionado con diferentes estadios patológicos son LANCL3
, MFAP2 y PPA1 gratis (Figura 4), que muestra coherente arriba y abajo de la regulación, respectivamente, junto con la progresión del cáncer.

D. La identificación de genes expresados ​​diferencialmente independiente de los grados de cáncer y etapas

Además de la expresión diferencial específico para ciertos subgrupos de cáncer gástrico, que también examinó si algunos genes se expresan diferencialmente en el cáncer gástrico en general, independientemente de los grados y etapas. 62 dichos genes se encontraron con expresión diferencial constante en cambios por lo menos 2 veces en el cáncer de frente
tejidos de referencia correspondientes. Hemos observado que en su mayoría son involucrados en los procesos extracelulares tales como la adhesión focal, levas, unión estrecha, la interacción receptor de citoquina-citoquina y la interacción ECM-receptor, la cascada de activación del plasminógeno, así como las vías de señalización, incluyendo la señalización Wnt y la señalización de la integrina, que son estrechamente relevante para el crecimiento celular y el control de la proliferación celular. Busca en contra de nuestra base de datos interna de (http://bioinfosrv1.bmb.uga.edu/DMarker/) que incluye microarrays de datos públicas de GEO [17], Oncomine [18] y SMD [19], que abarca más de 53 enfermedades humanas, incluyendo cáncer, se encontró que los patrones de expresión diferencial de 15 genes son altamente específicos para el cáncer gástrico, como GKN2, CLDN7, Thy1, GIF y PGA4, mientras que la mayoría de los otros son en general a múltiples tipos de cáncer. Por ejemplo, los más generales incluyen algunos miembros de la familia de genes de colágeno (COL1A2, COL3A1 y COL1A1), el carcinoembrionario molécula de adhesión celular relacionada con el antígeno (CEACAM6), metaloproteinasas de matriz (MMP1, MMP7 y MMP12), topoisomerasa (TOP2A) y fosfoproteína secretada (SPP1).

Sólo tres, CLDN7
, CLDN1 y DPT
, de estos genes se diferencian significativamente en todos los grados o estadios del cáncer gástrico. Podemos ver en la figura 5A y 5B que tanto CLDN7 y CLDN1 ¿Cuáles son altamente expresado en el cáncer de frente
muestras de control a través de todos los grados y etapas, con un aumento moderado en tejidos de cáncer temprano, mientras DPT
se había reducido regulado en todos estos grupos. El patrón de expresión consistente a través de todos los subgrupos de cáncer puede indicar que estos genes participan en muchas de las principales vías biológicas implicados en la formación y progresión del cáncer. Como es bien conocido, las dos proteínas claudin, claudin-1 y claudin-7, son proteínas integrales de membrana crucial para la formación de uniones estrechas, el mantenimiento de la adhesión célula a célula y la regulación de paracelular y el transporte transcelular de solutos a través de epitelios humano y los endotelios, que se expresan diferencialmente en diversos cánceres tales como neoplasia cervical [20], carcinoma renal [21] y un tipo de cáncer gástrico intestinal [22]. Dermatopontin ( DPT
) es una proteína de la matriz extracelular que sirve como un enlace de comunicación entre la superficie celular de fibroblastos dérmicos y su matriz extracelular. Su reducción de la expresión también se ha encontrado en ambos leiomiomas uterinos y queloides [23]. La ROC muestra en la figura 5C indica que estos genes posiblemente podrían ser utilizados como marcadores eficaces para el diagnóstico de cáncer gástrico en general.

E. La verificación de las firmas identificadas en bases de datos públicas

Los patrones de expresión de los genes identificados firma se compara con las dos bases de datos públicas, a saber, el Kim
y Takeno
conjuntos de datos (ver Materiales y Métodos), para determinar la generalidad de estas firmas de genes. Como se muestra en la Figura 6, la distribución de las diferencias de expresión entre nuestros datos y la Kim
conjunto de datos es significativamente concordante, lo que indica que la aplicabilidad general de los marcadores identificados. De 19 y 12 genes solapados de los grados-correlacionados anteriormente identificados y lista de genes etapa correlacionados, 10 y patrones de expresión 5 muestran similares a través de los cánceres de grados G1-2 /G3-4 y estadios I-IV en el Kim
de datos, respectivamente, lo que refleja una alta consistencia en los patrones de expresión de estos genes entre diferentes conjuntos de muestras.

en general, nuestra firma de 19 genes para los grados de cáncer tuvieron un buen desempeño en el Kim
de datos y obtiene 78,0% de precisión de clasificación en la validación cruzada de 5 veces en términos de distinguir entre los cánceres pobremente diferenciados altamente. Del mismo modo, las firmas de dos etapas (grupos de 10-gen y 9 genes) obtenido respectivas precisiones de 84,0% y 76,0% en el Kim
conjunto de datos. La firma 198-gen no se comprobó desde el Kim
conjunto de datos proporciona únicamente veces de cambio en lugar de los datos de expresión primas.

Curiosamente, hemos observado que existe una correlación moderada entre la expresión de genes de nuestra grupos de firma identificados y la recurrencia del cáncer basado en la información recaída peritoneal de los datos de Takeno [24]. Específicamente, los cuatro firmas, 19-, 198-, de 10 y 9-gen grupos, pueden predecir la recaída peritoneal con una precisión global de 66,0%, 87,2%, 73,0% y 55,3%, respectivamente, mediante la distinción entre la relapse- pacientes libres y peritoneal-recaída en el estudio de Takeno [24].

analiza Discusión

microarrays de expresión génica en el cáncer gástrico han identificado previamente los patrones de expresión génica para la predicción del pronóstico [25], [26] y el diagnóstico general del cáncer [27], [28] (tal como fue revisado en la Tabla S6), pero ninguno de los subtipos de cáncer gástrico o de clasificación. A continuación, presentamos un análisis en 54 pares de cáncer y tejidos adyacentes de referencia del mismo número de pacientes con cáncer gástrico y firmas moleculares identificados para los grados de cáncer y etapas.

Se sabe que los diferentes análisis de selección y clasificación de genes puede dar lugar a diferentes firmas de genes, lo que plantea un problema grave sobre la estabilidad y la utilidad de las firmas de genes seleccionados. Para hacer frente a este problema, hemos aplicado búsquedas exhaustivas para la firma K-gen (k < = 4) junto con un robusto procedimiento de selección de características con el voto por mayoría para k > 4, lo que garantiza la estabilidad de los genes de la firma identificados. Por otra parte, debido a la compleja naturaleza de los datos del cáncer de expresión de genes, una creencia general ha sido que las diferentes técnicas de clasificación pueden dar lugar a diferentes firmas, pero de igual importancia, ya que pueden corresponder a diferentes vías relacionadas con diferentes aspectos de un cáncer . Además de estas variaciones técnicas, el tamaño limitado de la muestra y la heterogeneidad existente entre los subgrupos de cáncer se observan como otros factores importantes que afectan a los marcadores seleccionados.

En conclusión, hemos demostrado en este documento que los patrones de expresión génica se puede utilizar como firmas eficaces para la clasificación de cáncer gástrico y puesta en escena, así como la predicción de pronóstico. Se propusieron dos tipos de firmas para servir a los propósitos de diagnóstico diferentes, cada una mostrando una cierta relevancia para malignidad del cáncer y la progresión del cáncer. Se espera que tales intentos de utilizar de grado-y-etapa firmas moleculares para beneficiar significativamente al desarrollo de la medicina personalizada y pueden dar lugar a nuevos marcadores séricos.

Materiales y Métodos

Muestras de Tejido

se tomaron muestras de los cánceres gástricos malignos primarios de pacientes no tratados durante el procedimiento quirúrgico inicial en tres hospitales afiliados de la Facultad de Medicina y el hospital Provincial de Jilin del cáncer, Changchun, china Universidad de Jilin. Para cada muestra de tejido de cáncer, una muestra de tejido de referencia correspondiente se recogió de la región no canceroso adyacente que el cirujano reseca el fin de garantizar márgenes positivos. Todas las muestras se congelaron en nitrógeno líquido dentro de los 10 minutos después de la escisión y se almacenaron a -196ºC hasta la extracción de RNA. Para el aislamiento de ARN, se utilizaron 100 micras secciones de cada muestra.

Todos los expedientes médicos y secciones de cáncer fueron examinadas por un patólogo quirúrgico, y se determinó el diagnóstico histológico y clasificación TNM de acuerdo a criterios de la Organización Mundial de la Salud (OMS) y el sistema de clasificación de la Unión Internacional contra el cáncer. Las muestras de referencia se sometieron a un análisis histológico minucioso para garantizar la ausencia completa de las células cancerosas. escrito el consentimiento informado se obtuvo de todos los pacientes, que fue aprobado por la Junta de Revisión Institucional de la Universidad de Georgia, Athens, Georgia, EE.UU. y por el IRB chino supervisar los sujetos humanos en Jilin University College de Medicina y el Hospital del Cáncer Jilin, Changchun , china.

La información detallada del paciente, tales como edad, sexo, tipo histológico, grado diferencial, el estadio patológico y la historia del uso de alcohol /tabaco, figura en el cuadro S5.
experimentos

Microarray

las muestras de ARN se analizaron mediante el GeneChip Human exón 1,0 ST (Affymetrix), siguiendo el protocolo detallado en la expresión Genechip Manual Técnico de Análisis (P /N 900223) para el experimento de matriz y un informe anterior [29]. Los microarrays fueron escaneados utilizando el escáner GeneChip ® 3000 con GeneChip® Operating Software (SMOC). Toda la información es compatible con MIAME y los datos en bruto ha sido depositado en la base de datos GEO (ID: GSE27342).

microarrays de análisis de datos

Gene expresión resultados se resumieron en base a primas intensidad de la sonda utilizando el robusto multichip promedio [30] y el paquete APT (http://www.affymetrix.com/partnerSupplementaryprograms/programs/developer/tools/powertools.affx), siguiendo tres pasos principales, incluyendo la corrección de fondo, la normalización cuantil y log2-transformación. Se eliminaron los genes que tengan muy baja expresión en las dos muestras de cáncer y de referencia; En concreto, se eliminó un gen si es máximo (Expr.cancer, Expr.normal)
era inferior al 4 (intensidad normalizada de la señal).

Dos estrategias diferentes se aplicaron para evaluar la significación de genes, dependiendo en qué condiciones se compararon y si apareados o no apareados muestras deben ser utilizados. Para la comparación de los cánceres contra grupos de la muestra de control, se realizaron pruebas no apareadas para investigar si dos grupos de expresión son diferentes, mientras que pares de pruebas se aplicaron a examinar la compatibilidad de los cambios de expresión en todos los pares. Además de los signos de Wilcoxon prueba, también se aplica otra prueba estadística sencilla para detectar los genes con expresión diferencial consistente en el cáncer de frente
tejidos de referencia, de la siguiente manera. Para cada gen, K exp
, el número de pares de tejidos de cáncer /de referencia cuya expresión factor de cambio (FC) es mayor que k gratis (por ejemplo, k
= 2) se examinó; si exp
fue inferior a 0,05, se consideró el valor P para la observada K el gen que se expresa de forma diferente en la mayoría de los pares de cáncer y tejido de referencia (véase la información de apoyo). Nuestra P-valor calculado no se ajustó en la prueba de hipótesis múltiples con el fin de evitar cualquier pérdida de genes que pueden ser potencialmente eficaz en la etapa posterior clasificación.

Gene selección y clasificación

Para k firmas -Gene (k < = 4), se realizó una búsqueda exhaustiva de todas las combinaciones de k-genes entre los genes expresados ​​diferencialmente, identificados a partir de la etapa anterior, utilizando un enfoque de clasificación basado en SVM lineal, y la precisión global se evaluó usando 5 veces la validación cruzada. Para k > 4, se aplicó un enfoque diferente, utilizando una búsqueda heurística ya que la búsqueda exhaustiva es demasiado tiempo para ser práctico para nuestro problema. Los detalles son los siguientes.

Todo el conjunto de datos de expresión se dividió aleatoriamente en entrenamiento y prueba, conteniendo cada uno la mitad de las muestras. Esto se repitió durante 500 veces para generar 500 conjuntos de datos de entrenamiento /prueba para la clasificación. Un SVM lineal se utiliza para el entrenamiento de un clasificador [31], [32]. Se construye una hiper-plano que separa dos clases diferentes de vectores de características con un margen máximo. Esta hiper-plano se construye mediante la búsqueda de un vector w y una variable b que minimicen, que satisface las siguientes condiciones:

, por (muestras de cáncer) y, (muestras normales). En este caso, es un vector de características, es el índice de grupo, w es un vector normal a la hiper-plano, es la distancia de la hiper-plano al origen y es la norma euclidiana de w. Después de la determinación de los valores de W y B, un vector dado x se puede clasificar mediante el uso; un valor positivo o negativo indica que el vector x pertenece a la clase positiva o negativa, respectivamente. firmas genéticas de cada conjunto de entrenamiento fueron seleccionados mediante el procedimiento de función recursiva de eliminación (RFE), que es un envoltorio que selecciona genes de predicción mediante la eliminación de genes no predictoras de acuerdo a una función de genes de rango generado a partir del sistema de clasificación [33]. El criterio de clasificación se basa en el cambio en la función objetivo sobre la eliminación de cada gen. Para mejorar la eficiencia de la formación, esta función objetivo se representa como una función de coste J Opiniones de los i-ésima función
, calculado utilizando el conjunto de entrenamiento solamente. Cuando se elimina un gen o su peso w i se reduce a cero, el cambio en la función de coste J (i)
está dada por. El caso de corresponde a la eliminación de la i-ésimo
gen. El cambio en la función de coste indica la contribución del gen para la función de decisión y sirve como un indicador de la clasificación de genes.

Los 500 conjuntos de entrenamiento /prueba se dividieron aleatoriamente en 10 grupos de muestra. A continuación se utilizó Cada grupo de muestra para obtener una firma, sobre la base de la votación por mayoría y la evaluación de la coherencia de genes de alto rango en los 50 conjuntos de entrenamiento y prueba. Las 10 firmas diferentes derivados de los 10 grupos fueron comparados para evaluar el nivel de coherencia entre los genes seleccionados. En cada grupo, los subconjuntos de genes fueron seleccionados por RFE-SVM de cada conjunto de entrenamiento y el rendimiento de los subgrupos se evaluó a partir del conjunto de prueba asociado. Para obtener una clasificación criterio consistente para todas las iteraciones gen, una función de la clasificación en cada paso de iteración RFE se deriva de un clasificador SVM que dio la mejor precisión de la clasificación media de los 50 conjuntos de pruebas.

microarrays de datos públicas de cáncer gástrico

Dos conjuntos de datos de microarrays públicas fueron descargados de la base de datos GEO para los estudios comparativos, el Kim gratis (GSE3438) y los conjuntos de datos Takeno gratis (GSE15081). El primero de ellos [34] incluye la expresión de genes de 50 pacientes con cáncer gástrico (de Corea) en diferentes etapas y el nivel de diferenciación, que se utilizan para comprobar la coherencia de nuestras firmas identificadas. Los datos Takeno [24] incluye 141 primarias tejidos de cáncer gástrico después de la cirugía curativa, con información recaída peritoneal seguimiento. Estos datos proporcionan la log2 ratio normalizado del tumor y la expresión normal.

Apoyo a la Información sobre Table S1. de las estadísticas de 452 genes que se expresan diferencialmente en cualquiera del grupo de cuatro grados, determinada utilizando los siguientes criterios: los niveles de expresión en el cáncer y el espectáculo de tejido de control correspondiente cambio de al menos 2 veces, y el punto de corte para la significación estadística de tener este nivel de cambio es la expresión P-valor
< 0,05
doi:. 10.1371 /journal.pone.0017819.s001 gratis (XLSX)
Tabla S2.
99 genes tienen su expresión cambia perfectamente correlaciona con los grados WD-MD-PD-UD (| CC
| = 1, p-valor
< 0,05).
doi: 10.1371 /journal.pone.0017819.s002 gratis (XLSX) sobre Table S3.
Lista de los nombres de genes de la firma de 198 genes, entre los cuales 39 son de genes correlacionados grado. CC:. Coeficiente de correlación
doi: 10.1371 /journal.pone.0017819.s003 gratis (XLSX) sobre Table S4. List de 40 firma genes que se encuentran específicamente para el grupo WD; 18, 20 y 255 genes son específicos para el grupo MD, PD y UD, respectivamente
doi:. 10.1371 /journal.pone.0017819.s004 gratis (XLSX) sobre Table S5.

Other Languages