Stomach Health > Salud estómago >  > Gastric Cancer > Cáncer gástrico

PLOS ONE: Un método computacional para la predicción de proteínas excretores y Aplicación a la identificación de marcadores de cáncer gástrico en Urine

Extracto

Se presenta un nuevo método de cálculo para la predicción de proteínas excretadas en la orina. El método se basa en la identificación de una lista de características que distinguen entre las proteínas que se encuentran en la orina de personas sanas y las proteínas que se consideren fuera de excreción de orina. Estas características se utilizan para entrenar un clasificador para distinguir las dos clases de proteínas. Cuando se utiliza junto con la información de la que las proteínas se expresan diferencialmente en los tejidos enfermos de un tipo específico frente
tejidos de control, este método puede ser usado para predecir potenciales marcadores de orina para la enfermedad. Aquí mostramos el algoritmo detallado de este método y una aplicación a la identificación de los marcadores de orina para el cáncer gástrico. El rendimiento del clasificador entrenado en 163 proteínas fue validada experimentalmente usando arrays de anticuerpos, la consecución de > 80% tasa de verdaderos positivos. Al aplicar el clasificador de genes expresados ​​diferencialmente en el cáncer gástrico vs
tejidos gástricos normales, se encontró que la lipasa endotelial (EL) fue suprimido sustancialmente en las muestras de orina de 21 pacientes con cáncer gástrico frente
21 individuos sanos. En general, hemos demostrado que nuestro predictor de proteínas de excreción de orina es muy eficaz y potencialmente podría servir como una herramienta poderosa en las búsquedas de biomarcadores de la enfermedad en la orina en general

Visto:. Hong CS, Cui J, Ni Z, Su Y, Puett D, Li F, et al. (2011) un método de cálculo para la predicción de proteínas excretores y Aplicación a la identificación de marcadores de cáncer gástrico en la orina. PLoS ONE 6 (2): e16875. doi: 10.1371 /journal.pone.0016875

Editor: Vladimir Brusic, Instituto de Cáncer Dana-Farber, Estados Unidos de América

Recibido: septiembre 22, 2010; Aceptado: 31 de diciembre de 2010; Publicado: 18 de febrero, 2011

Este es un artículo de acceso abierto distribuido bajo los términos de la declaración Creative Commons Public Domain que estipula que, una vez colocado en el dominio público, este trabajo puede ser libremente reproducido, distribuido, transmitirse, modificarse, construida sobre, o de otra forma utilizado por cualquier persona con cualquier objeto lícito

Financiación:. Este estudio fue apoyado en parte por la National Science Foundation (CCF-0.621.700, DBI0542119004, 1R01GM075331), la Universidad de Jilin, la Universidad de Georgia, la Coalición de cáncer de Georgia, la Alianza de Investigación de Georgia y los Institutos nacionales de la Salud (1R01GM075331, DK69711). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

El rápido avance de la ómicas
técnicas en los últimos años ha hecho que sea posible la búsqueda de biomarcadores de enfermedades humanas específicas de una manera sistemática y exhaustiva, que está mejorando sustancialmente nuestra capacidad para detectar enfermedades en primeras etapas. La mayoría de los estudios de biomarcadores anteriores se han centrado en los marcadores séricos [1], principalmente debido a la riqueza conocida de suero en la contención de señales para diversas condiciones fisiológicas y fisiopatológicas.

En comparación con los marcadores séricos, marcadores urinarios existentes son en su mayoría relacionados con el tracto urinario o enfermedades estrechamente asociadas. Sólo en los últimos años ha mejorado los análisis proteómicos de muestras de orina revelaron que, al igual que el suero, la orina es también una rica fuente de información para la detección de enfermedades humanas como el injerto frente
-host la enfermedad y la enfermedad arterial coronaria [2], [3], [4]. Tenga en cuenta que la orina se forma por filtración de la sangre a través de los riñones; por lo tanto, algunas proteínas en la sangre pueden pasar a través de los filtros y se excreta en la orina. Como resultado, las proteínas de la orina no sólo reflejan las condiciones de los riñones y el tracto urogenital, sino también las de otros órganos que pueden ser distal del riñón, ya que al menos el 30% de las proteínas de la orina no son originalmente del tracto urogenital [5], [6]. La gran cantidad de información en la orina hace que sea una fuente atractiva para la detección de biomarcadores, ya que, en comparación con el suero, la composición de la orina es relativamente simple, y la recolección de orina es más fácil y no invasiva [7], [8].

Marcador identificación en la orina potencialmente podría hacerse a través de los análisis proteómicos comparativos de las muestras de orina de pacientes con una enfermedad y los grupos de control específicos. El reto en tales búsquedas de marcadores urinarios de un modo ciego es doble. (A) La orina podría tener un gran número de proteínas /péptidos (en contraste con el entendimiento anterior [8]) con una abundancia relativamente baja. (B) El rango dinámico en la abundancia de estas proteínas podría abarcar algunos órdenes de magnitud, más amplios que la gama normalmente cubierto por un espectrómetro de masas [9]. Por estas razones, los análisis comparativos, en particular (semi), análisis cuantitativos de los datos proteómicos de muestras de orina puede ser muy difícil. Esto podría ser una razón clave de que no hay marcadores de orina para la diagnosis del cáncer.

Nuestro estudio se centra en el desarrollo de un método computacional para predecir con exactitud las proteínas que son excretor urinario (véase la Figura 1 para el esquema del enfoque ). Estas proteínas deben tener propiedades específicas que les permiten ser secretadas a partir de células primero y luego a ser filtradas a través de la membrana glomérulo en los riñones. Un estudio proteómico reciente identificó más de 1.500 proteínas /péptidos que se excretan en la orina a través de las membranas glomerulares saludables [8]. El uso de este conjunto de proteínas y proteínas que se consideren fuera de excreción de orina, se ha identificado una lista de características que distinguen entre estas dos clases de proteínas y entrenado una máquina de vectores de soporte (SVM), basado clasificador para predecir si una determinada proteína podría ser excretado en la orina . El método de predicción fue validada experimentalmente usando arrays de anticuerpos en conjunción con transferencias de Western, y los resultados son muy alentadores.

Este clasificador se ha aplicado para predecir las proteínas que pueden ser excretados en la orina basados ​​en los genes expresados ​​diferencialmente identificados en cáncer gástrico frente
referencia tejidos gástricos; y un número de posibles marcadores de orina para el cáncer gástrico han sido identificados. Una contribución clave realizado en este trabajo es que proporciona una forma nueva y eficaz para guiar los estudios proteómicos de orina, sugiriendo proteínas marcadoras candidato, por lo tanto, lo que permite búsquedas de marcadores específicos utilizando técnicas mediadas por anticuerpos como transferencias de Western y ELISA, que son sustancialmente más factible que a gran escala comparativa análisis proteómicos de muestras de orina sin ningún objetivo con el que trabajar. Aunque este programa de predicción se ha aplicado a los datos de cáncer gástrico en este estudio, no se utilizó la información específica del cáncer gástrico en este programa; por lo tanto, se puede utilizar para las búsquedas de marcador de orina para otras enfermedades

Métodos

Este estudio consta de tres componentes principales:. (i) la construcción de un clasificador para predecir las proteínas de excreción de orina; (Ii) Evaluación de la actuación del clasificador aplicándolo a un conjunto de proteínas para los que se conoce el estado de excreción de las proteínas; y (iii) la aplicación del clasificador validado con los datos de expresión de genes de cáncer gástrico para demostrar su eficacia en la solución del problema de la orina de identificación marcador.

Esta investigación fue aprobado por la Junta de Revisión Institucional de la Universidad de Georgia, Athens, Georgia, EE.UU. (Oficina del Vicepresidente de Investigación de Aseguramiento de DHHS ID NO. FWA00003901, Número del Proyecto 2009-10705-1) y por la Junta de Revisión Institucional de china supervisión de los sujetos humanos en Jilin University College of Medicine, Changchun, china. Un formulario de consentimiento, aprobado por el IRB de la Universidad de Georgia y el IRB chino, se recogió de cada sujeto. Todos los sujetos son conscientes de que los datos de la investigación se pueden usar para documentos o publicaciones como se indica en el formulario de consentimiento.

a. Un algoritmo para predecir las proteínas de excreción

La comprensión general de la excreción de proteínas de los tejidos a la orina es que algunas proteínas son secretadas o hay escape de las células en la circulación de la sangre, y luego una parte de estas proteínas, junto con algunas proteínas nativas en sangre, puede ser excretado en la orina. Nuestros objetivos son primero para identificar las características distintivas de tales proteínas de excreción de orina y después de construir un clasificador basado en estas características para predecir que las proteínas en las células pueden ser excretados en la orina. A lo mejor de nuestro conocimiento, no ha habido ningún trabajo publicado el objetivo de resolver este problema. La importancia de tener tal capacidad es que proporciona un vínculo eficaz en la conexión de análisis OMIC Red de tejidos a la búsqueda del marcador en la orina, proporcionando marcadores candidatos en la orina que pueden ser estudiados utilizando enfoques basados ​​en anticuerpos.

El primer paso en el desarrollo de dicha capacidad predictiva, es decir, un clasificador, es tener una formación de datos que contiene proteínas que pueden y que no pueden ser excretados en la orina, a partir de la cual posiblemente se pudo identificar un conjunto de rasgos distintivos. Afortunadamente, hemos encontrado un gran conjunto de datos proteómicos de muestras de orina de personas sanas en un estudio recientemente publicado [8], que contiene más de 1.500 proteínas únicas de las cuales 1.313 tienen ID de adhesión SwissProt. Hemos utilizado estos 1.313 proteínas como los datos de aprendizaje positivos para el clasificador a ser entrenado. A continuación, el siguiente procedimiento se utilizó para generar un conjunto de entrenamiento negativo: arbitrariamente seleccionar al menos una proteína de cada familia Pfam que no contiene los datos de entrenamiento positivo, y el número de proteínas seleccionadas de cada familia es proporcional al tamaño de la familia [ ,,,0],10], [11]. Como resultado, se seleccionaron 2.627 proteínas y utilizados como el conjunto de entrenamiento negativo.

Hemos examinado 18 características fisicoquímicas calculadas a partir de las secuencias de proteínas, que son potencialmente útiles para el problema de clasificación basado en la comprensión general de la excreción urinaria de proteínas . Los detalles de las 18 características y los programas informáticos utilizados para calcular ellas se enumeran en la Tabla S1. Algunas de estas características están representados por múltiples valores de características, por ejemplo, la composición de aminoácidos en una secuencia de la proteína está representada por 20 valores de características; en general, las 18 características se representan utilizando 243 valores de características. A continuación, identificaron un subconjunto de valores de características de la 243, que pueden distinguir entre los datos de entrenamiento negativos utilizando un clasificador SVM basada en positivo y. El kernel RBF se utilizó en nuestra SVM formación, teniendo en cuenta su capacidad para manejar atributos no lineales [12], [13].

Para determinar cuál de las características consideradas inicialmente son realmente útiles, la herramienta de selección de características proporcionan LIBSVM en [12] se utilizó para seleccionar las características más exigentes entre los 243. Otras herramientas de selección de características se podrían utilizar pero tenemos una considerable experiencia en el uso de esta herramienta y encontrado que es adecuada. Los códigos utilizados en el presente están a disposición del público en la página web LIBSVM (http://www.csie.ntu.edu.tw/~cjlin/libsvm/); también hemos hecho el programa pertinente accesible en http://seulgi.myweb.uga.edu/files. Un F-Resultado [12], que se define de la siguiente manera, se utiliza para medir el poder de discernimiento de cada valor de característica a nuestro problema de clasificación, España

donde se refiere a los valores de características de formación (k = 1, ..., m); n
+ y n
- son el número de proteínas en el positivo (+) y negativo (-) formación de datos, respectivamente; ,, Son los promedios de la i
valor de esta func a través de todo el conjunto de datos de entrenamiento, el conjunto de datos positivos y el conjunto de datos negativos, respectivamente; y y son los i
ª función de la k
TH proteína en la formación de datos positivos y negativos, respectivamente. En general, cuanto mayor es un F-puntuación, más discriminativo la función correspondiente es. En nuestra selección, todas las características con los F-puntuaciones por encima de un umbral preseleccionado fueron retenidos y utilizados en el entrenamiento del clasificador final. Para encontrar un umbral óptimo F-score, se consideró que una lista de posibles umbrales y luego seleccionamos la mejor teniendo en cuenta los resultados de la formación
.

La formación de nuestro clasificador basado en SVM se realiza mediante un procedimiento estándar previsto en LIBSVM [12] para encontrar valores de dos parámetros C
y γ que dan una clasificación óptima de los datos de entrenamiento, donde C
controla el equilibrio entre los errores de entrenamiento y los márgenes de clasificación, y γ determina la anchura del núcleo utilizado [12]. Nuestro procedimiento de formación se resume como sigue [12]:

  • Obtener el F-score para cada valor de característica;
  • Para cada uno de los umbrales preseleccionados, haga lo siguiente
  • Retire la con valores de características F-puntuaciones más bajas que el umbral;
  • al azar se dividieron los datos de entrenamiento en un sub-conjuntos de entrenamiento y un sub-validación con igual tamaño;
  • Capacitar a un SVM con un núcleo RBF en el sub-conjunto de entrenamiento para buscar valores óptimos de C
    y γ, y luego aplicarlo a los datos sub-validación y calcular el error de clasificación;
  • Repetir las etapas (i) - (iii) cinco veces y calcular el promedio de error de validación;
  • Seleccione el umbral que da el error de validación media más baja, y mantener las características con F-score por encima del umbral seleccionado; y
  • Reciclar una SVM basado en las características seleccionadas como el clasificador final.

    b. Conjuntos de datos utilizados para evaluar el rendimiento del clasificador

    Un conjunto de datos independientes se utilizó para evaluar el rendimiento del clasificador entrenado para los que se conoce el estado de excreción de cada proteína. El subconjunto positivo de este conjunto de datos tiene 460 proteínas humanas que se encuentran en la orina de individuos sanos por tres estudios de proteómica urinarios [14], [15], [16] y el subconjunto negativo contiene 2.148 proteínas seleccionadas usando el mismo procedimiento descrito anteriormente pero no hace no se superponen con el conjunto que se ha empleado para la formación

    se utilizaron las siguientes medidas para evaluar la precisión de clasificación:. la sensibilidad, la especificidad, la exactitud, coeficiente de correlación de Mateo, y la AUC [17]. La Tabla 1 resume las precisiones de clasificación del clasificador entrenado en la formación tanto y los conjuntos de datos de prueba [17]. A partir de las precisiones de clasificación en los dos conjuntos de datos, creemos que nuestro clasificador entrenado capturó las distintas características clave de las proteínas de excreción en orina.

    Además, nuestro clasificador fue probado en un conjunto de datos independiente, un subconjunto de la 274 proteínas fijos en una matriz de anticuerpos de proteínas pre-hechos (la serie G RayBio humano matriz 4000 (RayBiotech, Inc., Norcross, GA)). De las 274 proteínas, 111 son conocidos por ser excretor y se incluyeron en nuestra formación o conjunto de datos de pruebas independiente. Se aplicó el clasificador en los 163 restantes proteínas cuyo estado de excretor se desconocía (ver Resultados y Tabla S2). Esta matriz de proteínas proporciona el nivel de expresión relativo para cada proteína en la matriz cuando se prueba en una muestra (orina), que se mide en términos de la intensidad de la señal, cuantificados por la densitometría. El fondo de la matriz se utilizó como control para determinar la presencia efectiva de una proteína en la muestra (orina). La intensidad de señal para una proteína se consideró como una señal verdadera si era al menos 5 veces mayor que la del control, como se sugiere en la recomendación del fabricante. Nos centramos nuestra validación experimental en el que confirma las predicciones positivas única ya que es prácticamente imposible demostrar una proteína no está presente en una muestra de orina debido a las limitaciones en la sensibilidad de detección de la tecnología actual cuando la proteína es de muy baja concentración en la muestra.

    c. La orina recogida /preparación

    Las muestras de orina de pacientes con cáncer gástrico y controles sanos se recogieron muestras en la Escuela de Medicina de la Universidad de Jilin, Changchun, China. pacientes con cáncer gástrico, de los que se recogieron las muestras de los pacientes, son todas las etapas finales de los años (véase el cuadro S3 para la información del paciente). Estas muestras se liofilizaron inmediatamente y se almacenaron a -80 ° C hasta su uso posterior después de su extracción quirúrgica de los pacientes. a continuación, se reconstituyeron y se centrifuga (3.000 xg
    durante 25 min a 4 ° C) para eliminar los componentes celulares. Los sobrenadantes se recogieron y se dializaron a 4 ° C contra Millipore agua ultra pura (tres cambios de tampón, seguido de una diálisis durante la noche) utilizando Slide-A-Lyzer diálisis Cassettes (Thermo Fisher Scientific, Rockford, IL). Las concentraciones de proteína se midieron usando la proteína Bio-Rad ensayo (Bio-Rad, Hercules, CA) con albúmina de suero bovino como estándar.

    d. La identificación de los genes que se expresan diferencialmente en los tejidos de cáncer gástrico y de control

    Un total de 80 tejidos de cáncer gástrico y sus tejidos adyacentes no cancerosos de 80 pacientes fueron recogidos en la Escuela de Medicina de la Universidad de Jilin. Microarray experimentos se llevaron a cabo en estos tejidos utilizando el Affymetrix GeneChip Human exón 1,0 ST Array, que cubre 17.800 genes humanos. El algoritmo PLIER [18] se utilizó para resumir las señales de la sonda a expresiones a nivel de genes. Para cada gen, se analizó la distribución de la expresión factor de cambio entre los tejidos de cáncer y de control emparejados a través de los 80 pares de tejidos. Deje K exp, España es el número de pares de tejidos cuyo factor de cambio es al menos 2. Un gen es considerado como expresados ​​diferencialmente
    si el p
    -valor observado de la K exp
    es inferior a 0,05. Con este criterio, se encontraron un total de 715 genes que se expresó diferencialmente en el cáncer gástrico a través de todos los genes humanos, y los nombres de los 715 genes, junto con los asociados K exp
    y p-valores
    , se dan en la Tabla S4. Un estudio detallado de los datos de microarrays se ha informado en otras partes [19].

    e. Función y enriquecimiento vía de análisis

    Los Recursos Bioinformática David y el servidor web KoBas [20], [21] se utilizaron para hacer análisis de enriquecimiento vía funcional y, respectivamente, para todas las proteínas de la orina-excretores predichos, utilizando el todo el conjunto de las proteínas humanas como el fondo. Nos referimos a los lectores [20], [21] para más detalles sobre los métodos para el análisis funcional de enriquecimiento y la vía. Usando DAVID Recursos Bioinformática, la puntuación de enriquecimiento para un grupo específico de proteínas fue determinada por la facilidad Resultado [20], [22]. KoBas es una herramienta complementaria a DAVID medida que se expande la anotación de genes utilizando términos KEGG Orthology (KO). El servidor web KoBas, junto con el sistema de anotación basado-KO [21], [23], se utilizó para encontrar vías estadísticamente enriquecidas e insuficientemente representados entre las proteínas de la orina excretada-predichos. KoBas toma en un conjunto de secuencias de proteínas y les anota el uso de los términos KO. Los términos KO anotados fueron comparados contra todas las proteínas humanas como el conjunto de antecedentes para evaluar si se enriquecen o insuficientemente representados.

    f. Las transferencias Western

    proteínas urinarias de cada muestra (un total de 2 mg) se combinaron con el tinte muestra de 3x. Cada tubo se hirvió durante 5 min y se cargó en geles SDS-PAGE, junto con 10 estándares mu l y correr por 1 h a 200 voltios. La membrana se activó con 100% de metanol, después de una transferencia desde el gel a la membrana (100 voltios durante 1 h). Una vez que la transferencia se completa, la membrana se dejó secar, vuelve a mojar en 100% de metanol y se lavó 2X durante 5 minutos cada uno con Tris-solución salina tamponada (TBS). La membrana se incubó en solución de bloqueo leche 3% durante 2 h a temperatura ambiente. A continuación, la membrana se incubó en la solución de primera anticuerpo (1:200 diluciones en 1,5% de bloqueo de la leche) durante 1 h a temperatura ambiente, y el anticuerpo no unido se retiró lavando la membrana 3 veces con TBS Tween-20 solución (TBST) durante 10 min cada uno. A continuación, la membrana se incubó en una dilución 1:10,000 del anticuerpo secundario en solución de bloqueo leche 1,5% durante 1 h a temperatura ambiente. La membrana se lavó 3 veces con TBST y 2X con TBS (10 min cada uno). Por último, la membrana se cubrió completamente con una cantidad igual de potenciador y disolución de peróxido de un kit de Pierce Western Blotting para 5 min y se expuso a la película. Cada experimento se repitió varias veces para asegurar la reproducibilidad [24]. Las intensidades de señal se determinaron utilizando el software ImageJ [25]. Para cada membrana, el carril en blanco se utilizó para normalizar las intensidades de señal a través de las membranas. El rendimiento fue examinada usando la República de China y la trama de la barba de la caja.

    Resultados y Discusión

    a. péptido señal y estructuras secundarias son las características clave de proteínas de la orina excretada-

    La lista inicial de características fue cuidadosamente seleccionado para incluir lo que creemos ser proteínas características pertinentes a la excreción urinaria sobre la base de búsqueda en la literatura y nuestra comprensión actual de la orina proteínas. Por ejemplo, la pared glomerular cargado negativamente en el riñón permitirá la filtración de proteínas solamente con carga positiva o neutra. Por lo tanto, la carga de una proteína es una de las características que hemos seleccionado. Tomando la información disponible en la consideración, el número total de valores de características recogidas inicialmente fue de 243, lo que representa propiedades básicas de secuencia, motivos, propiedades físico-químicas y las propiedades estructurales (Tabla S1). En la identificación de características que son eficaces en la discriminación de las proteínas de excreción de orina de los no excretores, un método sencillo y eficaz para eliminar las características que muestran poco o ningún poder para discernir se empleó nuestro problema de clasificación; 74 valores de características fueron seleccionados mediante el procedimiento descrito en la sección A de Métodos (cuadro S5). Estos valores de características se utilizan para entrenar el clasificador final.

    Entre los componentes seleccionados, el más discriminatorio fue la presencia de péptidos señal. Se entiende que las proteínas que son secretadas a través de la ER tienen péptidos señal y son objeto de tráfico a su destino de acuerdo con los péptidos señal específicos; por lo tanto, no es sorprendente que la mayoría de proteínas excretadas tienen esta característica. Otra característica destacada era el tipo de estructura secundaria; En concreto, el porcentaje de hélices alfa en una secuencia de la proteína se clasificó como el valor de función número 2 entre los 74 (S5 Tabla) seleccionado. Como era de esperar, la carga de una proteína fue uno de los rasgos mejor clasificados para las proteínas excretadas. Esto es consistente con el entendimiento general de que la carga es un factor en la determinación de que las proteínas se puede filtrar a través de la membrana glomerular [26] como las proteínas dentro de las membranas glomerulares y hendiduras podocitos están cargados negativamente, y por lo tanto las proteínas cargadas negativamente tendrán posibilidades bajos para filtrar a través de los riñones. De hecho, los valores de características de los aminoácidos positivos y carga se encuentran entre los mejores valores de características clasificados.

    Curiosamente, sin embargo, el peso molecular, que ocupa el puesto 232 de 243, no se incluyó en los últimos 74 valores de características. Esto podría explicarse por lo siguiente. Las proteínas presentes en el suero pueden ya han sufrido un escote o han sido parcialmente degradado, y por lo tanto no pueden estar en su forma intacta o completa cuando entran en el riñón. Se ha, de hecho, ha establecido que la mayoría de proteínas que se encuentran en la orina son ampliamente degradada [27]. Si bien una proteína intacta puede no ser capaz de filtrar a través de los glomérulos debido a su tamaño o forma, un péptido de la proteína derivada puede pasar fácilmente a través de las ranuras podocitos. Como resultado, el peso molecular de la proteína intacta es un no-factor en la predicción de si la proteína es de excreción de orina.

    Debe tenerse en cuenta que la orina proteínas de excreción y las proteínas secretadas comparten algunas características comunes como algunas de las características utilizadas para identificar las proteínas secretadas por la sangre en nuestro estudio anterior [10] fueron seleccionados en la predicción de proteínas en orina en este estudio. Por ejemplo, características tales como la accesibilidad de disolvente, polaridad, y péptidos señal se incluyeron en ambos clasificadores. Sin embargo, hay una clara diferencia entre las características utilizadas en los dos clasificadores. Mientras que las características tales como la cadena beta-contenido, características asociadas con la proteína beta-barril transmembrana y la proporción de proteínas, TatP motivo, dominio transmembrana, la proteína de tamaño, y la región de los trastornos más larga fueron algunas de las características principales para la predicción de proteínas de la sangre secretora [10 ], no se incluyeron en las características finales para la predicción de proteínas en orina. Por otra parte, las características relacionadas con la carga positiva, tal como la composición de aminoácidos cargados positivamente, fueron prominentes en la predicción de proteínas en orina, pero no seleccionado en la predicción de la secreción de sangre. Del mismo modo, la hélice alfa-contenido y la bobina en el contenido de proteínas se encuentran entre los mejores características para la predicción de proteínas en orina, pero que no fueron seleccionados para la predicción de proteínas de la sangre secretora. Es interesante observar que, en contraste con el hallazgo de que los beta-hebras son un secundario de tipo de estructura común entre las proteínas secretoras de sangre, proteínas urinarias tienden a tener mayor hélice alfa y el contenido de la bobina, lo que indica que las proteínas urinarias poseen propiedades no compartidos por proteínas de secreción de sangre en general.

    b. Rendimiento del clasificador

    Para determinar la precisión del clasificador final, lo probamos en un conjunto de pruebas independientes, que consta de 460 de orina validada experimentalmente proteínas de excreción y 2.148 no orina proteínas de excreción. Nuestro clasificador tiene su predicción de sensibilidad y especificidad en este conjunto de pruebas independientes en 0,78 y 0,92, respectivamente (Tabla 1).

    Nos encontramos entonces el clasificador en el 163 de las 274 proteínas fijos en el anticuerpo pre-hechos array (ver Métodos), para los que el estado excretor era desconocido. De las 163 proteínas, 112 proteínas se prevé que sea de excreción de orina por nuestro clasificador. Para evaluar el rendimiento de esta predicción, experimentos basados ​​en matriz de anticuerpos se llevaron a cabo en 14 muestras de orina, siete de individuos sanos y siete de los pacientes con cáncer gástrico. De las 112 proteínas orina-excretores predichos, 92 se encontraron en por lo menos una de las muestras de orina (Tabla S6), dando una tasa de predicción positivo de 0,81, lo cual es consistente con el nivel de rendimiento en la primera prueba.

    debe tenerse en cuenta que una limitación de este clasificador es que algunas proteínas podrían haber sido degradados parcialmente antes de ser excretado en la orina o en la orina, lo que hace difícil para nuestro clasificador para detectar péptidos formados de esta manera, ya que fue entrenado en proteínas intactas enteros. Esta cuestión se abordará en el futuro a través de derivar valores de características en función de las proteínas /péptidos reales identificadas en anteriores estudios proteómicos urinario en lugar de sus correspondientes proteínas de longitud completa tal como se hizo en este estudio. Si bien existe una clara margen de mejora, los resultados de la predicción del clasificador actual son muy alentadores.

    c. Aplicación del clasificador de datos de cáncer gástrico

    Nuestro estudio anterior en 160 conjuntos de datos de microarrays de expresión génica de cáncer gástrico ha identificado 715 genes expresados ​​diferencialmente con los cambios de al menos 2 veces en el cáncer gástrico contra
    muestras de tejido de control [19]. Aunque sería preferible tener datos proteómicos de las muestras de tejido, sólo tenemos expresión de genes de los datos disponibles en este estudio. Por lo tanto, los datos de expresión de genes se utilizan como una aproximación a la expresión de la proteína en este estudio orientado metodología. Nuestro clasificador se aplicó a estas 715 proteínas, y predijo que 201 de las 715 proteínas son excretor orina. Tabla S7 proporciona la información detallada de las 201 proteínas. Dado que es poco realista para comprobar todas las 201 proteínas en este estudio para determinar si son o no de excreción de orina, análisis que hicimos para reducir esta lista. En concreto, hemos llevado a cabo los siguientes análisis: (i) el enriquecimiento funcional y vía de análisis para obtener una mejor comprensión de los tipos de proteínas presentes en la orina, (ii) la búsqueda bibliográfica en las proteínas urinarias para recopilar información acerca de las proteínas marcadoras urinaria publicados, ( iii) el examen de los datos de expresión génica para eliminar genes que no están sustancialmente expresados ​​diferencialmente entre las muestras de cáncer y tejido de control; y (iv) las transferencias Western de las proteínas elegidas de una lista reducido de las 201 proteínas. Este procedimiento mostró una alta tasa de éxito y dio lugar a un interesante descubrimiento de biomarcador potencial para el cáncer gástrico.

    En (i), hemos llevado a cabo los análisis funcional y el enriquecimiento de la vía en todos los 201 proteínas utilizando el DAVID [20 ] y [21] Kobas servidores, respectivamente. Se encontró que los grupos funcionales enriquecidos incluyen la matriz extracelular (ECM), la adhesión celular, y el desarrollo, la motilidad celular, la respuesta de defensa, la angiogénesis, que son todos conocido por estar involucrado en el desarrollo de o en defensa de cáncer (Figura S1A). Las vías más enriquecidos fueron interacción ECM-receptor y de transporte de iones y el metabolismo inorgánicos vías (Figura S1B)

    El siguiente criterio se usa para reducir la lista de 201 proteínas de las etapas (ii) - (iii):. no se ha informado de las proteínas que estar relacionado con cualquier tipo de cáncer basado en nuestra extensa búsqueda bibliográfica
    , lo que da lugar a 71 proteínas. La lista se redujo aún más en base a una ley de corte preseleccionado en las expresiones diferenciales y anotaciones funcionales (potencialmente relevantes para el cáncer gástrico en lugar de la respuesta inmune).

    d. lipasa endotelial se reduce sustancialmente en las muestras de orina de pacientes con cáncer gástrico

    Hemos elegido seis proteínas (MUC13, Col10a1, AZGP1, LIPF, MMP3, y el) en la validación experimental de la lista reducido anteriormente. Para ello, hemos recogido muestras de orina de 21 pacientes con cáncer gástrico y 21 individuos sanos. De las seis proteínas seleccionadas, cinco proteínas, MUC13, COL10A1, LIPG, AZGP1, y EL fueron detectados por transferencias de Western en al menos una muestra de orina. Fuera de los cinco, MUC13, COL10A1, y El se detectaron incluso en una cantidad muy baja de las proteínas urinarias totales (1-2 g). MMP 3 no se encontró en las muestras analizadas, lo que puede ser debido a la baja concentración de MMP 3 en la orina o una falsa predicción por nuestro clasificador.

    Es particularmente interesante notar que hemos sido capaces de detectar diferencias consistentes en la abundancia eL (codificada por LIPG
    ) entre los dos conjuntos de 21 muestras de orina. Las transferencias de Western para EL mostraron una reducción sustancial en su abundancia en muestras de orina de los 21 pacientes con cáncer gástrico en comparación con las muestras de control. Como se muestra en la Figura 2A, la mayoría de las muestras de control mostró la presencia de EL, mientras que la mayoría de las muestras de cáncer gástrico tenían cantidades relativamente bajas de EL. Este patrón se observó en varias ocasiones

    El peso molecular de esta proteína se ha determinado que 68 kDa [28].; Por lo tanto, se espera que un homo-dímero de ser 134 kDa. En las transferencias de Western, sin embargo, se detectaron bandas en cerca de 100 kDa. Esto probablemente corresponde a un homo-dímero parcialmente escindida, una forma activa de la cual fue confirmada por un estudio anterior [29], aunque la posibilidad de una forma monomérica de EL asociado con otra proteína no puede ser descartada. http://csbl.bmb.uga.edu/~juancui/Publications/GC2009/Additional_material.pdf.
    doi:10.1371/journal.pone.0016875.s005
    (XLS)
    Table

  • Other Languages