Stomach Health > Saúde estômago >  > Gastric Cancer > Câncer de intestino

PLOS ONE: um método computacional para predição de Excretores Proteínas e Aplicação de Identificação de marcadores de câncer gástrico em Urine

Abstract

Um método computacional novo para a previsão de proteínas excretadas na urina é apresentado. O método baseia-se na identificação de uma lista de características distintivas entre proteínas encontradas na urina de pessoas saudáveis ​​e proteínas não seja considerada de excreção de urina. Estas características são utilizadas para formar um classificador para distinguir as duas classes de proteínas. Quando usado em conjunto com os dados de proteínas que são diferencialmente expressos em tecidos doentes de um tipo específico relação
tecidos de controlo, este método pode ser utilizado para prever potenciais marcadores de urina para a doença. Aqui nós relatamos o algoritmo detalhada deste método e um aplicativo para identificação de marcadores de urina para o câncer gástrico. O desempenho do classificador treinado em 163 proteínas foi validada experimentalmente usando matrizes de anticorpos, alcançando > 80% verdadeira taxa positiva. Ao aplicar o classificador de genes diferencialmente expressos em câncer gástrico vs
tecidos gástricos normais, verificou-se que lipase endotelial (EL) foi substancialmente suprimida nas amostras de urina de 21 pacientes com câncer gástrico contra
21 indivíduos saudáveis. No geral, nós demonstramos que a nossa previsão para proteínas de excreção de urina é altamente eficaz e pode potencialmente servir como uma ferramenta poderosa na busca de biomarcadores da doença na urina em geral

Citation:. Hong CS, Cui J, Ni Z, su Y, D Puett, Li F, et al. (2011) Um método computacional para predição do Excretores Proteínas e Aplicação de Identificação do câncer gástrico marcadores na urina. PLoS ONE 6 (2): e16875. doi: 10.1371 /journal.pone.0016875

editor: Vladimir Brusic, Instituto de Câncer Dana-Farber, Estados Unidos da América

Recebido: 22 de setembro de 2010; Aceite: 31 de dezembro de 2010; Publicação: 18 de fevereiro de 2011

Este é um artigo de acesso aberto distribuído sob os termos da declaração Creative Commons Public Domain que estipula que, uma vez colocado no domínio público, este trabalho pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita

Financiamento:. Este estudo foi apoiado em parte pela National Science Foundation (CCF-0621700, DBI0542119004, 1R01GM075331), Universidade de Jilin, a Universidade da Geórgia, a Geórgia Cancer Coalition, a Research Alliance Geórgia e os Institutos nacionais de Saúde (1R01GM075331, DK69711). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

O rápido avanço da cas
técnicas nos últimos anos tornou possível a busca de biomarcadores para doenças humanas específicas de uma forma sistemática e abrangente, que é melhorar substancialmente a nossa capacidade de detectar doenças em estágios iniciais. A maioria dos estudos anteriores de biomarcadores têm sido focados na marcadores séricos [1], principalmente por causa da riqueza de soro conhecido na contendo sinais para várias condições fisiológicas e fisiopatológicas.

Em comparação com os marcadores séricos, marcadores urinários existentes são principalmente relacionada com a do trato urinário ou doenças estreitamente associados. Somente nos últimos anos melhorou análises proteômicas de amostras de urina revelou que, como soros, urina é também uma rica fonte de informações para a detecção de doenças humanas, como a enxertia contra
-host doença e doença arterial coronariana [2], [3], [4]. Note-se que a urina é formado por meio de filtração de sangue através dos rins; portanto, algumas proteínas no sangue podem passar através dos filtros e ser excretado na urina. Como resultado, as proteínas urinárias não somente reflectir as condições do rim e do tracto urogenital, mas também as dos outros órgãos que podem ser distai do rim, tal como pelo menos 30% das proteínas urinárias não são originalmente a partir do tracto urogenital [5], [6]. A multiplicidade de informações na urina torna-se uma fonte de atrativo para o rastreio biomarcador uma vez que, em comparação com o soro, a composição da urina é relativamente simples, e de recolha de urina é mais fácil e não invasiva [7], [8].

Marcador identificação na urina poderia ser feito através de análises proteômicas comparativos de amostras de urina de pacientes com grupos de doenças e de controlo específicos. O desafio em tais pesquisas para marcadores urinários de forma cega é duplo. (A) A urina pode ter um grande número de proteínas /péptidos (em contraste com o anterior entendimento [8]) com relativamente baixa abundância. (B) A gama dinâmica na abundância destas proteínas pode abranger algumas ordens de grandeza, mais largos do que o intervalo tipicamente cobertos por um espectrómetro de massa [9]. Por estas razões, análises comparativas, em particular (semi) análises quantitativas, de dados de proteômica de amostras de urina pode ser muito desafiador. Isso pode ser uma das principais razões que não existem marcadores de urina confiáveis ​​para diagnóstico de câncer.

O nosso estudo centra-se no desenvolvimento de um método computacional para proteínas prever com precisão que são excretor de urina (ver Figura 1 para o contorno da abordagem ). Estas proteínas deve ter propriedades específicas que lhes permitem ser segregada a partir de células da primeira e, em seguida, a ser filtrado para fora através da membrana glomerular em rins. Um estudo proteômica recente identificou mais de 1.500 proteínas /peptídeos que são excretados na urina através de membranas saudáveis ​​glomerular [8]. Usando este conjunto de proteínas e proteínas consideradas não ser excretor de urina, nós identificamos uma lista de características distintivas entre essas duas classes de proteínas e treinou uma máquina de vetor de suporte (SVM) com base classificador de prever se uma determinada proteína pode ser excretado na urina . O método de previsão foi validado experimentalmente usando matrizes de anticorpo em conjunto com manchas de Western, e os resultados são muito encorajadores.

Este classificador tem sido aplicado para predizer as proteínas que podem ser excretados na urina, com base nos genes diferencialmente expressos identificados O câncer gástrico tecidos gástricos referência contra
; e um número de potenciais marcadores de urina para o cancro gástrico foram identificados. Um contributo essencial neste trabalho é que ele oferece uma maneira nova e eficaz para orientar estudos de proteômica de urina, sugerindo proteínas marcadoras candidato, portanto, permitindo pesquisas marcador alvo usando técnicas mediadas por anticorpos como Western blot e Elisa, que são substancialmente mais viável do que em larga escala comparativa análises proteômicas de amostras de urina sem qualquer alvo com a qual trabalhar. Embora este programa previsão tem sido aplicada aos dados câncer gástrico neste estudo, nenhuma informação específica do câncer gástrico foi utilizado neste programa; Assim, ele pode ser usado para pesquisas de marcadores de urina para outras doenças

Métodos

Este estudo consiste em três componentes principais:. (i) a construção de um classificador para a previsão de proteínas de excreção de urina; (Ii) avaliação do desempenho do classificador, aplicando-a a um conjunto de proteínas para o qual é conhecido o estado das proteínas de excreção; e (iii) aplicação do classificador validado com dados de câncer gástrico para demonstrar a sua eficácia na resolução do problema de urina de identificação do marcador de expressão genética.

Esta pesquisa foi aprovada pelo Comitê de Ética da Universidade de Georgia, Athens, Georgia, EUA (Gabinete do vice-Presidente para a Investigação DHHS Assurance ID nO. FWA00003901, do Projecto Código 2009-10705-1) e pela chinesa Institutional Review Board supervisionar seres humanos em Jilin University College of Medicine, Changchun, China. Um termo de consentimento, aprovado pelo IRB na Universidade da Geórgia e IRB chinesa, foi coletado de cada sujeito. Todos os indivíduos estão conscientes de que quaisquer dados de pesquisa pode ser usado para documentos ou publicações como indicado no formulário de consentimento.

a. Um algoritmo para prever proteínas excretores

O entendimento geral da excreção de proteína dos tecidos para a urina é que algumas proteínas são secretadas ou vazaram a partir de células em circulação no sangue e, em seguida, uma parte destas proteínas, juntamente com algumas proteínas nativas em sangue, pode ser excretado na urina. Nossos objetivos são os primeiros a identificar características distintivas para tais proteínas de excreção de urina e, em seguida, para construir um classificador com base nestas características para prever quais proteínas em células pode ser excretado na urina. Para o melhor do nosso conhecimento, não houve nenhum trabalho publicado destinada a resolver este problema. A importância em ter essa capacidade é que ele fornece uma ligação efectiva na ligação ómicos
análises dos tecidos à pesquisa do marcador na urina, fornecendo marcadores candidatos na urina que pode ser estudado usando abordagens baseadas em anticorpos.

O primeiro passo no desenvolvimento de uma capacidade tal preditivo, ou seja, um classificador, é ter um conjunto de dados de treino que contém proteínas que podem e que pode não ser excretado na urina, com base no qual um conjunto de características distintivas poderia possivelmente ser identificados. Felizmente, encontramos um grande conjunto de dados de proteômica de amostras de urina de pessoas saudáveis ​​em um estudo recentemente publicado [8], que contém mais de 1.500 proteínas singulares, dos quais 1.313 têm IDs de adesão SwissProt. Temos usado esses 1.313 proteínas como os dados de treinamento positivos para o classificador a-ser treinado. O procedimento seguinte foi usado para gerar um conjunto de treino negativo: seleccionar arbitrariamente pelo menos uma proteína a partir de cada família Pfam que não contém quaisquer dados formação positivo, e o número de proteínas seleccionadas a partir de cada família é proporcional ao tamanho da família [ ,,,0],10], [11]. Como resultado, 2.627 proteínas foram selecionadas e utilizadas como o conjunto de treinamento negativo.

Foram examinados 18 características físico-químicas calculadas a partir de sequências de proteínas, que são potencialmente úteis para o problema de classificação com base no entendimento geral da excreção urinária de proteínas . Os detalhes das características 18 e os programas informáticos utilizados para calcular deles estão listados na Tabela S1. Algumas destas características são representadas por múltiplos valores de características, por exemplo, a composição de aminoácidos de uma sequência de proteína é representada por 20 valores de características; Em geral, os 18 recursos são representados usando 243 valores-metragens. Em seguida, identificou um subconjunto de valores características do 243, que podem distinguir entre o os dados de treinamento negativos usando um classificador baseado em SVM positivo e. O kernel RBF foi utilizada em nosso treinamento SVM, considerando a sua capacidade de lidar com atributos não-lineares [12], [13].

Para verificar quais os recursos inicialmente considerados são realmente úteis, a ferramenta de seleção de características fornecida em LIBSVM [12] foi usado para selecionar as características mais exigentes entre os 243. Outras ferramentas de seleção recurso pudesse ser usado, mas temos uma experiência considerável na utilização desta ferramenta e achei que fosse adequada. Códigos utilizados neste estão disponíveis ao público no site LIBSVM (http://www.csie.ntu.edu.tw/~cjlin/libsvm/); também fizemos o programa relevantes acessíveis a http://seulgi.myweb.uga.edu/files. Um F-score [12], definido da seguinte forma, é usado para medir o poder de distinção de cada valor de recurso para o nosso problema de classificação,

em que se refere aos valores de recursos de treinamento (k = 1, ..., m); n
+ e n
- são o número de proteínas no positivo (+) e negativo (-) conjunto de dados de treinamento, respectivamente; ,, São as médias do i
valor recurso th em todo o conjunto de dados de treinamento, o conjunto de dados positivos e o conjunto de dados negativos, respectivamente; e e são o i
recurso th do k
th proteína nos dados de treinamento positivos e negativos, respectivamente. Geralmente, quanto maior a F-score, mais discriminativo o recurso correspondente é. Em nossa seleção, todos os recursos com F-scores acima de um limiar pré-selecionados foram retidos e utilizados na formação do classificador final. Para encontrar um limite F-score ideal, considerada uma lista de possíveis limites e, em seguida, selecionar o melhor, com base nos resultados de treinamento
.

A formação do nosso classificador baseada em SVM é feito usando um procedimento padrão fornecido em LIBSVM [12] para encontrar valores de dois parâmetros C Comprar e γ que dão uma classificação melhor nos dados de treinamento, onde C
controla o trade-off entre os erros de treinamento e margens de classificação e γ determina a largura do núcleo usado [12]. Nosso procedimento de formação é resumido da seguinte forma [12]:

  • Obtenha o F-score para cada valor de característica;
  • Para cada um dos limiares pré-selecionado, faça o seguinte
  • Remova o os valores de recursos com o F-pontuações mais baixas do que o limiar;
  • aleatoriamente dividir os dados de treinamento em um sub-formação e um conjuntos sub-validação com idêntica dimensão;
  • treinar um SVM com um kernel do RBF na sub-conjunto de treinamento de pesquisa para valores ótimos de C Comprar e γ, e depois aplicá-lo aos dados de sub-validação e calcular o erro de classificação;
  • Repita os passos (i) - (iii) cinco vezes e calcular o erro médio de validação;
  • Escolha o limiar que lhe dá o menor erro médio de validação, e manter as características com F-score acima do limiar selecionada; e
  • Retrain uma SVM com base nos recursos selecionados como o classificador final.

    b. Os conjuntos de dados utilizados para avaliar o desempenho do classificador

    Um conjunto de dados independente foi utilizado para avaliar o desempenho do classificador treinado para o qual o estado de excreção de cada proteína é conhecida. O subconjunto positiva deste conjunto de dados tem 460 proteínas humanas encontradas na urina de indivíduos saudáveis ​​por três estudos de proteômica urinário [14], [15], [16], eo subconjunto negativo contém 2.148 proteínas selecionadas usando o mesmo procedimento descrito anteriormente, mas faz não se sobrepõem com o conjunto negativo usado para formação |

    foram utilizadas as seguintes medidas para avaliar a precisão de classificação:. a sensibilidade, a especificidade, a precisão, o coeficiente de correlação de Matthew, ea AUC [17]. A tabela 1 resume as precisões de classificação do classificador treinado na formação tanto e os conjuntos de dados de teste [17]. Desde as precisões de classificação sobre os dois conjuntos de dados, acreditamos que o nosso classificador treinado capturou as características distintas chave das proteínas de excreção de urina.

    Além disso, nosso classificador foi testado em um conjunto de dados separado, um subconjunto do 274 proteínas fixos em uma matriz de anticorpo a proteína pré-fabricados (o G-series RayBio Humano matriz 4000 (RayBiotech, Inc., Norcross, GA)). Das 274 proteínas, 111 são conhecidos por serem excretor e foram incluídos na nossa formação ou conjunto de dados de teste independente. Aplicou-se o classificador sobre os restantes 163 proteínas para o qual o status excretora era desconhecida (ver resultados e Tabela S2). Este array de proteínas proporciona o nível de expressão relativa de cada proteína na matriz quando testado em um (urina) amostra, o que é medido em termos de intensidade do sinal, quantificada por densitometria. O fundo da matriz foi utilizado como controlo para determinar a presença real de uma proteína na (urina) da amostra. A intensidade do sinal para uma proteína foi considerada como um sinal verdadeiro se que era pelo menos cinco vezes mais elevada do que a do controlo, tal como sugerido pela recomendação do fabricante. Nós focado a validação experimental em confirmando as previsões positivos apenas uma vez que é praticamente impossível para provar uma proteína não está presente na amostra de urina, devido a limitações na sensibilidade de detecção da actual tecnologia, quando a proteína é de muito baixa concentração na amostra.

    c. coleta de amostra de urina /preparação

    As amostras de urina de pacientes com câncer gástrico e controles saudáveis ​​foram coletadas na Faculdade de Medicina da Universidade de Jilin, Changchun, China. pacientes com câncer gástrico, de que as amostras foram recolhidas de, são todos pacientes em estágio final (ver Tabela S3 para obter informações do paciente). Estas amostras foram imediatamente liofilizadas e armazenadas a -80 ° C até à sua utilização, após a sua remoção cirúrgica dos pacientes. Eles foram então reconstituído e centrifugada (3.000 xg
    durante 25 min a 4 ° C) para remover os componentes celulares. Os sobrenadantes foram recolhidos e dialisadas a 4 ° C contra água ultra pura Millipore (três mudanças de tampão, seguido de uma diálise durante a noite) utilizando um Slide-A-Lyzer diálise Cassetes (Thermo Fisher Scientific, Rockford, IL). As concentrações de proteínas foram medidas utilizando o Bio-Rad Protein Assay (Bio-Rad, Hercules, CA) com albumina de soro bovino como padrão.

    d. Identificação de genes diferencialmente expressos em tecidos e controlo do cancro gástrico

    Um total de 80 tecidos de câncer gástrico e seus tecidos não cancerosos adjacentes de 80 pacientes foram coletadas na Faculdade de Medicina da Universidade de Jilin. microarrays experimentos foram realizados com estes tecidos, utilizando o Affymetrix GeneChip Exão Humana 1,0 ST Array, que abrange 17.800 genes humanos. O algoritmo PLIER [18] foi usado para resumir os sinais da sonda para as expressões de nível gene. Para cada gene, foi examinada a distribuição da expressão de dobragem de troca entre os tecidos de cancro e de controlo correspondentes em todos os 80 pares de tecidos. Vamos K exp,
    ser o número de pares de tecidos cuja fold-change é, pelo menos, 2. Um gene é considerado como diferencialmente expressos
    se o p
    -valor do observado K exp
    é inferior a 0,05. Usando este critério, foram encontrados um total de 715 genes diferencialmente expressos em câncer gástrico em todos os genes humanos, e os nomes dos 715 genes, junto com o associado K exp Comprar e p
    -Valores, são apresentados na Tabela S4. Um estudo detalhado dos dados microarray tem sido relatado em outros lugares [19].

    e. Função e enriquecimento via analisa

    David Recursos bioinformática e o servidor web Kobas [20], [21] foram usadas para fazer análise funcional e enriquecimento via, respectivamente, para todas as proteínas da urina-excretores previstos, usando o conjunto de proteínas humanas como o fundo. Referimo-nos aos leitores [20], [21] para obter detalhes sobre os métodos de análises de enriquecimento funcional e via. Usando DAVID Recursos de Bioinformática, a pontuação de enriquecimento para um grupo específico de proteínas foi determinada pela pontuação EASE [20], [22]. Kobas é uma ferramenta complementar para DAVID medida que se expande a anotação gene usando KEGG ortologia termos (KO). O servidor web Kobas, juntamente com o sistema com base anotação-KO [21], [23], foi utilizado para encontrar vias estatisticamente enriquecidos e sub-representados entre as proteínas excretado de urina preditos. Kobas leva em um conjunto de sequências de proteínas e anota-los usando os termos KO. Os termos KO anotados foram então comparados contra todas as proteínas humanas como o conjunto de fundo para avaliar se eles são enriquecidos ou sub-representados.

    f. Western blots

    proteínas urinárias de cada amostra (total de 2 ^ g) foram combinados com corante de amostra de 3x. Cada tubo foi fervida durante 5 minutos e carregado em géis de SDS-PAGE, juntamente com 10 ul padrões e executar durante 1 h a 200 volts. A membrana foi activada com metanol a 100%, na sequência de uma transferência do gel para a membrana (100 volts durante 1 h). Uma vez que a transferência estar completa, a membrana foi deixada secar, reumedecidas em 100% de metanol e lavada 2X durante 5 min cada com Tris-salino tamponado (TBS). A membrana foi então incubada em solução de bloqueio de leite 3% durante 2 horas à temperatura ambiente. Em seguida, a membrana foi incubada na primeira solução anticorpo (1:200 diluições em 1,5% de leite de bloqueio) durante 1 h à temperatura ambiente, e o anticorpo não ligado foi removido por lavagem da membrana 3X com TBS solução de Tween-20 (TBST) durante 10 min cada. Em seguida, a membrana foi incubada numa diluição de anticorpo secundário 1:10,000 na solução de leite 1,5% de bloqueio durante 1 h à temperatura ambiente. A membrana foi lavada 3x com TBST e 2X com TBS (10 min cada). Por último, a membrana foi completamente coberto com uma quantidade igual de solução de peróxido de intensificador e a partir de um kit de Pierce Western Blotting durante 5 min e exposta a filme. Cada experiência foi repetida várias vezes para assegurar a reprodutibilidade [24]. As intensidades de sinal foram determinados utilizando o software ImageJ [25]. Para cada membrana, a pista em branco foi utilizado para normalizar as intensidades de sinal através das membranas. O desempenho foi examinada usando ROC e enredo suiça-box.

    Resultados e Discussão

    a. peptídeo sinal e estruturas secundárias são as principais características das proteínas excretadas de urina

    A lista inicial de recursos foi cuidadosamente selecionados para incluir o que acredita-se ser características de proteínas relevantes para a excreção urinária baseado em pesquisa bibliográfica e nossa compreensão atual da urinária proteínas. Por exemplo, a parede glomerular carregado negativamente no rim permitirá a filtração de proteínas única carga positiva ou neutra. Assim, a carga de uma proteína é uma das características que seleccionados. Tomando a informação disponível em consideração, o número total de valores de características recolhidos inicialmente era 243, que representa as propriedades básicas de sequência, motivos, as propriedades físico-químicas e as propriedades estruturais (Tabela S1). Na identificação de características que são eficazes em discriminar proteínas de excreção de urina de os não-excretores, um método simples e eficaz para eliminar características que mostram pouco ou nenhum poder exigentes para foi empregado o nosso problema de classificação; 74 valores de recursos foram selecionados usando o procedimento descrito na secção A do Métodos (Tabela S5). Estes valores apresentam foram usados ​​para treinar o classificador final.

    Entre os recursos selecionados, o mais discriminatório foi a presença de peptídeos sinal. Entende-se que as proteínas que são secretadas através do ER têm péptidos de sinal e são objecto de tráfico para o seu destino de acordo com os péptidos de sinal específicas; Assim, não surpreendentemente, proteínas mais excretados têm esta característica. Outro destaque foi o tipo de estrutura secundária; Especificamente, a percentagem de hélices alfa em uma sequência de proteína foi classificado como o valor característica número 2 entre a 74 (Tabela S5) seleccionado. Como esperado, a carga de uma proteína estava entre os melhores classificados recursos para proteínas excretadas. Isto é consistente com o entendimento geral de que a carga é um factor na determinação de quais as proteínas pode ser filtrada através da membrana glomerular [26] como proteínas no interior das membranas glomerular e fendas podócitos são carregados negativamente, e, consequentemente, as proteínas carregadas negativamente terão poucas possibilidades para filtrar através os rins. Na verdade, os valores de recurso de aminoácidos positivos e carga estavam entre os principais valores de recursos classificados.

    Curiosamente, no entanto, o peso molecular, que classificado em 232 de 243, não foi incluído nos 74 valores finais de recursos. Isto poderia ser explicado pelo seguinte. As proteínas presentes no soro podem já tenham sido objecto de uma clivagem ou que tenham sido parcialmente degradado, e, portanto, não pode estar na sua forma intacta ou completa quando entram no rim. tem, de facto, foi estabelecido que a maioria das proteínas encontradas na urina são extensamente degradadas [27]. Embora uma proteína intacta pode não ser capaz de filtrar através do glomérulo, devido ao seu tamanho ou forma, um péptido derivado da proteína pode facilmente passar através das fendas de podócitos. Como resultado, o peso molecular da proteína intacta é um não-factor de predição, se a proteína é de excreção de urina.

    Deve notar-se que a urina e as proteínas de excreção proteínas secretadas partilham algumas características comuns, alguns dos características utilizadas para identificar proteínas segregadas de sangue no nosso estudo anterior [10] foram seleccionados para a predição de proteína urinária neste estudo. Por exemplo, recursos como acessibilidade do solvente, polaridade, e peptídeos sinal foram incluídos em ambos os classificadores. No entanto, há uma clara diferença entre os recursos utilizados nos dois classificadores. Enquanto recursos como de cadeia beta-conteúdo, características associadas com a proteína beta-barril transmembrana e relação proteína, TATP motivo, domínio transmembranar, o tamanho da proteína, eo maior região desordenada estavam entre os principais recursos para a previsão de proteínas de sangue secretora [10 ], que não foram incluídos nas características finais para a previsão de proteína urinária. Além disso, características relacionadas com carga positiva, tais como a composição de aminoácidos carregados positivamente, foram proeminentes na predição proteína urinária mas não seleccionadas para a secreção de predição sangue. Da mesma forma, a alfa-hélice-conteúdo e bobina-teor de proteínas estavam entre os principais recursos para a previsão urinária de proteínas, mas eles não foram selecionados para a predição da proteína de sangue secretora. É interessante notar que, em contraste com a constatação de que cadeias beta são um tipo de estrutura secundária comum entre as proteínas secretoras de sangue, proteínas urinárias tendem a ter maior hélice-alfa e o conteúdo da bobina, o que indica que as proteínas urinárias possuem propriedades que não são partilhadas por proteínas secretoras de sangue em geral.

    b. Desempenho do classificador

    Para determinar a precisão do classificador final, nós testamos em um conjunto de teste independente, que consiste em 460 urina validada experimentalmente proteínas de excreção e 2.148 proteínas de excreção de urina não. Nosso classificador tem a sua sensibilidade e especificidade previsão sobre este conjunto de testes independente em 0,78 e 0,92, respectivamente (Tabela 1).

    Em seguida, correu o classificador no 163 de 274 proteínas fixos no anticorpo pré-fabricados array (ver Métodos), para a qual o status excretora era desconhecida. Dos 163 proteínas, as proteínas foram 112 previsto para ser excreção de urina pelo nosso classificador. Para avaliar o desempenho desta previsão, experimentos com base na matriz de anticorpos foram realizados em 14 amostras de urina, sete de indivíduos saudáveis ​​e sete de pacientes com câncer gástrico. Dos 112 proteínas da urina-excretores preditos, 92 foram encontrados em, pelo menos, uma das amostras de urina (Tabela S6), dando uma taxa de previsão positiva de 0,81, o que é consistente com o nível de desempenho no primeiro conjunto de testes.

    deve notar-se que uma limitação deste classificador é que algumas proteínas podem ter sido parcialmente degradado antes de ser excretado na urina ou na urina, o que torna difícil para o classificador para detectar péptidos assim formadas, uma vez que foi treinado em proteínas intactas inteiras. Esta questão será abordada no futuro através de derivação de valores de recurso com base nas reais proteínas /peptídeos identificados em estudos de proteômica urinário anteriores ao invés de seus correspondentes proteínas de comprimento total como feito neste estudo. Enquanto há claramente espaço para melhorias, os resultados de previsão do classificador atual são altamente encorajadores.

    c. Aplicação de classificador aos dados câncer gástrico

    O nosso estudo anterior em 160 conjuntos de dados de expressão genética de microarranjos de câncer gástrico identificou 715 genes diferencialmente expressos com as mudanças, pelo menos, 2 vezes em câncer gástrico contra
    amostras de tecido de controlo [19]. Embora seja preferível ter dados proteomic das amostras de tecido, que tem apenas os dados de expressão genética disponíveis neste estudo. Assim, os dados de expressão de genes são a ser usado como uma aproximação para a expressão da proteína neste estudo orientada a metodologia. Nosso classificador foi aplicada a estes 715 proteínas, e previu que 201 das 715 proteínas são excretor de urina. Tabela S7 fornece a informação detalhada das 201 proteínas. Uma vez que é irrealista para verificar todas as proteínas 201 neste estudo para determinar se eles são excretor de urina ou não, fizemos análises para diminuir esta lista. Especificamente, temos realizado as seguintes análises: (i) o enriquecimento funcional e via de análises para obter uma melhor compreensão dos tipos de proteínas presentes na urina, (ii) pesquisa bibliográfica sobre proteínas urinárias para compilar informações sobre proteínas marcadoras urinária publicados, ( iii) analisar os dados de expressão de gene para remover genes que não são expressos diferencialmente substancialmente entre amostras de cancro e de controlo de tecido; e (iv) Western blot em proteínas escolhidos a partir de uma lista reduzida dos 201 proteínas. Este procedimento mostrou uma alta taxa de sucesso e levou a uma descoberta interessante do potencial biomarcador para o câncer gástrico.

    Para (i), temos realizado funcional e analisa o enriquecimento via em todas as 201 proteínas utilizando o DAVID [20 ] e Kobas [21] servidores, respectivamente. Verificou-se que os grupos funcionais enriquecidos incluído na matriz extracelular (ECM), adesão celular, e desenvolvimento, a motilidade celular, a resposta de defesa, a angiogénese, que são todos conhecidos por estarem envolvidos no desenvolvimento de, ou na defesa de cancro (Figura S1A). As vias mais enriquecidos foram interacção-receptor ECM e inorgânicos de transporte de íons e metabolismo vias (Figura s1b)

    O seguinte critério foi utilizado para reduzir a lista de 201 proteínas para os passos (ii) - (iii):. as proteínas não foram relatados estar relacionada com qualquer tipo de câncer com base em nossa pesquisa extensa literatura
    , o que dá origem a 71 proteínas. A lista foi reduzida com base em um ponto de corte pré-selecionados em expressões diferenciais e anotações funcionais (potencialmente relevantes para câncer gástrico em vez de respostas imunes).

    d. lipase endotelial é substancialmente reduzida nas amostras de urina de câncer gástrico pacientes

    Nós escolhemos seis proteínas (MUC13, COL10A1, AZGP1, LipF, MMP3, e El) para a validação experimental da lista reduzida acima. Para fazer isso, nós coletamos amostras de urina de 21 pacientes com câncer gástrico e 21 indivíduos saudáveis. Das seis proteínas seleccionadas, cinco proteínas, MUC13, COL10A1, LIPG, AZGP1, e SR foram detectadas por Western blots em pelo menos uma amostra de urina. Fora dos cinco, MUC13, COL10A1, e SR foram detectados mesmo em uma quantidade muito reduzida das proteínas urinárias totais (1-2 ug). MMP3 não foi encontrado nas amostras testadas, que pode ser devido à baixa concentração de MMP3 na urina ou uma falsa previsão pelo nosso classificador.

    É particularmente interessante observar que fomos capazes de detectar diferenças consistentes na abundância EL (codificada pelo LIPG
    ) entre os dois conjuntos de 21 amostras de urina. As transferências de Western para EL mostraram uma redução substancial na sua abundância em amostras de urina de 21 pacientes com cancro gástrico em comparação com as amostras de controlo. Como mostrado na Figura 2A, a maioria das amostras de controlo revelou a presença de EL, enquanto que a maioria das amostras de cancro gástrico tinham quantidades relativamente baixas de EL. Este padrão foi observado repetidamente

    O peso molecular desta proteína foi determinada ser 68 kDa [28].; Assim, um homo-dímero é esperado ser 134 kDa. Nos western blots, no entanto, foram detectadas bandas no próximo de 100 kDa. Isto provavelmente corresponde a um homo-dímero parcialmente clivada, uma forma activa do que foi confirmada por um estudo anterior [29], embora a possibilidade de uma forma monomérica de EL associada com outra proteína não pode ser excluída. http://csbl.bmb.uga.edu/~juancui/Publications/GC2009/Additional_material.pdf.
    doi:10.1371/journal.pone.0016875.s005
    (XLS)
    Table

  • Other Languages