Stomach Health > Saúde estômago >  > Gastric Cancer > Câncer de intestino

PLOS ONE: Avaliação de Risco de câncer gástrico causada por Helicobacter pylori Usando CagA Sequence Markers

Abstract

Fundo

Como um marcador de Helicobacter pylori
, gene citotoxina associada a (cagA) foi revelado para ser o principal fator de virulência causando doenças gastroduodenais. No entanto, os mecanismos moleculares que estão na base do desenvolvimento de diferentes doenças gastroduodenais causadas por cagA-positivo H. pylori
permanecem desconhecidos. Os estudos actuais são limitados para a avaliação da relação entre as doenças e o número de motivos de Glu-Pro-Ile-Tir-Ala (Epiya) na estirpe CagA. Para entender melhor a relação entre a sequência CagA e sua virulência para câncer gástrico, propusemos uma abordagem sistemática baseada em entropia para identificar os resíduos relacionados com o câncer nas regiões intervenientes de CagA e empregou um método de aprendizado de máquina supervisionado para casos de câncer e não-cancerosas classificação.

Metodologia

Um cálculo baseado em entropia foi utilizado para detectar resíduos chave de sequências intervenientes CagA como o biomarcador câncer gástrico. Para cada resíduo, tanto entropia combinatória e a entropia do fundo foram calculados, e a diferença de entropia foi usada como o critério para a selecção resíduo característica. Os valores de recursos foram então alimentados em Support Vector Machines (SVM) com o kernel Radial Basis Function (RBF), e dois parâmetros foram ajustadas para obter o valor F óptima usando a pesquisa grid. Dois outros métodos de classificação sequência popular, o BLAST e HMMER, também foram aplicados aos mesmos dados para comparação.

Conclusão

O nosso método alcançou a precisão da classificação de 76% e 71% para Ocidental e do Leste Asiático subtipos, respectivamente, que tiveram um desempenho significativamente melhor do que BLAST e HMMER. Esta pesquisa indica que pequenas variações de aminoácidos em resíduos importantes dessas pode conduzir à variância virulência de estirpes CagA, resultando em diferentes doenças gastroduodenais. Este estudo fornece não só uma ferramenta útil para predizer a correlação entre a nova cepa CagA e doenças, mas também um novo quadro geral para a detecção de biomarcadores de seqüências biológicas em estudos populacionais

Citation:. Zhang C, Xu S, Xu D (2012) Avaliação de Risco de Câncer gástrico causada por Helicobacter pylori
Usando CagA Sequence Markers. PLoS ONE 7 (5): e36844. doi: 10.1371 /journal.pone.0036844

editor: Niyaz Ahmed, da Universidade de Hyderabad, Índia |

Recebido: 13 de novembro de 2011; Aceito: 11 de abril de 2012; Publicado em: 15 de maio de 2012 |

Direitos de autor: © 2012 Zhang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi parcialmente financiado pelo Instituto Nacional de Saúde [número de concessão R21 /R33 GM078601] e Intercâmbio Internacional e Serviço de Cooperação da Universidade médica de Nanjing, China. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Helicobacter pylori (H. pylori)
é uma bactéria em forma de hélice Gram-negativas que habitam o estômago humano e infectando mais de metade da população do mundo [1], [2], [ ,,,0],3]. Estudos recentes têm mostrado que está associada com doenças gastroduodenais, incluindo úlceras duodenais [4], úlceras gástricas [5] e a gastrite crónica. Mais importante ainda, é um fator de risco significativo para o desenvolvimento de câncer gástrico [6], [7], [8]. Foi classificada como Classe 1 carcinógeno humano pela Organização Mundial de Saúde desde 1994 [1].

Como um marcador de H. pylori
, o gene A associada à citotoxina (cagA) foi revelado por uma análise mais aprofundada a ser o principal fator de virulência. H. pylori
estirpes que transportam o gene cagA aumentar o fator de risco de doenças gastroduodenais por três dobras sobre cepas cagA negativo [6], [9], [10]. CagA, que é codificada pelo gene CagA é uma proteína de 125-140 kDa. Ele contém 1142-1320 aminoácidos e tem uma região variável na região C-terminal, em que várias sequências curtas (como Epiya motivo) repetir 1-7 vezes. Depois de H. pylori
colonização na superfície do epitélio gástrico, CagA pode ser translocado para a célula epitelial gástrica através de um sistema de secreção de tipo IV. Uma vez injectado na célula hospedeira, CagA localiza na membrana do plasma e pode ser fosforilada por tirosina-cinases da família src sobre os resíduos de tirosina específicos de um período de cinco amino-ácido (Epiya) motivo [11], [12], [13] , [14]. CagA fosforilada em tirosina em seguida, liga-se especificamente a SHP-2 tirosina fosfatase 11,15 para activar uma fosforilase, que faz com que o efeito de cascata que interfere com a via de transdução de sinal da célula hospedeira, conduzindo a uma reestruturação do citoesqueleto da célula hospedeira e formação de fenótipo beija-flor [11], [16]. Ao mesmo tempo, através da activação da proteína quinase activada por mitogénio (MAPK), cinase regulada por sinal extracelular (ERK) [17] e quinase de adesão focal (FAK), CagA também pode provocar a dissociação das células e o crescimento do tumor infiltrante [18], [19 ], [20], [21]. Esse processo faz com que CagA um fator de virulência mais importante em H. pylori
[22].

Dentro da região variável da CagA, existem algumas sequências intervenientes diferentes entre esses motivos Epiya. Uma cópia do Epiya além sequência interveniente é identificado como um segmento Epiya. Quatro tipos únicos de segmentos Epiya foram encontrados em CagA, definida como Epiya-A, -B, -C e -D [11]. O CagA isolado de países do Leste Asiático, designados como do Leste Asiático CagA, contém Epiya-A, Epiya-B e motivos Epiya-D. O CagA de países ocidentais, Epiya-D passa a ter Epiya-C. Mais forte actividade de ligação ao motivo de fosforilação do motivo Epiya-D leva a maiores alterações morfológicas do que o que o motivo Epiya-C pode causar nas células infectadas [11]. É um aumento da actividade de ligação deste motivo Epiya-D e alterações morfológicas resultantes que o identifica como um fator potencial para explicar a maior incidência de câncer gástrico em países do Leste Asiático [23], [24].

Estudos anteriores revelaram uma variação no número de Epiya repete motivo para tanto do Leste asiático e CagA Ocidental, o que pode afetar atividades biológicas. Yamaoka et ai. [25] descobriu que na Colômbia e EUA, a capacidade de cagA-positivo H. pylori
para causar atrofia da mucosa gástrica e metaplasia intestinal pode estar relacionado com o número de motivos Epiya na estirpe CagA. Argent et ai. [16] chegou à mesma conclusão depois. No entanto, opiniões contrárias, foram publicadas por Lai et al. [26] com base em resultados de qualquer relação entre o número de motivos Epiya na estirpe CagA e doença clínica dentro de 58 isolados de Taiwan. Considerando o tamanho ea limitação geográfica desses estudos, a validade desta conclusão é questionável. Além do número de repetições do motivo Epiya, a diferença na sequência de estirpes nas regiões variáveis ​​podem também causar uma diferença significativa de virulência, que pode estar relacionada com as diferentes capacidades de patogénicos H. pylori
[27].

Por causa das sequências complexas e variantes em CagA, as relações entre o polimorfismo de CagA e doenças clínicas tornam-se um problema de pesquisa muito interessante. No entanto, os mecanismos moleculares subjacentes a diferentes doenças gastroduodenais causadas por cagA-positivo H. pylori
permanecem desconhecidos. Até agora, a maioria dos estudos ainda são limitadas à descoberta ou avaliação da correlação entre o número de motivos e doenças CagA Epiya [28].

Neste trabalho, propomos um método sistemático para analisar não só o número de motivos Epiya em sequências CagA, mas também os padrões de seqüências específicas de regiões intervenientes. Em primeiro lugar, nós apresentamos cálculo entropia para detectar os resíduos da região variável de CagA como os biomarcadores de cancro gástrico. Então, nós empregamos um processo de aprendizado supervisionado para classificar o câncer e não-câncer usando as informações de resíduos detectados em CagA como as características. Nós escolhemos máquinas de vetores de suporte (SVM) como um classificador binário e comparar o nosso método com os outros. A nossa abordagem não só demonstra a nossa hipótese de que a sequência da região variável de CagA contém informação para distinguir diferentes doenças, mas também proporciona uma ferramenta útil para prever a concordância entre as estirpes romance CagA e doenças e para detectar o biomarcador bem.

Métodos

os dados pré-processamento

com base na descrição anterior, em Ref. [15], que denominado o motivo Epiya e as seguintes regiões intervenientes R1, R2, R3, R3 ', R4 e R4' (Figura 1). A Figura 2 mostra a relação entre a posição do motivo Epiya (R1) e outras regiões intervenientes usando os tipos CagA A-B-D (subtipo Leste Asiático) e A-B-C (subtipo Ocidental) como exemplos. R2 é relativamente conservada entre ambos os subtipos, mas há diferenças significativas entre as regiões intervenientes R3 e R3 ', bem como entre os grupos R4 e R4'. O subtipo do Leste Asiático e do subtipo ocidental foram tratados como dois grupos independentes. Os dados foram então processados ​​e os resultados foram analisados ​​em cada grupo individualmente.

Todas as regiões intervenientes foram extraídos a partir das sequências CagA e colocados em grupos os subtipos correspondentes, e, em seguida, os alinhamentos múltiplos de sequências foram aplicadas para cada grupo individualmente utilizando Clustal X versão 2.0.3 [29]. Os perfis de sequências (Figura 1) foi criado usando o Weblogo 3 [30].

Resíduos Detecção

Desde CagA está relacionado com quase todas as doenças gastroduodenais e simples análise de repetições motivo Epiya não deu qualquer diferença estatisticamente significativa entre essas doenças, a informação de uma doença específica pode ser escondidos nas regiões intermediárias. Esta pesquisa assume que há um conjunto de resíduos ou combinações de resíduos que pode ser útil como um marcador de uma doença específica. O presente estudo concentra-se no cancro gástrico e utiliza os grupos de cancro /não-cancerosas como exemplo.

Com base nas sequências alinhadas para cada região interveniente, resíduos específicos foram identificados por comparação da diferença de entropia combinatória [31] entre os grupos cancerosas e não-cancerosas. Este procedimento inclui as seguintes etapas:

Em primeiro lugar, dividimos os dados alinhamentos múltiplos para todas as regiões intervenientes em dois grupos: grupo com câncer gástrico e grupo sem câncer. Para cada coluna de alinhamentos múltiplos, calculamos a entropia fundo (Eq. 1) e a entropia combinatória (Eq. 2), descrito como se segue: (1) em que representa o número de sequências no grupo K
. indica o número de resíduos do tipo na coluna i
do grupo k
. é o número de resíduos do tipo na coluna i
. representa o número total de sequências de alinhamento (2) onde

Em seguida, a diferença de entropia entre a entropia combinatória e a entropia de fundo é calculado:. (3).

Figura 3 ilustra o conceito de entropia usando três casos extremos. No caso de P1, os aminoácidos são 'aleatoriamente e distribuídos uniformemente "sobre todos os grupos e não é conservada não significativamente padrão para esta posição. Caso P2 representa um padrão 'conservada globalmente "e todos os aminoácidos são as mesmas em ambos os grupos. No caso de P3, alguns aminoácidos específicos só são conservadas em grupos específicos e diferentes grupos têm diferentes aminoácidos. Nós chamamos este processo «localmente conservada '.

De acordo com os resultados do cálculo da diferença de entropia para os acima de três casos, a entropia combinatória é para ambos os casos' conservadas em todo o mundo 'e' conservados localmente '. Para o caso 'de forma aleatória e uniformemente distribuída ", obtém o valor máximo. Podemos distinguir os casos e 'conservadas' 'de forma aleatória e uniformemente distribuída "com base na entropia combinatória, mas não ajudar a escolher case' conservada localmente" de todos "conservada" casos. Quando consideramos a entropia fundo, ao mesmo tempo, obtém o valor máximo, 0 e o valor médio para o caso 'de forma aleatória e uniformemente distribuída "," globalmente conservada' caso, 'conservado localmente' caso, respectivamente. Finalmente, as diferenças para os acima de três casos são :,, e recebe o valor mínimo. Assim, a diferença de entropia é uma medida adequada para detectar um padrão de sequência 'conservada localmente ".

Matéria-entropia Cálculo

Com base no cálculo acima, ele pode ser determinado que o agrupamento correto pode minimizar a diferença de entropia para os resíduos pertencentes ao caso 'conservada localmente ". Para realizar um teste, uma sequência é seleccionada, enquanto o resto das sequências são divididos num grupo de cancro gástrico e um grupo não-cancro. Para todos os resíduos seleccionados, a sequência seleccionada é colocado no grupo de cancro gástrico para calcular a diferença de entropia, e em seguida, ele é colocado em grupo não-cancro para obter a diferença de entropia correspondente. Finalmente, é obtido para todos os resíduos seleccionados que são usados ​​como a entropia recurso.

Classificação de merda Sequências

Dataset.

Nós procurou o Centro Nacional de Informações sobre Biotecnologia (NCBI ), o prot Swiss-Treme e DDBJ banco de dados de proteína /e obteve 535 cepas de H. pylori
proteína CagA. Entre eles, há 287 estirpes de subtipos do Leste Asiático e 248 estirpes de subtipos ocidentais. No grupo subtipo do Leste Asiático, 47 de 287 cepas são de pacientes com câncer gástrico e os restantes são de outras doenças. No grupo subtipo Ocidental, há 37 cepas dos pacientes com câncer gástrico, e os restantes são de outras doenças ou os controles normais, incluindo 24 estirpes de voluntários cujo estado (doença) de saúde era desconhecida.

Workflow.

a Figura 4 mostra o fluxo de trabalho do processo de classificação /previsão:

  • Selecione uma cepa como a estirpe de ensaio
  • Aplicar um procedimento de inicialização para o resto das estirpes de obter. as cepas de formação.
  • Calcule a entropia recurso para a estirpe de ensaio com base em estirpes de formação e guardá-lo como os dados de teste.
  • Calcule a entropia recurso para cada estirpe no conjunto estirpe de treinamento baseado em formação de cepas e guardá-las como os dados de treinamento.
  • Gerar modelo de classificação usando os dados de treinamento.
  • Classificar os dados de teste de acordo com o modelo de classificação.
  • Repita este procedimento cinco vezes, e, em seguida, calcular a média como resultado final.

    Bootstrapping.

    uma questão importante na construção de um modelo de classificação, neste caso, é a grande diferença dos tamanhos de amostra entre grupos cancerosas e não-cancerosas, o que poderia causar viés nos resultados da classificação. Um procedimento de bootstrap foi aplicado para resolver este problema. Em cada grupo, subtipo, para cada conjunto de dados de treino /teste, todas as amostras não cancerosas foram incluídos, e, em seguida, as estirpes foram continuamente retirado do grupo de cancro, numa base aleatória, até atingir o mesmo tamanho do grupo de não-cancro. Neste caso, foram utilizados todos os dados disponíveis, embora amostras de cancro foram utilizadas várias vezes devido ao seu menor tamanho em comparação com o grupo de não-cancro. Este procedimento foi aplicado cinco vezes para gerar cinco conjuntos de treinamento independentes para cada sequência de teste. O resultado da classificação /previsão é a média dos cinco resultados independentes.

    Cross-validation.

    Uma vez que o tamanho dos dados é pequeno, um leave-one-out (LOO) procedimento de validação cruzada foi realizada. Este não é apenas uma avaliação do desempenho do classificador em dados de treinamento /teste, mas também uma estimativa do poder de predição para os casos novos.

    SVM.

    Nós escolhemos SVM como classificador binário e usou o vetores recurso de entropia para treinar e testar o classificador. No caso de duas classes de classificação margem suave, a função de decisão é uma combinação linear ponderada definidos da seguinte forma: (4) em que representa uma função de kernel definido pelo usuário que mede as semelhanças entre o vetor de recurso de entrada e os vetores de características na formação dataset. é o peso atribuído ao vector de características de formação e indica se uma estirpe CagA foi marcada com a classe positivo (1) ou classe negativa (-1). O problema de otimização primal assume a forma: minimizar (5) sujeito a (6) onde. m é o número total de estirpes. é uma variável de folga que mede o grau de erro de classificação do dado. é um parâmetro de custo que permite a negociação fora de erro de treinamento contra a complexidade do modelo. w é o vetor normal e b é o deslocamento.

    Depois de comparar os resultados de polinomial, tanh e kernels de base radial de Gauss, o resultado obtido com o kernel RBF funcionou melhor, onde os grãos de base radial de Gauss (RBF :) são para aprendizagem de uso geral quando não há nenhum conhecimento prévio sobre os dados. O SVM pacote Light (http://svmlight.joachims.org/) [32] foi utilizado para construir a nossa aplicação. Os parâmetros e foram afinadas de modo a obter o melhor modelo para os dados de treino, como mostrado a seguir. Todos os outros parâmetros SVM foram definidas para seus valores padrão
    avaliação

    Performance

    A fim de avaliar o desempenho do classificador, são aplicadas uma variedade de medidas de desempenho:.. Acurácia, sensibilidade e especificidade. Um verdadeiro positivo (TP) é uma sequência relacionada ao câncer classificada como tal, enquanto um falso positivo (FP) é uma organização não-câncer sequência relacionada classificados como câncer-relacionados, um falso negativo (FN) é uma sequência de câncer relacionado classificados como não -Câncer relacionados e um verdadeiro negativo (TN) é uma sequência não relacionados com o câncer classificados como não-relacionadas com o cancro. A precisão, a sensibilidade (Sn), especificidade (SP) e coeficiente de correlação de Matthews (MCC) de classificação é definido da seguinte forma: (7) (8) (9) (10) Uma vez que existem apenas dois parâmetros para o kernel RBF e eles são independentes, aplicou-se uma grelha de pesquisa para determinar os parâmetros óptimos de classificador. Foi utilizado um Média Harmônica de sensibilidade e especificidade como a função objetivo de otimizar o desempenho do modelo para o conjunto de treinamento, que é definido da seguinte forma:
    (11)

    Resultados

    pesquisa de resíduos e característica de cálculo

    a Tabela 1 lista todos os resíduos chave detectado pelo cálculo da diferença de entropia em cada região intervir para ambos os subtipos ocidentais e do leste asiático. Apesar de existirem algumas variações geográficas de sequências CagA entre o Ocidente e subtipos do Leste Asiático, alguns resíduos comuns ainda podia ser encontrado para distinguir os grupos cancerosas e não-cancerosas. Ele sugere que aqueles resíduos pode ser muito importante na determinação da virulência de CagA e a relação entre CagA e algumas doenças específicas.

    O resíduo posições são mostrados na Figura 5. Um estudo anterior [27] revela que a diferente segmentos Epiya pode ligar-se aos diferentes cinases, por exemplo, Epiya-R2 e Epiya-R3 /R3 'ligam-se ao C-terminal de Src quinase (Csk), enquanto Epiya-R4 e Epiya-R4' ligam-se ao SHP-2 cinase para causar o fenótipo beija-flor. A interação CagA-Csk down-regula CagA-SHP-2 sinalização que perturba as funções celulares para controlar a virulência de CagA. Verificou-se que os resíduos de detectados pertence a R2 e "regiões e alguns resíduos em R4 /R4 'R3 /R3 regiões tenham sido detectados. Isto pode ser porque R4 /R4 'tem a sequência mais conservada do que R2, e R4 /R4' é mais curta do que R3 /R3 '. Sugere-se que os diferentes padrões de resíduos nos R2 ou regiões R3 /R3 'pode alterar a capacidade de down-regulação de sinalização CagA-SHP-2, portanto, alterar a virulência de CagA.

    Ren et al. descobriram que multimeriza CagA em células de mamíferos [33]. Este multimerização é independente da fosforilação da tirosina, mas está relacionada com o motivo "FPLxRxxxVxDLSKVG" o qual é denominado motivo CM na região interveniente o símbolo R3 '. Uma vez que a multimerização é um pré-requisito para o CagA-SHP-2 sinalização desregulamentação complexo e subsequente da SHP-2, o motivo CM desempenha um papel importante na cagA-positivo H. pylori
    patogênese gástrico mediada. Com vários motivos cm H. pylori
    cepas são muito provável associada com doenças gastroduodenais graves [33], [34], mas esta observação não pode explicar por que diferentes doenças gastroduodenais podem ser desenvolvidas com o mesmo número exato de motivos CM. O nosso estudo detectou dois resíduos no motivo de CM região interveniente R3 ', que pode levar à mudança de multimerização, alterando assim a virulência de CagA. Isto está em consonância com uma descoberta anterior [35] que a diferença de sequência entre a CM da Ásia Oriental e do MC Ocidental determina a afinidade de ligação entre CagA e SHP-2.

    Enquanto os resíduos chave detectadas podem revelar alguma diferença entre câncer e grupos não-cancerosas, nenhum resíduo único pode ser um marcador para o câncer, como mostrado na Figura 5. Esta pesquisa prevê que um especial combinação de todos ou parciais resíduos detectados poderia ter uma alta correlação com uma doença específica. Para verificar, vários modelos estatísticos lineares, por exemplo, de regressão linear e regressão logística, foram aplicadas às características detectadas para avaliar a importância de cada resíduo e a correlação entre os resíduos e cancro seleccionado. No entanto, nenhum destes modelos foram capazes de produzir um resultado estatisticamente significativo. Uma vez que os recursos não podem ser montados por modelos lineares simples para prever o cancro, aplicando um método de aprendizado de máquina para analisar e classificar estes dados torna-se necessário.

    Formação de parâmetros para classificação

    Usando o grupo subtipo ocidental como o exemplo, uma grade de busca solta foi realizada pela primeira vez em e (Figura 6A) e descobriu que o melhor é em torno de obter o maior valor F com a taxa LOO validação cruzada de 76%. Em seguida, uma pesquisa grade mais fina foi realizada no bairro e um melhor valor F foi obtido com 79,7% LOO validação cruzada na. O mesmo procedimento foi utilizado para o grupo da Ásia Oriental subtipo ea melhor LOO taxa de validação cruzada 72,6% foi alcançado em.

    Uma vez que não há estudos anteriores ou métodos computacionais sobre o mesmo tema, avaliando o desempenho deste novo método de pesquisa é difícil. Para avaliar o conteúdo informativo das sequências em termos de seu poder de discernimento para prever câncer, um procedimento baralhar aleatório foi utilizado para criar o grupo de controle. Em primeiro lugar, todas as sequências do subtipo ocidental foram colocados juntos para construir uma piscina sequência. Em segundo lugar, escolhido aleatoriamente o mesmo número de sequências como grupo de cancro da piscina sequência e tratou-se o resto das sequências, como o grupo de não-cancro. Em seguida, o processo de formação geral foi aplicada a dados recém embaralhadas para encontrar o melhor. Os passos acima foram repetidos cinco vezes para gerar cinco conjuntos de dados independentes embaralhados. A uma com a mais alta F
    valor, o que equivale a 46,6% foi seleccionado e o seu gráfico de contorno é mostrada na Figura 6B. Essa avaliação embaralhar aleatoriamente também foi aplicada aos dados do subtipo do Leste Asiático e o melhor F
    valor foi de 54,3%. Comparando os dois gráficos mostra a diferença significativa de F
    valores entre os dados com agrupamento correta dos casos de câncer e não-cancerosas na formação e os melhores dados embaralhados aleatoriamente. O resultado sugere que as regiões intervenientes são informativos para distinguir entre os grupos cancerosas e não-cancerosas e nosso método pode usar as informações de forma eficaz.

    Classificação de Espectáculos

    Existem basicamente três categorias de classificação sequência métodos: recurso baseado, distância sequência base e modelo baseado. O método que nós descrevemos neste trabalho pertence à categoria baseada em recursos. Nós selecionamos duas das mais populares ferramentas de classificação sequência como os métodos representativos de outras duas categorias para comparação. BLAST [36] foi escolhida para a categoria de base na distância sequência, uma vez que é a ferramenta de comparação de sequências mais amplamente utilizado. Para a categoria com base num modelo, o modelo de Markov oculto é o método típico para análise de sequência e a sua ferramenta amplamente utilizada, HMMER [37], foi seleccionado. Para o procedimento de classificação de ambos BLAST e HMMER, foram utilizados os parâmetros padrão das ferramentas, aplicado a validação cruzada mesma LOO como o nosso método, e usou as mesmas fórmulas de avaliação listadas na seção Método.

    Tabela 2 lista os resultados da classificação para todos os três métodos. O método SVM desempenho significativamente melhor do que as outras duas abordagens. BLAST alcançado perto da precisão para o método Entropy-SVM, mas previu muitos falsos negativos com baixa sensibilidade. HAMMER alcançado alta sensibilidade, mas com pouca especificidade. Considerando F
    valores e MCC
    valores, os resultados de previsão de BLAST e martelo são quase aleatória.

    O resultado da classificação eo gráfico de contorno (Figura 6) apoiar fortemente a nossa hipótese, isto é, a informação dos resíduos seleccionados em intervir regiões pode ser usada para classificar a relação entre as sequências de CagA e cancro gástrico, apesar de a diferença entre os perfis de grupos cancerosas e não cancerosas não é muito forte.

    Comparação entre diversas doenças

    H. pylori
    está associada com a maioria das doenças gastroduodenais, entre os quais o cancro gástrico é um dos mais graves causando mais de 700.000 mortes por ano em todo o mundo [38]. Desde H. pylori
    é um fator de risco principal do cancro gástrico (GC), a descoberta do mecanismo da H. pylori
    mediação GC torna-se uma tarefa prioritária neste campo. Comparando com outras doenças, as informações de diagnóstico de GC a partir de dados público é relativamente precisas, e é outra razão importante para se concentrar em GC neste trabalho. Nossos estudos não estão limitados a GC, embora. Nós também tentamos avaliar as relações entre a variação de sequências CagA e doenças diferentes.

    Uma vez que a maioria dos dados foram coletados a partir de bases de dados públicas sem informações precisas diagnóstico, antes de aplicar o nosso método aos dados CagA, nós curadoria manualmente as anotações doença para todas as estirpes de revisão da literatura. Tabela S1 lista as distribuições das principais doenças, tanto para o Ocidente e os grupos de subtipos do leste Asain. Devido à limitação de números de deformação de algumas doenças, tais como gastrite atrófica (AG) e úlcera gástrica (GU), que, eventualmente, colhidos gastrite crónica (CG) e a úlcera duodenal (UD), como os grupos de controlo para a avaliação. O grupo DU no subtipo do Leste Asiático contém 79 cepas, e um procedimento de bootstrap foi aplicado a todos os outros grupos para fazer o mesmo número de estirpes como o grupo da Ásia Oriental DU. Este passo garante todas as comparações na mesma escala, uma vez que o valor de entropia combinatória depende do número de sequências. Usamos Fórmula (3) para calcular a diferença de entropia de cada posição entre GC e grupos CG /DU, em seguida, adicionou-se todas as diferenças de entropia como a diferença total entre GC e grupos CG /DU, como mostra a Tabela S2. Ao comparar os resultados entre dois grupos dentro do mesmo subtipo geográfica (East Asian ou subtipo ocidental), é consistente com a visão clínica de que a gastrite tem relações mais fortes com câncer do que a DU [39] (em geral, os casos de gastrite pode conter alguns não declarada ou não diagnosticada gastrite atrófica crônica e casos metaplasia intestinal, com a qual os pacientes têm um risco elevado de desenvolver GC). Ao considerar a mesma doença de par entre dois subtipos geográficas, ele também explicou a diferença virulenta entre o Leste Asiático e os subtipos ocidentais. Além disso, devido à alta similaridade entre os diferentes grupos de doenças do subtipo do Leste Asiático, mesmo com mais dados, ainda não podemos atingir a mesma precisão da classificação como o grupo subtipo ocidental.

    Com base nos resultados acima, CagA sequências mostraram potencial para distinguir várias doenças gastroduodenais. A fim de avaliar o desempenho de classificação, foi utilizado grupo DU para substituir grupo não Câncer, e então aplicado o procedimento de classificação inteiro novamente sem bootstrapping, uma vez que esses dois grupos doenças têm tamanhos comparáveis. Tabela S3 mostra os resultados da classificação. Embora do ponto de vista clínico, DU tem a correlação negtive com GC entre todas as doenças gastroduodenais [40], o desempenho da classificação de dois grupos de subtipos foi apenas ligeiramente melhorada. Assim cepas CagA relacionadas com o cancro pode ter alguns padrões sequência única em comparação com todas as outras doenças gastroduodenais. Assim, sintonizando um subconjunto do grupo de controle pode não ser capaz de melhorar a precisão da classificação.

    Discussão

    Embora a pesquisa indica que há marcadores de seqüência para diferenciar entre o grupo de câncer e grupo sem câncer , os principais perfis desses dois grupos são muito semelhantes para distinguir usando métodos tradicionais uma vez que as sequências CagA são em geral altamente conservada. Portanto, nós nos concentramos em identificar os resíduos informativos, quantificando informações destes resíduos seleccionados, e em seguida, usá-lo para projetar um classificador que pode prever se uma nova sequência pertence ao grupo de cancro ou o grupo não-câncer. Este método não só lança luz sobre as relações entre sequências CagA e câncer gástrico, mas também pode fornecer uma ferramenta útil para o diagnóstico de câncer gástrico ou prognóstico.

    Os mecanismos de H. pylori
    fazendo com que as diferentes doenças gastroduodenais são ainda pouco claros, no entanto, é provável que várias doenças gastroduodenais causada por H. pylori
    share infecção alguns padrões de sequência nas regiões intermediárias. Pequenas variações de aminoácidos em resíduos importantes dessas pode conduzir à variância virulência de estirpes CagA, resultando em diferentes doenças gastroduodenais. Enquanto CagA poderia ser um marcador para detectar o risco de cancro potencial, utilizando CagA sozinho para distinguir todas as doenças gastroduodenais não é realista. Como um estudo futuro, vamos desenvolver novos modelos que diferenciam várias doenças gastroduodenais de cagA e de outros genes.

    Informações de Apoio
    Tabela S1. .
    Número de estirpes em cada doença
    doi: 10.1371 /journal.pone.0036844.s001
    (DOC)
    Tabela S2. .
    Total da diferença de entropia entre câncer gástrico e dois outros grupos de doenças
    doi: 10.1371 /journal.pone.0036844.s002
    (DOC)
    Tabela S3. desempenho
    classificação entre câncer gástrico e grupos de úlcera duodenal, tanto para o Ocidente e os subtipos do Leste Asiático
    doi:. 10.1371 /journal.pone.0036844.s003
    (DOC)

  • Other Languages