Stomach Health > Maag Gezondheid >  > Gastric Cancer > Maagkanker

PLoS ONE: Risk Assessment van maagkanker veroorzaakt door Helicobacter pylori behulp CagA Sequence Markers

De abstracte

Achtergrond

Als een marker van Helicobacter pylori
, cytotoxine-geassocieerde gen A (cagA) is geopenbaard aan de belangrijkste virulentie factor die gastroduodenale ziekten. De moleculaire mechanismen die de ontwikkeling van verschillende gastroduodenale ziekten veroorzaakt door cagA-positieve H grondslag liggen. pylori
infectie nog steeds onbekend. Huidige studies zijn beperkt tot de beoordeling van de correlatie tussen ziekten en het aantal Glu-Pro-Ile-Tyr-Ala (Epiya) motieven in de cagAspanning. Om verder inzicht in de relatie tussen CagA sequentie en de virulentie aan maagkanker, stelden wij een systematische-entropie gebaseerde aanpak van de kanker-gerelateerde residuen in de tussenliggende gebieden van CagA identificeren en gebruik van een gecontroleerde methode machine learning voor kanker en niet-kanker gevallen indeling.

Methodologie

Een entropie gebaseerde berekening werd gebruikt om belangrijke residuen van CagA tussenliggende sequenties te detecteren als maagkanker biomarker. Voor elke groep werden beide combinatorische entropie en achtergrond entropie berekend, en de entropie verschil werd gebruikt als criterium voor selectie functie residu. De functie waarden werden vervolgens in Support Vector Machines (SVM) met de Radial Basis Function (RBF) kernel, en twee parameters werden afgestemd op de optimale F-waarde met behulp van raster zoek te verkrijgen. Twee andere populaire reeks classificatie methoden, de BLAST en HMMER, werden ook toegepast op dezelfde data voor de vergelijking.

Conclusie

Onze methode bereikt 76% en 71% classificatie nauwkeurigheid voor West-en Oost-Aziatische subtypes, respectievelijk, die aanzienlijk beter dan BLAST en HMMER uitgevoerd. Dit onderzoek toont aan dat kleine veranderingen van aminozuren in de belangrijke residuen kan leiden tot de virulentie variantie van CagA stammen resulteert in verschillende gastroduodenale ziekten. Deze studie geeft niet alleen een nuttig instrument om de correlatie tussen de roman CagA stam en ziekten, maar ook een algemeen nieuw kader voor het opsporen van biologische reeks biomarkers bij studies bevolking voorspellen

Visum:. Zhang C, Xu S, Xu D (2012) risicobeoordeling van maagkanker veroorzaakt door Helicobacter pylori
behulp CagA Sequence Markers. PLoS ONE 7 (5): e36844. doi: 10.1371 /journal.pone.0036844

Editor: Niyaz Ahmed, Universiteit van Hyderabad, India

Ontvangen: 13 november 2011; Aanvaard: 11 april 2012; Gepubliceerd: 15 mei 2012 |

Copyright: © 2012 Zhang et al. Dit is een open-access artikel gedistribueerd onder de voorwaarden van de Creative Commons Attribution License, die onbeperkt gebruik, distributie en reproductie maakt in elk medium, op voorwaarde dat de oorspronkelijke auteur en de bron worden gecrediteerd

Financiering:. Dit werk werd gedeeltelijk ondersteund door de Amerikaanse National Institute of Health [subsidie ​​nummer R21 /R33 GM078601] en internationale uitwisseling en samenwerking Bureau van Nanjing Medical University, China. De financiers hadden geen rol in de studie design, het verzamelen van gegevens en analyse, besluit te publiceren, of de voorbereiding van het manuscript

Competing belangen:.. De auteurs hebben verklaard dat er geen tegenstrijdige belangen bestaan ​​

Introductie

Helicobacter pylori (H. pylori)
is een Gram-negatieve helix-vormige bacterie bevolken de menselijke maag en de besmetting van meer dan de helft van de wereldbevolking [1], [2], [ ,,,0],3]. Recente studies hebben aangetoond dat het wordt geassocieerd met gastroduodenale ziekten, waaronder darmzweren [4], maagzweren [5] en chronische gastritis. Belangrijker is een belangrijke risicofactor voor het ontwikkelen van maagkanker [6], [7], [8]. Het is geclassificeerd als een klasse 1 carcinogeen door de World Health Organization sinds 1994 [1].

Als een marker van H. pylori
, de cytotoxine-geassocieerde gen A (cagA) Dat blijkt uit een nadere analyse van de belangrijkste virulentie factor. H. pylori
stammen die de cagA gen verhogen het risico factor van gastroduodenale ziekten door drie vouwen over cagA-negatieve stammen [6], [9], [10]. CagA, dat wordt gecodeerd door het gen cagA, een 125-140 kDa eiwit. Het bevat 1142-1320 aminozuren en heeft een variabel gebied bij het C-terminale gebied waarin verschillende korte sequenties (zoals Epiya motief) herhaal 1-7 keer. Na H. pylori
kolonisatie op het oppervlak van de gastrische epitheel, kan CagA worden getransloceerd in de maag epitheelcel door een type IV secretie systeem. Eenmaal geïnjecteerd in de gastheercel, CagA lokaliseert de plasmamembraan en kan worden gefosforyleerd door Src-familie tyrosinekinasen van de specifieke tyrosineresten van vijf aminozuren (Epiya) motief [11], [12], [13] , [14]. -Tyrosine gefosforyleerd CagA bindt dan specifiek aan SHP-2 tyrosine fosfatase 11,15 een fosforylase, waarbij de cascade-effect dat interfereert met de signaaltransductieroute van de gastheercel veroorzaakt, wat leidt tot een reorganisatie van de cytoskelet gastheercel en de vorming van activeren kolibrie fenotype [11], [16]. Tegelijk met het activeren van door mitogeen geactiveerde eiwitkinase (MAPK), extracellulair signaal gereguleerde kinase (ERK) [17] en focale adhesie kinase (FAK), CagA ook celdissociatie en infiltratieve tumorgroei [18], [19 veroorzaken ], [20], [21]. Een dergelijke werkwijze maakt CagA een belangrijke virulentie-factor H.
pylori [22].

In het variabele gebied van CagA, zijn er een aantal verschillende tussenliggende sequenties tussen die Epiya motieven. Een exemplaar van Epiya plus tussenliggende sequentie wordt geïdentificeerd als een Epiya segment. Vier unieke soorten segmenten Epiya gevonden in CagA, gedefinieerd als Epiya-A, -B, -C en -D [11]. De CagA geïsoleerd uit Oost-Aziatische landen, aangeduid als Oost-Aziatische CagA, bevat Epiya-A, Epiya-B en Epiya-D motieven. De CagA uit westerse landen, Epiya-D, wordt vervangen door Epiya-C. Sterkere fosforylering motief bindingsactiviteit van de Epiya-D motief leidt tot een grotere morfologische veranderingen dan de Epiya-C motief in geïnfecteerde cellen [11] kunnen veroorzaken. Hierdoor Epiya-D motief vergroot bindingsactiviteit en resulterende morfologische veranderingen die het identificeert als een potentiële factor voor de hogere incidentie van maagkanker in Oost Azië [23] verklaren [24].

Vorige studies toonden een variatie in het aantal herhalingen Epiya motief zowel Aziatische en westerse CagA hebben een negatieve invloed biologische activiteiten. Yamaoka et al. [25] blijkt dat in Columbia en USA, het vermogen van cagA-positieve H. pylori
gastrische mucosale atrofie veroorzaken en intestinale metaplasie kan worden gerelateerd aan het aantal Epiya motieven in de cagAspanning. Argent et al. [16] kwam tot dezelfde conclusie later. Er werden echter tegengestelde meningen gepubliceerd door Lai et al. [26] gebaseerd op feitelijke geen relatie tussen het aantal Epiya motieven in de cagAspanning en klinische ziekte in 58 isolaten uit Taiwan. Gezien de omvang en geografische beperking van deze studies, de geldigheid van deze conclusie is twijfelachtig. Naast het aantal herhalingen Epiya motief, het sequentieverschil stammen in variabele gebieden kan ook een significant verschil in virulentie, die betrekking kunnen hebben op de verschillende mogelijkheden van pathogene H veroorzaken. pylori
[27].

Door de complexe en variante sequenties in CagA, de relaties tussen het polymorfisme van CagA en klinische ziekten uitgegroeid tot een zeer interessant onderzoek probleem. De moleculaire mechanismen die verschillende gastroduodenale ziekten veroorzaakt door cagA-positieve H grondslag liggen. pylori
infectie nog steeds onbekend. Tot nu toe de meeste studies zijn nog steeds beperkt tot de ontdekking of de evaluatie van de correlatie tussen het aantal CagA Epiya motieven en ziekten [28].

In dit artikel stellen we een systematische methode om niet alleen het aantal te analyseren Epiya motieven in CagA sequenties, maar ook de specifieke sequentie patronen van tussenliggende gebieden. Eerst introduceren we entropie berekening van de resten binnen het variabele gebied van CagA detecteren als maagkanker biomarkers. Dan maken we een begeleide procedure leren kanker en niet-kanker classificeren op basis van het gebruik van de informatie van de gedetecteerde resten in CagA als de functies. We kiezen voor support vector machines (SVM) als een binaire classifier en vergelijk onze methode met anderen. Onze aanpak blijkt niet alleen onze hypothese dat de sequentie van variabele regio CagA bevat informatie om verschillende ziekten te onderscheiden, maar ook een nuttig instrument om het verband tussen de nieuwe CagA stammen en ziekten en de biomarker en detecteren voorspellen.

Methods

data Preprocessing

op basis van de voorgaande beschrijving in Ref. [15], genaamd wij Epiya motief en de volgende tussenliggende gebieden R1, R2, R3, R3 ', R4 en R4' (figuur 1). Figuur 2 toont de positie relatie tussen de Epiya motief (R1) en andere tussenliggende gebieden met de types CagA A-B-D (Aziatische subtype) en A-B-C (Western subtype) als voorbeeld. R2 relatief geconserveerd over beide subtypes, maar er significante verschillen tussen de tussenliggende gebieden R3 en R3 ', alsmede tussen R4 en R4'. De Oost-Aziatische subtype en de westelijke subtype werden behandeld als twee onafhankelijke groepen. De gegevens werden vervolgens verwerkt en de resultaten werden geanalyseerd binnen elke groep afzonderlijk.

Alle tussenliggende gebieden werden geëxtraheerd uit de CagA sequenties en in de overeenkomstige groepen subtype gemaakt en daarna werden de meervoudige sequentie uitlijningen afzonderlijk toegepast per groep door gebruik te maken Clustal X versie 2.0.3 [29]. De sequenties profielen (figuur 1) werd opgebouwd door het Weblogo 3 [30].

Residu Detectie

Omdat CagA heeft betrekking op bijna alle gastroduodenale ziekten en eenvoudige analyse van Epiya motief herhalingen niet opbrengst elke statistisch significante verschillen tussen deze ziekten, de informatie die een bepaalde ziekte kan worden verborgen in de tussenliggende gebieden. Dit onderzoek ervan uit dat er een set van residuen of residuen combinaties die bruikbaar zijn als een merker van een specifieke ziekte kan zijn. Dit onderzoek is gericht op de maagkanker en gebruikt de kanker /non-kankergroepen als voorbeeld.

Op basis van de uitgelijnde sequenties voor elke tussenliggende regio zijn specifieke residuen geïdentificeerd door vergelijking van het verschil van combinatorische entropie [31] tussen kanker en niet-kanker groepen. Deze procedure omvat de volgende stappen:

Allereerst verdelen we de meermalige uitlijningen alle tussenliggende gebieden in twee groepen: maagkanker groep en non-kanker groep. Voor elke kolom van meervoudige uitlijningen, berekenen we de achtergrond entropie (eq. 1) en de combinatorische entropie (eq. 2), als volgt beschreven: (1) waarbij staat voor het aantal sequenties in groep k
. geeft het aantal residu's van het type in de kolom i
van groep k
. is het aantal residu's van het type in de kolom i
. is het totaal aantal sequenties in lijn (2) waarbij

dan de entropie verschil tussen de combinatorische entropie en de achtergrond entropie berekend:.. (3)

Figuur 3 illustreert de entropie begrip met behulp van drie extreme gevallen. Indien P1, worden de aminozuren "willekeurig en gelijkmatig 'over alle groepen en er is geen significant geconserveerd patroon voor deze functie. Case P2 representeert een "globaal geconserveerd 'patroon en alle aminozuren zijn hetzelfde in beide groepen. Indien P3 worden enkele specifieke aminozuren geconserveerd alleen in bepaalde groepen en verschillende groepen verschillende aminozuren. We noemen dit geval 'lokaal bewaard'.

Volgens de berekening resultaten van de entropie verschil voor de bovenstaande drie gevallen is de combinatorische entropie is voor zowel 'globaal geconserveerd' en 'lokaal geconserveerd' gevallen. Voor 'willekeurig en gelijkmatig verdeeld' case, krijgt de maximale waarde. We kunnen de 'geconserveerd' en 'willekeurig en gelijkmatig verdeeld' gevallen op basis van de combinatorische entropie te onderscheiden, maar het helpt niet halen 'lokaal geconserveerd' case uit alle 'geconserveerd' gevallen. Wanneer we de achtergrond entropie tegelijkertijd krijgt de maximale waarde 0 en gemiddelde waarde voor de "willekeurig en uniform verdeeld" geval "globaal geconserveerd" geval "Lokale geconserveerd 'geval, respectievelijk. Tenslotte verschillen de drie bovengenoemde gevallen :, en krijgt de minimumwaarde. Vandaar dat de entropie verschil is een juiste meting voor het detecteren van een "lokaal geconserveerde-sequentie patroon.

Feature entropie Berekening

Op basis van bovenstaande berekening kan worden bepaald of correcte groep te minimaliseren de entropie verschil die residuen die behoren tot het "plaatselijk geconserveerde 'geval. Om een ​​test uit te voeren, wordt een sequentie gekozen terwijl de rest van de sequenties zijn verdeeld in een maagkanker groep en een niet-kanker-groep. Voor alle geselecteerde residuen het geselecteerde sequentie geplaatst in de maagkanker groep de entropieverschil berekenen en dan geplaatst in niet-kanker groep om de corresponderende entropieverschil krijgen. Tenslotte wordt verkregen voor alle geselecteerde residuen die worden gebruikt als de functie entropie.

De indeling van CagA Sequences

dataset.

We zochten het National Center for Biotechnology Information (NCBI ), de Zwitsers-prot /Beef en DDBJ eiwit database en verkregen 535 stammen van H. pylori
CagA eiwit. Onder hen zijn er 287 Oost-Aziatische subtype stammen en 248 West-subtype stammen. In de Oost-Aziatische subtype groep, 47 van de 287 stammen zijn van maagkanker patiënten en de rest zijn van andere ziekten. In de Westerse subtype groep zijn er 37 stammen uit de maagkanker patiënten, en de restanten zijn van andere ziekten of de normale controles, waaronder 24 soorten van vrijwilligers wier gezondheid (ziekte) de status onbekend was.

Workflow.

Figuur 4 toont de workflow van de indeling /voorspelling procedure:

  • Selecteer een stam als de test stam
  • Breng een bootstrap procedure om de rest van de stammen te krijgen. de training stammen.
  • Bereken de functie entropie voor de test spanning op basis van opleiding stammen en opslaan als de testdata.
  • Bereken de functie entropie voor elke stam in de opleiding stam set gebaseerd op het trainen van stammen en deze opslaan als de trainingsgegevens.
  • Genereer indeling model met behulp van de trainingsgegevens.
  • classificeren de testgegevens volgens de indeling model.
  • Herhaal deze procedure vijf keer, en bereken dan het gemiddelde als het eindresultaat.

    Bootstrapping.

    een belangrijke kwestie in het opbouwen van een classificatie model in dit geval is het verschil van de steekproefomvang tussen kanker en niet-kanker groepen, die bias in de indeling resultaten kunnen leiden. Een bootstrapping procedure werd toegepast om dit probleem aan te pakken. In elk subtype groep voor elke training /test data sets, alle niet-kanker monsters bevatten, en stammen werden continu getrokken uit de kankergroep steekproefsgewijs tot het bereiken van dezelfde grootte van de niet-kankergroep. In dit geval werden alle beschikbare gegevens gebruikt, hoewel kankermonsters werden gebruikt meerdere malen gezien hun kleinere afmeting vergeleken met de niet-kankergroep. Deze procedure werd vijf keer toegepast op vijf onafhankelijke training sets voor elke test sequentie te genereren. De indeling /voorspelling resultaat is het gemiddelde van de vijf onafhankelijke resultaten.

    Cross-validatie.

    Omdat de gegevens klein is, een leave-one-out (LOO) cross-validatieprocedure werd uitgevoerd. Dit is niet alleen een beoordeling van de classifier prestaties op training /test data, maar ook een raming van de voorspelling kracht voor nieuwe gevallen.

    SVM.

    We kozen voor SVM als binaire classifier en de gebruikte feature-entropie vectoren om te trainen en testen van de classifier. In het geval van twee-klasse zachte marge indeling, de beslissing functie is een gewogen lineaire combinatie als volgt gedefinieerd: (4) waarin staat voor een door de gebruiker gedefinieerde kernel functie die de gelijkenissen tussen de input-functie vector en de functie vectoren in de training meet dataset. is het gewicht toegekend aan de training functie vector en geeft aan of een CagA stam is gelabeld met de positieve klasse (1) of negatief klasse (-1). De oer-optimalisatie probleem neemt de vorm aan: een minimum te beperken (5) onder voorbehoud van (6), waar. m het totaal aantal stammen. is een slappe variabele die de mate van verkeerde indeling van het nulpunt meet. is een kosten parameter die het mogelijk maakt voor de handel off training fout tegen modelcomplexiteit. w de normaalvector en b wordt de offset.

    Na vergelijking van de resultaten van de polynoom, tanh en Gaussian radiale basis korrels, de met het RBF kernel resultaat het beste werkt, waarbij de radiale Gaussian basis kernels (RBF :) zijn voor algemene doeleinden leren wanneer er geen voorkennis over de gegevens. De SVM lichtpakket (http://svmlight.joachims.org/) [32] werd gebruikt om onze applicatie te bouwen. De parameters en werd afgestemd op het beste model zien voor de trainingsgegevens zoals in het volgende. Alle andere SVM parameters werden ingesteld op de standaardwaarden

    Prestatie evaluatie

    Met het oog op de prestaties van de classifier te evalueren, een verscheidenheid aan prestatie-indicatoren worden toegepast:.. Nauwkeurigheid, gevoeligheid en specificiteit. Een echte positieve (TP) is een kankergerelateerde sequentie als zodanig geclassificeerd, terwijl vals positieve (FP) is een niet-kanker-gerelateerde sequentie die als kankergerelateerde, een vals negatieve (FN) is een kanker-gerelateerde sequentie als niet -cancer gerelateerde en terecht negatieve (TN) een niet kankergerelateerde sequentie als niet kankergerelateerde. De nauwkeurigheid, gevoeligheid (Sn), specificiteit (Sp) en Matthews correlatiecoëfficiënt (MCC) indeling wordt als volgt gedefinieerd: (7) (8) (9) (10) Aangezien er slechts twee parameters voor de RBF kernel en zij zijn onafhankelijk, toegepast we een raster-zoektocht naar de optimale parameters van de classifier te bepalen. We gebruikten een harmonische middel van gevoeligheid en specificiteit als doelstelling functie om de prestaties van het model voor de training set, die wordt gedefinieerd als het optimaliseren volgt:
    (11)

    Resultaten

    opsporing van residuen en feature berekening

    in tabel 1 staan ​​alle gedetecteerde belangrijke resten door het berekenen van de entropie verschil in elke tussenliggende gebied voor zowel westerse als Oost-Aziatische subtypes. Hoewel er enkele geografische variaties van CagA sequenties tussen de westerse en Aziatische subtypes, zou een aantal gemeenschappelijke resten nog te vinden om de kanker als niet-kanker groepen te onderscheiden. Het suggereert dat deze residuen belangrijk kan zijn bij het bepalen van de virulentie van CagA en de relatie tussen CagA en enkele specifieke ziekten.

    De residuen worden getoond in Figuur 5. Een eerdere studie [27] blijkt dat de verschillende Epiya segmenten kunnen binden aan de verschillende kinasen, bijvoorbeeld Epiya-R2 en Epiya-R3 /R3 'binden aan de C-terminale Src kinase (Csk) terwijl Epiya-R4 en Epiya-R4 binden aan de SHP-2 kinase veroorzaken de kolibrie fenotype. De CagA-Csk interactie down-reguleert CagA-SHP-2 signalering dat cellulaire functies verstoort de virulentie van CagA beheersen. Het blijkt dat de meeste gedetecteerd resten R2 tot en 'regio en enkele resten in R4 /R4' R3 /R3's zijn gedetecteerd. Dit kan zijn omdat R4 /R4 'meer geconserveerde sequentie dan R2 en R4 /R4' korter dan R3 /R3 '. Wij stellen voor dat de verschillende residu patronen in R2 of regio's R3 /R3 'het vermogen van down-regulerende CagA-SHP-2 signalering kan veranderen, dus het veranderen van de virulentie van CagA.

    Ren et al. gevonden dat CagA multimerizes in zoogdiercellen [33]. Dit multimerizatie is onafhankelijk van de tyrosinefosforylatie, maar het is gerelateerd aan de "FPLxRxxxVxDLSKVG" motief dat is genoemd CM motief in tussenliggende gebied de R3. Aangezien de multimerisatie is een voorwaarde voor de CagA-SHP-2 signaleringscomplex gevolgd deregulering van SHP-2, CM motief speelt een belangrijke rol in cagA-positieve H. pylori
    bemiddelde maag pathogenese. Met meerdere CM motieven H. pylori
    stammen worden zeer waarschijnlijk gepaard gaat met ernstige gastroduodenale ziekten [33], [34], maar deze waarneming kan niet verklaren waarom verschillende gastroduodenale ziekten kunnen worden ontwikkeld met exact hetzelfde aantal CM motieven. Onze studie ontdekte twee resten in de CM motief van tussenliggende gebied R3 ', wat kan leiden tot de verandering van multimerisatie-, waardoor de virulentie van CagA veranderen. Dit is in overeenstemming met een eerdere ontdekking [35] dat de volgorde verschil tussen de Oost-Aziatische CM en de Westelijke CM bepaalt de bindingsaffiniteit tussen CagA en SHP-2.

    Hoewel de sleutel resten ontdekt een verschil kan onthullen tussen kanker en niet-kanker groepen, kan geen enkele resten een merker voor kanker zoals getoond in figuur 5. Dit onderzoek voorspelt dat een speciale combinatie gehele of gedeeltelijke detectie van de residuen een hoge correlatie met een bepaalde ziekte zou kunnen hebben. Om te controleren, een aantal lineaire statistische modellen, bijv. lineaire regressie en logistieke regressie werd toegepast op de gedetecteerde kenmerken om het belang van elke rest en de correlatie tussen geselecteerde residuen en kanker te evalueren. Geen van deze modellen konden een statistisch significant resultaat. Omdat de functies die niet kunnen worden uitgerust met een eenvoudige lineaire modellen voor het voorspellen van kanker, het toepassen van een machine learning methode om deze gegevens te analyseren en te classificeren noodzakelijk wordt.

    Parameter Training voor classificatie

    Met behulp van de Westerse subtype groep als het voorbeeld werd een losse rooster-zoekopdracht eerst uitgevoerd op en (figuur 6A) en vond dat de beste is rond om de hoogste F-waarde met de LOO cross-validatie tarief 76% te krijgen. Toen werd er een fijner raster zoekopdracht uitgevoerd op de wijk en een betere F-waarde werd verkregen met 79,7% LOO cross-validatie op. Dezelfde procedure werd gebruikt voor de Aziatische subtype groep en de beste LOO kruisvalidatieset percentage 72,6% ten bereikt.

    Omdat er geen eerdere studies of berekeningsmethoden over hetzelfde onderwerp, het evalueren van de prestaties van deze nieuwe methode van onderzoek is moeilijk. De informatie-inhoud van de sequenties in termen van hun onderscheidende vermogen te beoordelen om kanker te voorspellen, werd een willekeurige herverdeling procedure toegepast voor de controlegroep bouwen. Eerst werden alle sequenties uit de Western subtype elkaar geplaatst om een ​​sequentie pool. Ten tweede, we kozen willekeurig evenveel sequenties zoals kanker groep uit de reeks zwembad en behandelde de rest van de sequenties als de niet-kankergroep. Vervolgens werd het gehele opleidingsprocedure geldt voor nieuw geschud gegevens de beste te vinden. De bovenstaande stappen werden vijfmaal herhaald tot vijf onafhankelijke geschud gegevenssets. Die met de hoogste F
    waarde, die 46,6% gelijk is geselecteerd en de contour grafiek wordt getoond in figuur 6B. Dit willekeurig schuifelen evaluatie werd ook toegepast op de Oost-Aziatische subtype gegevens en de beste F
    waarde was 54,3%. Vergelijking van de twee percelen toont het significante verschil van F
    waarden tussen de gegevens met de juiste groepering van kanker en niet-gevallen van kanker in de opleiding en het beste willekeurig geschud data. Het resultaat suggereert dat de tussenliggende gebieden informatief onderscheid te maken tussen de kanker als niet-kanker groepen en onze werkwijze kan de informatie daadwerkelijk gebruiken.

    klassificatie

    Er zijn hoofdzakelijk drie soorten sequentie indeling methoden: feature-based, volgorde op afstand gebaseerde en modelgebaseerde. De methode die we beschreven in dit document behoort tot de feature-based categorie. Selecteerden we twee van de meest populaire sequentie indeling instrumenten als representatieve werkwijzen van andere twee groepen ter vergelijking. BLAST [36] werd gekozen voor de afstand gebaseerde sequentie, is omdat het de meest gebruikte sequentievergelijking tool. Voor de modelmatige categorie, de verborgen Markov model is de typische methode voor het sequentie-analyse en de veelgebruikte tool, HMMER [37], werd geselecteerd. Voor de indeling procedure van beide BLAST en HMMER, gebruikten we de standaard parameters van de instrumenten, toegepast op dezelfde LOO cross-validatie als onze methode, en gebruikten dezelfde evaluatie formules in de sectie methode vermeld.

    Tabel 2 geeft de classificatie resultaten voor alle drie methoden. De SVM methode aanzienlijk beter dan de andere twee benaderingen. BLAST bereikt dicht nauwkeurigheid bij de Entropy-SVM methode, maar het voorspelde vele valse negatieven met een lage gevoeligheid. HAMMER bereikte hoge gevoeligheid maar met weinig specificiteit. Gezien F
    waarden en MCC
    waarden, de voorspelling resultaten van BLAST en HAMMER zijn bijna willekeurig.

    De classificatie resultaat en de contour plot (Figuur 6) een groot voorstander van onze hypothese, dat wil zeggen, de informatie van de geselecteerde residuen in tussenliggende gebieden kunnen worden gebruikt om de relatie tussen CagA sequenties en maagkanker classificeren, hoewel het verschil tussen de profielen van kanker en niet-kanker groepen is niet groot.

    Vergelijking tussen de verschillende ziekten

    H. pylori
    infectie wordt geassocieerd met de meeste gastroduodenal ziekten, waaronder maagkanker is de meest ernstige ene veroorzaakt meer dan 700.000 doden wereldwijd per jaar [38]. Aangezien H. pylori
    is een belangrijke risicofactor voor maagkanker (GC), ontdekking van het mechanisme van de H. pylori
    bemiddelen GC wordt een topprioriteit taak op dit gebied. Vergeleken met andere ziekten, de diagnose-informatie van GC van publieke gegevens relatief nauwkeurig, en het is een belangrijke reden richten op GC in dit document. Onze studies zijn niet beperkt tot GC, hoewel. We hebben ook geprobeerd om de relaties tussen de variantie van CagA sequenties en verschillende ziekten te evalueren.

    Omdat de meeste gegevens werden verzameld uit openbare databanken zonder accurate diagnose-informatie, voor het aanbrengen van onze methode om CagA data, we handmatig samengesteld de ziekte annotaties voor alle stammen door de herziening van de literatuur. Tabel S1 geeft de verdeling van de belangrijkste ziekten voor zowel de westerse als de Oost-Asain subtype groepen. Door de beperking van stam aantal van sommige ziekten, zoals atrofische gastritis (AG) en maagzweer (GU), kozen we uiteindelijk chronische gastritis (CG) en darmzweren (DU) als controlegroepen voor evaluatie. De DU-groep in de Oost-Aziatische subtype bevat 79 stammen, en een bootstrapping procedure werd toegepast op alle andere groepen op hetzelfde aantal stammen als de Oost-Aziatische DU groep. Deze stap garandeert dat alle vergelijkingen op dezelfde schaal, aangezien de waarde van combinatorische entropie afhankelijk van het aantal sequenties. We gebruikten Formule (3) naar de entropie verschil van elke positie tussen GC en CG /DU groepen berekenen en vervolgens opgeteld alle entropie verschillen het totale verschil tussen GC en CG /DU groepen, zie tabel S2. Door vergelijking van de resultaten tussen de twee groepen dezelfde geografische subtype (Aziatische of Western subtype), wordt voldaan aan de klinische dat gastritis heeft sterkere relaties kanker dan DU [39] (algemeen gastritis gevallen kunnen sommige aangegeven of gediagnosticeerd bevatten chronische atrofische gastritis en intestinale metaplasie gevallen, waarbij patiënten een hoog risico voor de ontwikkeling van GC). Door rekening te houden dezelfde ziekte-pair tussen twee geografische subtypes, maar legde ook de virulente verschil tussen de Oost-Aziatische en westerse subtypes. Bovendien, vanwege de hoge gelijkenis tussen verschillende ziektegroepen van de Aziatische subtype, zelfs met meer data, we nog steeds niet dezelfde nauwkeurigheid als die van het Western subtype groep bereikt.

    Op basis van bovenstaande resultaten, CagA sequenties tonen potentieel om meerdere gastroduodenale ziekten te onderscheiden. Om de indeling te evalueren, gebruikten we DU groep tot niet-kanker vervangen en toegepast gehele classificatieprocedure eveneens zonder bootstrapping, aangezien deze twee ziekten groepen vergelijkbaar oppervlak. Tabel S3 toont de classificatie resultaten. Hoewel het vanuit het klinische standpunt, DU heeft negtive correlatie met GC onder alle gastroduodenale ziekten [40], werd de klassificatie van twee groepen subtype slechts licht verbeterd. Aldus kankergerelateerde CagA stammen zijn bepaalde unieke sequentie patronen in vergelijking met alle andere gastroduodenale ziekten. Daarom stemmen van een subset van de controlegroep mogen niet in staat zijn om de indeling nauwkeurigheid te verbeteren.

    Discussie

    Hoewel het onderzoek geeft aan dat er reeks markers om onderscheid te maken tussen kanker groep en niet-kanker-groep , de belangrijkste profielen van deze twee groepen zijn te gelijkaardig om onderscheid te maken met behulp van traditionele methoden, omdat de CagA sequenties algehele sterk geconserveerd. Daarom hebben we ons gericht op het identificeren van de informatieve residuen, het kwantificeren van informatie van deze geselecteerde residuen, en vervolgens met behulp van het naar een classifier die kan voorspellen of een nieuwe reeks behoort tot de groep van kanker of niet-kanker-groep te ontwerpen. Deze methode werpt niet alleen licht op de relaties tussen CagA sequenties en maagkanker, maar kan ook een nuttig instrument voor maagkanker diagnose of prognose te bieden.

    De mechanismen van de H. pylori
    waardoor de verschillende gastroduodenale ziekten nog onduidelijk, maar het is waarschijnlijk dat verscheidene maag- ziekten veroorzaakt door H. pylori
    infectie aandeel bepaalde volgorde patronen in de tussenliggende gebieden. Kleine variaties van aminozuren in de belangrijke residuen kan leiden tot de virulentie variantie van CagA stammen resulteert in verschillende gastroduodenale ziekten. Terwijl CagA een merker voor het detecteren van potentiële risico op kanker, middels CagA alleen al gastroduodenale ziekten onderscheiden kon niet realistisch. Als toekomstig onderzoek, zullen we nieuwe modellen die verschillende gastroduodenale ziekten van cagA en andere genen te differentiëren te ontwikkelen.

    Ondersteunende informatie
    Tabel S1. .
    Aantal stammen in elke ziekte
    doi: 10.1371 /journal.pone.0036844.s001
    (DOC)
    tabel S2. .
    Totaal entropie verschil tussen maagkanker en twee andere ziekten groepen
    doi: 10.1371 /journal.pone.0036844.s002
    (DOC)
    tabel S3.
    Indeling prestaties tussen maagkanker en darmzweren groepen voor zowel de westerse als de Oost-Aziatische subtypes
    doi:. 10.1371 /journal.pone.0036844.s003
    (DOC)

  • Other Languages