Stomach Health > elodec Zdravje >  > Gastric Cancer > želodčni rak

Plos ONE: Ocena tveganja želodčnega raka zamudo je povzročil Helicobacter pylori Uporaba CagA zaporedje Markers

Povzetek

Ozadje

Kot označevalec Helicobacter pylori
, citotoksin povezano gen A (cagA) je pokazala, da je glavni virulence dejavnik, ki povzroča želodcu bolezni . Vendar pa molekularne mehanizme, ki so osnova za razvoj različnih želodcu in bolezni, ki jih cagA pozitivni H povzročajo. pylori
okužbe ostajajo neznani. Aktualne raziskave so omejene na oceno povezanosti med boleznimi in številom Glu--Ile-Tyr-Ala Pro (EPIYA) motivi v sev CagA. Za nadaljnje razumevanje odnosa med CagA zaporedju in njeno virulenco raka želodca, smo predlagali sistematičen pristop, ki temelji na entropije za ugotavljanje ostankov, povezanih z rakom na vmesnih območjih CagA in zaposleni zaščitenega metode strojnega učenja za rakom in ne-rakavih primerov razvrstitev.

Metodologija

Izračun temelji na entropija je bila uporabljena za odkrivanje ključnih ostanke CagA vmesnimi sekvenc kot želodčni biomarker raka. Za vsak ostanek, so bili izračunani tako kombinatorne entropija in ozadje entropija in entropija razlika je bila uporabljena kot merilo za izbiro ostankov funkcijo. Vrednosti funkcijo so bili nato vključeni v podpornih vektorjev (SVM) s Radial Basis Function (RBF) jedra in dva parametra, so bile usklajene, da bi dosegli optimalno F vrednost z uporabo iskanje omrežja. Dve drugi priljubljenih načinov razvrščanja zaporedja, eksplozije in HMMER, so bili uporabljeni tudi za iste podatke za primerjavo.

Zaključek

Naš način doseči 76% oziroma 71% natančnost razvrstitev za zahodni in vzhodni Aziji podtipi, oziroma, ki so bistveno boljše, kot BLAST in HMMER. Ta raziskava kaže, da lahko majhne spremembe aminokislin v teh pomembnih ostankov privede do virulence variance sevov CagA, ki izhajajo iz različnih želodca boleznimi. Ta študija zagotavlja ne le uporabno orodje za napovedovanje korelacijo med novimi CagA seva in bolezni, ampak tudi splošni novega okvira za odkrivanje bioloških zaporedij biomarkerjev v študij prebivalstva

Navedba. Zhang C, Xu S, Xu D (2012) Ocena tveganja rak želodca so jo povzročile Helicobacter pylori
Uporaba CagA Sequence Markers. PLoS ONE 7 (5): e36844. doi: 10,1371 /journal.pone.0036844

Urednik: Niyaz Ahmed, Univerza v Hyderabad, India

Prejeto: 13. november, 2011; Sprejeto: 11. april 2012; Objavljeno: 15. maj 2012

Copyright: © 2012 Zhang et al. To je odprtega dostopa članek razširja pod pogoji Creative Commons Attribution License, ki omogoča neomejeno uporabo, distribucijo in razmnoževanje v katerem koli mediju, pod pogojem, da prvotni avtor in vir knjižijo

Financiranje:. To delo je bila delno podprta z ameriškega nacionalnega inštituta za zdravje [število nepovratnih sredstev R21 /R33 GM078601] in mednarodno izmenjavo in Urad za sodelovanje Nanjing Medical University, Kitajska. Blagajnami imel nobene vloge pri oblikovanju študije, zbiranje in analizo podatkov, sklep, da se objavi, ali pripravi rokopisa

nasprotujočimi si interesi.. Avtorji so izjavili, da ne obstajajo konkurenčni interesi

Uvod

Helicobacter pylori (H. pylori)
je na Gram-negativne-vijačnice oblike bakterije, ki naseljujejo človeški želodec in okužil več kot polovico svetovnega prebivalstva [1], [2], [ ,,,0],3]. Nedavne študije so pokazale, da je povezana z želodcu bolezni, vključno razjed [4], želodčnih razjed [5] in kroničnega gastritisa. Še pomembneje je, da je pomemben dejavnik tveganja za razvoj raka na želodcu [6] [7] [8]. To je bil klasificiran kot Class 1 rakotvorne snovi za ljudi Svetovne zdravstvene organizacije od leta 1994 [1].

Kot označevalec H. pylori
je-citotoksin povezan gen A (cagA) je pokazala nadaljnja analiza, da je glavni virulence dejavnik. H. pylori
sevi, ki opravljajo gen cagA poveča dejavnik tveganja želodcu in bolezni, ki jih tri gube nad sevov cagA negativni [6], [9], [10]. CagA, ki je kodiran z genom cagA, je 125-140 kDa proteina. Vsebuje 1142-1320 aminokislin in ima variabilno regijo na C-terminalni regiji, v kateri različni kratke sekvence (npr EPIYA motiv) ponoviti 1-7 krat. Po H. pylori PODJETJA
kolonizacije na površini želodčnega epitela lahko CagA bo prenesen v želodčnem epitelijske celice skozi sistem za izločanje tipa IV. Po vbrizga v celico gostiteljico, CagA lokalizira na plazemski membrani in lahko fosforilirajo Src-družine tirozin kinaz na specifične ostanke tirozina v pet-aminokislino (EPIYA) motiv [11], [12], [13] [14]. Tirozin fosforilira CagA nato veže specifično na SHP-2 tirozin fosfataze 11,15 aktivirati fosforilaze, ki povzroči verižno reakcijo, ki ovira signalov poti v gostiteljske celice, ki vodi k preoblikovanju citoskeleta gostiteljskega celic in nastanek kolibri fenotip [11], [16]. Hkrati z aktiviranjem mitogenom aktivirana protein kinaza (MAPK), zunajcelični signal regulirano kinaze (ERK) [17] in kontaktno oprijem kinazo (FAK), CagA lahko tudi povzroči celično disociacije in rast infiltracijsko tumorjev [18], [19 ], [20], [21]. Tak postopek omogoča CagA najpomembnejša virulence dejavnik H. pylori
[22].

V variabilne regije CagA, obstaja nekaj različnih sodelujočih sekvence med temi EPIYA motivi. En izvod EPIYA plus intervenira zaporedje je opredeljena kot segmenta EPIYA. Štiri edinstvene vrste EPIYA segmentov so bili ugotovljeni v CagA, ki je opredeljen kot EPIYA-A, -B, -C in -D [11]. CagA izolirali iz vzhodnoazijskih držav, ki so označene kot vzhodnoazijskih CagA vsebuje EPIYA-A, EPIYA-B in EPIYA-D motivi. CagA iz zahodnih držav, EPIYA-D se nadomesti z EPIYA-C. Močnejši fosforilacija motiv vezave dejavnost EPIYA-D motivom pripelje do večje morfološke spremembe, kot tisto, kar lahko motiv EPIYA-C povzroča v okuženih celic [11]. To je to EPIYA-D motiv poveča aktivnost vezave in posledičnih morfološke spremembe, ki ga označuje kot potencialni dejavnik pojasniti večjo incidenco raka želodca v vzhodnoazijskih državah [23], [24].

Prejšnje študije so pokazale, sprememba števila EPIYA motivnih ponovi tako za vzhodni Aziji in zahodni CagA, ki lahko vplivajo na biološke aktivnosti. Yamaoka sod. [25] je pokazala, da je v Kolumbiji in ZDA, sposobnost cagA pozitivni H. pylori
da povzroči želodčne sluznice atrofije in črevesnih metaplazija so lahko povezane s številom EPIYA motivov v sev CagA. Argent sod. [16] prišel do istega zaključka kasneje. Vendar pa so v nasprotju mnenja objavil Lai et al. [26], ki temelji na ugotovitvah ni razmerja med številom EPIYA motivov v sev CagA in klinične bolezni v 58 izolatov iz Tajvana. Glede na velikost in geografsko omejitev teh študij, je veljavnost tega sklepa vprašljiva. Poleg števila motiva ponovitev EPIYA, zaporedje razlika sevov variabilnih regij prav tako lahko povzroči pomembno razliko virulence, ki bi lahko nanašajo na različne patogene sposobnosti H. pylori
[27].

Zaradi zapletenih in variantnih sekvenc v CagA, razmerja med polimorfizma CagA in klinične bolezni postal zelo zanimiv raziskovalni problem. Vendar pa molekularni mehanizmi, ki so osnova različnih želodcu in bolezni, ki jih cagA pozitivni H povzročajo. pylori
okužbe ostajajo neznani. Dokler se sedaj večina študij še vedno omejena na odkrivanje in oceno korelacije med številom CagA EPIYA motivi in ​​bolezni [28].

V tem prispevku predlagamo sistematično metodo za analizo ne le število EPIYA motivi v CagA sekvenc, ampak tudi posebne zaporedje vzorcev vmesnih regij. Najprej uvajamo izračunavanje entropije za odkrivanje ostankov znotraj variabilne regije CagA kot želodčnega biomarkerjev raka. Potem smo zaposlujejo zaščitenega postopek učenja za razvrščanje raka in nerakave s pomočjo informacije o odkritih ostankov v CagA kot funkcije. Izbiramo podpornih vektorjev (SVM) kot binarno klasifikatorja in primerjajte našo metodo z drugimi. Naš pristop dokazuje ne le našo hipotezo, da je zaporedje variabilne regije CagA vsebuje informacije za razlikovanje različnih bolezni, ampak tudi koristno orodje za napovedovanje korelacijo med seve nove CagA in bolezni ter za odkrivanje biomarker kot dobro.

metod

Priprave podatkov

Glede na prejšnji opis v Ref. [15], smo poimenovali EPIYA motiv in naslednje ki posredujejo regije R1, R2, R3, R3 ', R4 in R4' (slika 1). Slika 2 prikazuje odnos položaja med EPIYA motiva (R1) in drugimi vmesnimi regijami s pomočjo vrste CagA A-B-D (Vzhodnoazijska podtipa) in A-B-C (Western podtipa) kot primeri. R2 je razmeroma ohranjen v obeh podtipov, vendar obstajajo pomembne razlike med vmesnimi regijami R3 in R3, kot tudi med R4 in R4 '. Podtip virusa vzhodnoazijska in Western podtip bila obravnavana kot dve samostojni skupini. Njihovi podatki so bili nato obdelani in rezultati so bili analizirani v vsaki skupini posebej.

Vsi, ki sodelujejo regije so bili pridobljeni iz CagA sekvenc in postaviti v ustrezne skupine podtip, nato pa so bili uporabljeni poravnava večih zaporedij za vsako skupino posebej z Clustal X različice 2.0.3 [29]. Profili zaporedja (Slika 1) je bila zgrajena z uporabo Weblogo 3 [30].

Ostanek Detection

Ker je CagA povezana s skoraj vseh želodcu bolezni in preprosto analizo EPIYA motivnih ponovitev ne dalo statistično pomembne razlike med tiste bolezni, podatek, posebno bolezni se lahko skrivajo v vmesnih regij. Ta raziskava predpostavlja, da obstaja množica ostankov ali kombinacij ostankov, ki so lahko koristni kot označevalec določene bolezni. Ta študija osredotoča na raka želodca in uporablja skupin za rak /nerakave kot npr.

Na podlagi poravnanimi sekvenc za vsakem vmesnem območju so posebni ostanki označene s primerjavo razliko kombinatorne entropije [31] med skupinami z rakom in nerakave. Ta postopek vključuje naslednje korake:

Najprej delimo danih več trase za vse vmesnih regij v dve skupini: v želodcu skupina rak in skupine, ki niso rak. Za vsak stolpec večkratnih poravnav, izračunamo ozadje entropijo (. Enačbo 1) in kombinatorne entropijo (. Enačbo 2), opisal takole: (1), kjer predstavlja število sekvenc v skupini k
. označuje število ostankov vrste v stolpcu i
skupine k
. je število ostankov vrste v stolpcu i
. predstavlja skupno število sekvenc v poravnavi (2), kjer

Potem je razlika entropija med kombinatorne entropije in entropijo ozadju izračunana.. (3)

Slika 3 prikazuje koncept entropije s tremi skrajnih primerih. V primeru P1, aminokisline "naključno in enakomerno porazdeljeno 'nad vsemi skupinami in tam ni bistveno ohranjena vzorec za ta položaj. Primer P2 predstavlja "globalno ohranjeno" vzorec in vse amino kisline sta enaka v obeh skupinah. V primeru P3, so nekatere specifične aminokisline ohranjen le v določenih skupin in različne skupine imajo različne aminokisline. Temu pravimo primer "lokalno ohranjena".

Glede na rezultate izračunavanja razlike entropije pri zgoraj navedenih treh primerih je kombinatorne entropija je tako za "globalno ohranjenih" in "lokalno ohranjenih" primerih. Za "naključno in enakomerno porazdeljeno" primeru, dobi največjo vrednost. Mi lahko razlikovati "ohranjene" in "naključno in enakomerno porazdeljene" primeri, ki temeljijo na kombinatorne entropije, vendar pa ne pomaga izbrati "lokalno ohranjajo" zadevo od vseh "ohraniti" primere. Ko menimo entropije ozadju hkrati, dobi največjo vrednost, 0 in srednje vrednosti za "naključno in enakomerno porazdeljeno" primer "globalno ohranjen" primer "lokalno ohranjen" primera oz. Nazadnje, razlike so v zgoraj navedenih treh primerih so :, in dobi minimalno vrednost. Zato je entropija razlika je ustrezno merilo za odkrivanje "lokalno ohranjeno" zaporedno vzorec.

Feature entropija Izračun

Na podlagi zgornjega izračuna, se lahko določi, da je pravilna skupina lahko zmanjša entropija razlika za tiste ostanke, ki spadajo v "lokalno ohranjenih" primer. Za izvedbo testa, ena sekvenca izbrana medtem ko so preostali sekvenc razdeli v želodčni skupino raka in skupini brez raka. Za vse izbrane ostankov, izbrana zaporedje dano v želodčnem skupino raka za izračun razlike entropije, nato pa ga damo v skupini brez raka, da bi dobili ustrezne entropije razliko. Na koncu dobimo za vse izbrane ostanke, ki se uporabljajo kot funkcija entropije.

Razvrstitev CagA sekvenc

nabora podatkov.

Iskali smo Nacionalni center za biotehnologijo informacije (NCBI ), švicarsko-prot /Tremble in DDBJ beljakovin podatkovne baze in dobimo 535 sevov H. pylori
CagA beljakovin. Med njimi je 287 vzhodnoazijskih sevi podtip in 248 Zahodni sevi podtip. V vzhodnoazijski podtipa skupini 47 od 287 sevi so pri bolnikih z rakom želodca in ostalo pa od drugih bolezni. V zahodni skupini podtipa, je 37 sevov iz bolnikov, želodca z rakom, in ostanki so iz drugih bolezni ali običajnih kontrol, vključno z 24 sevov iz prostovoljcev, katerih zdravstveno stanje (bolezen) je bil znan.

Workflow.

Slika 4 prikazuje potek postopka klasifikacija /napoved:

  • Izberite eno seva kot testnega seva
  • Uporabi bootstrap postopek za ostale seve, da bi dobili. seve usposabljanja.
  • Izračunajte funkcijo entropije za preskusni sev, ki temelji na sevi usposabljanja in jo shranite kot testnih podatkov.
  • Izračunajte funkcijo entropije za vsakega seva v nizu seva usposabljanje, ki temelji na usposabljanje sevov in jih shranite kot podatki usposabljanja.
  • Ustvari modela razvrstitve z uporabo podatkov za usposabljanje.
  • razvrsti podatke o preskusih v skladu z modelom razvrščanja.
  • postopek ponovite petkrat, in nato izračunamo povprečje kot končni rezultat.

    zaženejo.

    Glavno vprašanje pri gradnji modela tajnosti v tem primeru je velika razlika v velikosti vzorcev med rakom in ne-rakave skupine, ki lahko povzročijo pristranskost v rezultatih razvrščanja. Postopek zaženejo bil uporabljen za reševanje tega vprašanja. V vsakem podtipa skupini, za vsako usposabljanje /testnih naborov podatkov, so bili vključeni vsi vzorci brez raka, nato pa so bili sevi stalno sestavljen iz skupine raka na naključno, dokler ne dosežemo enake velikosti skupini premoženjskih raka. V tem primeru so bili uporabljeni vsi razpoložljivi podatki, čeprav so bili vzorci z rakom uporabljena večkrat dali manjše velikosti v primerjavi s skupino, ki niso raka. Ta postopek je bil uporabljen petkrat ustvariti pet neodvisnih sklopov usposabljanja za vsakega preskusa. Rezultat Klasifikacija /napoved je povprečje teh petih neodvisnih rezultatov.

    Cross-potrditev.

    Ker je velikost podatkov je majhna, dopust-one-out (LOO) postopek navzkrižno validacijo je bila opravljena. To ni le ocena uspešnosti klasifikatorja o podatkih trening /preskus, pa tudi ocena napoved moči za nove primere.

    SVM.

    smo izbrali SVM kot binarni razvrščanje in uporablja funkcija entropija vektorji za usposabljanje in test klasifikator. V primeru dveh razreda klasifikacije mehko marže, funkcija odločitev je tehtano linearna kombinacija opredeljeni kot sledi: (4), kjer predstavlja funkcijo uporabniško določeno jedra, ki meri podobnosti med vhodno funkcijo vektorja in vektorjev celovečernih pri usposabljanju nabor podatkov. je dodeljeno funkcijo usposabljanja vektorja in ali je bil sev CagA označena s pozitivnim razred (+1) ali negativni razred (-1). poglavitni problem optimizacije poteka v obliki: zmanjšanje (5) pod pogojem, da (6), kjer je. m je skupno število sevov. je ohlapna spremenljivka, ki meri stopnjo napačno razvrstitev od podatka. je parameter stroški, ki omogoča trgovanje off napako trening proti modela kompleksnosti. w je običajni vektor in b se izravna.

    Po primerjavi rezultatov polinoma, TANH in Gaussove radialna bazičnih jeder, dobljeni rezultat z RBF jedra delovala najbolje, kjer Gaussove radialna podlaga jedrca (RBF :) so za učenje za splošno rabo, če ni predhodno znanje o podatkih. SVM Svetlobni paket (http://svmlight.joachims.org/) [32] je bila uporabljena za gradnjo naše aplikacije. Parametri in so bile usklajene, da bi dobili najboljši model za podatke za usposabljanje, kot je prikazano v nadaljevanju. Vsi ostali parametri SVM so bili določeni na njihove privzete vrednosti
    ocena

    Uspešnost

    Da bi lahko ocenili uspešnost razvrščanje, se uporabljajo različne meril uspešnosti.. Natančnost, občutljivost in specifičnost. Res pozitivni (TP) je povezanih z rakom sekvenca razvrščen kot taka, medtem ko lažno pozitivni (FP) je ne-rakava sekvenca povezane opredeliti kot povezane z rakom, lažna negativna (FN) je rak povezano zaporedje razvrščene kot ne -cancer povezane in pravi negativna (TN) je ne-rak povezane zaporedje razvrščene kot niso povezana z rakom. Natančnost, občutljivost (Sn), specifičnost (Sp) in Matthews korelacijski koeficient (MCC) za razvrščanje je opredeljena na naslednji način: (7) (8) (9) (10) Ker obstajata le dva parametra za RBF jedra in jih so neodvisni, smo uporabili omrežja-iskanje za določitev optimalne parametre klasifikator. Uporabili smo harmonskih sredstev občutljivostjo in specifičnostjo kot kriterijske funkcije za optimalno delovanje modela za sklop usposabljanja, ki je opredeljena kot sledi:
    (11)

    Rezultati

    Detekcija ostankov in funkcija računanja

    Tabela 1 vsebuje vse ugotovljene ključne ostanki z izračunom razlike entropije v vsakem vmesnem regiji zahodnega in vzhodnoazijskih podtipov. Čeprav obstaja nekaj geografske variacije CagA sekvenc med zahodno in vzhodnoazijskih podtipov, lahko nekatere skupne ostanki še vedno mogoče najti razlikovati rakavih in nerakave skupine. Predlaga, da bi se ti ostanki zelo pomembno pri določanju virulenco CagA in razmerje med CagA in nekaterih specifičnih bolezni.

    Ostanek pozicije so prikazani na sliki 5. Predhodna študija [27] kaže, da je drugačen EPIYA segmenti se lahko vežejo na različne kinaze, npr EPIYA-R2 in EPIYA-R3 /R3 'vežejo na C-terminalnem Src kinaze (CSK), medtem ko EPIYA-R4 in EPIYA-R4' vežejo na SHP-2 kinaze, da povzroči ptičjo fenotip. Interakcija CagA-CSK navzdol ureja CagA-SHP-2 signalizacijo, ki perturbs celične funkcije za nadzor virulenco CagA. To je bilo ugotovljeno, da je večina zaznani ostanki pripadajo R2 in R3 /R3 regije in nekaj ostankov v R4 /R4 regijah so bili odkriti. To je lahko zaradi "ima več konzerviranih sekvenco od R2 in R4 /R4 'R4 /R4 je krajša od R3 /R3'. Predlagamo, da bi različne vzorce ostanka v R2 ali R3 /R3 'regij spremeni sposobnost navzdol regulatorni CagA-SHP-2 signalizacijo, torej spreminjanje virulenco CagA.

    Ren sod. ugotovila, da CagA multimerizes v celicah sesalcev [33]. To multimerizaciji je neodvisen tirozin fosforilacijo, vendar je povezana z "FPLxRxxxVxDLSKVG" motiv, ki je imenovan CM motiv v R3 vmesnem območju. Ker multimerizaciji je predpogoj za CagA-SHP-2 signalizacijo kompleksno in naknadno deregulacijo SHP-2, CM motiv igra pomembno vlogo pri cagA pozitivni H. pylori
    pogojenega želodca patogeneza. Z več motivi CM H. pylori
    sevi so zelo verjetno povezana s hudimi želodcu bolezni [33], [34], vendar ta ugotovitev ni mogoče razložiti, zakaj se različne gastroduodenalnih bolezni lahko oblikujejo z točno enakim številom CM motivi. Naša raziskava je zaznal dve ostanke CM motivom R3 vmesnem območju, ki bi lahko privedle do spremembe multimerizaciji, s čimer se virulenco CagA. To je v skladu s prejšnjim odkritjem [35], da zaporedje razlika med East Asian CM in zahodne SP določa afiniteto med CagA in SHP-2.

    Čeprav lahko ključni ostanke odkrite razkrila določen vpliv med rakom in ne-rakave skupine lahko nobena ostanek je označevalec raka, kot je prikazano na sliki 5. Ta raziskava predvideva, da bi ena posebna kombinacija vseh ali delnih odkriti ostanki imajo visoko korelacijo z eno določeno boleznijo. Da bi preverili, več linearni statistični modeli, npr linearna regresija in logistično regresijo, smo aplicirali na odkritih značilnosti oceniti pomen vsakega ostanka in korelacijo med izbranimi ostankov in raka. Vendar nobeden od zgoraj navedenih modelov sposobna proizvajati statistično pomembnega rezultata. Ker funkcije ne more biti opremljeni s preprostimi linearnih modelov za napovedovanje raka, z uporabo metode strojnega učenja, da analizira in razvrsti te podatke postane potrebno.

    Usposabljanje parametrov za razvrstitev

    Uporaba zahodni podtip skupino kot primer, je bila ohlapna mreža iskanju prvič izveden in (slika 6A) in ugotovil, da je najboljši okrog, da bi dobili najvišjo F vrednost, s stopnjo Loo navzkrižne validacije 76%. Nato je bil lepši iskanje omrežje poteka na okolico in je bil boljši F vrednost, dobljena z 79,7% Loo navzkrižne validacije na. Enak postopek je bil uporabljen za vzhodnoazijski podtipa skupino in najboljši WC mere navzkrižne validacije 72,6% je bil dosežen na.

    Ker ni prejšnje študije ali računske metode na isto temo, ki ocenjuje uspešnost tega nova raziskovalna metoda je težko. Oceniti vsebino informacijsko sekvenc glede na njihovo zahtevne moči za napovedovanje raka, smo naključno postopek prelaganje zaposleni za izgradnjo kontrolno skupino. Prvič, vse sekvence iz zahodne podtipa so bili dani skupaj zgraditi zaporedno bazen. Drugič, smo naključno izbrali enako število sekvenc kot skupina raka iz skupine zaporedja in obdelamo ostanek sekvenc kot skupini brez raka. Nato je bil postopek cel trening uporabljajo za novo premešajo podatkov, da bi našli najboljše. Zgoraj navedeni ukrepi so ponovili petkrat ustvariti pet neodvisnih premešani podatkovnih nizov. Tisti z najvišjo F
    vrednosti, ki znaša 46,6% je bila izbrana in njegov obris parcele je prikazano na sliki 6B. To naključno mešanje kart ocena je bila uporabljena tudi za vzhodnoazijskih podatkov podtip in najboljši F
    vrednost je bila na 54,3%. Primerjava dveh parcel kaže bistveno razliko F
    vrednosti med podatki s pravilno skupini raka in ne-rakavih primerov v usposabljanja in najboljših naključno premešajo podatkov. Rezultat kaže, da so intervenientke regije informativne razlikovati med rakom in ne-rakave skupine in naše metode lahko učinkovito uporabo podatkov.

    Razvrstitev Uspešnost

    Obstajajo predvsem tri kategorije razvrščanja zaporedja metode: na funkcijo, ki temelji na osnovi zaporedja razdalje in model. Metoda, ki smo opisali v tem članku spada v kategorijo, ki temelji na funkcijo. Izbrali smo dva izmed najbolj priljubljenih klasifikacijskih zaporedje orodij kot reprezentativnih metod drugih dveh kategorij za primerjavo. BLAST [36] je bila izbrana za skupino, ki temelji na zaporedje na daljavo, saj je najpogosteje uporablja zaporedje primerjava orodje. Za kategorijo, ki temelji na modelu, skrito Markov model je tipična metoda za sekvenčno analizo in njeno široko uporabo orodja, HMMER [37], je bil izbran. Za postopek razvrščanja tako BLAST in HMMER smo uporabili privzete parametre orodja, ki se uporablja isti Loo navzkrižno preverjanje, kot je naš način in uporabljajo enake formule za ocenjevanje, navedenih v oddelku metodi.

    Tabela 2 izpiše rezultate razvrščanja za vse tri metode. Metoda SVM opravlja bistveno boljši od drugih dveh pristopov. BLAST doseči tesno natančnost metode Entropija-SVM, pa je napovedal številne lažno negativnim z nizko občutljivostjo. HAMMER dosegla visoko občutljivost, vendar z malo specifičnosti. Glede na to, F
    vrednote in MCC
    vrednosti, rezultati napoved iz BLAST in HAMMER skoraj naključno.

    Rezultat razvrstitev in obris ploskve (slika 6), močno podpirajo naše hipoteza, tj podatke izbranih ostankov v intervenira regije, lahko uporabimo za razvrščanje razmerje med CagA sekvenc in rak želodca, čeprav je razlika med profilov rakavih in nerakave skupin ni zelo močna.

    Primerjava med različnimi boleznimi

    H. pylori
    okužba je povezana z večino želodcu bolezni, med katerimi je rak želodca najhujša ena povzroča več kot 700.000 smrtnih žrtev po vsem svetu vsako leto [38]. Ker H. pylori
    je glavni dejavnik tveganja za raka na želodcu (GC), odkritje mehanizma H. pylori PODJETJA
    posredovanjem GC postane glavna prednostna naloga na tem področju. V primerjavi z drugimi boleznimi, informacije diagnoza GC iz javnih podatkov je dokaj natančen, in to je še en pomemben razlog, da se osredotoči na GC v tem dokumentu. Naše raziskave niso omejeni na GC, čeprav. Poskušali smo tudi oceniti odnose med varianco CagA sekvenc in različnimi boleznimi.

    Ker je bila večina podatki zbrani iz javnih zbirk podatkov brez natančnih informacij diagnoze, pred uporabo našega načina podatkih CagA, smo ročno kurator komentarje bolezni za vse seve s pregledom literature. Tabela S1 navaja porazdelitev hudih bolezni tako za zahodne in podtip skupine East Asain. Zaradi omejitve deformacij števila nekaterih bolezni, kot so atrofični gastritis (AG) in želodca (GU), bomo na koncu izbrali kronični gastritis (CG) in dvanajstnika (DU) kot kontrolnih skupinah za ocenjevanje. Skupina DU v podtipa East Asian vsebuje 79 seve, in postopek zaženejo uporabila tudi za vse druge skupine, da bi enako število sevov kot skupine East Asian DU. Ta korak zagotavlja vse primerjave na enakem obsegu, saj je vrednost combinatorial entropije odvisna od števila sekvenc. Uporabili smo formulo (3) za izračun razlike entropije za vsak položaj med GC in CG /DU skupin in nato sešteli vse entropija razlike kot celotno razliko med GC in CG /DU skupinami, kot je prikazano v tabeli S2. S primerjavo rezultatov med obema skupinama v istem geografskem podtipa (vzhodnoazijske ali Western podtip), je v skladu s kliničnega vidika, ki ima gastritis tesnejše odnose do raka, kot da DU [39] (v glavnem primeri gastritis lahko vsebuje nekatere neprijavljen ali neodkrit kronični atrofični gastritis in črevesne primeri metaplazija, s katerimi imajo bolniki z visokim tveganjem za razvoj GC). Z upoštevanjem enakega obolenja par med dvema geografskih podtipov, je pojasnil tudi virulentnih razliko med vzhodu Azije in zahodnega podtipov. Poleg tega je zaradi velike podobnosti med različnimi skupinami bolezni pri podtipa East Asian, tudi z več podatki, še vedno ne more doseči enako klasifikacijsko točnost kot zahodni skupini podtipa.

    Na podlagi zgornjih rezultatov, CagA sekvence kažejo potencial za razlikovanje več želodcu bolezni. Da bi lahko ocenili uspešnost razvrščanju smo uporabili DU skupino za zamenjavo niso Cancer skupino, in nato ponovno uporabi celoten postopek razvrščanja, ne da bi metodo vezanja, saj imata ti dve bolezni skupin primerljive velikosti. Tabela S3 prikazuje rezultate razvrščanja. Čeprav DU je s kliničnega vidika je negtive korelacijo z GC med vsemi želodcu bolezni [40], je bila uspešnost klasifikacija dveh podtip skupin le nekoliko izboljšalo. Tako bi lahko v zvezi z rakom sevi CagA imajo nekatere edinstvene zaporedja vzorcev v primerjavi z vsemi drugimi želodcu bolezni. Zato, tuning podniz kontrolni skupini morda ne bo mogel izboljšati natančnost klasifikacije.

    Pogovor

    Čeprav raziskave kažejo, da obstaja zaporedje označevalcev za razlikovanje med skupino raka in skupine brez raka , glavni profili teh dveh skupin so preveč podobne, da razlikovanje s pomočjo tradicionalnih metod, saj so CagA sekvence na splošno zelo ohranjena. Zato smo se osredotočili na ugotavljanje informativne ostanke, količinsko informacije o teh izbranih ostankov, nato pa z njim oblikovati klasifikator, ki ne more napovedati, ali novo zaporedje spada v skupino raka ali skupine, ki niso raka. Ta metoda lope ne le svetlobo o odnosih med CagA sekvenc in raka želodca, ampak tudi lahko koristno orodje za želodčne diagnozi raka ali prognozo.

    Mehanizmi H. pylori
    povzročajo različni gastroduodenalnih bolezni še vedno ni jasno, pa je verjetno, da različni gastroduodenalnih bolezni, ki jih H povzročil. pylori
    delijo okužbe z nekaj zaporedja vzorcev v vmesnih regij. Majhne spremembe aminokislin v teh pomembnih ostankov, lahko privede do virulence variance sevov CagA, ki izhajajo iz različnih želodcu bolezni. Medtem ko bi CagA biti marker za odkrivanje potencialno tveganje za nastanek raka, s pomočjo CagA sami razlikovati vse želodcu bolezni ni realno. Kot bodoči raziskavi bomo razvili nove modele, ki se razlikujejo različne želodcu bolezni iz cagA in drugih genov.

    Podpora Informacije
    Tabela S1. .
    Število sevov v vsako bolezen
    doi: 10,1371 /journal.pone.0036844.s001
    (DOC)
    tabeli S2. .
    Skupaj entropija razlika med rakom želodca in dveh drugih bolezni skupin
    doi: 10,1371 /journal.pone.0036844.s002
    (DOC)
    Tabela S3. performance
    Uvrstitev med rakom želodca in dvanajstnika skupin za tako zahodne in v vzhodnoazijskih podtipov
    doi:. 10,1371 /journal.pone.0036844.s003
    (DOC)

  • Other Languages