Stomach Health > žalúdok zdravie >  > Gastric Cancer > žalúdočné Cancer

Ploche ONE: Hodnotenie rizík rakoviny žalúdka spôsobené Helicobacter pylori pomocou ČAGA sekvenčné značiek

abstraktné

Pozadie

Ako marker Helicobacter pylori
, cytotoxin spojené s gén A (ČAGA) bol odhalený byť hlavným faktorom virulencie spôsobujúce žalúdočné choroby , Avšak molekulárne mechanizmy, ktoré sú základom rozvoja rôznych gastroduodenálnych ochorení spôsobených ČAGA-pozitívna H. pylori
infekcie zostávajú neznáme. Súčasné štúdie sú obmedzené na vyhodnotenie korelácia medzi chorobou a počtu Glu-Pro-Ile-Tyr-Ala (EPIYA) motívov kmeňa ČAGA. Pre ďalšie pochopenie vzťahu medzi ČAGA sledu a jeho virulencie k rakovine žalúdka, sme navrhli systematický prístup entropia na báze identifikovať zvyšky súvisiace s rakovinou v uplynulých regiónoch ČAGA a zamestnával kontrolovanú metódu strojového učenia pre liečbu rakoviny a non-rakovinou prípadoch klasifikácie.

Metodika

Výpočet entropiu na báze bola použitá na detekciu kľúčové zvyšky ČAGA zasahujúcich sekvencií ako žalúdočné rakoviny biomarkerov. Pre každý zvyšok, boli vypočítané ako kombinatorické entropia a pozadia entropia, a rozdiel entropia bola použitá ako kritérium pre výber zvyškov funkcie. Hodnoty funkcie potom boli privádzané do Support Vector Machines (SVM) s Radial Basis Function (RBF) jadra a dva parametre boli naladené na získanie optimálnu hodnotu F pomocou vyhľadávania siete. Dve iné populárne metódy klasifikácie sekvencie, BLAST a HMMER, boli tiež aplikované na rovnakých dát pre porovnanie.

Záver

Naša metóda dosahuje 76% a 71% presnosť klasifikácie pre západné a východnej Ázie podtypov, v danom poradí, čo výrazne lepšie výsledky ako BLAST a HMMER. Tento výskum ukazuje, že malé zmeny aminokyselín v týchto dôležitých zvyškov môže viesť k virulencie rozptylu ČAGA kmeňov viedlo k vzniku rôznych gastroduodenálnych ochorení. Táto štúdia poskytuje nielen užitočný nástroj predpovedať koreláciu medzi kmeňom nového ČAGA a choroby, ale aj všeobecný nový rámec pre detekciu biologických sekvencií biomarkery v populačných štúdií

Citácia :. Zhang C, Xu S, Xu D (2012) Hodnotenie rizík rakoviny žalúdka spôsobené Helicobacter pylori for S ČAGA Sequence značiek. PLoS ONE 7 (5): e36844. doi: 10,1371 /journal.pone.0036844

Editor: Niyaz Ahmed, University of Hyderabad, India

prijatá: 13.listopadu 2011; Prijaté: 11.04.2012; Uverejnené: 15. mája 2012

Copyright: © 2012 Zhang et al. Toto je článok o otvorený prístup distribuovaný pod podmienkami Creative Commons Attribution licencie, ktorá umožňuje neobmedzené použitie, distribúciu a reprodukciu v nejakom médiu, za predpokladu, že pôvodný autor a zdroj sú pripísané

Financovanie :. Toto dielo bol čiastočne podporený americkou National Institute of Health [grant číslo R21 /R33 GM078601] a medzinárodnú výmenu a úradom pre spoluprácu Nanjing lekárskej univerzity, Čína. Platcovia mal žiadnu úlohu v dizajne štúdie, zber a analýzu dát, rozhodnutie publikovať, alebo prípravu rukopisu

Konkurenčné záujmy: .. Autori vyhlásili, že žiadne konkurenčné záujmy neexistujú

Úvod

Helicobacter pylori (H. pylori)
je Gram-negatívna špirála v tvare baktérie obývať ľudský žalúdok a infikovanie viac ako polovicu svetovej populácie [1], [2], [ ,,,0],3]. Nedávne štúdie ukázali, že je spojený s gastroduodenálnych ochorení, vrátane dvanástnikových vredov [4], žalúdočných vredov, [5] a chronickej gastritídy. Ešte dôležitejšie je, že je významný rizikový faktor pre rozvoj rakoviny žalúdka [6], [7], [8]. To bolo klasifikované ako Class 1 ľudský karcinogén Svetovej zdravotníckej organizácie od roku 1994 [1].

Ako marker H. pylori
je cytotoxin spojené s génom A (ČAGA) bol odhalený ďalší analýzu ako hlavný faktor virulencie. H. pylori
kmene nesúce gén ČAGA zvýšiť rizikový faktor gastroduodenálnych chorôb tri záhyby počas ČAGA-negatívnych kmeňov [6], [9], [10]. ČAGA, ktorý je kódovaný génom ČAGA, je 125 až 140 kDa proteín. Obsahuje 1142-1320 aminokyselín a má variabilné oblasť na C-koncovej oblasti, v ktorej rôzne krátke sekvencie (ako je napríklad EPIYA motívom) opakovať 1-7 krát. Po H. pylori
kolonizovať na povrchu žalúdočnej epitel, ČAGA môže byť translokovaný do žalúdka epitelových buniek prostredníctvom sekrécie typu IV systému. Akonáhle sa vstrekuje do hostiteľskej bunky, ČAGA lokalizuje k plazmatické membráne a môžu byť fosforylované rodiny Src tyrozínkinázy na špecifických tyrosinových zvyškov v piatich-amino-kyseliny (EPIYA) motív [11], [12], [13] , [14]. Tyrozín-fosforylovaný ČAGA potom sa špecificky viaže na SHP-2, tyrozín fosfatázy 11,15 aktivovať fosforylázu, ktorá spôsobí kaskádový účinok, ktorý zasahuje do signálna transdukcia hostiteľskej bunky, čo vedie k reštrukturalizácii hostiteľskej bunky cytoskeletu a formovanie kolibrík fenotyp [11], [16]. V rovnakom čase cez aktiváciu mitogénom aktivovanej proteínkinázy (MAPK), extracelulárnej signál regulované kinázy (EKR) [17] a fokálnej adhézne kináza (FAK), ČAGA tiež môže spôsobiť bunkovú disociáciu a rast infiltratívny nádoru [18], [19 ], [20], [21]. Takýto postup je ČAGA najdôležitejším faktorom virulencie v H. pylori
[22].

V variabilné oblasti ČAGA, existujú rôzne intervenujúce sekvencie medzi týmito EPIYA motívmi. Jedna kópia EPIYA a zasahujúce sekvencie je identifikovaná ako segmentu EPIYA. Štyri jedinečné druhy EPIYA segmentov boli nájdené v ČAGA, definované ako EPIYA-A, -B, -C a -D [11]. ČAGA izolovaný z východoázijských krajinách, označených ako východoázijského ČAGA, obsahuje EPIYA-A, EPIYA-B a motívy EPIYA-D. ČAGA zo západných krajín, EPIYA-D, je nahradený EPIYA-C. Silnejší fosforylácie motív väzbové aktivita EPIYA-D motívu vedie k väčším morfologickým zmenám, než to, čo EPIYA-C motív môže spôsobiť v infikovaných bunkách [11]. Je zvýšená väzbové aktivita tohto EPIYA-D motívom a výsledné morfologické zmeny, ktoré ju identifikuje ako potenciálny faktor vysvetliť vyšší výskyt rakoviny žalúdka vo východoázijských krajinách [23], [24].

Predchádzajúce štúdie odhalili zmena v počte EPIYA motívom opakovaní pre oba východnej Ázie a západnej ČAGA, čo môže ovplyvniť biologickej aktivity. Yamaoka et al. [25] zistili, že v Kolumbii a USA, schopnosť ČAGA-pozitívna H. pylori
spôsobuje atrofiu žalúdočnej sliznice a črevné metaplázia môže byť vo vzťahu k počtu EPIYA motívov kmeňa ČAGA. Argent et al. [16] dospeli k rovnakému záveru neskôr. Avšak na rozdiel od stanovísk boli zverejnené Lai et al. [26] vychádza zo zistení žiadny vzťah medzi počtom EPIYA motívov kmeňa ČAGA a klinického ochorenia v 58 izolátov z Taiwanu. Vzhľadom k veľkosti a geografickej obmedzenia týchto štúdií, platnosť tohto záveru je sporná. Okrem počtu opakovaní motívom EPIYA sekvencie rozdiel kmeňov variabilných oblastí by takisto mohlo spôsobiť významný rozdiel virulencie, ktoré sa môžu vzťahovať k rôznym patogénnym schopnosťou H. pylori
[27].

Vzhľadom na zložitú a variantných sekvencií v ČAGA, vzťahy medzi polymorfizmom ČAGA a klinických chorôb stala veľmi zaujímavý výskumný problém. Avšak molekulárne mechanizmy, ktoré sú základom rôznych gastroduodenálnych ochorení spôsobených ČAGA-pozitívna H. pylori
infekcie zostávajú neznáme. Až doteraz väčšina štúdií sa stále obmedzený na objave alebo vyhodnotení korelácia medzi počtom ČAGA EPIYA motívov a chorôb [28].

V tomto článku navrhujeme systematickú metódu pre analýzu nielen počet EPIYA motívy v ČAGA sekvenciách, ale aj špecifickú sekvenciu modely intervenujúcich regiónov. Najprv sme predstaviť výpočet entropie pre detekciu zvyškov vnútri variabilné oblasti ČAGA ako žalúdočné rakovinových biomarkerov. Potom sme sa zamestnať učenie s učiteľom postup pre klasifikáciu rakoviny a non-rakoviny pomocou informácií zistených rezíduí v ČAGA ako funkciách. Volíme podpory Vector Machines (SVM) ako binárny triediči a porovnať našu metódu s ostatnými. Náš prístup dokazuje nielen našu hypotézu, že sekvencie variabilné oblasti ČAGA obsahuje informácie pre rozlíšenie rôznych chorôb, ale tiež poskytuje užitočný nástroj na predikciu vzťah medzi novými ČAGA kmeňov a ochorení a pre detekciu biomarker rovnako.

metódami

predspracovanie dát

v predchádzajúcom popise v čj základe. [15], sme nazvali motív EPIYA a tieto medziľahlé oblasti, R1, R2, R3, R3 ', R4 a R4' (obrázok 1). Obrázok 2 znázorňuje vzťah polohy medzi motívom EPIYA (R1) a ďalšie intervenujúci oblastí pomocou typov ČAGA A-B-D (východnej Ázie podtyp) a A-B-C (Western podtyp) ako príklady. R2 je relatívne konzervovaný v oboch podtypov, ale existujú významné rozdiely medzi zasahujúcimi regiónmi R3 a R3, ako aj medzi R4 a R4 '. Východoázijskej subtyp a západnej podtyp zaobchádzalo ako s dvoma nezávislými skupinami. Ich dáta bola následne spracovaná a výsledky boli analyzované v rámci každej skupiny jednotlivo.

Všetky zapojené regióny boli nadobudnuté z ČAGA sekvencií a dať do príslušných skupín podtypu, a potom použili viacnásobné sekvenčné politickej angažovanosti pre každú skupinu zvlášť pomocou Clustal X verzia 2.0.3 [29]. Sekvencia profily (obrázok 1) bol postavený pomocou weblog 3 [30].

Zvyšky Detection

Keďže ČAGA sa týka takmer všetkých gastroduodenálnych chorôb a jednoduchú analýzu EPIYA motívom opakovanie nie je priniesť žiadne štatisticky významné rozdiely medzi týmito chorobami informáciu o tom, o konkrétnej nákazu by mohli byť ukryté v uplynulých regiónoch. Tento výskum predpokladá, že existuje súbor zvyškov alebo kombinácie rezíduí, ktoré by mohli byť užitočné ako markeru určitého ochorenia. Táto štúdia je zameraná na rakovinu žalúdka a používa skupiny rakovina /nenádorové ako príklad.

o priradených sekvencií pre každý región intervenujúci základe špecifickej zvyšky boli identifikované na základe porovnania rozdielu kombinatorické entropie [31] medzi rakovinou a nenádorových skupín. Tento postup zahŕňa nasledujúce kroky:

Po prvé, delíme uvedenému násobku zarovnanie pre všetky regióny zasahujúcimi do dvoch skupín: skupina žalúdočné rakovina a skupina non-rakovina. Pre každý stĺpec niekoľkých zarovnaním počítame pozadia entropiu (. EQ 1) a kombinatorické entropia (. EQ 2), opísať takto: (1) kde predstavuje počet sekvencií v skupine k
. udáva počet zvyškov typu v stĺpci aj
skupiny k
. je počet zvyškov typu v stĺpci i
. predstavuje celkový počet sekvencií v jednej osi (2), kde

Potom rozdiel entropia medzi kombinatorické entropia a pozadia entropia sa vypočíta takto: .. (3)

Obrázok 3 znázorňuje koncept entropia pomocou troch krajných prípadoch. V prípade P1, aminokyseliny sú "náhodne a rovnomerne rozložený 'nad všetkými skupinami a nie je významne zachovaná vzor pre túto pozíciu. Prípad P2 znamená "globálne" konzervatívny vzor a všetky aminokyseliny sú rovnaké pre obe skupiny. V prípade, P3, niektoré špecifické aminokyseliny sú zachované len v určitých skupín, a rôzne skupiny majú rôzne aminokyseliny. Hovoríme tomu prípad "lokálne zachovaná".

Podľa výsledkov výpočtu rozdielu entropie za vyššie uvedených troch prípadoch kombinatorické entropia je pre oboch "globálne konzervovaných" prípadov a "lokálne konzervovaným". Pre "náhodne a rovnomerne rozložené" prípad, dostane maximálnu hodnotu. Môžeme rozlíšiť "konzervatívny" a "náhodne a rovnomerne distribuovaná prípady založené na kombinatorické entropie, ale to nepomôže vybrať" lokálne konzervovanú "prípad od všetkých" konzervované "prípady. Keď vezmeme do úvahy pozadí entropiu súčasne, dostane maximálnu hodnotu, 0 a priemerné hodnoty "náhodne a rovnomerne distribuované" prípade, "celkovo zachované" prípad, "lokálne konzervované" prípad, v danom poradí. Konečne, rozdiely u vyššie uvedených troch prípadoch sú: ,, a dostane minimálnu hodnotu. Z tohto dôvodu, je rozdiel entropia je správne meranie pre detekciu "lokálne" konzervatívny sekvenčný vzor.

rys-entropia Výpočet

Na základe vyššie uvedeného výpočtu základe, je možné určiť, že správne zoskupenie môže minimalizovať entropia rozdiel pre tých zvyšky, ktoré patria do "lokálne" konzervatívny prípad. Vykonať test, jedna sekvencia je vybraná, zatiaľ čo zvyšok sekvencií sú rozdelené do žalúdka skupiny rakoviny a skupina non-rakoviny. Pre všetky vybrané zvyšky, zvolenej sekvencie je umiestnený do žalúdka skupiny rakoviny, pre výpočet rozdielu entropie, a potom sa umiestnia do skupiny bez rakoviny získať zodpovedajúce entropia rozdiel. Nakoniec sa získa vo všetkých vybraných zvyškov, ktoré sa používajú ako celovečerný entropia.

Klasifikácia ČAGA sekvencií

dátovej sady.

Prehľadali sme National Center for Biotechnology Information (NCBI ), švajčiarsky-PROT /Chvenie a DDBJ databázy proteínov a získať 535 kmeňov H. pylori
ČAGA bielkovina. Medzi nimi sú 287 východnej podtyp kmene ázijské a 248 kmeňov západnej podtyp. V východoázijského podtypu skupine 47 zo 287 kmeňov sú od pacientov s karcinómom žalúdka a zvyšok sú z ďalších chorôb. V západnej podtypu skupiny, existujú 37 kmene od pacientov s rakovinou žalúdka, a zvyšky sú od ostatných chorôb alebo bežných kontrol, vrátane 24 kmeňov z dobrovoľníkov, ktorých (choroba) Zdravotný stav bol neznámy.

Workflow.

Obrázok 4 ukazuje pracovný postup procesu klasifikácie /predikcie:

  • Vyberte jeden kmeň ako testovacieho kmeňa
  • Použiť uvádzaciu postup ku zvyšku kmeňov sa dostať. tréningové kmene.
  • Vypočítajte funkcie entropiu pre skúšobné kmeň by vychádzala zo vzdelávania kmeňov a uložiť ho ako testovacie dáta.
  • Vypočítajte funkcie entropie pre každého kmeňa v sade školenia kmeňa na báze výcvik kmene a uložiť ich ako dátach školenia.
  • Generovanie vzoru klasifikácie s využitím údajov k výcvik.
  • Zaradiť testovacie dáta v závislosti na modeli klasifikácie.
  • Opakujte tento postup päťkrát, a potom vypočíta priemer ako konečný výsledok.

    Bootstrapping.

    hlavným problémom pri budovaní klasifikačného modelu v tomto prípade je veľký rozdiel vo veľkosti výberových súborov medzi rakovinou a non-rakovinové skupiny, ktoré by mohli spôsobiť zaujatosť vo výsledkoch klasifikácii. Postup Bootstrapping bol aplikovaný na riešenie tohto problému. V každej skupine podtypu, pre každý školenie dátových súborov /test, všetky vzorky nenádorové boli zahrnuté, a kmene boli kontinuálne vyvodiť zo skupiny rakoviny na základe náhodného výberu až do dosiahnutia rovnakej veľkosti skupiny non-rakoviny. V tomto prípade sú všetky dostupné údaje o boli použité aj vzoriek rakoviny boli použité niekoľkokrát, vzhľadom na ich menšiu veľkosť v porovnaní so skupinou bez rakoviny. Tento postup bol použitý päťkrát generovať päť samostatných tréningové sady pre každú testovaciu sekvencie. Výsledok klasifikácia /predikcie je priemer z týchto piatich nezávislých výpočtov.

    Cross-validácie.

    Vzhľadom k tomu, veľkosť dát je malá, je voľno-one-out (LOO) Postup cross-validation bola vykonaná. To je nielen posúdenie výkonnosti klasifikačného o výcviku /skúšok, ale aj Odhad výkonu pre nové prípady.

    SVM.

    Rozhodli sme SVM ako binárny klasifikátor a použitá rys-entropia vektory trénovať a testovať klasifikátor. V prípade, že dve triedy klasifikácie mäkké marže, funkcia rozhodnutie je vážená lineárna kombinácia definuje takto: (4), kde predstavuje funkciu jadra užívateľom definované, ktorý meria podobnosti medzi vstupom vektora rysov a príznakových vektorov v tréningu dátovej sady. je hmotnosť priradený k výcviku funkcie vektora, a určuje, či je kmeň ČAGA bol označený s kladným triedy (+1) alebo negatívne (-1) triedy. Optimalizačné problém prvotné podobu: minimalizovať (5) S výhradou (6), kde. m je celkový počet kmeňov. je malátny premenná, ktorá meria mieru chybné klasifikácie nulového bodu. je parameter nákladov, ktorý umožňuje obchodovanie off chybu tréningový proti zložitosti modelu. w je normálový vektor a b je ofset.

    Po porovnaní výsledkov polynómov, TANH a Gaussovej radiálne bázických jadier, výsledok získaný s RBF jadra funguje najlepšie, kde Gaussovej radiálne základ jadra (RBF :) sú pre všeobecné účely učenia, pokiaľ nie je predchádzajúce znalosti o údajoch. SVM balík Light (http://svmlight.joachims.org/) [32] bola použitá na zostavenie našej aplikácie. Parametre a boli naladené na získanie najlepšieho modelu pre dáta školenie, ako je uvedené v nasledujúcom texte. Všetky ostatné parametre SVM boli nastavené na ich predvolené hodnoty
    vyhodnotenie

    Výkon

    Aby bolo možné zhodnotiť výkon triediče, paleta výkonných opatrení sa uplatňujú: .. Presnosť, citlivosť a špecifickosť. Skutočný pozitívny (TP) je sekvencia súvisiace s rakovinou klasifikované ako také, zatiaľ čo falošne pozitívny (FP) je non-rakovina sekvencie spojené klasifikovaný ako súvisiace s rakovinou, falošne negatívny (FN) je sekvencia rakoviny spojené klasifikovaný ako -cancer súvisí aj falošne negatívny (TN) je sekvencia non-zhubné nádory súvisiace s klasifikovaný ako non-rakoviny súvisiace. Presnosť, citlivosť (Sn), špecificita (Sp) a Matthews korelačný koeficient (MCC) klasifikácia je definovaná nasledujúcim spôsobom: (7) (8) (9) (10) Vzhľadom na to, existujú iba dva parametre pre RBF jadra a že sú nezávislé, sme použili grid-Search určiť optimálne parametre klasifikátora. Použili sme harmonický priemer citlivosti a presnosti ako objektívne funkcie pre optimalizáciu výkonu modelu pre tréningové súpravy, ktorá je definovaná takto:
    (11)

    Výsledky

    Zvyšky Detekcia a celovečerný výpočet

    v tabuľke 1 sú uvedené všetky zistené kľúčové zvyšky výpočtom rozdielu entropia v každom regióne intervenujúci pre západné i východnej Ázie subtypov. Aj keď existujú určité geografickej variácie ČAGA sekvencií medzi západnou a východnej Ázie podtypy, niektoré spoločné zvyšky stále možné nájsť rozlíšiť nádorové a nenádorové skupiny. To naznačuje, že tieto môžu byť veľmi dôležité pri určovaní virulencie ČAGA a vzťah medzi ČAGA a niektoré špecifické ochorenia.

    Zvyšok pozície sú zobrazené na obrázku 5. Predchádzajúce štúdie [27] ukazuje, že rozdielne EPIYA segmenty sa môže viazať na rôzne kinázy, napr EPIYA-R2 a EPIYA-R 3 /R 3 sa viažu na C-terminálny Src kinázy (CSK), zatiaľ čo EPIYA-R4 a EPIYA R4 'naviažu sa na kinázy SHP-2 spôsobuje Hummingbird fenotyp. ČAGA-Csk interakcie down-reguluje ČAGA-SHP-2, čo signalizuje, že narúša bunkové funkcie pre riadenie virulencie ČAGA. Bolo zistené, že väčšina zistené zvyšky patrí R2 a R3 /R3 'regióny a niekoľko zvyškov v R 4 /R 4' regióny boli zistené. To môže byť preto, že R4 /R4 'má viac konzervatívny sekvenciu než R2, a R4 /R4' je kratšia ako R3 /R3 '. Navrhujeme, aby rôzne vzory rezíduí v R2 alebo R3 /R3 'regiónoch môže zmeniť schopnosť down-regulačné ČAGA-SHP-2 signalizácie, teda zmenou virulencie ČAGA.

    Ren et al. zistili, že ČAGA multimerizes v cicavčích bunkách [33]. To Multimerizační je nezávislé na fosforylácii tyrozínu, ale to súvisí s "FPLxRxxxVxDLSKVG" motívom, ktorý je pomenovaný CM motív v R3 intervenujúci regióne. Vzhľadom k tomu, multimerizace je nevyhnutným predpokladom pre ČAGA-SHP-2 signalizácie komplexné a následné dereguláciu SHP-2, CM motív hrá dôležitú úlohu v ČAGA-pozitívnej H. pylori
    sprostredkovanú žalúdočné patogenézy. S viac CM motívmi H. Kmene pylori
    sú oveľa pravdepodobnejšie spojené so závažnými chorobami gastroduodenálnych [33], [34], ale toto zistenie nemožno vysvetliť, prečo rôzne gastroduodenálnych ochorenia môžu byť rozvíjané s presne rovnakým počtom CM motívov. Naša štúdia zistené dva zvyšky v CM motívom R3 intervenujúci oblasti, ktorá by mohla viesť k zmene multimerizaci, čím mení virulenciu ČAGA. To je v súlade s predchádzajúcim objavom [35], že rozdiel medzi sekvencie východoázijskej CM a západnej CM určuje väzbovú afinitu medzi ČAGA a SHP-2.

    Kým kľúčové zvyšky detekovanej môže odhaliť nejaký rozdiel medzi rakovinou a nenádorových skupín, žiadny jednotlivý zvyšok môže byť marker pre rakovinu, ako je znázornené na obrázku 5. Tento výskum predpovedá, že jeden zvláštny kombinácia všetkých alebo čiastkových detegovaných zvyškov môže mať vysokú koreláciu s jednou konkrétnou chorobou. Ak chcete overiť, niekoľko lineárne štatistické modely, napr. lineárna regresia a logistická regresia, boli aplikované na detekovaných funkcií zhodnotiť význam jednotlivých zvyškov a koreláciu medzi vybranými zvyšky a rakovinou. Avšak, žiadny z vyššie uvedených modelov boli schopní produkovať štatisticky významný výsledok. Vzhľadom na to, že vlastnosti nemôžu byť vybavené jednoduchými lineárnych modelov pre predpovedanie rakovinu, použitím metódy strojového učenia sa analyzuje a klasifikuje tieto údaje bude potrebné.

    Školenia parametrov pre zaradenie

    Použitie západnej subtyp skupinu ako príklad, voľná grid-search bola prvýkrát vykonaná na a (obrázok 6A) a zistil, že najlepšie je asi získať najvyššia hodnota F s rýchlosťou LOO cross-validačnej 76%. Potom jemnejšie vyhľadávanie mriežka bola vykonaná na okolie a lepšiu hodnotu F bolo získané 79,7% loo krížovej validácie v. Rovnaký postup bol použitý pre východoázijské subtypu skupiny a najlepšie záchod rýchlosti cross-validation 72,6% bolo dosiahnuté pri.

    Pretože neexistujú žiadne predchádzajúce štúdie alebo výpočtovej metódy na rovnakú tému, ktorá hodnotí výkon tejto nová výskumná metóda je ťažké. Posúdiť informačný obsah sekvencií z hľadiska ich náročnej sily predpovedať rakovinu, náhodný proces miešania bol použitý na vytvorenie kontrolnú skupinu. Po prvé, všetky sekvencie z západného subtypu boli umiestnené spoločne na vybudovanie bazéna sekvencie. Po druhé, náhodne vybral rovnaký počet sekvencií, ako skupina rakoviny zo sekvencie bazéna a pridá zvyšok sekvencií ako skupiny non-rakoviny. Potom sa celý tréning postup bol aplikovaný na novo zamiešané údaje našiel ten najlepší. Vyššie uvedené kroky sa opakuje päťkrát a na generovanie piatich nezávislých zamiešané dátových sad. Ten s najvyššou f
    hodnotu, ktorá sa rovná 46,6% bol vybraný pozemok a jeho obrys je znázornený na obrázku 6B. Táto náhodne miešanie vyhodnotenie bolo tiež aplikovaný na východoázijskej dát podtypu a najlepšie F
    hodnota bola na 54,3%. Porovnaním týchto dvoch pozemkov vyplýva výrazný rozdiel F
    hodnoty medzi údajmi pri správnom zoskupenia s rakovinou a non-rakovinou prípadov v oblasti vzdelávania a najlepšie náhodne rozmiestnia dát. Výsledok naznačuje, že intervenujúce regióny sú informatívne rozlišovať medzi rakovinou a nenádorových skupín a našej metódy môžu efektívne používať informácie.

    Klasifikácia Performance

    K dispozícii sú predovšetkým tri kategórie klasifikácie sekvencie metódy: funkcie založené na sekvenciu vzdialenosť based a model založený. Metóda, ktorá sme popísali v tomto dokumente patrí do kategórie s funkciou na báze. Vybrali sme dva z najpopulárnejších klasifikačných sekvencie nástrojov ako zástupca metód ostatných dvoch kategórií pre porovnanie. BLAST [36], bol vybraný pre kategóriu na báze sekvencie vzdialenosť, pretože ide o najrozšírenejší porovnanie sekvencií nástroj. Pre kategóriu modelu na báze, skrytý Markov model je typická metóda pre analýzu sekvencie a jej široko používaný nástroj, HMMER [37], bol vybraný. Pre klasifikačné postup ako výbuch a HMMER sme použili východiskové parametre nástrojov, použil rovnaký záchod krížovej validácie, ako bolo našou metódy a používajú rovnaké hodnotiace vzorcov uvedených v časti Method.

    Tabuľka 2 uvádza výsledky klasifikácie pre všetky tri metódy. Spôsob SVM vykonáva výrazne lepšie než ostatné dva prístupy. BLAST dosiahnuté úzku presnosť metódy Entropy-SVM, ale to predpovedal mnoho falošných negatív s nízkou citlivosťou. HAMMER dosiahnuť vysokú citlivosť, ale s malým špecifickosti. Vzhľadom k tomu, F
    hodnoty a MCC
    hodnoty, výsledky predikcie z vysokých a kladivo sú takmer náhodne.

    Výsledkom klasifikácie a obrys plot (Obrázok 6) silne podporujú naše hypotéza, teda informácie o vybraných zvyškov v oblasti zasahovania môže byť použitý ku klasifikácii vzťah medzi ČAGA sekvencií a rakoviny žalúdka, aj keď rozdiel medzi profilmi nádorových a nenádorových skupín nie je príliš silný.

    Porovnanie medzi rôznymi chorobami

    H. pylori
    infekcie je spojená s väčšinou gastroduodenálnych ochorení, medzi ktoré patrí rakovina žalúdka je najzávažnejším jedno spôsobuje viac ako 700.000 úmrtí na celom svete každý rok [38]. Vzhľadom k tomu, H. pylori
    je hlavným rizikovým faktorom rakoviny žalúdka (GC), objav mechanizmu H. pylori
    sprostredkovanie GC stáva prioritou úlohou v tejto oblasti. V porovnaní s inými chorobami, informácie diagnóza GC z verejnej dát je pomerne presné, a to je ďalší dôvod, prečo sa zamerať na GC v tomto dokumente. Naša štúdia nie sú obmedzené na GC, hoci. Tiež sme sa snažili vyhodnotiť vzťahy medzi rozptylu ČAGA sekvencií a rôznymi chorobami.

    Keďže väčšina údaje boli získané z verejne dostupných databáz bez presných informácií diagnózy, pred použitím náš spôsob ČAGA dát, ručne kurátor anotácie chorobných pre všetky kmene preskúmaním literatúru. Tabuľka S1 uvádza distribúcia vážnych chorôb ako pre západné a východné podtypu skupín Asain. Vzhľadom na obmedzenie počtu kmeňa niektorých chorôb, ako je napríklad atrofickej gastritídy, (AG) a žalúdočného vredu (GU), nakoniec sme vybrali chronickej gastritídy (CG) a dvanástnikové vredy (DU), ako kontrolnej skupine pre vyhodnotenie. Skupina DU v subtypu východoázijské obsahuje 79 kmeňov, a postup Bootstrapping bol aplikovaný na všetkých ostatných skupín, aby sa rovnaký počet kmeňov, ako sú skupiny, východnej Ázie DU. Tento krok zaisťuje všetky porovnania v rovnakej mierke, lebo hodnota kombinačné entropia je závislá na počte sekvencií. Použili sme vzorec (3) pre výpočet rozdielu entropie v každej pozícii medzi GC a CG /DU skupiny, a potom sa všetky rozdiely entropia ako rozdiel medzi celkovou GC a CG /DU skupín, ako je uvedené v tabuľke S2. Porovnaním výsledkov medzi dvoma skupinami v rovnakej geografickej podtypu (východnej Ázie alebo západnej podtyp), je v súlade s klinickým názoru, že gastritída má silnejší väzby na rakovinu, než DU [39] (všeobecne, prípady gastritída môže obsahovať niektoré unreported alebo undiagnosed chronickej atrofickej gastritídy a črevné prípady metaplázia, s ktorou pacienti majú vysoké riziko vzniku GC). Tým, že zvažuje rovnakou chorobou-pair medzi dvomi zemepisnými podtypy, ale tiež vysvetlil virulentný rozdiel medzi východnej Ázie a západnej subtypov. Okrem toho, vzhľadom k vysokej podobnosti medzi rôznymi chorobami skupín podtypu East Asian, dokonca s viac dát, my stále nemôže dosiahnuť rovnakej presnosti klasifikáciu ako západné podtypu skupiny.

    Na základe vyššie uvedených výsledkov, ČAGA sekvencie ukazujú potenciál pre odlíšenie viacerých gastroduodenálnych ochorení. Za účelom vyhodnotenia výkonnosti klasifikácie, použili sme skupinu DU nahradiť non-Cancer skupinu a potom znova aplikovať celý klasifikačný postup bez Bootstrapping, pretože tieto dve choroby skupiny majú porovnateľnej veľkosti. Tabuľka S3 ukazuje výsledky klasifikácie. Aj keď z klinického hľadiska, DU má negtive koreláciu s GC medzi všetkými gastroduodenálnych ochorení [40], klasifikácia výkon dvoch subtypu skupiny bol iba mierne zlepšila. Takto kmene ČAGA súvisiacich s rakovinou môže mať niektoré jedinečné sekvencie vzory porovnávajúca všetky ostatné gastroduodenálnych ochorení. Preto, tuning podmnožinu kontrolnej skupine nemusí byť schopný zlepšiť presnosť klasifikácie.

    Diskusia

    Hoci výskum naznačuje, že existujú sekvenčné markery rozlišovať medzi skupinou rakoviny a skupina non-rakoviny , hlavné profily týchto dvoch skupín, sú príliš podobné, rozlíšiť za použitia tradičných metód, pretože ČAGA sekvencie sú celkovo vysoko konzervatívny. Preto sme sa zamerali na identifikáciu informačných zvyšky, kvantifikácie informácie o týchto vybraných zvyškov, a potom používať to, aby navrhnúť klasifikátor, ktoré možno predpovedať, či je nová sekvencia patrí do skupiny rakoviny alebo skupiny non-rakoviny. Táto metóda nielen vrhá svetlo na vzťahy medzi ČAGA sekvencií a rakoviny žalúdka, ale tiež môže poskytnúť užitočný nástroj pre žalúdočné diagnózu rakoviny alebo prognózu.

    Mechanizmy H. pylori
    čo spôsobuje rôzne gastroduodenálnych ochorení sú stále nejasné, ale je pravdepodobné, že rôzne gastroduodenálnych ochorenie spôsobené H. pylori
    infekcie zdieľa niektoré sekvencie vzory v uplynulých regiónoch. Malé odchýlky od aminokyselín v týchto dôležitých zvyškov môže viesť k virulencie rozptylu ČAGA kmeňov viedlo k vzniku rôznych gastroduodenálnych ochorení. Kým ČAGA by mohol byť markerom pre detekciu potenciálne riziko rakoviny, pomocou ČAGA sám rozlíšiť všetky gastroduodenálnych ochorení, nie je realistické. Ako budúci štúdie, budeme vyvíjať nové modely, ktoré odlišujú rôzne gastroduodenálnych ochorení z ČAGA a ďalších génov.

    podporné informácie
    tabuľke S1. . EU Počet kmeňov v každé ochorenie
    doi: 10,1371 /journal.pone.0036844.s001
    (DOC)
    tabuľke S2. .
    Total entropia rozdiel medzi rakovinou žalúdka a dvoch ďalších chorôb skupín
    doi: 10,1371 /journal.pone.0036844.s002
    (DOC)
    Tabuľka S3. Výkon
    Zaradenie medzi rakovinou žalúdka a dvanástnikové vredy skupín pre oba západnej a východnej Ázie podtypov
    doi :. 10,1371 /journal.pone.0036844.s003
    (DOC)

  • Other Languages