Stomach Health > Magen Gesundheit >  > Gastric Cancer > Magenkrebs

PLoS ONE: Risikobewertung von Magenkrebs verursacht durch Helicobacter pylori CagA Sequence Markern

Abstrakt

Hintergrund

Als Marker von Helicobacter pylori
, Cytotoxin-assoziierte Gen A (CagA) wurde gezeigt, die große Virulenzfaktors verursachen gastro-Erkrankungen zu sein . Jedoch sind die molekularen Mechanismen, die der Entwicklung von verschiedenen gastroduodenalen Krankheiten, die durch CagA-positive H zugrunde liegen. pylori
Infektion bleiben unbekannt. Aktuelle Studien zur Bewertung der Korrelation zwischen Krankheiten und der Anzahl von Glu-Pro-Ile-Tyr-Ala (Epiya) Motive in der CagA-Stamm beschränkt. Um die Beziehung zwischen CagA-Sequenz zu verstehen und seine Virulenz Magenkrebs, haben wir vorgeschlagen, eine systematische Entropie-basierten Ansatz, um die krebsbedingte Rückstände in den dazwischenliegenden Regionen von CagA zu identifizieren und verwendet, um eine überwachte Maschine Lernmethode für Krebs und Nicht-Krebs-Fällen Klassifizierung.

Methodik

Ein Entropie-basierte Berechnung Schlüsselreste von CagA intervenierende Sequenzen als Magenkrebs Biomarker zum Nachweis verwendet wurde. Für jeden Rest wurden beide kombinatorische Entropie und Hintergrund Entropie berechnet, und die Entropie Unterschied wurde als Kriterium für die Funktion Rückstands Selektion verwendet. Die Merkmalswerte wurden dann mit dem Radiale Basisfunktion (RBF) Kernel in den Support Vector Machines (SVM) zugeführt und zwei Parameter wurden eingestellt unter Verwendung von Rastersuche die optimale F-Wert zu erhalten. Zwei weitere beliebte Sequenz Klassifikationsverfahren, die BLAST und HMMER, wurden ebenfalls auf die gleichen Daten zum Vergleich angewendet.

Fazit

Unsere Methode erreicht 76% und 71% Klassifikationsgenauigkeit für die westlichen und ostasiatischen Subtypen verbunden, die als BLAST und HMMER deutlich besser ab. Diese Untersuchungen zeigen, dass kleine Variationen der Aminosäuren in diesen wichtigen Resten auf die Virulenz Varianz CagA Stämmen führen könnte in verschiedenen gastroduodenalen Erkrankungen zur Folge hat. Diese Studie liefert nicht nur ein nützliches Werkzeug, um die Korrelation zwischen dem neuartigen CagA-Stamm und Krankheiten, sondern auch eine allgemeine neuen Rahmen für die Erfassung biologischer Sequenz Biomarker in Bevölkerungsstudien zur Vorhersage

Citation:. Zhang C, Xu S, Xu D (2012) Risikobewertung von Magenkrebs verursacht durch Helicobacter pylori
CagA Sequenz Marker. PLoS ONE 7 (5): e36844. doi: 10.1371 /journal.pone.0036844

Editor: Niyaz Ahmed, University of Hyderabad, Indien

Empfangen: 13. November 2011; Akzeptiert: 11. April 2012 um; Veröffentlicht am: 15. Mai 2012

Copyright: © 2012 Zhang et al. Dies ist eine Open-Access-Artikel unter den Bedingungen der Lizenz Creative Commons, die uneingeschränkte Nutzung erlaubt, die Verteilung und Vervielfältigung in jedem Medium, vorausgesetzt, der ursprüngliche Autor und Quelle genannt werden

Finanzierung:. Diese Arbeit wurde teilweise durch US-amerikanischen National Institute of Health [Gewährungsnummer R21 /R33 GM078601] und internationalen Austausch und Kooperationsbüro von Nanjing Medical University, China. Die Geldgeber hatten keine Rolle in Studiendesign, Datenerfassung und Analyse, Entscheidung oder Vorbereitung des Manuskripts zur Veröffentlichung

Konkurrierende Interessen:.. Die Autoren haben erklärt, dass keine Interessenkonflikte bestehen

Einführung

Helicobacter pylori (H. pylori)
eine Gram-negative wendelförmig ist Bakterium den menschlichen Magen bewohnen und mehr als die Hälfte der Weltbevölkerung infizieren [1], [2], [ ,,,0],3]. Jüngste Studien haben gezeigt, dass es mit gastroduodenalen Krankheiten, einschließlich Ulcera [4], Magengeschwüren [5] und chronischer Gastritis assoziiert ist. Noch wichtiger ist, ist es ein signifikanter Risikofaktor für die Entwicklung von Magenkrebs [6], [7], [8]. Es wurde als Klasse 1 menschliches Karzinogen durch die seit 1994 Weltgesundheitsorganisation eingestuft [1].

Als Marker von H. pylori
, das Cytotoxin-assoziierte Gen A (CagA) wurde durch eine weitere Analyse werden die wichtigsten Virulenzfaktor enthüllt. H. pylori
Stämme trägt das CagA-Gen den Risikofaktor von gastro-Erkrankungen, die durch drei Falten über CagA-negative Stämme [6], [9], [10] erhöhen. CagA, die durch die cagA Gen kodiert wird, ist ein 125-140 kDa Protein. Es enthält 1142-1320 Aminosäuren und hat eine variable Region am C-terminalen Bereich, in dem verschiedene kurze Sequenzen (wie Epiya Motiv) 1-7 mal wiederholen. Nach dem H. pylori
der Oberfläche des Magenepithel kolonisieren können CagA durch ein Typ IV-Sekretionssystem in den Magen-Epithelzellen transloziert werden. Nach der Injektion in die Wirtszelle, lokalisiert CagA an die Plasmamembran und kann durch Src-Familie-Tyrosinkinasen zu den spezifischen Tyrosinresten eines Fünf-amino-acid (Epiya) Motiv [11] phosphoryliert werden [12], [13] , [14]. Tyrosinphosphorylierten CagA bindet dann spezifisch an SHP-2-Tyrosin-Phosphatase 11,15 einen Phosphorylase aktivieren, die den Kaskadeneffekt verursacht, die mit dem Signaltransduktionsweg der Wirtszelle stört, was zu einer Umstrukturierung der Wirtszelle Zytoskeletts und Bildung Kolibri-Phänotyp [11], [16]. Zur gleichen Zeit durch Aktivieren mitogen-aktivierte Proteinkinase (MAPK), extrazelluläre Signal-regulierte Kinase (ERK) [17] und focal adhesion kinase (FAK), auch Zell Dissoziation und infiltrative Tumorwachstum CagA verursachen kann [18], [19 ], [20], [21]. Ein solches Verfahren macht CagA ein sehr wichtiger Virulenzfaktor in H. pylori
[22].

Innerhalb der variablen Region CagA, gibt es einige verschiedene intervenierende Sequenzen zwischen diesen Epiya Motive. Eine Kopie von Epiya und dazwischenliegende Sequenz wird als Epiya Segment identifiziert. Vier einzigartige Typen von Epiya Segmente wurden in CagA, definiert als Epiya-A, -B, -C und -D [11] zu finden. Die CagA isoliert aus ostasiatischen Ländern, bezeichnet als ostasiatische CagA, enthält Epiya-A, Epiya-B und Epiya-D-Motive. Die CagA aus westlichen Ländern, Epiya-D, wird durch Epiya-C ersetzt. Stärkere Phosphorylierung Motiv Bindungsaktivität des Epiya-D-Motiv führt zu mehr morphologische Veränderungen als das, was die Epiya-C-Motiv in infizierten Zellen führen kann [11]. Es ist diese Epiya-D Motiv erhöhte Bindungsaktivität und die daraus resultierenden morphologischen Veränderungen, die es als potenzieller Faktor identifiziert die höhere Inzidenz von Magenkrebs in ostasiatischen Ländern [23], [24] zu erklären.

Frühere Studien zeigten, eine Veränderung in der Anzahl der Epiya Motiv wiederholt sich sowohl für ostasiatische und westliche CagA, die biologische Aktivität beeinflussen können. Yamaoka et al. [25] festgestellt, dass in Kolumbien und den USA, die Fähigkeit von CagA-positive H. pylori
Magenschleimhaut Atrophie und intestinale Metaplasie zu verursachen könnten auf die Anzahl der Epiya Motive im CagA-Stamm in Beziehung gesetzt werden. Argent et al. [16] kam später zu dem gleichen Schluss. Allerdings wurden im Gegensatz Meinungen von Lai et al. [26] Auf der Grundlage von Ergebnissen der keine Beziehung zwischen der Anzahl der Epiya Motive im CagA-Stamm und der klinischen Krankheit innerhalb von 58 Taiwan isoliert. In Anbetracht der Größe und geografische Einschränkung dieser Studien ist die Gültigkeit dieser Schlussfolgerung fraglich. Abgesehen von der Anzahl der Epiya Motiv repeats, die Sequenzunterschied von Stämmen in variablen Bereiche können auch einen signifikanten Unterschied der Virulenz verursachen, die zu den verschiedenen pathogenen Fähigkeiten von H beziehen könnten. pylori
[27].

Aufgrund der komplexen und Variantensequenzen in CagA, die Beziehungen zwischen dem Polymorphismus von CagA und klinischen Erkrankungen zu einem sehr interessanten Forschungsproblem. Allerdings sind die molekularen Mechanismen, die verschiedene gastro-Krankheiten, die durch CagA-positive H zugrunde liegen. pylori
Infektion bleiben unbekannt. Bis jetzt sind die meisten Studien noch auf die Entdeckung oder Auswertung der Korrelation zwischen der Anzahl von CagA Epiya Motive und Krankheiten beschränkt sind [28].

In diesem Papier schlagen wir eine systematische Methode zur Analyse nicht nur die Anzahl der Epiya Motive in Sequenzen CagA sondern auch die spezifischen Sequenzmuster von dazwischen liegenden Regionen. Zunächst wir Entropie Berechnung einzuführen, um die Rückstände innerhalb der variablen Region von CagA als die Magenkrebs Biomarker zu detektieren. Dann setzen wir ein überwachtes Lernen Verfahren Krebs und nicht-Krebs zu klassifizieren, indem die Informationen der erkannten Rückstände in CagA als die Merkmale verwenden. Wir wählen Support-Vektor-Maschinen (SVM) als binäres Klassifizierer und vergleichen Sie unsere Methode mit anderen. Unsere Vorgehensweise erweist sich nicht nur unsere Hypothese, dass die Sequenz der variablen Region CagA Information enthält verschiedene Krankheiten zu unterscheiden, sondern auch ein nützliches Werkzeug, um die Korrelation zwischen den neuen CagA-Stämmen und Erkrankungen vorherzusagen und die Biomarker als auch zu detektieren.

Methoden

Datenvorverarbeitung

auf der Grundlage der vorstehenden Beschreibung in Ref. [15] nannten wir die Epiya Motiv und folgende intervenierende Regionen R1, R2, R3, R3 ', R4 und R4' (Abbildung 1). Abbildung 2 zeigt die Positionsbeziehung zwischen dem Epiya Motiv (R1) und andere dazwischenliegenden Regionen unter Verwendung der CagA-Typen A-B-D (ostasiatischen Subtyp) und A-B-C (West Subtyp) als Beispiele. R2 ist relativ über beide Subtypen erhalten, aber es gibt signifikante Unterschiede zwischen den intervenierenden Regionen R3 und R3 'sowie zwischen R4 und R4'. Die ostasiatischen Subtyp und der westlichen Subtyp wurden als zwei unabhängige Gruppen behandelt. Ihre Daten wurden dann verarbeitet und die Ergebnisse wurden in jeder Gruppe einzeln analysiert.

Alle dazwischen liegenden Regionen wurden aus den CagA-Sequenzen extrahiert und in den entsprechenden Subtyp Gruppen, und dann werden die multiplen Sequenz-Alignments wurden für jede Gruppe einzeln angewandt unter Verwendung von Clustal X Version 2.0.3 [29]. Die Sequenzen Profile (Abbildung 1) wurde unter Verwendung der Weblogo 3 gebaut [30].

Ermittlung von Rückständen

Da CagA auf fast alle gastro-Erkrankungen und einfache Analyse von Epiya Motiv wiederholt verwandt ist nicht ergeben keine statistisch signifikanten Unterschiede zwischen diesen Krankheiten sein könnten versteckt in den dazwischenliegenden Regionen die Informationen eine bestimmte Krankheit hinweist. Diese Forschung geht davon aus, dass es einen Satz von Rückständen oder Rückstandskombinationen, die als Marker für eine bestimmte Krankheit nützlich sein könnte. Diese Studie konzentriert sich auf die Magenkrebs und nutzt die Krebs /Nicht-Krebs-Gruppen wie das Beispiel.

Auf der Grundlage der ausgerichteten Sequenzen für jeden dazwischenliegenden Bereich, spezifische Reste durch einen Vergleich der Differenz der kombinatorischen Entropie identifiziert wurden [31] zwischen den Krebs- und nicht-Krebs-Gruppen. Dieses Verfahren umfasst die folgenden Schritte:

Zunächst einmal haben wir die gegebenen mehrere Ausrichtungen für alle dazwischen liegenden Bereiche in zwei Gruppen unterteilen: Magen-Krebs-Gruppe und Nicht-Krebs-Gruppe. Für jede Spalte von mehreren Ausrichtungen, wir den Hintergrund Entropie (. Gleichung 1) und die kombinatorische Entropie (Eq. 2) zu berechnen, wie folgt beschrieben: (1), wobei für die Anzahl der Sequenzen in der Gruppe k
. gibt die Anzahl der Reste des Typs in der Spalte i der Gruppe
k
. die Anzahl der Reste der Art ist in der Spalte i
. die Gesamtzahl der Sequenzen, die in Ausrichtung darstellt (2) wobei

die Entropie Unterschied zwischen dem kombinatorische Entropie und dem Hintergrund Entropie wird dann berechnet:.. (3)

3 stellt die Entropie Konzept mit drei Extremfällen. Im Falle P1 werden die Aminosäuren über alle Gruppen "zufällig und gleichmäßig verteilt", und es wird keine signifikant Muster für diese Position konserviert. Fall P2 repräsentiert einen "global konservierten" -Muster und alle Aminosäuren die gleichen sind in beiden Gruppen. Im Falle P3 werden einige spezifische Aminosäuren nur in bestimmten Gruppen konserviert und unterschiedliche Gruppen unterschiedliche Aminosäuren. Wir nennen diesen Fall "lokal konserviert".

Nach den Berechnungsergebnissen der Entropiedifferenz für die drei oben genannten Fällen die kombinatorische Entropie ist für beide 'global konserviert "und Fälle" vor Ort konserviert ". Für 'zufällig und gleichmäßig verteilt "Fall erhält den Maximalwert. Wir können die "konserviert" und "zufällig und gleichmäßig verteilt" Fälle zu unterscheiden auf die kombinatorische Entropie basiert, aber es hilft aus aller 'lokal konserviert' Fall nicht holen "konserviert" Fälle. Wenn wir den Hintergrund Entropie zur gleichen Zeit betrachten, wird der Maximalwert, 0 und mittlere Wert für den Fall 'zufällig und gleichmäßig verteilt ", Fall' global konserviert", Fall 'lokal konserviert "bezeichnet. Schließlich werden die Unterschiede für die drei obigen Fälle :, und erhält den Minimalwert. Daher ist die Entropiedifferenz eine korrekte Messung eine "lokal konserviert 'Sequenzmuster zu erfassen.

Feature-Entropie Berechnung

Auf der Grundlage der obigen Berechnung kann bestimmt werden, dass die korrekte Gruppierung minimieren die Entropiedifferenz für diese Reste auf die "lokal konserviert" Fall gehören. Um einen Test durchzuführen, wird eine Sequenz ausgewählt, während der Rest der Sequenzen in eine Magen-Krebs-Gruppe unterteilt sind und eine nicht-Krebs-Gruppe. Für alle ausgewählten Resten wird die ausgewählte Sequenz in die Magenkrebs Gruppe angeordnet, um die Entropiedifferenz zu berechnen, und dann wird sie in Nicht-Krebsgruppe platziert, um die entsprechende Entropiedifferenz erhalten. Schließlich wird für alle ausgewählten Reste erhalten, die als Merkmal Entropie verwendet werden.

Klassifizierung von CagA Sequenzen

Datensatz.

Wir suchten das National Center for Biotechnology Information (NCBI der Swiss-prot /Tremble und DDBJ Proteindatenbank), und erhielt 535 Stämme von H. pylori
CagA-Protein. Unter ihnen gibt es 287 ostasiatischen Subtyp Stämme und 248 westlichen Subtyp Stämme. In der ostasiatischen Subtyp Gruppe, 47 von 287 Stämme sind von Magenkrebs-Patienten und der Rest sind von anderen Krankheiten. In der westlichen Subtyp Gruppe gibt es 37 Stämme von den Magenkrebs-Patienten, und die Reste sind von anderen Krankheiten oder die normalen Kontrollen, einschließlich 24 Stämme von Freiwilligen, deren Gesundheit (Krankheit) Status unbekannt war.

Workflow.

Abbildung 4 zeigt den Workflow der Klassifikation /Vorhersage Verfahren:

  • ein Stamm als Teststamm auswählen
  • eine Bootstrap-Prozedur für den Rest der Stämme Nehmen zu erhalten. die Trainings Stämme.
  • Berechnen sie die Funktion Entropie für den Belastungstest basierend auf Trainings Stämme und es als Testdaten speichern.
  • Berechnen für jeden Stamm in der Menge Trainingsbelastung auf der Grundlage der Funktion Entropie Stämme und speichern sie sie als die Trainingsdaten trainieren.
  • Klassifikationsmodell generieren durch die Trainingsdaten.
  • Klassifizieren sie die Testdaten nach dem Klassifikationsmodell.
  • Wiederholen sie diesen Vorgang fünf mal, und dann den Mittelwert als Endergebnis zu berechnen.

    Bootstrapping.

    ein wichtiges Thema ein Klassifikationsmodell in diesem Fall in den Aufbau ist der große Unterschied der Probengrößen zwischen Krebs und nicht-Krebs-Gruppen, die Verzerrung der Klassifikationsergebnisse führen könnten. Ein Bootstrap-Verfahren wurde angewendet um dieses Problem zu beheben. In jedem Subtyp Gruppe, für jede Ausbildung /Testdatensätze, alle Nicht-Krebs-Proben wurden aufgenommen, und dann wurden Stämme kontinuierlich von der Krebs-Gruppe bis zum Erreichen der gleichen Größe der Nicht-Krebs-Gruppe auf Zufallsbasis gezeichnet. In diesem Fall werden alle verfügbaren Daten verwendet wurden, obwohl Krebsproben mehrere Male aufgrund ihrer geringeren Größe im Vergleich zum Nicht-Krebsgruppe verwendet wurden. Dieses Verfahren wurde fünfmal angewendet fünf unabhängigen Trainingssätze für jede Testsequenz zu erzeugen. Die Klassifizierung /Vorhersage Ergebnis ist der Durchschnitt dieser fünf unabhängige Ergebnisse.

    Cross-Validierung.

    Da die Datenmenge gering sind, eine Leave-one-out (loo) Kreuzvalidierungsverfahren wurde durchgeführt. Dies ist nicht nur eine Beurteilung der Klassifikator Leistung auf die Ausbildung /Testdaten, sondern auch eine Schätzung der Vorhersage Leistung für neue Fälle.

    SVM.

    Wir entschieden uns für SVM als binäre Klassifikator und verwendet die Feature-Entropie-Vektoren zu trainieren und den Klassifikator testen. Im Fall von Zwei-Klassen-weichen Rand Klassifizierung ist die Entscheidungsfunktion eine gewichtete definierte lineare Kombination wie folgt: (4), wobei für einen benutzerdefinierten Kernel-Funktion, die die Ähnlichkeiten zwischen dem eingegebenen Merkmalsvektor und den Merkmalsvektoren in der Ausbildung misst Daten-Set. ist das Gewicht auf die Ausbildung Merkmalsvektor zugeordnet und zeigt an, ob ein CagA-Stamm mit der positiven Klasse (+1) oder negative Klasse (-1) markiert wurde. Die Ur-Optimierungsproblem hat die Form: minimieren (5) unterliegen (6), wo. m ist die Gesamtzahl der Stämme. ist eine Schlupfvariable, die den Grad der Fehlklassifizierung des Datums misst. ist ein Kostenparameter, die für den Handel off Trainingsfehler gegen Modellkomplexität ermöglicht. w ist der Normalvektor und b ist der Versatz.

    Nach dem Vergleich der Ergebnisse von Polynom tanh und Gaußsche radiale Basiskerne, das Ergebnis mit dem RBF kernel erhalten arbeitete die besten, wobei die Gaußsche radiale Basiskerne (RBF :) sind für das Lernen für allgemeine Zwecke, wenn es keine vorherige Kenntnis über die Daten ist. Die SVM Lichtpaket (http://svmlight.joachims.org/) [32] wurde eingesetzt, unsere Anwendung zu erstellen. Die Parameter und wurden optimiert, um das beste Modell für die Trainingsdaten zu erhalten, wie im Folgenden gezeigt. Alle anderen SVM-Parameter wurden auf die Standardwerte gesetzt

    Leistungsbewertung

    Um die Leistung der Klassifikator, eine Vielzahl von Leistungsmaßnahmen angewendet werden, zu bewerten.. Genauigkeit, Sensitivität und Spezifität. Eine echte positive (TP) ist ein Krebs-verwandte Sequenz als solche klassifiziert, während ein falsch-positiven (FP) eine Nicht-Krebs-verwandte Sequenz klassifiziert als krebsbedingte ist, ein falsch-negativen (FN) ein Krebs verwandte Sequenz als nicht klassifiziert ist -Krebs bezogen und ein richtig negativ (TN) ist im Zusammenhang mit einer nicht krebsbezogene Sequenz als nicht-Krebs eingestuft. Die Genauigkeit, Sensitivität (Sn), Spezifität (Sp) und Matthews Korrelationskoeffizient (MCC) der Klassifikation wie folgt definiert ist: (7) (8) (9) (10) Da es nur zwei Parameter für den RBF kernel sind, und sie unabhängig sind, rechneten wir mit einem Raster-Suche um die optimalen Parameter der Klassifikator zu bestimmen. Wir haben eine harmonische Mittel der Sensitivität und Spezifität als die Zielfunktion die Leistung des Modells für den Trainingssatz zu optimieren, die wie folgt definiert ist:
    (11)

    Ergebnisse

  • Other Languages