Stomach Health > Estomac Santé >  > Gastric Cancer > Cancer de l'estomac

PLOS ONE: Une méthode de calcul pour la prévision des excréteurs protéines et application à l'identification de marqueurs de cancer gastrique dans Urine

Résumé

Une méthode de calcul nouvelle pour la prédiction des protéines excrétées dans l'urine est présenté. La méthode est basée sur l'identification d'une liste de caractéristiques distinctives entre les protéines présentes dans l'urine des personnes en bonne santé et de protéines jugées ne pas être urine excréteur. Ces caractéristiques sont utilisées pour former un classificateur pour distinguer les deux classes de protéines. Lorsqu'elle est utilisée conjointement avec les informations qui sont des protéines exprimées de manière différentielle dans des tissus malades d'un type spécifique par rapport à
tissus témoins, cette méthode peut être utilisée pour prédire les marqueurs urinaires potentiels pour la maladie. Nous rapportons ici l'algorithme détaillé de ce procédé et une application d'identification de marqueurs d'urine pour le cancer gastrique. La performance du classificateur formé sur 163 protéines a été validé expérimentalement en utilisant des réseaux d'anticorps, la réalisation de > 80% vrai taux positif. En appliquant le classificateur sur les gènes exprimés de manière différentielle dans le cancer gastrique vs
tissus gastriques normales, il a été constaté que la lipase endothéliale (EL) est sensiblement supprimée dans les échantillons d'urine de 21 patients atteints de cancer gastrique par rapport à
21 personnes en bonne santé. Dans l'ensemble, nous avons démontré que notre prédicteur pour les protéines excréteurs d'urine est très efficace et pourrait potentiellement servir comme un outil puissant dans les recherches pour les biomarqueurs de la maladie dans l'urine en général

Citation:. Hong CS, Cui J, Ni Z, Su Y, Puett D, Li F, et al. (2011) Une méthode de calcul pour la prévision des excréteurs protéines et application à l'identification de marqueurs de cancer gastrique dans l'urine. PLoS ONE 6 (2): e16875. doi: 10.1371 /journal.pone.0016875

Editeur: Vladimir Brusic, Institut du Cancer Dana-Farber, États-Unis d'Amérique

Reçu le 22 Septembre 2010; Accepté: Décembre 31 2010; Publié le 18 Février, 2011

Ceci est un article en accès libre distribué sous les termes de la déclaration Creative Commons Public Domain qui stipule que, une fois placé dans le domaine public, ce travail peut être librement reproduit, distribué, transmis, modifié, construit sur, ou autrement utilisé par quiconque à des fins licites

financement:. Cette étude a été financée en partie par la national science Foundation (CCF-0621700, DBI0542119004, 1R01GM075331), l'Université de Jilin, la Université de Géorgie, le Cancer Coalition Géorgie, l'Alliance de recherche Géorgie et les national Institutes of Health (1R01GM075331, DK69711). Les bailleurs de fonds ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier, ou de la préparation du manuscrit

Intérêts concurrents:.. Les auteurs ont déclaré aucun conflit d'intérêts existent

Introduction

La progression rapide de techniques
omiques ces dernières années a permis de rechercher des biomarqueurs pour les maladies humaines spécifiques d'une manière systématique et globale, qui améliore sensiblement notre capacité à détecter les maladies à étapes préliminaires. La plupart des études sur les biomarqueurs précédents ont été concentrés sur des marqueurs sériques [1], principalement en raison de la richesse connue de sérum dans contenant des signaux pour diverses conditions physiologiques et physiopathologiques.

Par rapport aux marqueurs sériques, marqueurs urinaires existants sont pour la plupart liés à des voies urinaires ou de maladies étroitement liées. Seulement au cours des dernières années a permis d'améliorer les analyses protéomiques des échantillons d'urine ont révélé que, comme le sérum, l'urine est aussi une riche source d'information pour la détection de maladies humaines telles que les greffon contre
-host la maladie et la maladie coronarienne [2], [3], [4]. Notez que l'urine est formée par filtration du sang par les reins; donc certaines protéines dans le sang peuvent passer à travers les filtres et être excrété dans l'urine. Par conséquent, les protéines urinaires non seulement reflètent les conditions du rein et du tractus uro-génital, mais aussi ceux d'autres organes qui peuvent être distal du rein, comme au moins 30% des protéines urinaires ne sont pas à l'origine dans le tractus uro-génital [5], [6]. La pléthore d'informations dans l'urine, il est une source intéressante pour les biomarqueurs de dépistage puisque, par rapport au sérum, la composition de l'urine est relativement simple, et la collecte de l'urine est plus facile et non invasive [7], [8].

Marqueur identification dans l'urine pourrait être fait grâce à des analyses protéomiques comparatives des échantillons d'urine de patients avec des groupes de maladies et de contrôle spécifiques. Le défi dans ces recherches pour les marqueurs urinaires de façon aveugle est double. (A) L'urine peut avoir un grand nombre de protéines /peptides (par opposition à la compréhension précédente [8]) relativement faible abondance. (B) La dynamique de l'abondance de ces protéines pourrait couvrir quelques ordres de grandeur, plus large que la gamme généralement couverte par un spectromètre de masse [9]. Pour ces raisons, des analyses comparatives, en particulier des analyses (semi) quantitatives, des données protéomiques des échantillons d'urine peuvent être très difficiles. Cela pourrait être une des principales raisons qu'il n'y a pas de marqueurs d'urine fiables pour le diagnostic du cancer.

Notre étude se concentre sur le développement d'une méthode de calcul pour les protéines prédire avec précision qui sont l'urine excréteur (voir la figure 1 pour le contour de l'approche ). Ces protéines doivent avoir des propriétés spécifiques qui leur permettent d'être sécrétées à partir de cellules d'abord, puis à filtrer à travers la membrane glomérulaire dans les reins. Une étude protéomique récente a identifié plus de 1500 protéines /peptides qui sont excrétés dans l'urine à travers les membranes glomérulaire saines [8]. En utilisant cet ensemble de protéines et de protéines jugées ne pas être urine excréteur, nous avons identifié une liste de caractéristiques entre ces deux classes de protéines distinguer et formé une machine à vecteurs de support (SVM) sur la base classificateur pour prédire si une protéine donnée peut être excrété dans les urines . La méthode de prédiction a été validé expérimentalement en utilisant des réseaux d'anticorps conjointement avec Western blots, et les résultats sont très encourageants
.

Ce classificateur a été appliqué pour prédire les protéines qui pourraient être excrétés dans l'urine basé sur les gènes exprimés de manière différentielle identifiés dans cancer gastrique tissus gastriques de référence par rapport
; et un certain nombre de marqueurs urinaires potentiels pour le cancer gastrique ont été identifiés. Une contribution essentielle dans ce travail est qu'il fournit un moyen nouveau et efficace pour orienter les études protéomiques d'urine en suggérant des protéines marqueurs de candidat, permettant ainsi des recherches de marqueurs ciblés en utilisant des techniques d'anticorps médiée comme Western blots et Elisa, qui sont sensiblement plus réalisable que à grande échelle des analyses protéomiques comparatives des échantillons d'urine sans les cibles avec lesquelles travailler. Bien que ce programme de prédiction a été appliqué aux données sur le cancer gastrique dans cette étude, aucune information spécifique au cancer gastrique a été utilisé dans ce programme; par conséquent, il peut être utilisé pour l'urine marqueur recherches pour d'autres maladies

Méthodes

Cette étude se compose de trois éléments principaux:. (i) la construction d'un classificateur pour prédire les protéines excréteurs d'urine; (Ii) l'évaluation de la performance du classificateur en l'appliquant à un ensemble de protéines dont l'état excréteur des protéines est connue; et (iii) l'application du classificateur validé aux données d'expression génique du cancer de l'estomac pour démontrer son efficacité dans la résolution du problème de l'urine d'identification de marqueur.

Cette recherche a été approuvé par le comité d'examen institutionnel à l'Université de Géorgie, Athens, Géorgie, États-Unis (Bureau du vice-président pour la recherche DHHS ID assurance NO. FWA00003901, Numéro du projet 2009-10705-1) et par le comité d'examen institutionnel chinois superviser des sujets humains à Jilin University College of Medicine, Changchun, en Chine. Un formulaire de consentement, approuvé par la CISR à l'Université de Géorgie et de la CISR chinoise, a été prélevé sur chaque sujet. Tous les sujets sont conscients que les données issues de la recherche peuvent être utilisés pour des documents ou des publications comme indiqué dans le formulaire de consentement.

a. Un algorithme pour prédire les protéines excréteurs

La compréhension générale de l'excrétion de protéine à partir de tissus à l'urine est que certaines protéines sont sécrétées ou une fuite de cellules dans la circulation sanguine, puis une partie de ces protéines, ainsi que certaines protéines natives dans le sang, peut être excrété dans les urines. Nos objectifs sont d'abord d'identifier les caractéristiques distinctives de ces protéines excréteurs d'urine, puis de construire un classificateur basé sur ces caractéristiques pour prédire quelles protéines dans les cellules peuvent être excrétés dans l'urine. Au meilleur de notre connaissance, il n'y a pas eu de travaux publiés visant à résoudre ce problème. L'importance d'avoir une telle capacité est qu'il fournit un lien efficace dans la connexion nomique analyses des tissus à la recherche de marqueurs dans l'urine en fournissant des marqueurs candidats dans l'urine qui peut être étudiée en utilisant des approches basées sur les anticorps.

La première étape dans le développement d'une telle capacité prédictive, à savoir, un classificateur, est d'avoir un ensemble de données de formation contenant des protéines qui peuvent et qui ne peuvent pas être excrété dans l'urine, sur la base duquel un ensemble de traits distinctifs pourrait être identifié. Heureusement, nous avons trouvé un grand ensemble de données protéomique d'échantillons d'urine de personnes en bonne santé dans une étude récemment publiée [8], qui contient plus de 1500 protéines uniques dont 1,313 ont SwissProt ID d'adhésion. Nous avons utilisé ces 1313 protéines comme les données d'entraînement positifs pour le classificateur à être formés. La procédure suivante a été ensuite utilisé pour générer un ensemble de formation négative: sélectionner arbitrairement au moins une protéine de chaque famille Pfam qui ne contient pas de données de formation positif, et le nombre de protéines sélectionnées à partir de chaque famille est proportionnelle à la taille de la famille [ ,,,0],10], [11]. En conséquence, 2.627 protéines ont été sélectionnées et utilisées comme l'ensemble de la formation négative.

Nous avons examiné 18 caractéristiques physico-chimiques calculées à partir de séquences de protéines, qui sont potentiellement utiles pour le problème de classification basé sur la compréhension générale de l'excrétion urinaire de protéines . Les détails des caractéristiques 18 et les programmes informatiques utilisés pour les calculer sont énumérés dans le tableau S1. Certaines de ces fonctions sont représentées par des valeurs de caractéristiques multiples, par exemple, la composition d'acides aminés dans une séquence de protéine 20 est représentée par les valeurs des caractéristiques; globalement, les caractéristiques 18 sont représentées à l'aide de 243 valeurs de caractéristiques. Nous avons ensuite identifié un sous-ensemble des caractéristiques des valeurs de la 243, qui peut distinguer entre le positif et les données d'entraînement négatifs en utilisant un classificateur SVM. Le RBF noyau a été utilisé dans notre formation de SVM, compte tenu de sa capacité à gérer les attributs non-linéaires [12], [13].

Pour déterminer lequel des caractéristiques initialement considérés sont réellement utiles, l'outil de sélection des fonctionnalités fournies en LIBSVM [12] a été utilisé pour sélectionner les fonctions les plus exigeants parmi les 243. Autres outils de sélection de fonction pourraient éventuellement être utilisés, mais nous avons une expérience considérable dans l'utilisation de cet outil et trouvé pour être adéquate. Codes utilisés dans ce sont accessibles au public sur le site Web LIBSVM (http://www.csie.ntu.edu.tw/~cjlin/libsvm/); nous avons également fait le programme pertinent accessible à http://seulgi.myweb.uga.edu/files. Un F-score [12], défini comme suit, est utilisée pour mesurer la puissance de discernement de chaque valeur de caractéristique à notre problème de classification,

où se réfère aux valeurs de caractéristique d'apprentissage (k = 1, ..., m); n
+ et n
- sont le nombre de protéines dans le positif (+) et négatif (-) ensemble de données de formation, respectivement; , Sont les moyennes de la i
valeur caractéristique e dans l'ensemble des données de formation, l'ensemble de données positives et l'ensemble de données négatives, respectivement; et et sont i
ème caractéristique de la k
e protéine dans les données d'apprentissage positives et négatives, respectivement. En général, plus un F-score, plus discriminative la fonction correspondante est. Dans notre sélection, toutes les fonctions avec F-scores supérieurs à un seuil pré-sélectionnés ont été retenus et utilisés dans la formation du classificateur final. Pour trouver un seuil optimal F-score, nous avons examiné une liste de seuils possibles et ensuite choisi le meilleur sur la base des résultats de la formation
.

La formation de notre classificateur SVM-est fait en utilisant une procédure standard prévue dans LIBSVM [12] pour trouver les valeurs de deux paramètres C
et γ qui donnent une classification optimale sur les données de formation, où C
contrôle le compromis entre les erreurs de formation et les marges de classification, et γ détermine la largeur du noyau utilisé [12]. Notre procédure de formation se résume comme suit [12]:

  • Obtenir le F-score pour chaque valeur de caractéristique;
  • Pour chacun des seuils pré-sélectionnés, procédez comme
  • Retirez le suivant valeurs de caractéristiques avec F-scores inférieurs au seuil;
  • aléatoirement divisé les données d'entraînement dans un sous-formation et un sous-ensembles de validation avec la même taille;
  • Former un SVM avec un noyau RBF sur le sous-ensemble d'apprentissage à la recherche de valeurs optimales de C
    et γ, puis l'appliquer aux données de sous-validation et de calculer l'erreur de classification;
  • Répétez les étapes (i) - (iii) cinq fois et calculer l'erreur de validation moyenne;
  • Choisissez le seuil qui donne la plus faible erreur de validation moyenne, et de garder les caractéristiques avec F-score au-dessus du seuil choisi; et
  • Reformer un SVM sur la base des caractéristiques sélectionnées comme le classificateur final.

    b. Datasets utilisés pour évaluer les performances du classificateur

    Un ensemble de données indépendant a été utilisé pour évaluer la performance du classificateur formé pour lesquels le statut excréteur de chaque protéine est connue. Le sous-ensemble positif de cet ensemble de données a 460 protéines humaines trouvées dans l'urine d'individus sains par trois études de protéomique urinaires [14], [15], [16] et le sous-ensemble négatif contient 2.148 protéines sélectionnées en utilisant la même procédure décrite précédemment, mais ne ne se chevauchent pas avec le jeu négatif utilisé pour la formation

    les mesures suivantes ont été utilisées pour évaluer la précision de classification:. la sensibilité, la spécificité, la précision, le coefficient de corrélation de Matthieu, et l'AUC [17]. Le tableau 1 résume les exactitudes de classification du classificateur formé sur la formation à la fois et les ensembles de données de test [17]. Des exactitudes de classification sur les deux ensembles de données, nous croyons que notre classificateur formé capturé les caractéristiques distinctes clés des protéines excréteurs dans l'urine.

    En outre, notre classificateur a été testé sur un ensemble de données séparée, d'un sous-ensemble de la 274 protéines fixées sur un réseau d'anticorps de la protéine pré-faites (le RayBio humain série G tableau 4000 (RayBiotech, Inc., Norcross, GA)). Parmi les protéines 274, 111 sont connus pour être excréteur et ont été inclus dans notre formation ou ensemble de données de test indépendant. Nous avons appliqué le classificateur sur les 163 protéines restantes pour lesquelles le statut excréteur était inconnu (voir les résultats et le tableau S2). Ce tableau de protéines fournit le niveau d'expression relatif pour chaque protéine sur la matrice lorsqu'elle est testée sur une (urine) de l'échantillon, qui est mesurée en fonction de l'intensité du signal, quantifiée par densitométrie. Le fond de la matrice a été utilisé comme témoin pour déterminer la présence effective d'une protéine dans la (urine) échantillon. L'intensité du signal pour une protéine est considérée comme un signal vrai si elle était au moins cinq fois supérieure à celle du contrôle, comme suggéré par la recommandation du fabricant. Nous avons concentré notre validation expérimentale sur la confirmation des prévisions positives seulement car il est pratiquement impossible de prouver une protéine est pas présent dans un échantillon d'urine en raison des limites de la sensibilité de détection de la technologie actuelle lorsque la protéine est de très faible concentration dans l'échantillon.

    c. Urine échantillon collection /préparation

    Les échantillons d'urine provenant de patients atteints de cancer gastrique et des contrôles sains ont été recueillis à l'École de médecine de l'Université de Jilin, Changchun, en Chine. les patients atteints de cancer gastrique, de qui les échantillons ont été prélevés, sont tous les patients à un stade avancé (voir le tableau S3 pour l'information des patients). Ces échantillons ont immédiatement été lyophilisées et stockées à -80 ° C jusqu'à utilisation ultérieure après leur ablation chirurgicale des patients. Ils ont ensuite été reconstitués et centrifugés (3000 xg
    pendant 25 min à 4 ° C) pour éliminer les composants cellulaires. On a recueilli les surnageants et on les dialyse à 4 ° C contre trois changements (ultra tampons, suivie d'une dialyse pendant une nuit) de l'eau pure à l'aide de Millipore Slide-A-Lyzer Dialyse cassettes (Thermo Fisher Scientific, Rockford, IL). Les concentrations en protéines ont été mesurées en utilisant la protéine de dosage Bio-Rad (Bio-Rad, Hercules, CA) avec de l'albumine de sérum bovin comme étalon.

    d. L'identification des gènes qui sont exprimés de manière différentielle dans les tissus cancéreux et de contrôle gastriques

    Un total de 80 tissus de cancer gastrique et leurs tissus adjacents noncancerous de 80 patients ont été recueillies à l'École de médecine de l'Université de Jilin. des expériences de biopuces ont été effectués sur ces tissus à l'aide de l'Affymetrix GeneChip Exon Human 1.0 ST Array, qui couvre 17.800 gènes humains. L'algorithme de pince [18] a été utilisé pour synthétiser les signaux de sonde aux expressions au niveau des gènes. Pour chaque gène, nous avons examiné la distribution du pli de changement d'expression entre les tissus cancéreux et de contrôle par paires dans l'ensemble des 80 paires de tissus. Soit K exp,
    soit le nombre de paires de tissus dont facteur de variation est au moins 2. Un gène est considéré comme exprimé différentiellement
    si le p
    -value de l'observé K exp
    est inférieure à 0,05. Selon ce critère, un total de 715 gènes ont été trouvés pour être exprimé de manière différentielle dans le cancer gastrique dans tous les gènes humains, et les noms des 715 gènes, ainsi que les associés K exp
    et p
    -values, sont donnés dans le tableau S4. Une étude détaillée des données de puces à ADN a été rapporté ailleurs [19].

    e. Fonction et l'enrichissement de la voie des analyses

    Les DAVID Ressources Bioinformatique et le serveur web KoBaS [20], [21] ont été utilisées pour faire l'analyse fonctionnelle et l'enrichissement de la voie, respectivement, pour toutes les protéines urine-excréteurs prédites, en utilisant la l'ensemble entier de protéines humaines comme l'arrière-plan. Nous renvoyons les lecteurs à [20], [21] pour plus de détails sur les méthodes d'analyse d'enrichissement fonctionnel et voie. Utilisation de DAVID Ressources bioinformatique, le score d'enrichissement pour un groupe déterminé de protéines a été déterminé par le score AISE [20], [22]. Kobas est un outil complémentaire à DAVID car il élargit l'annotation des gènes en utilisant KEGG orthologie (KO) termes. Le serveur web Kobas, ainsi que le système d'annotation basé KO [21], [23], a été utilisé pour trouver des voies statistiquement enrichis et sous-représentés parmi les protéines d'urine excrétée prédites. KoBaS prend dans un ensemble de séquences de protéines et de les annote en utilisant les termes KO. Les termes KO annotées ont ensuite été comparées à toutes les protéines humaines comme l'ensemble de fond pour évaluer si elles sont enrichies ou sous-représentés.

    f. Western blots

    protéines urinaires de chaque échantillon (total de 2 pg) ont été combinés avec 3x colorant échantillon. Chaque tube est porté à ébullition pendant 5 min et chargés sur des gels de SDS-PAGE, avec 10 étalons de pi et de fonctionner pendant 1 h à 200 volts. La membrane a été activé avec du methanol à 100%, à la suite d'un transfert à partir du gel à la membrane (100 volts pendant 1 h). Une fois que le transfert a été terminé, la membrane a été laissée à sécher, remouillé dans 100% de methanol et on le lave 2 fois pendant 5 minutes à chaque fois avec du Tris-solution saline tamponnée au (TBS). La membrane a ensuite été incubée dans une solution de blocage de 3% lait pendant 2 heures à la température ambiante. Ensuite, la membrane a été incubée dans la première solution d'anticorps (1:200 dilutions 1,5% de blocage de lait) pendant 1 h à température ambiante, et l'anticorps non lié a été éliminé par lavage de la membrane 3 fois avec-20 Tween (TBST) Solution TBS pendant 10 min à chaque fois. Ensuite, la membrane a été incubée dans une dilution 1:10,000 de l'anticorps secondaire dans une solution de blocage du lait à 1,5% pendant 1 h à température ambiante. La membrane a été lavée 3 fois avec du TBST et 2x avec TBS (10 minutes chacun). Enfin, la membrane a été complètement recouverte d'une quantité égale d'un amplificateur et une solution de peroxyde à partir d'un kit Pierce Western blot pendant 5 minutes et exposé au film. Chaque expérience a été répétée plusieurs fois pour garantir la reproductibilité [24]. Les intensités de signaux ont été déterminées à l'aide du logiciel ImageJ [25]. Pour chaque membrane, la voie blanche a été utilisée pour normaliser les intensités de signal à travers les membranes. La performance a été examinée à l'aide ROC et moustache-boîte à moustaches.

    Résultats et discussion

    a. peptide signal et les structures secondaires sont des caractéristiques clés de protéines d'urine excrétée

    La liste initiale des caractéristiques a été soigneusement choisi d'inclure ce que nous croyions être les caractéristiques pertinentes à l'excrétion urinaire basé sur la recherche de la littérature de protéines et de notre compréhension actuelle de urinaire les protéines. Par exemple, la paroi glomérulaire chargée négativement dans le rein permet la filtration des protéines seulement positive ou neutre chargées. Ainsi, la charge d'une protéine est l'une des caractéristiques que nous avons sélectionnés. Prenant les informations disponibles en considération, le nombre total de valeurs de caractéristiques recueillies au départ était de 243, ce qui représente les propriétés de base des séquences, des motifs, des propriétés physico-chimiques et les propriétés structurelles (tableau S1). En identifiant les caractéristiques qui sont efficaces pour discriminer les protéines excréteurs d'urine de ceux non-excréteurs, une méthode simple et efficace pour éliminer les caractéristiques qui montrent peu ou pas de pouvoir discerner pour notre problème de classification a été utilisée; 74 valeurs de caractéristiques ont été sélectionnées en utilisant la procédure décrite dans la section d'une des méthodes (tableau S5). Ces valeurs de caractéristiques ont été utilisés pour former le classificateur final.

    Parmi les fonctions sélectionnées, le plus discriminatoire était la présence de peptides de signal. Il est entendu que les protéines qui sont sécrétées par l'ER ont des peptides signal et trafficking à leur destination en fonction des peptides de signal spécifiques; ainsi, sans surprise, la plupart des protéines excrétées ont cette caractéristique. Une autre caractéristique importante est le type de structure secondaire; Plus précisément, le pourcentage d'hélices alpha dans une séquence de protéine a été classée en tant que valeur de caractéristique numéro 2 sélectionné parmi les 74 (tableau S5). Comme prévu, la charge d'une protéine a été parmi les caractéristiques les mieux classés pour les protéines excrétées. Ceci est cohérent avec la compréhension générale que la charge est un facteur dans la détermination des protéines peut être filtré à travers la membrane glomérulaire [26] en tant que protéines à l'intérieur des membranes glomérulaire et fentes de podocytes sont chargés négativement, et donc des protéines chargées négativement auront peu de chances de filtrer à travers les reins. En effet, les valeurs de caractéristiques des acides aminés positifs et la charge ont été parmi les premières valeurs de fonction classement.

    Il est intéressant, cependant, le poids moléculaire, qui est classé à 232 sur 243, n'a pas été inclus dans les 74 derniers valeurs de caractéristiques. Ceci pourrait être expliqué par la suite. Les protéines présentes dans le sérum peuvent avoir déjà subi un clivage ou ont été partiellement dégradé, et peuvent donc ne pas être dans leur forme intacte ou complète quand ils entrent dans le rein. Il a, en effet, établi que la majorité des protéines présentes dans l'urine sont largement dégradées [27]. Bien qu'une protéine intacte peut ne pas être en mesure de filtrer à travers le glomérule en raison de sa taille ou la forme, un peptide de protéines dérivé peut facilement passer à travers les fentes de podocytes. En conséquence, le poids moléculaire de la protéine intacte est un non-facteur pour prédire si la protéine est de l'urine excréteur.

    Il convient de noter que des protéines urinaires excrétrices et de protéines sécrétées partagent certaines caractéristiques communes comme une partie de la caractéristiques utilisées pour identifier des protéines sécrétées dans le sang dans notre précédente étude [10] ont été sélectionnés pour la prévision de la Proteinurie dans cette étude. Par exemple, des caractéristiques telles que l'accessibilité du solvant, la polarité et les peptides signaux ont été inclus dans les deux classificateurs. Cependant, il y a une nette différence entre les caractéristiques utilisées dans les deux classificateurs. Bien que des fonctionnalités telles que le bêta-brin contenu, les caractéristiques associées à la protéine bêta-baril transmembranaire et le rapport de la protéine, TATP motif, domaine transmembranaire, la taille de la protéine, et la plus longue région désordonnée ont été parmi les meilleurs caractéristiques pour la prédiction des protéines du sang-sécrétoire [10 ], ils ne sont pas inclus dans les caractéristiques finales pour la prédiction de protéines urinaires. En outre, les caractéristiques liées à une charge positive, tels que la composition d'acides aminés chargés positivement, occupent une place importante dans la prédiction des protéines urinaires, mais non sélectionnée dans la prédiction de la sécrétion de sang. De même, l'hélice alpha-contenu et la bobine-teneur en protéines étaient parmi les meilleures caractéristiques pour la prédiction de protéines urinaires, mais ils ne sont pas sélectionnés pour la prédiction de la protéine sécrétoire de sang. Il est intéressant de noter que, contrairement à la conclusion selon laquelle brins bêta sont un second type de structure commun parmi les protéines sécrétoires dans le sang, les protéines urinaires ont tendance à avoir une alpha-hélice et le contenu de la bobine, ce qui indique que les protéines urinaires possèdent des propriétés non partagées par le sang des protéines sécrétoires en général.

    b. Performance du classificateur

    Pour déterminer la précision du classificateur finale, nous l'avons testé sur un ensemble de test indépendant, qui se compose de 460 urine validé expérimentalement protéines excréteurs et 2.148 protéines excréteurs non-urinaires. Notre classificateur a sa sensibilité à la prédiction et la spécificité de cet ensemble de test indépendant à 0,78 et 0,92, respectivement (tableau 1).

    Nous avons ensuite couru le classificateur sur la 163 sur les 274 protéines fixées sur l'anticorps pré-faites array (voir Méthodes), dont le statut excréteur était inconnu. Parmi les protéines 163, 112 protéines ont été prévus pour être urine excréteur par notre classificateur. Pour évaluer la performance de cette prédiction, des expériences sur la base d'un tableau-anticorps ont été réalisées sur 14 échantillons d'urine, sept d'individus sains et sept patients atteints de cancer gastrique. Parmi les protéines d'urine de excréteurs prédites 112, 92 ont été trouvés dans au moins un des échantillons d'urine (tableau S6), ce qui donne un taux de prédiction positive de 0,81, ce qui est cohérent avec le niveau de performance sur le premier jeu de test.

    il convient de noter que une limitation de ce classificateur est que certaines protéines peuvent avoir été partiellement dégradé avant d'être excrétés dans l'urine ou dans l'urine, ce qui rend difficile pour notre classificateur pour détecter des peptides ainsi formés, comme il a été formé sur les protéines entières intactes. Cette question sera abordée dans l'avenir grâce à dériver des valeurs de fonction sur la base des protéines /peptides réels identifiés dans les précédentes études protéomiques urinaires plutôt que leurs protéines de pleine longueur correspondant en fait dans cette étude. Bien qu'il y ait clairement place à l'amélioration, les résultats de prédiction du classificateur courant sont très encourageants.

    c. Application de classificateur aux données du cancer gastrique

    Notre étude précédente sur 160 ensembles de puces à ADN de données d'expression génique du cancer gastrique a identifié 715 gènes exprimés de manière différentielle avec des changements au moins 2 fois dans le cancer gastrique contre
    des échantillons de tissus de contrôle [19]. Alors qu'il serait préférable d'avoir des données protéomiques des échantillons de tissus, nous avons seulement des données d'expression génique disponibles dans cette étude. Par conséquent, les données d'expression génique sont utilisés comme une approximation de l'expression des protéines dans cette étude, orientée vers la méthodologie. Notre classificateur a été appliqué à ces 715 protéines, et il a prédit que 201 des protéines 715 sont urine excréteur. Tableau S7 fournit des informations détaillées sur les protéines 201. Depuis, il est irréaliste de vérifier toutes les protéines 201 dans cette étude pour déterminer si elles sont excréteur de l'urine ou non, nous avons fait des analyses pour affiner cette liste. Plus précisément, nous avons effectué les analyses suivantes: (i) l'enrichissement fonctionnel et voie des analyses afin de mieux comprendre les types de protéines présentes dans l'urine, (ii) la recherche de la littérature sur les protéines urinaires pour compiler des informations sur les protéines marqueurs urinaires publiées, ( iii) examiner les données d'expression génétique pour éliminer les gènes qui sont exprimés de manière différentielle substantiellement pas entre des échantillons de tissus cancéreux et de commande; et (iv) des transferts de Western sur les protéines choisies parmi une liste rétrécie vers le bas des protéines 201. Cette procédure a montré un taux de réussite élevé et a conduit à une découverte intéressante du biomarqueur potentiel pour le cancer gastrique
    .

    Pour (i), nous avons effectué fonctionnelle et à l'enrichissement de la voie des analyses sur tous les 201 protéines en utilisant le DAVID [20 ] et KoBaS [21] serveurs, respectivement. Nous avons constaté que les groupes fonctionnels enrichis compris la matrice extracellulaire (ECM), l'adhésion cellulaire, et le développement, la motilité cellulaire, la réponse de la défense, de l'angiogenèse, qui sont tous connus pour être impliqués dans le développement ou dans la défense du cancer (figure S1A). Les voies les plus enrichies étaient interaction ECM-récepteur et inorganiques de transport d'ions et le métabolisme des voies (Figure S1B)

    Le critère suivant a été utilisé pour réduire la liste des 201 protéines pour les étapes (ii) - (iii):. les protéines ne sont pas signalés à être lié à tout cancer basé sur notre vaste recherche documentaire
    , qui donne lieu à 71 protéines. La liste a été réduite sur la base d'un seuil pré-sélectionné sur les expressions différentielles et annotations fonctionnelles (potentiellement pertinents pour le cancer gastrique plutôt que des réponses immunitaires).

    d. lipase endothéliale est sensiblement réduite dans les échantillons d'urine de patients cancer de l'estomac

    Nous avons choisi six protéines (MUC13, COL10A1, AZGP1, LiPF, MMP3 et EL) pour la validation expérimentale de la liste ci-dessus rétréci vers le bas. Pour ce faire, nous avons recueilli des échantillons d'urine de 21 patients atteints de cancer gastrique et 21 individus en bonne santé. Parmi les six protéines sélectionnées, cinq protéines, MUC13, COL10A1, LIPG, AZGP1, et EL ont été détectées par Western blots dans au moins un échantillon d'urine. Sur les cinq, MUC13, COL10A1 et EL ont été détectés même à une très faible quantité de protéines urinaires totales (1-2 ug). MMP3 n'a pas été trouvé dans les échantillons que nous avons testés, ce qui peut être dû à la faible concentration de MMP3 dans l'urine ou une fausse prédiction par notre classificateur.

    Il est particulièrement intéressant de noter que nous avons pu détecter des différences constantes dans l'abondance EL (codée par LIPG
    ) entre les deux ensembles de 21 échantillons d'urine. Les Western blots pour EL ont montré une réduction substantielle de son abondance dans les échantillons d'urine de 21 patients atteints de cancer gastrique par rapport aux échantillons témoins. Comme on le voit sur la figure 2A, la majorité des échantillons témoins a montré la présence d'EL, tandis que la majorité des échantillons de cancer gastrique avaient des quantités relativement faibles de EL. Cette tendance a été observée à plusieurs reprises

    Le poids moléculaire de cette protéine a été déterminée à 68 kDa [28]. Ainsi, un homo-dimère devrait être de 134 kDa. Dans les Western blots, cependant, les bandes ont été détectés à proximité de 100 kDa. Cela correspond probablement à un homo-dimère partiellement fendues, une forme active de ce qui a été confirmé par une étude précédente [29], bien que la possibilité d'une forme monomère de EL associée à une autre protéine ne peut pas être exclue. http://csbl.bmb.uga.edu/~juancui/Publications/GC2009/Additional_material.pdf.
    doi:10.1371/journal.pone.0016875.s005
    (XLS)
    Table

  • Other Languages