Base de données de référence de protéines humaines

Un article de Wikipédia, l'encyclopédie libre.

La base de données de référence de protéines humaines ( Human Protein Reference Database = HPRD ) est une base de données de protéines accessible via Internet[1].

Aperçu[modifier | modifier le code]

L'HPRD est le résultat d'un effort collaboratif international entre l'Institut de bioinformatique de Bangalore en Inde, et le laboratoire Pandey de l'Université Johns Hopkins de Baltimore aux États-Unis. L'HPRD contient des data scientifiques manuellement organisées relatives à la biologie de la majorité des protéines humaines. Les informations qui concerne les protéines impliquées dans les maladies humaines sont annotées et liées à la base de données Online Mendelian Inheritance in Man (OMIM). Le National Center for Biotechnology Information apporte un lien vers l'HPRD via ses bases de données de protéines humaines (par ex. Entrez Gene, protéine RefSeq appartenant aux gènes et aux protéines).

Cette ressource présente des informations sur les fonctions des protéines humaines, y compris les interactions protéine-protéine, les modifications post-traductionnelles, les relations enzyme-substrat et les associations avec maladies. Les informations d'annotation des protéines qui sont cataloguées ont été dérivées par une curation manuelle en utilisant la littérature publiée par des experts biologistes et par des analyses bioinformatiques de la séquence protéique. La data d'interaction protéine-protéine et de la localisation subcellulaire de l'HPRD a été utilisées pour développer un réseau d'interaction des protéines humaines[2].

Les points essensiels de l'HPRD sont comme suit:

  • À partir de 10 000 interactions protéine-protéine (IPP) annotées pour 3 000 protéines en 2003, l'HPRD est passé jusqu'à plus de 36 500 IPP uniques annotés pour 25 000 protéines comprenant 6 360 isoformes à la fin de 2007[3].
  • Plus de 50% des molécules annotées sur HPRD ont au moins un IPP et 10% ont plus de 10 IPP.
  • Les expérimentations sur les IPP sont généralement regroupées en trois catégories, à savoir in vitro, in vivo et Double hybride. Soixante pour cent des IPP annotés dans l'HPRD sont supportés par une seule expérimentation, alors que 26% entre eux ont deux des trois méthodes expérimentales annotées.
  • L'HPRD contient 18 000 données de PTM organisées manuellement appartenant à 26 types différents. La phosphorylation est le principal type de modification de protéine contribuant à 63% des données de PTM annotées dans l'HPRD. La glycosylation, de clivage protéolytique et le pont disulfure sont les événements contributeurs principaux qui suivent dans les données PTM.
  • Les données de l'HPRD sont téléchargables via des formats de fichiers délimités par tabulations et format fichier XML[4].

L'HPRD intègre aussi les données de Human Proteinpedia, un portail communautaire pour l'intégration des données des protéines humaines. Les données de l'HPRD peuvent être librement consultées et utilisées par les membres académiques, tandis que les entités commerciales sont tenues d'obtenir une licence d'utilisation. Le contenu de Human Proteinpedia [5] est disponible gratuitement pour tout le monde à télécharger et à utiliser.

Le PhosphoMotif Finder[modifier | modifier le code]

PhosphoMotif Finder [6] contient un substrat kinase/phosphatase connu ainsi que des motifs de liaison extraits de la littérature publiée. Il rapporte la présence de tout motif dérivé de la littérature dans la séquence de requête. PhosphoMotif Finder ne prédit aucun motif dans la séquence de la protéine de requête via un algorithme ou d'autres stratégies de calcul.

Comparaison des données proteiques[modifier | modifier le code]

Il existe d'autres bases de données qui traitent le protéome humain (par exemple BioGRID, BIND, DIP, HPRD, IntAct, MINT, MIPS, PDZBase et Reactome). Chaque base de données a son propre style de présentation des données. Il est difficile pour la plupart des investigaturs de comparer les données volumineuses de ces bases de données afin de conclure les forces et les faiblesses de chaqu'une. Mathivanan et ses collègues [7] ont tenté de résoudre ce problème lors de l'analyse des données sur les protéines en posant diverses questions. Cette analyse va aider les biologistes à choisir entre ces bases de données en fonction de leurs besoins.

Notes et références[modifier | modifier le code]

  1. « Development of human protein reference database as an initial platform for approaching systems biology in humans », Genome Research, vol. 13, no 10,‎ , p. 2363–71 (PMID 14525934, PMCID 403728, DOI 10.1101/gr.1680803)
  2. Gandhi T.K.B. et al., « Analysis of the human protein interactome and comparison with yeast, worm and fly interaction datasets », Nature Genetics, vol. 38, no 3,‎ , p. 285–293 (PMID 16501559, DOI 10.1038/ng1747)
  3. Mathivanan S. et al., « An evaluation of human protein–protein interaction data in the public domain », BMC Bioinformatics, vol. 2006, no 7,‎ , S19 (PMID 17254303, PMCID 1764475, DOI 10.1186/1471-2105-7-s5-s19)
  4. Mishra G. et al., « Human protein reference database—2006 update », Nucleic Acids Research, vol. 34, no Database issue,‎ , p. 411–414 (PMID 16381900, PMCID 1347503, DOI 10.1093/nar/gkj141)
  5. Mathivanan S. et al., « Human Proteinpedia enables sharing of human protein data », Nature Biotechnology, vol. 26, no 2,‎ , p. 164–167 (PMID 18259167, DOI 10.1038/nbt0208-164, lire en ligne)
  6. Amanchy R. et al., « A compendium of curated phosphorylation-based substrate and binding motifs », Nature Biotechnology, vol. 2007, no 25,‎ , p. 285–286 (PMID 17344875, DOI 10.1038/nbt0307-285)
  7. Mathivanan S, Periaswamy B, Gandhi TK et Kandasamy, « An evaluation of human protein-protein interaction data in the public domain », BMC Bioinformatics, vol. 7 Suppl 5,‎ , S19 (PMID 17254303, PMCID 1764475, DOI 10.1186/1471-2105-7-S5-S19)