Projets bioinformatiques

--- Ce domaine d'application est actuellement en veille dans l'équipe, suite au départ de plusieurs membres.---

Introduction

La bioinformatique nous sert d'une part de source de problèmes et d'autre part de domaine privilégié pour tester et appliquer nos idées et méthodes. Notre intérêt premier porte sur l'analyse de séquences génomiques ou protéiques où nous nous intéressons aux empreintes de phénomènes biologiques. Ces empreintes sont généralement décrites par des motifs et un de nos objectifs est de les identifier, les rechercher et les analyser en utilisant des algorithmes discrets et une analyse probabiliste.

Ci-dessous nous décrivons quelques projets bioinformatiques sur lesquels nous avons travaillé.

Recherche de similarités, recherche de motifs

Nous avons développé le logiciel YASS de recherche de similarités dans les séquences d'ADN. YASS réalise l'alignement local de deux séquences d'ADN (format fasta ou texte brut). Il se base à la fois sur des graines espacées autorisant des transitions pour detecter des similarités potentielles, ainsi qu'un critère statistique pour regrouper les fragments de similarités obtenus.

Nous avons mené des travaux sur la conception et l'analyse de graines pour la recherche de motifs et de similarités.

Analyse de promoteurs de génomes bactériens

Des régions de la partie non-codante du génome sont directement impliquées dans la régulation de la transcription. La connaissance de ces sites permettrait d'identifier des gènes corrégulés, d'y associer des mécanismes de régulation et eventuellement de faire ressortir des protéines dont la fonction était alors inconnue.

Dans le cadre du thème Bioinformatique et applications à la Génomique du Pôle de Recherche Scientifique et Technologique (PRST) Intelligence Logicielle et en collaboration avec des scientifiques du Laboratoire de Génétique et de Microbiologie de l'Université Henri Poincaré de Nancy (Pierre Leblond, Bertrand Aigle), nous travaillons sur l'identification et la classification des sites de régulation de la bactérie Streptomyces coelicolor. Il est à remarquer que cette bactérie présente un intérêt particulier puisque plus de 70% des antibiotiques connus sont produits en utilisant des bactéries de la famille des Streptomyces.

Notre objectif est d'identifier et de caractériser les sites de fixation de facteurs sigma dans les régions promotrices de Streptomyces coelicolor.

Le programme SIGffRid a été implanté pour valider les différentes hypothèses suggérées par l'observation de certaines propriétés des séquences biologiques bactériennes impliquées dans les mécanismes de régulation de la transcription.

S'appuyant sur une approche comparative, SIGffRid recherche des couples de mots conservés dans les séquences intergéniques amonts de couples d'orthologues. Il ne tient compte à cette étape que des mots exceptionnellement sur-représentés sur l'ensemble du génome en se basant sur les résultats donnés par le programme R'MES (Schbath 1997). Il tire donc de chaque paire de séquences intergéniques amonts d'orthologues une liste de couples de mots.

Dès lors, chaque bactérie est traitée indépendamment de façon à pouvoir mettre en évidence les caractéristiques du site de fixation du facteur sigma propre à la bactérie (il peut y avoir certaines variations du site de fixation d'un même facteur sigma entre deux bactéries proches).
Les couples de mots sont alors regroupés par similarité de doublet de graine (une graine devant matcher avec le premier mot, l'autre avec le second). S'ensuit une étape d'extension probabiliste de cette zone de conservation basée sur un modèle de Markov d'ordre 3 ajusté sur l'ensemble du génome, extension associée à un tri des séquences. A chaque extension d'un nucléotide, une expression régulière est générée et évaluée en fonction de deux valeurs: un score mesurant la spécificité du motif pour les séquences amonts du génome et un test de ratio de vraisemblance (LRT, Robin et Schbath 2006, preprint) évaluant la signifiance statistique de cette spécificité. Si le motif est considéré comme intéressant (R>seuil, LRT> quantile à 5% de la loi du Khi2), l'extension s'arrête et nous avons l'ensemble des occurrence du motif, ses positions et les annotations des gènes concernés par ce motif. Sinon, l'extension probabiliste se poursuit jusqu'à ce que nous trouvions un motif intéressant ou que le nombre de séquences impliquées devienne trop faible (< 8).

Cette approche a permis de retrouver tous les sites de fixation connus pour les facteurs sigma sigR, HrdB, BldN, ainsi que le motif LexA. Plusieurs motifs sont proposés tant chez Streptomyces coelicolor que Streptomyces avermitilis, d'autant plus intéressants que les fonctions des gènes concernés semblent corrélées à des voies métaboliques particulières.

Analyse des séquences répétées dans les génomes de proteobacteries

Une autre problème concerne l'analyse de séquences répétées d'ADN, apparaissant plusieurs fois (plus de deux) dans un génome. D'un point de vu informatique, ces regions sont detectées à l'aide de l'outil d'alignement local YASS. A partir des résultats de YASS, un autre outil a été créé pour calculer des clusters de séquences répétées. De manière à exclure les gènes paralogues, seules les régions intergéniques ont été prises en compte. Cette méthode a été utilisé pour identifier des clusters de sequences répétées dans des génomes de protobactéries, en particulier Neisseria meningitidis serotype A et B.

Régulation et courbure de l'ADN

Ici, notre but est d'étudier, via des méthodes informatiques, l'influence de la courbure de l'ADN sur l'efficacité des sites de liaison de certaines protéines. En particulier, nous nous sommes intérressés à la régulation de gènes potentiellement régulés par les proteines H-NS/FIS dans les bactéries.

La principale difficulté d'une telle analyse vient de l'absence ou de la dégénérescence des motifs de séquences conservés de liaison à l'ADN pour à la fois les protéines H-NS et FIS. H-NS est connu pour se fixer non spécifiquement à l'ADN, et pour préférer intrinsèquement les régions courbées. A partir de ces connaissances, nous avons utilisé le logiciel CURVATURE afin de prédire les sites de fixation possibles de la proteine H-NS en amont des opérons rrn dans les protéobactéries contenant H-NS. L'opéron rrnB dans Escherichia coli est connu pour être régulé par FIS/H-NS et la région régulatrice de cet opéron présente intrinsèquement une région courbée. Nous avons analysé les régions régulatrices de six autres opérons rrn dans cette bactérie et trouvé une région courbée, dont le centre est localisé approximativement aux positions -90 -110 par rapport au site d'initiation de la transcription. L'analyse des régions régulatrices des opérons rrn prédits dans d'autres protéobactéries a montré un fort degré de courbure de l'ADN en amont des sites d'initiation de la transcription des opérons rrn, bien que la position du centre de la courbure diffère dans les différentes bactéries. Ce travail représente un premier pas vers une analyse générale des sites de liaison des protéines en utilisant les informations sur la courbure de l'ADN.