Bioinformatique théorique

Aller à : navigation, rechercher


THEMES DE RECHERCHE

Les activités de recherche en bioinformatique théorique du groupe ont commencé en 1983, année de l'apparition des deux premières bases de données biologiques (EMBL et GENBANK) et se positionnent dès leur origine au niveau de la connaissance fondamentale avec l'identification de règles et de propriétés dans les gènes et les génomes. Elles ont en particulier fait l'objet de plus de 50 articles publiés dans des revues internationales à comité de lecture dans deux disciplines: bioinformatique/biomathématique principalement et informatique théorique dans le domaine des codes.

Depuis plus de 15 ans, le groupe est leader au niveau international dans deux domaines de recherche théorique qu'elle a initiés et qu'elle poursuit: la découverte et l'étude de codes circulaires dans les gènes (un problème bioinformatique ouvert depuis 55 ans par Crick et al. Proc. Natl. Acad. Sci. 43, 416-421, 1957), et les modèles probabilistes d'évolution des gènes qui sont actuellement développés selon deux axes: (i) des modèles par substitution de motifs avec une évolution pouvant être linéaire (substitutions constantes), non-linéaire (substitutions dépendantes du temps) ou pseudo-chaotique (nombre aléatoire de substitutions constantes ou dépendantes du temps); et récemment avec l'arrivée de Sophie Lèbre dans le groupe (ii) des modèles d'évolution plus généraux par substitution, insertion et délétion de nucléotides. Des travaux sur les réseaux génétiques sont également développés dans le groupe.

PUBLICATIONS

Christian Michel Sophie Lèbre

KEYWORDS

Circular codes: Identification in genes, genomes, microRNAs. Absence in frameshift genes. Genetic codes. Biological properties. Mathematical properties. Code theory.

Gene evolution by expansion, contraction and transformation (stochastic models of insertion, deletion and substitution of nucleotides).

Gene evolution by transformation (stochastic models of substitutions of nucleotides and genetics motifs): Linear. Nonlinear. Pseudochaotic. Applications and evaluations with circular codes.

Phylogeny (distances).

Computer simulation of gene evolution: Langages. Stochastic automata. Applications with genes, introns, 5' and 3' regions, etc.

Computational methods: Statistical methods. Signal processing. Periodicity identification. Motif identification. Genome annotation. Entropy. Alignment.

Biological networks

Research software

ENGLISH VERSION

http://dpt-info.u-strasbg.fr/~c.michel/

http://lsiit.u-strasbg.fr/bfo-en/index.php/Sophie_Lebre

ACTIVITES DE RECHERCHE DEPUIS 2007

Recherche de fonctions biologiques des codes circulaires dans les gènes

Les propriétés des codes circulaires sont étudiées dans des familles particulières de gènes. Les gènes à décalage de phase possèdent comme attendu par la théorie un décalage du signal du code circulaire [2-AFM07]. Un signal de code circulaire est identifié pour la première fois dans des séquences non-codantes, précisément les micro-ARN [2-AM08]. Les gènes avec des propriétés de codes circulaires codent souvent des fonctions essentielles associées aux génomes minimaux [2-AFM10].

Etude théorique des codes

Un nouveau concept en théorie des codes dit "de collier" permet de décrire des variétés de comma-free codes et de déterminer leurs fonctions de croissance [2-MPP08]. Sa généralisation permet ensuite de faire un pont théorique entre les comma-free codes et les codes circulaires, deux classes de codes considérées jusqu'à présent comme disjointes [2-MPP08a]. La fonction de croissance (nombre et liste) des codes circulaires de trinucléotides est obtenue pour toutes les longueurs de 1 à 20, par exemple son maximum est de 23,403,485,556 codes de 13 trinucléotides [2-MP10a].

Modèles stochastiques d'évolution des gènes par substitutions de motifs génétiques

Nous avons généralisé les modèles classiques d'évolution de nucléotides (Jukes et Cantor, 1969; Kimura, 1980, 1981) aux di et trinucléotides [2-MIC07a,b,d, 2-BM09]. Une écriture matricielle des systèmes d'équations différentielles donne l’équilibre des motifs qui apparaissent et disparaissent au cours d'un intervalle de temps dt. Les solutions analytiques obtenues déterminent les probabilités d'occurrence des motifs au cours du temps, dans le sens direct (du passé au présent) mais également dans le sens inverse (du présent au passé). Nous avons également développé des modèles probabilistes de substitution de motifs avec une évolution pseudo-chaotique des gènes. Un nombre aléatoire de trinucléotides mutent à chaque intervalle de temps dt selon des paramètres de substitution constants [2-BM08] ou dépendants du temps [2-BM09]. Ces travaux nous ont permis de généraliser la classique distance phylogénétique définie pour un site (Jukes et Cantor, 1969; Kimura, 1980, 1981) à une suite de sites de longueur quelconque [2-MIC07b, 2-MIC07d]. Cette distance phylogénétique généralisée conduit à de nouvelles méthodes de distance très performantes pour inférer des arbres phylogénétiques [2-CM09].

Modèles stochastiques d'évolution des gènes par substitution, insertion et délétion de nucléotides

Nous avons développé une nouvelle classe de modèles probabilistes des gènes dans laquelle les paramètres d'insertion et de délétion de nucléotides sont des paramètres explicites indépendants des paramètres de substitution de nucléotides [2-LM10]. A notre connaissance et à ce jour, ce modèle est dans son domaine le plus général. L'idée de cette approche repose sur l'introduction d'un concept issu de la dynamique des populations permettant d'obtenir un système d'équation différentielle combinant le processus classique de substitution et les processus d'insertion et de délétion. En dérivant une solution générale vérifiée pour toute matrice de substitution diagonalisable, nous obtenons une expression analytique de la probabilité d'occurrence des nucléotides en fonction d'une matrice de substitution, d'un vecteur de taux d'insertion de nucléotides, d'un taux de délétion de nucléotides et d'un vecteur de probabilités initiales des nucléotides. Diverses propriétés mathématiques biologiquement importantes sont également obtenues: échelle de temps, décomposition du temps, inversion du temps et transformation du temps en fonction de la longueur de la séquence.

Modèles stochastiques pour l’inférence de réseaux génétiques

D’autres approches stochastiques portent sur la reconstruction de réseaux de régulation génétique. Nous avons ainsi développé le modèle de réseau ARTIVA (Auto Regressive TIme VArying) qui a la particularité de proposer une structure de dépendance variable au cours du temps et ce, pour des données continues. Une méthode de Monte Carlo par Chaînes de Markov (MCMC) à sauts réversibles a été spécifiquement adaptée pour l’inférence de ce modèle à partir de séries temporelles d’expression de gènes. Cette approche s’est montrée plus performante que les dernières en date sur plusieurs jeux de données [2-LBD10]. Nous avons ensuite affiné le modèle en introduisant un échange d'information entre les structures successives du réseau [1-DLH10, 1-HDL10]. Différentes adaptations de ce modèle permettent de moduler le type de partage d’information (inter ou intra gènes), apportant ainsi une nette amélioration de la qualité de l’estimation.

ACTIVITES DE RECHERCHE AVANT 2007: http://dpt-info.u-strasbg.fr/~c.michel/

Codes circulaires: Identification dans les gènes, génomes. Codes génétiques. Propriétés biologiques. Propriétés mathématiques. Théorie des codes.

Evolution des gènes par transformation: modèles stochastiques de substitution de nucléotides de motifs génétiques: Linéaire. Non-linéaire. Pseudo-chaotique. Application et évaluation avec les codes circulaires.

Simulation informatique de l'évolution des gènes: Langages. Automates stochastiques. Application aux gènes, introns, régions 5' et 3' , etc.

Théorie des réseaux de régulations

Méthodes informatiques: Méthodes statistiques. Traitement du signal. Identification de périodicité. Identification de motifs. Annotation des génomes. Entropie. Alignement.

Logiciels de recherche

LOGICIELS DE RECHERCHE

ARTIVA (Auto Regressive TIme-VArying): package R distribuant un algorithme MCMC pour l’inférence de réseaux de régulation génétiques à structure variable au cours du temps, à partir de séries temporelles d’expression de gènes (données de puces à ADN) [2-LBD10]. Le package ARTIVA est disponible sur demande et prochainement sur le site d’archives R http://cran.r-project.org/.

DNAdistree. DNAdistreeweb permet d'inférer des arbres phylogénétiques selon des méthodes de distances basées sur une définition généralisée des distances phylogénétiques (Criscuolo and Michel, 2009, [2-CM09].

SEGM (Stochastic Evolution of Genetic Motifs). SEGMweb permet de modéliser l'évolution des gènes en déterminant les solutions analytiques de motifs génétiques de longueur 1 à 5 (nucléotides, dinucléotides, trinucléotides, quadrinucléotides et pentanucléotides) en fonction du temps, de paramètres de substitution (de 1 à 3 taux par site) et d'un vecteur initial de probabilités de motifs (Benard and Michel, 2009, [2-BM09]).

PROJETS DE RECHERCHE

La thématique bioinformatique renforcera les théories qu’elle a initiées depuis une quinzaine d’années et valorisera ses domaines d’application biologique.

Les objectifs de recherche sur les codes circulaires de trinucléotides s’intéresseront aux propriétés combinatoires de la hiérarchie des codes récemment identifiée : codes circulaires forts, codes comma-free et codes circulaires faibles. Il s'agira en particulier de déterminer leurs nombres, leurs listes, des propositions sur leurs préfixes et suffixes, des relations avec le groupe symétrique S4, des généralisations sur un alphabet fini, etc. Une nouvelle proposition devrait également pouvoir mettre en relation les codes auto-complémentaires et les codes C3. Enfin, ces codes qui ont par définition une fonction dans la synchronisation de la phase de lecture des gènes seront également étudiés en relation avec le code génétique. Une partie de ses travaux se fera en collaboration avec le Prof. G. Pirillo (Consiglio Nazionale delle Ricerche, Florence, Italie).

Nous avons récemment développé un modèle stochastique d’évolution des gènes basé sur trois processus indépendants avec des substitutions, des insertions et des délétions de nucléotides selon des paramètres constants. Ce modèle sera généralisé à des paramètres d’insertion dépendants du temps. Ses solutions analytiques seront implémentées dans le logiciel SEGM (Stochastic Evolution of Genetic Motifs). Des modèles avec des paramètres de délétion dépendants du temps seront également étudiés sachant que leurs solutions ne pourront être que numériques. Un autre objectif s'intéressera à l'obtention de nouvelles distances évolutives (analytiques) à partir de notre modèle. Ces distances permettront ainsi d’améliorer les méthodes de distance d’inférence phylogénétique. Leur implémentation pour la construction d'arbres phylogénétiques de grande taille se fera par parallélisation sur GPU en collaboration avec la thématique SONIC.

Un autre objectif consistera à affiner nos méthodes d'inférence de réseaux de régulation (ARTIVA ou Auto Regressive TIme VArying model) grâce à des méthodes de partage d'information.

ENSEIGNEMENT EN BIOINFORMATIQUE: Cours