Thèses
J’ai soutenu ma thèse en Informatique le 18 mai 2016 (mention " Très Honorable ") à l’université de Lille1. La recherche de motifs approchée consiste à identifier les occurrences d’un motif modulo une certaine distance au sein d’un texte. Durant ma thèse, j’ai proposé un algorithme efficace pour ce problème à l’aide d’un nouveau type de graines avec erreurs, les graines 01*0 et qui exploite une structure d’index compressée, le FM-index que j’ai mise en œuvre dans un logiciel, Bwolo. J’ai démontré expérimentalement, au travers d’une étude comparative, l’avantage de cette approche avec les outils existants. J’ai aussi montré comment utiliser Bwolo pour réaliser une étude originale sur la distribution des cibles potentielles de microARN dans les génomes d’Arabidopsis thaliana et Arabidopsis lyrata.
Ma thèse a été réalisée sous la direction d’Hélène Touzet (CRIStAL) et de Vincent Castric (EEP) et co-encradré par Mikaël Salson (CRIStAL) au sein de l’équipe BONSAI (CRIStAL-UMR LILLE 1/CNRS 9189) et de l’équipe ÉVO-ÉCO-PALÉO (EEP–UMR LILLE 1/CNRS 8198)
Jury de soutenance :
-
Directeurs de thèse :
-
Hélène Touzet,
-
Vincent Castric.
Co-encadrant :
-
Mikaël Salson.
Rapporteurs :
-
Guillaume Blin,
-
Pierre Peterlongo.
Examinateur :
-
Maud Tenaillon.
Résumé
La recherche de motifs approchée consiste à identifier les occurrences d’un motif modulo une certaine distance au sein d’un texte. Ce problème trouve de nombreuses applications en bio-informatique pour l’analyse de séquences biologiques. Par exemple, les microARN sont des petits ARN qui régulent l’expression des gènes par reconnaissance d’un motif similaire. Comprendre le mode d’action des microARN demande de pouvoir localiser de courts motifs, environ 21 nucléotides, comprenant jusqu’à 3 ou 4 erreurs dans un texte de l’ordre de 108 à 109 nucléotides, représentant un génome. Dans cette thèse, nous proposons un algorithme efficace pour la recherche de motifs approchée, qui se base sur la définition d’un nouveau type de graines avec erreurs, les graines 01*0, et qui exploite une structure d’index compressée, le FM-index. Cet algorithme a été mis en œuvre dans un logiciel librement disponible, appelé Bwolo. Nous démontrons expérimentalement l’avantage de cette approche en nous comparant à l’état de l’art des outils existants. Nous montrons également comment utiliser Bwolo pour mettre en place une analyse originale sur l’étude de la distribution des cibles potentielles de miARN dans deux génomes de plantes, Arabidopsis thaliana et Arabidopsis lyrata.
Stages
Stages Master 2 Informatique
À compléter
Stage Master 2 microbiologie
À compléter
Stage Master 1 microbiologie
À compléter