%0 Thesis %9 THE : Thèses %A Monat, Cécile %T Pan-génome du riz Africain cultivé Oryza glaberrima et de son ancêtre sauvage Oryza barthii %C Montpellier %D 2016 %L fdi:010067415 %G FRE %I UM %K AFRIQUE %P 142 multigr. %U https://www.documentation.ird.fr/hor/fdi:010067415 %> https://www.documentation.ird.fr/intranet/publi/depot/2017-01-13/010067415.pdf %W Horizon (IRD) %X La diversité d'une espèce est représentée par la somme de la diversité de chacun des individus qui la compose. Elle peut-être observée à différentes échelles : individuelle, organique, tissulaire, cellulaire, génomique, génique, ou bien à l'échelle de la base nucléotidique. L'étude de la diversité d'une espèce est importante pour mieux la comprendre et nous permettre de retracer son histoire évolutive, de la comparer avec d'autres espèces notamment entre espèces sauvages et cultivées. Nous nous intéressons aux processus de domestication, et particulièrement à leurs impacts sur la structure du pan-génome. Le pan-génome est divisé en trois compartiments : (i) le core-génome qui contient tous les gènes présents chez tous les individus de l'espèce ; (ii) le génome dispensable qui contient l'ensemble des gènes qui sont absents chez au moins un individu ; (iii) et enfin le génome individu-spécifique qui contient les gènes présents uniquement chez un individu. L'objectif de ce travail de thèse était de mettre au point une nouvelle méthode d'analyse pangénomique applicable sur un grand nombre d'individus. Pour cela, nous avons travaillé sur un jeu de données de reséquençage massif du riz Africain cultivé Oryza glaberrima et de son ancêtre sauvage Oryza barthii. Dans un premier temps nous avons vérifié l'existence d'une structure pan-génomique sur notre modèle. Pour cela nous avons travaillé à petite échelle avec trois accessions de l'espèce cultivée. Elles ont d'abord été séquencées, assemblées, annotées puis nous avons cherché à détecter des séquences spécifiques à chacune de ces accessions. Dans un second temps nous avons mis au point notre méthode en travaillant avec près de 200 génomes des deux espèces. Ces génomes ont été séquencés grâce aux technologies NGS puis directement mappés sur un génome de référence externe, celui du riz Asiatique. Nous avons alors appliqué notre méthode d'analyse pan-génomique basée sur la déviation de la profondeur de séquençage pour chaque gène. Nous avons ensuite comparé les enrichissement d'ontologies par compartiments et par espèce dans le but d'identifier des différences liées aux processus de domestication. Enfin, nous avons étudié plus précisément les appartenances pan-génomiques des membres de famille de gènes. Parce que le pan-génome de l'espèce cultivé est plus petit que le core-génome de l'espèce sauvage nous avons confirmé la perte de diversité en terme de présence/ absence de gènes chez le riz Afriacin au cours du processus de domestication. Curieusement nous avons aussi mis en avant l'augmentation du nombre de gènes dispensable chez l'espèce cultivée par rapport à son relatif sauvage. Ainsi, malgré une forte réduction du pan-génome de l'espèce cultivé lors de la "première" sélection, les 1000 générations de processus de domestication ont suffit à réintroduire une forme de diversité à travers l'augmentation du nombre de gènes dispensables. Afin d'automatiser une grande partie des manipulations d'analyses de données NGS nous avons aussi développé un outil de génération de pipelines d'analyses. De part sa généricité et sa robustesse il pourra être utilisé dans différents domaines, pour plusieurs types de données. Grâce aux nombreux logiciels qui y sont intégrés et de par le suivi que l'équipe de développement entend poursuivre, il pourra être utilisé dans la caractérisation de plus en plus de choses. Par exemple les variations structurales, les associations génotypes-phénotypes, l'épigénétique et pourquoi pas la métagénomique. Ce travail a permis la mise au point d'une nouvelle méthode d'analyse des données pan-génomiques rapide de par sa vision globale plutôt que via des comparaisons deux-à-deux. Cette méthode s'adresse aux génomes grands et complexes comme ceux des plantes, mais aussi aux jeux de données massifs. %B Univ. de Montpellier %8 %$ 076