@phdthesis{fdi:010074655, title = {{S}ome contributions to deep learning for metagenomics}, author = {{N}guyen {T}hanh {H}ai}, editor = {}, language = {{ENG}}, abstract = {{L}es donn{\'e}es m{\'e}tag{\'e}nomiques provenant du microbiome humain constituent une nouvelle source de donn{\'e}es permettant d'am{\'e}liorer le diagnostic et le pronostic des maladies humaines. {C}ependant, il est difficile de faire une pr{\'e}diction bas{\'e}e sur l'abondance de bact{\'e}ries individuelles car le nombre de caract{\'e}ristiques est beaucoup plus grand que le nombre d'{\'e}chantillons. {N}ous sommes donc confront{\'e}s aux difficult{\'e}s li{\'e}es au traitement de donn{\'e}es de grandes dimensions, ainsi qu’{\`a} la grande complexit{\'e} des donn{\'e}es h{\'e}t{\'e}rog{\`e}nes. {A}pprentissage {M}achine ({ML}) en g{\'e}n{\'e}ral, et {D}eep {L}earning ({DL}) en particulier, a obtenu de grandes r{\'e}alisations sur d'importants probl{\`e}mes de m{\'e}tag{\'e}nomique li{\'e}s {\`a} la mise en cluster des {UTO}, au binning, aux assignations taxonomiques, {\`a} la m{\'e}tag{\'e}nomique comparative et {\`a} la pr{\'e}diction de g{\`e}nes. {ML} offre des cadres puissants pour int{\'e}grer une grande quantit{\'e} de donn{\'e}es provenant de sources h{\'e}t{\'e}rog{\`e}nes, concevoir de nouveaux mod{\`e}les et tester de multiples hypoth{\`e}ses et produits th{\'e}rapeutiques. {L}a contribution de cette th{\`e}se de doctorat est multiple: 1) nous introduisons un cadre de s{\'e}lection de caract{\'e}ristiques pour une extraction efficace de signature biom{\'e}dicale h{\'e}t{\'e}rog{\`e}ne, et 2) une nouvelle approche {DL} pour pr{\'e}dire des maladies {\`a} l'aide de repr{\'e}sentations d'images artificielles. {L}a premi{\`e}re contribution est une approche efficace de s{\'e}lection de caract{\'e}ristiques bas{\'e}e sur les capacit{\'e}s de visualisation des cartes auto-organis{\'e}es ({SOM}) pour la fusion de donn{\'e}es h{\'e}t{\'e}rog{\`e}nes. {N}ous avons signal{\'e} que le cadre est efficace sur un ensemble de donn{\'e}es r{\'e}el et h{\'e}t{\'e}rog{\`e}ne appel{\'e} {M}icr{O}bese, contenant des m{\'e}tadonn{\'e}es, des g{\`e}nes de tissu adipeux et des donn{\'e}es m{\'e}tag{\'e}nomiques de la flore intestinale avec une pr{\'e}cision de classification raisonnable par rapport aux m{\'e}thodes de pointe. {L}a deuxi{\`e}me approche d{\'e}velopp{\'e}e dans le cadre de ce projet de th{\`e}se consiste en une m{\'e}thode de visualisation des donn{\'e}es m{\'e}tag{\'e}nomiques {\`a} l'aide d'une m{\'e}thode de remplissage simple, ainsi que de diverses approches d'apprentissage de r{\'e}duction dimensionnelle {\`a} la pointe de la technologie. {L}a nouvelle repr{\'e}sentation des donn{\'e}es m{\'e}tag{\'e}nomiques peut {\^e}tre consid{\'e}r{\'e}e comme une image synth{\'e}tique et utilis{\'e}e comme un nouvel ensemble de donn{\'e}es pour une m{\'e}thode d'apprentissage en profondeur efficace telle que les r{\'e}seaux de neurones {\`a} convolution. {N}ous explorons {\'e}galement l'utilisation des explications relatives aux mod{\`e}les interpr{\'e}tables locaux ({LIME}), des cartes de saillance et de l'activation de classe {\`a} gradients pond{\'e}r{\'e}s ({G}rad-{CAM}) pour identifier les r{\'e}gions importantes des images artificielles nouvellement construites qui pourraient aider {\`a} expliquer les mod{\`e}les pr{\'e}dictifs. {N}os r{\'e}sultats exp{\'e}rimentaux montrent que les m{\'e}thodes propos{\'e}es permettent d'atteindre les performances pr{\'e}dictives les plus r{\'e}centes ou d'y surpasser les performances de r{\'e}f{\'e}rence m{\'e}tag{\'e}nomique riche en public.}, keywords = {{INTELLIGENCE} {ARTIFICIELLE} ; {TRAITEMENT} {DE} {DONNEES} ; {MALADIE} ; {DIAGNOSTIC} ; {TRAITEMENT} {D}'{IMAGE} ; {CLASSIFICATION} ; {VISUALISATION} ; {METAGENOMIQUE} ; {BIOINFORMATIQUE} ; {IMAGERIE} {MEDICALE} ; {RESEAU} {NEURONAL} ; {HETEROGENEITE} ; {INTEGRATION} {DE} {DONNEES}}, address = {{P}aris}, publisher = {{S}orbonne {U}niversit{\'e}}, pages = {169 multigr.}, year = {2018}, URL = {https://www.documentation.ird.fr/hor/fdi:010074655}, }