Publications des scientifiques de l'IRD

Nguyen Thanh Hai. (2018). Some contributions to deep learning for metagenomics. Paris : Sorbonne Université, 169 p. multigr. Th. Inform. : Inform. Télécom. et Electron., Sorbonne Université : Paris. 2018/09/26.

Titre du document
Some contributions to deep learning for metagenomics
Année de publication
2018
Type de document
Diplôme
Auteurs
Nguyen Thanh Hai
Source
Paris : Sorbonne Université, 2018, 169 p. multigr.
Diplôme
Th. Inform. : Inform. Télécom. et Electron., Sorbonne Université : Paris. 2018/09/26.
Les données métagénomiques provenant du microbiome humain constituent une nouvelle source de données permettant d'améliorer le diagnostic et le pronostic des maladies humaines. Cependant, il est difficile de faire une prédiction basée sur l'abondance de bactéries individuelles car le nombre de caractéristiques est beaucoup plus grand que le nombre d'échantillons. Nous sommes donc confrontés aux difficultés liées au traitement de données de grandes dimensions, ainsi qu’à la grande complexité des données hétérogènes. Apprentissage Machine (ML) en général, et Deep Learning (DL) en particulier, a obtenu de grandes réalisations sur d'importants problèmes de métagénomique liés à la mise en cluster des UTO, au binning, aux assignations taxonomiques, à la métagénomique comparative et à la prédiction de gènes. ML offre des cadres puissants pour intégrer une grande quantité de données provenant de sources hétérogènes, concevoir de nouveaux modèles et tester de multiples hypothèses et produits thérapeutiques. La contribution de cette thèse de doctorat est multiple: 1) nous introduisons un cadre de sélection de caractéristiques pour une extraction efficace de signature biomédicale hétérogène, et 2) une nouvelle approche DL pour prédire des maladies à l'aide de représentations d'images artificielles. La première contribution est une approche efficace de sélection de caractéristiques basée sur les capacités de visualisation des cartes auto-organisées (SOM) pour la fusion de données hétérogènes. Nous avons signalé que le cadre est efficace sur un ensemble de données réel et hétérogène appelé MicrObese, contenant des métadonnées, des gènes de tissu adipeux et des données métagénomiques de la flore intestinale avec une précision de classification raisonnable par rapport aux méthodes de pointe. La deuxième approche développée dans le cadre de ce projet de thèse consiste en une méthode de visualisation des données métagénomiques à l'aide d'une méthode de remplissage simple, ainsi que de diverses approches d'apprentissage de réduction dimensionnelle à la pointe de la technologie. La nouvelle représentation des données métagénomiques peut être considérée comme une image synthétique et utilisée comme un nouvel ensemble de données pour une méthode d'apprentissage en profondeur efficace telle que les réseaux de neurones à convolution. Nous explorons également l'utilisation des explications relatives aux modèles interprétables locaux (LIME), des cartes de saillance et de l'activation de classe à gradients pondérés (Grad-CAM) pour identifier les régions importantes des images artificielles nouvellement construites qui pourraient aider à expliquer les modèles prédictifs. Nos résultats expérimentaux montrent que les méthodes proposées permettent d'atteindre les performances prédictives les plus récentes ou d'y surpasser les performances de référence métagénomique riche en public.
Plan de classement
Biologie [020BIOL] ; Médecine [050MEDECI] ; Intelligence artificielle [122INTAR]
Descripteurs
INTELLIGENCE ARTIFICIELLE ; TRAITEMENT DE DONNEES ; MALADIE ; DIAGNOSTIC ; TRAITEMENT D'IMAGE ; CLASSIFICATION ; VISUALISATION ; METAGENOMIQUE ; BIOINFORMATIQUE ; IMAGERIE MEDICALE ; RESEAU NEURONAL ; HETEROGENEITE ; INTEGRATION DE DONNEES
Localisation
Fonds IRD [F A010074655]
Identifiant IRD
fdi:010074655
Contact