Some contributions to deep learning for metagenomics- fdi:010074655- Horizon

Publications des scientifiques de l'IRD

Nguyen Thanh Hai. (2018). Some contributions to deep learning for metagenomics. Paris : Sorbonne Université, 169 p. multigr. Th. Inform. : Inform. Télécom. et Electron., Sorbonne Université : Paris. 2018/09/26.

Titre du document

Some contributions to deep learning for metagenomics

Année de publication

2018

Type de document

Diplôme

Auteurs

Nguyen Thanh Hai

Source

Paris : Sorbonne Université, 2018, 169 p. multigr.

Diplôme

Th. Inform. : Inform. Télécom. et Electron., Sorbonne Université : Paris. 2018/09/26.

Les données métagénomiques provenant du microbiome humain constituent une nouvelle source de données permettant d'améliorer le diagnostic et le pronostic des maladies humaines. Cependant, il est difficile de faire une prédiction basée sur l'abondance de bactéries individuelles car le nombre de caractéristiques est beaucoup plus grand que le nombre d'échantillons. Nous sommes donc confrontés aux difficultés liées au traitement de données de grandes dimensions, ainsi qu’à la grande complexité des données hétérogènes. Apprentissage Machine (ML) en général, et Deep Learning (DL) en particulier, a obtenu de grandes réalisations sur d'importants problèmes de métagénomique liés à la mise en cluster des UTO, au binning, aux assignations taxonomiques, à la métagénomique comparative et à la prédiction de gènes. ML offre des cadres puissants pour intégrer une grande quantité de données provenant de sources hétérogènes, concevoir de nouveaux modèles et tester de multiples hypothèses et produits thérapeutiques. La contribution de cette thèse de doctorat est multiple: 1) nous introduisons un cadre de sélection de caractéristiques pour une extraction efficace de signature biomédicale hétérogène, et 2) une nouvelle approche DL pour prédire des maladies à l'aide de représentations d'images artificielles. La première contribution est une approche efficace de sélection de caractéristiques basée sur les capacités de visualisation des cartes auto-organisées (SOM) pour la fusion de données hétérogènes. Nous avons signalé que le cadre est efficace sur un ensemble de données réel et hétérogène appelé MicrObese, contenant des métadonnées, des gènes de tissu adipeux et des données métagénomiques de la flore intestinale avec une précision de classification raisonnable par rapport aux méthodes de pointe. La deuxième approche développée dans le cadre de ce projet de thèse consiste en une méthode de visualisation des données métagénomiques à l'aide d'une méthode de remplissage simple, ainsi que de diverses approches d'apprentissage de réduction dimensionnelle à la pointe de la technologie. La nouvelle représentation des données métagénomiques peut être considérée comme une image synthétique et utilisée comme un nouvel ensemble de données pour une méthode d'apprentissage en profondeur efficace telle que les réseaux de neurones à convolution. Nous explorons également l'utilisation des explications relatives aux modèles interprétables locaux (LIME), des cartes de saillance et de l'activation de classe à gradients pondérés (Grad-CAM) pour identifier les régions importantes des images artificielles nouvellement construites qui pourraient aider à expliquer les modèles prédictifs. Nos résultats expérimentaux montrent que les méthodes proposées permettent d'atteindre les performances prédictives les plus récentes ou d'y surpasser les performances de référence métagénomique riche en public.

Plan de classement

Biologie [020BIOL] ; Médecine [050MEDECI] ; Intelligence artificielle [122INTAR]

Descripteurs

INTELLIGENCE ARTIFICIELLE ; TRAITEMENT DE DONNEES ; MALADIE ; DIAGNOSTIC ; TRAITEMENT D'IMAGE ; CLASSIFICATION ; VISUALISATION ; METAGENOMIQUE ; BIOINFORMATIQUE ; IMAGERIE MEDICALE ; RESEAU NEURONAL ; HETEROGENEITE ; INTEGRATION DE DONNEES

Localisation

Fonds IRD [F A010074655]

Identifiant IRD

fdi:010074655

Open Access HAL

Contact

Coordonnées :
IST / IRD Ile-de-France
32 avenue Henri Varagnat
93140 Bondy Cedex
France
Horizon Pleins textes
Aide

Export de données

CSV EndNote XML EndNote MODS Dublin core BibTeX