Horizon / Plein textes La base de ressources documentaires de l'IRD

IRD

Publications des scientifiques de l'IRD

Serrano Valderas Eva C., Berti-Equille Laure, Armienta Hernandez M.A., Grac C. (2017). Principled data preprocessing application biological aquatic indicators of water pollution. Piscataway : IEEE, 5 p. DEXA : International Workshop on Database and Expert Systems Applications, 28., Lyon (FRA), 2017/08/28-31.

Accès réservé (Intranet IRD) Document en accès réservé (Intranet IRD)

Lien direct chez l'éditeur doi:10.1109/DEXA.2017.27

Titre
Principled data preprocessing application biological aquatic indicators of water pollution
Année de publication2017
Type de documentArticle référencé dans le Web of Science WOS:000426078300011
AuteursSerrano Valderas Eva C., Berti-Equille Laure, Armienta Hernandez M.A., Grac C.
SourcePiscataway : IEEE, 2017, 5 p.
ColloqueDEXA : International Workshop on Database and Expert Systems Applications, 28., Lyon (FRA), 2017/08/28-31
RésuméIn many biological studies, statistical and data mining methods are extensively used to analyze the data and discover actionable knowledge. But, bad data quality causing incorrect analysis results and wrong interpretations may induce misleading conclusions and inadequate decisions. To ensure the validity of the results, avoid bias and data misuse, it is necessary to control not only the whole analytical pipeline, but most importantly the quality of the data with appropriate data preprocessing choices. Since various preprocessing techniques and alternative strategies may lead to dramatically different outputs, it is crucial to rely on a principled and rigorous method to select the optimal set of data preprocessing steps that depends both on the input data distributional characteristics and on the inherent characteristics of the targeted statistical or data mining methods. In this paper, we propose a method that selects, given a dataset, the optimal set of preprocessing tasks to apply to the data such that the overall data preprocessing output maximizes the quality of the analytical results for various techniques of clustering, regression, and classification. We present some promising results that validate our approach on biomonitoring data preparation.
Plan de classementApplications diverses [122APPLIC]
DescripteursINFORMATIQUE SCIENTIFIQUE ; SYSTEME EXPERT ; TRAITEMENT DE DONNEES ; ANALYSE STATISTIQUE ; QUALITE ; POLLUTION BIOLOGIQUE ; INDICATEUR ECOLOGIQUE ; BIOINFORMATIQUE ; FOUILLE DE DONNEES
LocalisationFonds IRD [F B010073005]
Identifiant IRDfdi:010073005
Lien permanenthttp://www.documentation.ird.fr/hor/fdi:010073005

Export des données

Disponibilité des documents

Télechargment fichier PDF téléchargeable

Lien sur le Web lien chez l'éditeur

Accès réservé en accès réservé

HAL en libre accès sur HAL


Accès aux documents originaux :

Le FDI est labellisé CollEx

Accès direct

Bureau du chercheur

Site de la documentation

Espace intranet IST (accès réservé)

Suivi des publications IRD (accès réservé)

Mentions légales

Services Horizon

Poser une question

Consulter l'aide en ligne

Déposer une publication (accès réservé)

S'abonner au flux RSS

Voir les tableaux chronologiques et thématiques

Centres de documentation

Bondy

Montpellier (centre IRD)

Montpellier (MSE)

Nouméa

Papeete

Niamey

Ouagadougou

Tunis

La Paz

Quito