{qdd} : un package R de nettoyage et de qualité des données pour les Plateformes d'Epidémiosurveillances
Marine Marjou  1@  , Marie Grosdidier  1@  , Charlotte Rüger  2@  , Pauline Bres  2@  
1 : Biostatistique et Processus Spatiaux
Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement : UR0546
2 : Laboratoire de Lyon [ANSES]
Université de Lyon, Agence nationale de sécurité sanitaire de l'alimentation, de l'environnement et du travail

Les trois Plateformes d'Epidemiosurveillance françaises : en santé animale (ESA), en santé végétale (ESV) et sécurité de la chaîne alimentaire (SCA) centralisent et travaillent sur des données issues de divers plans de surveillance nationaux. Ces données sont multiples et variées et un travail de nettoyage en amont est nécessaire afin de pouvoir les analyser et les exploiter. Le package {qdd} peut s'utiliser selon deux angles différents mais complémentaires. Il permet notamment de décrire d'un point de vue quantitatif la qualité d'un jeu de données en générant automatiquement un rapport (par exemple le pourcentage de données manquantes, de coordonnées géographiques en dehors du périmètre d'étude, etc.). Ce rapport permet de mieux connaître les données et de faire un retour aux fournisseurs de données dans le but d'améliorer le recueil des données des plans de surveillance. Dans un deuxième temps, le package propose également des fonctions qui permettent de nettoyer facilement et rapidement les données de types calendaire, caractères ou des coordonnées géographiques.

Les trois grands principes qui servent de base au développement du package sont la complétude, le format et la cohérence des données.

Le package est en cours de conception.



  • Poster
Personnes connectées : 3 Vie privée
Chargement...