Data profiling
Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.
Objectifs
    
Le profiling a pour objectif :
- d'identifier les données réutilisables pour d'autres fins ;
 - d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise ;
 - d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications ;
 - d'évaluer si les métadonnées décrivent correctement les données sources ;
 - d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet, ex. : avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels…
 - d'avoir une vue globale des données pour permettre la gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.
 
Notes et références
    
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « data profiling » (voir la liste des auteurs).
 
Lien externe
    
- Portail de l’informatique
 
    Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons – Attribution – Partage à l’identique. Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.