En matière de gestion des données, on a vite fait de se laisser dépasser : bases de données saturées, process de gestion non adaptés…Pourtant, une base de données de qualité et bien gérée, c’est l’assurance de remplir ses objectifs business par la suite.
Mieux vaut donc s’assurer au plus tôt de la qualité de vos données. Ça implique notamment de vérifier que vos données sont complètes, exhaustives et uniques. Mais il faut aussi mettre en place des procédures de contrôle régulières et adaptées, qui se basent sur un diagnostic de situation exact.
Dans cet article, on vous explique comment construire un process de data quality management en 4 étapes.
Définition de la data quality
Pour mesurer efficacement votre data quality, il faut comprendre à quoi cela fait référence.
La data quality a un fonctionnement similaire à celui d’une pyramide :
- Les données constituent la base
- La contextualisation de ces données permet d’obtenir des informations justes et qualitatives
- La transformation de ces données en informations actionnables permet de prendre de meilleures décisions.
- Et l’exploitation de ces connaissances permet d’obtenir un impact direct sur les performances business.
1. Précision et justesse de vos données : Les données reflètent-t-elles bien la réalité?
La précision mesure l’exactitude de vos données par rapport à un événement ou un objet. Les données doivent toujours refléter précisément la réalité.
Par exemple, si une de vos clientes a 32 ans mais que votre base de données indique qu’elle en a 34, vos données sont incorrectes. Et un fichier client imprécis peut affecter votre stratégie CRM.
Comment vous assurer de la précision de vos données? Demandez-vous si vos données représentent bien la réalité. Il est indispensable de mettre régulièrement à jour votre base de données.
2. Cohérence des données : Les données sont-elles stockées au bon endroit?
Souvent, les entreprises stockent des données similaires à différents endroits de leur base de données. Si les données correspondent entre elles, elles sont cohérentes. Si ce n’est pas le cas, remédiez-y, car cela peut nuire au bon fonctionnement de l’entreprise.
Par exemple, votre base de données des ressources humaines indique qu’un employé n’est plus dans l’entreprise. Mais le système des paies indique qu’il est encore payé : vos données ne sont pas cohérentes.
Pour éviter cela, examinez précisément vos données pour vérifier qu’elles sont similaires. Relevez toutes les contradictions que vous trouvez, et modifiez-les.
3. Intégrité des données : Les données suivent-elles les règles de votre entreprise en matière de format?
Quand on parle d’intégrité des données, on fait référence à leur conformité. C’est-à-dire qu’elles répondent aux règles de votre entreprise, ou à un format spécifique que vous avez défini.
C’est un problème récurrent avec les anniversaires. Certains systèmes demandent de saisir la date de naissance au format jour/mois/année, et d’autres au format mois/jour/année. Si vous vous trompez, vos données ne sont pas exactes et sont donc inutilisables.
Consultez régulièrement votre base de données, et vérifiez que vos informations sont conformes au format requis. Assurez-vous également que vos schémas de données sont les plus homogènes possible pour limiter les opportunités d’intégrité.
4. Récence des données : Les données sont-elles disponibles au bon moment?
Si vous avez un calendrier avec des échéances, vos données doivent le suivre. C’est ce qu’on appelle la récence ou l’actualité des données.
Par exemple, si vous avez besoin de données financières tous les trimestres, assurez-vous qu’elles sont prêtes au bon moment et qu’elles sont actualisées. Dans le cas contraire, votre reporting financier prend du retard.
Des données de qualité, ce sont des données récentes et disponibles. Vérifiez donc que vos données sont toujours prêtes quand vous en avez besoin.
5. Exhaustivité des données : Les données sont-elles complètes?
Des données de qualité sont des données complètes. L’exhaustivité dépend du type de donnée. Par exemple, si vous demandez à un client de vous donner son nom, seul son premier prénom suffit. Le second est facultatif. Si vous avez son prénom et son nom, vos données sont complètes.
Pour s’assurer que vos données sont exhaustives, vérifiez-les régulièrement. Si des éléments sont manquants, faites en sorte de les obtenir.
6. Caractère unique des données : Les données sont-elles en doublon dans votre base de données?
Une donnée unique ne figure qu’une seule fois dans votre base de données. Il est pourtant fréquent que des données soient en doublon.
Par exemple, vos collaborateurs peuvent avoir des méthodes de saisie différentes. S’ils ont eu affaire au même client deux fois, il est possible qu’ils n’aient pas saisi les informations de la même façon. Vous pouvez donc avoir dans votre base un “J. Dumont” et un “Joseph Dumont”, alors qu’il s’agit du même client.
Pour éviter ces doublons qui encombrent vos espaces de stockage et affectent la qualité de vos données, mettez en place des process réguliers de dédoublonnage, et surtout, des règles de saisie de données précises pour limiter les risques de création de doublon..
Construire un process de data quality management en 4 étapes
1. État des lieux: évaluer et mesurer la qualité de vos données
La première chose à faire, c’est de vérifier en détail l’ensemble de votre base de données, car un défaut de qualité peut nuire à la poursuite de vos objectifs. Identifiez toutes les données problématiques : doublons, erreurs, manquements…
Pour cela, faites appel à un tiers dont c’est le métier. Il peut poser le bon diagnostic en toute objectivité, ce qui n’est pas forcément le cas d’une partie prenante. Prenez cette étape au sérieux : le diagnostic est la base de toute votre démarche de data quality management. Assurez-vous donc de son exactitude.
Le diagnostic permet d’identifier les axes d’améliorations et les actions à mener. Le mieux pour cela, c’est d’adopter une double approche :
- L’approche top down : Partir des pain points au niveau de l’analyse de données et chercher leurs causes.
- L’approche bottom up : Analyser les données brutes et recenser les problèmes qui impactent la poursuite des objectifs de l’entreprise.
Ce diagnostic prend la forme d’un rapport, qui liste précisément tous les enseignements tirés. Le mieux, c’est de le partager ensuite à toutes les parties prenantes. Ce rapport vous sert de base pour déterminer les actions prioritaires à mener.
Le rapport permet de se focaliser sur les données les plus critiques. Ce sont des données dont la qualité est primordiale pour votre entreprise.
Plusieurs points sont à déterminer :
- Les dimensions que vos données doivent respecter (précision, cohérence, exhaustivité…) – sorte d’objectifs de data quality.
- Les indicateurs pour mesurer le respect de ces dimensions (par exemple, un taux de données incomplètes)
- Les paliers de qualité (par exemple, un seuil à partir duquel une donnée est considérée de qualité)
Cette étape permet de déterminer les bons outils à utiliser pour atteindre le niveau de qualité requis pour vos données. Chacun peut ensuite réaliser ses tableaux de bord en toute confiance dans chaque business unit, à partir des indicateurs et paliers choisis.
2. Identifier les points critiques dans vos flux de données
Quand on fait le développement d’une application ou la mise à jour d’un système d’information, on se focalise souvent d’abord sur le déploiement de la fonctionnalité avant de faire du data quality management.
Si vous avez défini en premier les indicateurs de qualité de vos données, vous pouvez mieux intégrer vos objectifs dès le départ, c’est-à-dire dans le cycle de développement des fonctionnalités et d’implémentation des outils.
Commencer par définir ces indicateurs de qualité est donc plus efficace, car les personnes en charge de la fonctionnalité ont besoin de ces informations.
Bien connaître la structure des flux de données dans une stack data moderne n’est pas une mince affaire. Mais c’est fondamental pour cibler votre action de data quality management. Vous pouvez identifier les points de contrôle, c’est-à-dire ce qui doit être inspecté et contrôlé régulièrement. Souvent, il s’agit des lieux d’entrée des données dans le système.
Ce travail d’identification des points de contrôle est la seconde étape de votre process. De là, vous pouvez déduire les fonctionnalités cibles à mettre en œuvre.
3. Définir des process de data quality assurance
Une fois les données problématiques identifiées, vous devez mettre en place les actions pour les corriger. Ces actions doivent suivre des mécanismes de tracking de data quality. Ces mécanismes ressemblent aux systèmes de tracking d’erreurs qui existent dans le secteur du développement de logiciels.
L’identification des erreurs et le tracking des actions correctrices peuvent aider à nourrir les rapports de performance. Il faut que votre process soit complet : l’analyse ne doit pas seulement reposer sur les erreurs, mais aussi sur leurs causes.
De cette manière, vous pouvez identifier les défauts au sein de vos process. A cela doit s’ajouter un nettoyage proactif et régulier de vos données. Cela permet d’identifier des erreurs passées inaperçues ou introduites dans le système malgré les contrôles.
La data quality assurance doit se faire au plus haut niveau de votre structure. Pour une meilleure efficacité, utilisez les outils appropriés pour faciliter la mesure, le reporting et le process d’amélioration continue.
N’oubliez pas que les process définis doivent s’aligner avec les objectifs propres à votre entreprise.
Vos objectifs de data quality et vos plans de gestion doivent aussi être partagés avec les producteurs, les consommateurs, les développeurs et les opérationnels. La data quality est l’affaire de tout le monde, ce n’est pas qu’une fonction de votre entreprise.
La data quality assurance doit devenir une véritable culture d’entreprise. Les process de saisie des données doivent être fixés clairement, au plus haut niveau de votre organisation.
4. Mettre en place des process de data quality monitoring
La dernière étape de votre process est la mise en place de protocoles de data quality monitoring : il prend le relais de la data quality assurance.
Cela consiste à vérifier l’exactitude des données, et à s’assurer que vos bases de données ne sont pas encombrées de données inutiles. Il s’agit de contrôler aussi bien la qualité des données que l’usage qui en est fait par les collaborateurs de l’entreprise.
La data quality assurance mesure le niveau de cohérence et de précision de vos données. Le data quality monitoring permet lui de déterminer si une donnée est utile, pertinente et mérite d’être exploitée.
Cela implique que des personnes différentes soient en charge de chaque étape. La personne en charge de data quality assurance identifie les données incohérentes ou imprécises. La personne chargée du data quality monitoring prend la décision de supprimer ces données pour éviter qu’elles ne soient utilisées au sein de l’entreprise.
Le but du data quality monitoring, c’est d’éviter que votre organisation exploite des données incorrectes.
Conclusion
Rome n’a pas été construite en un jour. Vos process de data quality management, c’est un peu pareil.
En bref, retenez qu’un process de gestion de votre data quality est indispensable pour exploiter vos données et informer vos tableaux de bord de façon juste et précise. La qualité de vos décisions est directement liée à la qualité de vos données.