Data Quality
Problématique générale
La qualité d’une base de données désigne son adéquation relative aux objectifs qui lui sont assignés («fitness for use»). En raison des enjeux qu'elle soulève sur les plans financiers, sociaux, industriels, militaires, de la santé publique ..., la question est considérée depuis plusieurs années comme un facteur stratégique dans le secteur privé. En 2016, T. Redman chiffrait ainsi les coûts de la "non qualité" aux USA, dans son livre "Getting in front on Data" (p. 25) : "$3,1 Trillions/year in the US, which is about 20 percent of the Gross Domestic Product". Dans notre domaine, la dématérialisation de l’information et la mise en ligne, via Internet, de services transversaux pour les citoyens et les administrations, à la base de l’e-government, rendent cette question plus que jamais cruciale, si bien que la gestion de la qualité des données fait par exemple partie intégrante des obligations légales dans le domaine de la sécurité sociale vu les enjeux engagés (65 milliards d’euros de cotisations et prestations sociales sont prélevés et redistribués annuellement via l’ONSS).
Comment, dès lors, en tant qu'administration, palier aux possibles dysfonctionnements qui en découlent? Mieux encore, quelles procédures appliquer afin d'anticiper et de maîtriser de manière continue ce type de problème?
Le centre de compétences Data Quality
Le centre de compétences Data Quality fait partie de la section Recherches de Smals. Le centre de compétences peut se targuer d’une expérience intensive sur le terrain depuis 2004. Pour la plupart des projets, les membres de la cellule Data Quality travaillent main dans la main avec diverses divisions de Smals, comme la section Développement des applications & Projets, Traitement de l’information ainsi que la section Statistiques ou avec les services de clients et d’institutions membres. Les différentes tâches sont ensuite réparties en concertation avec chacun.
En parallèle avec les missions de consultance autour de la qualité des bases de données administratives des institutions membres, les collaborateurs du centre de compétences donnent aussi des formations et mènent des recherches actives dans ce domaine.
Cliquez ici pour consulter les sessions d’information de la section Recherches.
Nos activités sont soutenues par une expertise scientifique de haut niveau, développée depuis plus de dix ans dans un cadre universitaire et international (cours « data quality » dispensé par Isabelle Boydens, professeur à l’ULB, publications et conférences nationales et internationales, encadrement de mémoires et thèses de doctorat en synergie avec les travaux du centre de compétences Data Quality).
Consultance en Data Quality
Méthodologique
Sur le plan méthodologique, le centre de compétences Data Quality propose une assistance à la mise en place de solutions intégrées pour améliorer de manière continue la qualité de l'information, via, entre autres:
- l’analyse de la qualité des bases de données en fonction des besoins, enjeux et contraintes de type «coût-bénéfices»
- la conception de systèmes de gestion historique des anomalies dans les bases de données
- la conception d’indicateurs de suivi de la qualité
- la mise en place de stratégies d'audit («back tracking») et de gestion reposant notamment sur le suivi dans le temps des anomalies et de leur traitement en vue d'en diminuer structurellement le nombre ainsi que le temps de correction (ATMS, Anomalies and Transactions Management System)
- la conception de solutions d’intégration de données, de façon à diminuer la redondance d’information et à en assurer la cohérence
- la documentation des données et des processus au fil de leurs versions et sur cette base, la mise en place d’un suivi continu de la qualité (formations, groupes de travail)
Technique - Data Quality Tools Service
Description de l'offre de service
Depuis fin 2009, Smals dispose d’outils de Data Quality. En 2008, le cahier des charges a été publié en deux phases puis testé de manière extensive. La solution qui a été choisie est le Trillium Software System (TS Discovery et TS Quality) de Trillium Software (voir également Gartner Magic Quadrants pour les outils de Data Quality des dernières années).
Ces outils nous permettent de mener ou supporter des projets, faisant face aux problématiques suivantes:
- Data Profiling, y inclus des Business Rules;
- Data Standardisation;
- Data Matching, y inclus la détection de doublons, supporté par des techniques telles que le « blocking », rendant performant le traitement des volumes de données importants qui caractérisent l’e-government;
- Détection d'incohérences, détection de fraude;
- Cleansing de noms et adresses à l’aide de bases de connaissances mises à jour périodiquement;
- Validation des adresses emails (validation syntaxique et des noms de domaines);
- Intégrations et Migrations de données;
- des combinaisons et variantes, permettant une prise en compte aisée de l’input des spécialistes business dans un processus incrémental et itératif.
A cette fin, l’outil est disponible en batch (moyen de production "DQRS", Data Quality Run Set), ainsi qu’en service « on line » (REST API, moyen de production « DQAPI », Data Quality API).
Vous trouverez ici une description exhaustive de notre Data Quality Tools Service, du moyen de production DQRS, ainsi que des exemples concrets d'application.
Les avantages de l'utilisation des Data Quality Tools
- Accélérer les phases d’analyse
Très rapidement, et dans n’importe quel contexte, des problèmes de qualité des données peuvent être constatés. Par exemple: le manque de standardisation, la présence de doubles, la violation de business rules,…
Ceci permet de mieux estimer ce qui doit être fait et l’effort que ceci nécessitera.
L’analyse est suivie d’un moment de concertation avec le business afin de définir une stratégie de solution. Il est alors examiné si les problèmes doivent être traités avec des outils de Data Quality, de manière partiellement automatique ou non. - Itérer mieux et plus rapidement avec des connaisseurs business
- Fournir de meilleurs développements, opérer un coût de maintenance plus bas
L’on fournit de meilleurs développements qui tiennent compte des problèmes de qualité des données ou qui évitent des problèmes imprévus pendant le développement ou la production.
Ceci se fait en validant la stratégie, les méthodes et les résultats et en anticipant les change requests. - Estimer plus précisément les risques et l’effort requis
- Meilleure préparation des migrations de données, mieux palier aux difficultés liées à l'intégration de données
Les alternatives Open Source
En outre, le centre de compétences Data Quality suit également les évolutions des alternatives open source. En particulier, OpenRefine permet d'effectuer certaines opérations de base de "data profiling" et de "cleansing" sur une source de données avec possibilité de "roll-back". Dans ce cadre, OpenRefine peut être une solution pratique pour explorer une première fois les données, évaluer l'ampleur des problèmes de qualité ou justifier, le cas échéant, le recours à des outils professionnels plus puissants. Une comparaison entre une source de données et une base de données publiques est par ailleurs possible, si le volume de données à traiter n'est pas trop important, les capacités de l'outil en termes de performance étant réduites. Un Quick Review à ce propos a été publié en octobre 2013.
Le centre de compétences Data Quality évalue lors de la phase de "pré-inception" de chaque projet quel outil est le plus approprié pour traiter une problématique donnée.