Dans un monde interconnecté où les échanges et lexploitation des données sont
au coeur de tous les processus dactivité, la qualité de données figure désormais
au premier rang des préoccupations des dirigeants et des responsables informatiques.
Pourtant, selon une étude de 2007, seulement 16 % des entreprises ont mis en place
un programme de qualité de données.
Faute de savoir par où commencer, elles ont aussi tendance à différer la démarche
globale qui leur permettrait de maîtriser les risques associés à lutilisation de
données erronées ou défectueuses.
Riche dexemples et dillustrations, ce Livre Blanc précise les conditions de
réussite dune initiative de qualité de données à léchelle de lentreprise. Il
répond aussi de manière claire et concise aux questions que se posent les dirigeants,
les managers opérationnels et les responsables informatiques :
En espérant que ces documents, élaborés en français à votre intention, vous apporteront
des informations utiles.
INFORMATICA
Des Données de Qualité
Exploitez le capital de votre organisation
Un livre blanc de JEMM research
Janvier 2008
©- Informatica 2008
Table des matières
Introduction 1
Le capital de lentreprise 2
Le coût de la non-qualité 2
Saisir des données de qualité 3
Exploiter des données de qualité 4
Analyser des données de qualité 5
Un enjeu stratégique 6
Un enjeu de linformatique seulement 2 6
Linitiative Qualité des Données 7
La méthode 7
Définir la qualité 2 8
Données, informations et connaissances 8
Qualité des données 9
Indicateurs et Mesures 10
Lagouvernance 11
Rôles de la direction générale et des directions opérationnelles 11
Le comité Qualité des Données 11
Le socle technologique 12
Les fonctions des outils 12
Une infrastructure de qualité 14
Scénarios de mise en oeuvre 15
Business intelligence & Data Warehouse 15
Conformité réglementaire 16
Données de référence (Master Data) 17
Service aux clients 17
Consolidation et intégration 17
Loffre Qualité de Données dlnformatica 19
Informatica Data Explorer 20
Analyser 20
Aligner 20
Informatica Data Quality 20
Nettoyer 20
Maintenir 20
Services 21
Méthodologie 21
Offres de services 21
Conclusion 22
Table des figures
Figure 1 - Saisir des données de qualité 3
Figure 2 - Valeur de la qualité dans une campagne marketing 4
Figure 3 - Exemples de famille de données 8
Figure 4 - Les dimensions de la qualité des données 9
Figure 5 - Exemples dindicateurs de qualité 10
Figure 6 - Mesures dun indicateur 10
Figure 7 - Comité Qualité des Données 11
Figure 8 - Un processus de qualité 13
Figure 9 - Les services de qualité des données 14
Figure 10 - Le processus de gestion de la qualité des données dInformatica 19
Introduction
Dans un contexte où les défis des entreprises et administrations sont de
plus en plus nombreux, disposer dun capital de données de qualité devient une
nécessité incontournable. Déferlement dinformations sans précédent, pressions
réglementaires, exigences de contrôle interne, cohérence des échanges avec les
partenaires, satisfaction des clients sont autant de défis à relever par les
entreprises. La maîtrise de la qualité des données est désormais un enjeu important.
Il sagit de fournir des données correctes, complètes, à jour et cohérentes tout
en meffant en place des indicateurs compréhensibles, faciles à communiquer,
peu coûteux et simples à calculer. La direction générale et ses directions métiers
doivent disposer dune vision unifiée et exploitable des informations, afin de
prendre les bonnes décisions au moment opportun.
Pourtant, la gestion de la qualité des données reste essentiellement du domaine
de la direction informatique. Historiquement, les systèmes dinformations ont
conçu des applications pour traiter les données élémentaires de lentreprise.
Aujourdhui, les directions métiers demandent à linformatique de leur meffre
à disposition des tableaux et indicateurs basés sur ces traitements et ces applications.
Mais que se passe-t-il si les données issues des applications sont erronées,
tronquées ou redondantes... ? La direction informatique peut-elle connaître
les règles métiers associés au domaine fonctionnel ? Une réponse technologique
nest pas suffisante et il est clair que les directions métiers doivent aussi
simpliquer fortement dans cette gestion.
Les responsables fonctionnels et les équipes de la direction informatique doivent
mettre leur force en commun pour développer un programme de gestion de la qualité
des données. Mais avant de se lancer dans laventure, plusieurs questions se
posent. Comment réaliser des référentiels au service de la qualité des données
clients, fournisseurs et partenaires? Quelles sont les bonnes pratiques en matière
de gestion des données?
Ce livre blanc décrit la problématique de la qualité des données du point de
vue des directions métiers. Au-delà de la simple vue informatique, il explicite
limpact métier dun manque de données de qualité. Il décrit des moyens de mise
en place dune politique de qualité des données et présente des scénarios de
mise en oeuvre de cette politique.
©- Informatica 2008 1
Le capital de lentreprise
Aujourdhui, lentreprise privée ou publique aujourdhui est confrontée à
un défi de flexibilité. Dun coté, elle doit sadapter rapidement à un environnement
changeant, dans lequel le temps et les distances diminuent, les opportunités
doivent être saisies immédiatement, les réglementations saccumulent. Dans ce
contexte non stabilisé, lentreprise est confrontée au défi de ladaptation
permanente : détecter les fenêtres dopportunités afin de bénéficier dun avantage
concurrentiel, augmenter linnovation pour différencier sa proposition de valeur
par rapport à la concurrence, analyser son environnement afin de prendre les
bonnes décisions au bon moment, rationaliser son organisation et ses processus
internes pour améliorer sa productivité, intégrer les interactions avec ses
partenaires et fournisseurs afin de réduire les délais et de faciliter les processus.
De lautre, cette nécessité de rapidité et de flexibilité doit reposer sur un
environnement rigoureux. En effet, lentreprise doit sappuyer sur une gouvernance,
un ensemble de règles de prises de décision, de transparence et de surveillance
qui lui permettent de contrôler son fonctionnement. Le comité exécutif doit
pouvoir prendre les décisions stratégiques en sappuyant sur des éléments fiables.
Il est important de minimiser la prise de risque en mettant en place des moyens
effectifs de contrôle. Le pilotage de lorganisation nécessite la manipulation
dindicateurs fidèles et à jour de lactivité. Enfin, lentreprise doit pouvoir
justifier et garantir sa conformité aux réglementations, lois et régulations.
Au coeur de ce système complexe, cette organisation aux multiples facettes,
sont les données que lentreprise récolte, génère, manipule, alimente et publie.
Clients, produits, fournisseurs, transactions de vente : toutes ces entités
doivent être décrites et suivies dune manière ou dune autre. Cest à partir
de ces données que lentreprise évalue les opportunités qui se présentent à
elle. La direction générale base ses décisions sur leur analyse exhaustive.
Tous les collaborateurs les manipulent dans le cadre de lexécution de leurs
tâches et activités. Les partenaires les synchronisent avec leurs données internes
afin de coordonner les actions. Les clients les consultent pour interagir avec
lentreprise. Enfin, les observateurs les analysent pour évaluer la santé financière
et économique de lentreprise. Avec les technologies de linformation, la sophistication
de lusage des données par les entreprises et les gouvernements sest développée
de manière exponentielle. Les fournisseurs de solutions technologiques ont créé
beaucoup de termes, de concepts, de produits pour répondre à ce besoin : système
daide à la décision, entrepôt de données, gestion de la relation client, business
intelligence, gestion des données de référence (MDM). Mais, en tout état de
cause, le besoin reste fondamental, les organisations doivent optimiser lusage
de leur données pour augmenter leur efficacité daujourdhui et améliorer la
stratégie de demain.
Pourtant, la qualité des données est rarement une priorité pour les organisations.
Il est fréquent dentendre des remarques telles que « Nos données sont de qualité
suffisante» ou « On les nettoiera plus tard ».
Le coût de la non-qualité
Les données contribuent au succès de lactivité de lentreprise. Leur
qualité représente donc un enjeu
critique pour lentreprise dans les trois étapes de leur cycle de vie
lors de la saisie
au cours des transformations et agrégations
pendant lanalyse et la présentation des résultats
©- Informatica 2008 2
Saisir des don nées de qualité
Les entreprises doivent aujourdhui faire face à un déferlement de données
et dinformations sans précédent. On estime que davantage dinformations ont
été générées pendant ces 30 dernières années que lors des 500 précédentes. Dans
le monde de la finance, le nombre de transactions boursières double tous les
6 à 9 mois. Dans le monde de la logistique, la capacité de stocker des informations
granulaires grâce à la technologie RFID génère un volume entre 10 et 100 fois
plus important que celui de la technologie de code-barres. Ces données à létat
brut alimentent les systèmes dinformation. Mais la gestion de leur qualité
nest toujours pas soumise à des règles et des standards. Cela conduit à des
prises de décision à partir de données incorrectes ou mal interprétées. Aux
Etats-Unis, une étude1 a estimé le coût de la mauvaise qualité des données à
plus de 600 milliards de dollars pour les entreprises chaque année.
La mauvaise qualité des données est due ________________________________ principalement
aux erreurs de saisie de linformation
à la source. Fautes dorthographes, codes
incorrects, abréviations erronées, saisies dans un
mauvais champ sont autant de sources de
dégradation de la qualité qui peuvent avoir des
conséquences néfastes pour lentreprise.
Les silos applicatifs traditionnels, les fusions et
acquisitions dentreprises entrainent une duplication
des données dans les systèmes dinformations. Lors
de lintégration des silos ou de la consolidation des
applications, on retrouve des données enregistrées
plusieurs fois dans les systèmes informatiques sous
des identifiants différents. De plus, des données
exactes à un moment donné, peuvent devenir
erronées à la suite dun changement de situation, le
déménagement dun client peut amener la création
dun nouvel identifiant au lieu dune modification de
la fiche initiale.
L PçhS 2 RItat a pgr a 4
De même, la saisie des
données directement par le Vols Low Cost - Réservation
client peut avoir des
Votre réservation
consequences pour le moins
inattendues. Dans le domaine Detailsdu%?0I
du tourisme, la figure 1 montre AIle nerced
quil est possible de réserver sur DéP-t 09h30 Pri VI
Arrivée 11h30 Rome Ciampino Classe Economique.
Internet un vol aller/retour avec
le vol retour décollant avant Reto,r: nerrred 5 dérnbre 2007
larrivée du vol aller Il faut prt 11h20 Rone Velirig 991
Arrivée 13h30 Pri Cle Eor iqe.
certes être étourdi... Mais le
Récapitulatif de votre commande
controle de la validite de la
proposition nestil pas de la Deriptif Qrntité Pri, par poger Frais
de doier por
responsabilité des compagnies Tr Adulte 1 124.03 1OO
aériennes? Dailleurs, on Montanttotal 14203
pourrait poser la question aux
trois touristes norvégiens de la Figure I -Saisir des données de qualité
compagnie aerienne qui les a
amenés à Rodez alors quils désiraient passer des vacances sur lîle grecque
de Rhodes2?
1 Data Quality and the Bottom Line: Achieving Business Success through a
Commitment to High Quality Data - The Data Warehousing Institute
- 2002
2 afp.google.com/article/ALeqM5iuffqwl CRi IBQI5qOYmc6J-xmc2w
Tokyo Stock Exchange
Le deuxième groupe bancaire japonais, Mizuho, a perdu 286 millions deuros pour
une faute de frappe.
En décembre 2005, lors de lintroduction en bourse dune petite société,
J-Com, un courtier de cette banque avait placé 610 000 titres à 1 yen au lieu
de vendre 1 titre à 610 000 yens. Lerreur navait pas pu être rattrapée à temps
par les services informatiques de la bourse de Tokyo
(TSE).
Le patron de TSE, Takuo Tsurushima, démissionna un mois plus tard.
Dans sa démarche de flexibilité, lentreprise recherche lefficacité opérationnelle.
Lexploitation de données de qualité permet doptimiser la participation et
les interactions entre tous les collaborateurs au-delà des frontières administratives
ou techniques. Pourtant, beaucoup dentreprises négligent danalyser la qualité
de leurs données, ce qui les conduit à exploiter des données fausses ou erronées.
Les silos applicatifs restent nombreux, rendant difficile le partage et lintégration
des données. Cela entraine de nombreux impacts sur le pilotage et la performance
de lentreprise. Les exemples sont nombreux dans tous les secteurs dactivité
aussi bien au sein des entreprises privées que publiques.
En 1999, la NASA3 a perdu le satellite Mars Climate Orbiter
à cause de données erronées. En effet, le satellite fut détruit
pendant sa mise en orbite autour de Mars à une altitude de
50 km de la surface (laltitude normalement prévue était de
150 km) par les turbulences et les frottements
atmosphériques. Lenquête a mis en évidence que certains
paramètres avaient été calculés en unités de mesure anglosaxonnes
et transmises telles quelles à léquipe de
navigation, qui attendait ces données en unités du système
métrique. Cette «petite» erreur a coûté 125 millions de
dollars aux contribuables américains.
Plus près de nous, les difficultés de lAirbus A380
concernant la phase dindustrialisation de lavion ont porté
essentiellement sur le câblage électrique dune partie du
fuselage, la conception ayant été menée avec des logiciels
de versions différentes pour la partie française et la partie
allemande
Il est toujours possible de chiffrer le coût direct de la non-qualité des
données. La Figure 2 fait le calcul du retour sur investissement dune campagne
marketing dun opérateur téléphonique.
Ratio de duplication 1 1.04
Taux de réponse 2% 1.92%
Ratio de foyer 1 1.11
Taux de conversion 20 % 18.02 %
Résultats
Nombre de réponse 1000 962
Cout par réponse 150 156
Nombre dacheteurs 200 173
Bénéfice total de la campagne 200 000 173 250
Retour sur Investissement 33.33 % 15.50 %
Hypothèses
Nombres de brochures envoyées
Coût total du programme
Bénéfice moyen par vente
Figure 2 - Valeur de la qualité dans une campagne marketing
www.cnn .comITECHIspaceI99O9I3OImars.metricl
Audition du 22 novembre 2006 de M. Louis Gallois, co-Président exécutif
dEADS devant la commission des affaires étrangères, de la défense et des forces
armées du sénat.
/!IJ
50000
150000
1000
Lentreprise veut faire lenvoi dune brochure annonçant un nouveau service
à lensemble de ses clients. Sa base Client contient des enregistrements dupliqués
(ratio de duplication 1 .04) ainsi que des enregistrements multiples pour le
même foyer (ratio de foyer 1.11). Ce simple calcul montre quune opération marketing
sur des données de qualité peut doubler son efficacité.
Aiysedonnquahe
Enfin, dans lanalyse et la présentation des données, lentreprise doit en garantir
la qualité. Limpact est important. Le meilleur des tableaux de bord, lanalyse
décisionnelle à laide doutils de business intelligence les plus sophistiqués,
ne peuvent donner des éléments de prises de décision fiables que si les données
ayant servi à générer le tableau ou lanalyse sont correctes, cohérentes et
à jour. Premier employeur en France, ladministration française a créé un observatoire
de lemploi public pour «assurer la cohérence des sources statistiques ». Dans
son rapport de 2005, lobservatoire dénombrait en France entre 5,14 millions
(dans une approche juridique) et 5,88 millions (dans une approche économique)
dagents dans la fonction publique5. On peut également citer le cas dune grande
compagnie dassurance qui avait décidé de fusionner ses bases de données Clients
pour avoir une meilleure compréhension des ses clients et des produits quils
achetaient, afin daméliorer son offre de services. Avant le projet, le management
pensait avoir 13 millions de clients, estimation basée sur les informations
disponibles. Lors du projet, les équipes ont découvert beaucoup denregistrements
dupliqués dans les bases et il a fallu réduire de 5 millions le nombre de clients
de la compagnie à la fin du projet.
Un processus danalyse de
risque peut être rendu inopérant
à cause de données non fiables.
Il est important de connaître les
liens juridiques qui existent
entre les sociétés de votre base
Clients. Un risque limité sur
lencours de la société Services
& Systèmes peut devenir très
important une fois consolidé au
niveau de la structure Telcom
Associates SA. De même,
lancer une procédure juridique
pour un encours de 10000
sur la société MobPhone peut
avoir des impacts critiques dans
les relations stratégiques avec
la société mère qui génère un
chiffre daffaires de plus de 1
million deuros.
La récente crise des subprimes a provoqué une crise de confiance générale dans
le système financier, une chute des marchés financiers et une crise de liquidité
bancaire. Cette crise, ajoutée aux scandales financiers précédents et aux faillites
dentreprises comme Enron en 2001, a justifié le besoin de meffre en oeuvre
des procédures de respect et de conformité aux régulations. Ces lois et régulations
ont renforcé la responsabilité juridique et pénale des dirigeants. La direction
financière doit aujourdhui produire en temps voulu, des rapports reflétant
la situation financière exacte de lentreprise. Il faut donc meffre en place
des processus de contrôles internes tout en réduisant les coûts additionnels
et la complexité de création de ces rapports. En outre, les procédures daudit
requièrent de pouvoir justifier létat des données utilisées pour produire ces
rapports réglementaires. La qualité des données utilisées prend ici aussi toute
sa valeur.
Analyse de lemploi public et de son évolution Observatoire de lemploi public
- 2005
Un enjeu stratégique
« Aujourdhui, 16 % des entreprises ont
mis en place un programme de qualité de données »
Depuis de nombreuses années, les DSI reconnaissent limportance de la qualité
des données comme élément fondamental de leur stratégie de gestion de linformation.
Toutefois, il leur est difficile de mettre en place les procédures et les programmes
adéquats. Une étude récente6 montre quà ce jour seulement 16 % des entreprises
ont mis en place un programme de qualité de données. En revanche, dans une projection
à trois ans, près de 80 % en auront un.
Dans le chapitre précédent, nous avons vu que la non-qualité des données avait
des impacts très importants sur la performance de lentreprise. Ainsi interrogées7,
les entreprises dans leur grande majorité identifient des problèmes de confiance
limitée des utilisateurs, de mauvaise productivité, de prises de décision plus
difficiles, et de coût de possession plus élevé, comme conséquences directes
de la non-qualité de leurs données. Il est clair que la mise en place dun programme
damélioration de la qualité des données apportera des bénéfices importants
pour les organisations. Il faut maintenant convaincre la direction générale
et les directions métiers de lutilité dun tel programme. En effet, la qualité
des données est rarement une priorité pour les directions métiers. Il est fréquent
dentendre des remarques telles que « Nos données sont de qualité suffisante
» ou « On les nettoiera plus tard ».
Cette différence dappréciation de limportance de la qualité des données vient
peut-être de la différence de point de vue entre les directions métiers et linformatique.
Chacun a des priorités différentes et personne nest responsable de la problématique
globale.
Un enjeu de Iinformatiqu lernent?
Lentreprise a besoin de son système dinformation pour supporter sa stratégie,
ses processus et son développement. Parties intégrantes de lorganisation, les
applications et systèmes devenus très complexes gèrent des volumes de données
considérables difficiles à manipuler. Les données gérées sont dynamiques et
changent souvent. Lintégration des sources de données extérieures émanant des
partenaires na pas simplifié les opérations. Les nouveaux canaux Internet dinteraction
avec les clients ont multiplié les risques potentiels de corruption. Le respect
des lois, en particulier celles sur la protection des données personnelles,
exige de mettre en place des mécanismes stricts de contrôle de lintégrité des
données. Il en résulte que, pour de nombreuses directions métiers, lorigine
et la fiabilité des données ne sont plus toujours clairs. Du côté des métiers,
le problème est essentiellement identifié comme « informatique ». On entend
souvent des remarques telles que « Ces données viennent de lapplication, elles
doivent être correctes », « Les données sont erronées. Je vais demander au département
informatique de les corriger » ou «Voilà une technologie qui va me garantir
des données de qualité ».
En revanche, la direction informatique nest pas directement impactée par la
mauvaise qualité des données. Les programmes et les procédures ne peuvent que
gérer les données sans pouvoir garantir leur qualité. Cest le principe «
Garbage In- Garbage Out», anglicisme pouvant se traduire par déchet à lentrée,
déchet à la sortie, utilisé pour qualifier le fait que dans le domaine des données,
de mauvaises données au départ de la chaîne ne peuvent générer que de mauvais
résultats en fin de course. En effet, la DSI ne possède pas la connaissance
et lexpertise des activités gérées par les directions métiers. Elle ne connaît
pas les règles métiers associées aux données. La réponse technologique seule
nest en aucun cas suffisante pour garantir la qualité des données.
6 Accenture dO Survey 2007
2006-07 Scorecards for Data Governance in the Global 5000 CDI Institute
Linitiative Qualité des Données
Pour exploiter au mieux son capital de données, lentreprise doit lancer
une initiative Qualité des Données. Stratégique pour lentreprise, cest un
programme permanent et pas une mesure isolée dans le temps. Elle concerne de
nombreuses fonctions métiers et informatiques dans lentreprise. Elle nécessite
de définir des processus formels de qualité des données appliqués par la direction
informatique et les directions métiers. Cette initiative est supportée par des
solutions technologiques qui permettent dagir sur lensemble des projets :
de la standardisation des données, au profilage, en passant par le nettoyage,
jusquà lenrichissement.
Il faut définir les règles de gestion des données de lentreprise. Elles sont
édictées pour garantir la qualité de complétude, conformité, cohérence, exactitude,
non-duplication et intégrité des données. Cest le programme de gouvernance
des données. Pour garantir son efficacité, ce programme doit inclure un comité,
un ensemble de procédures et leur plan dexécution. Autour des données, le programme
doit mettre en pratique les contrôles de qualité de données et diffuser les
bonnes pratiques. Il est articulé autour de deux approches:
Une approche proactive incluant les bonnes pratiques à appliquer quand de
nouvelles données sont générées, de nouveaux projets affectant les données sont
lancés ou des actions de qualité sont effectuées
Une approche réactive incluant les actions de correction de non qualité, les
actions de mise en
conformité suite à de nouveaux règlements, les actions dintégration suite à
la mise en oeuvre des nouvelles architectures orientées-services (SOA).
Dune manière générale, linitiative Qualité des Données doit couvrir les aspects
suivants
Définition les objectifs de qualité des données
Définition, mise en place et gestion des standards de qualité
Vérification de la conformité réglementaire avec les standards de qualité
qui ont été définis
Identification des domaines damélioration de la qualité des données
Mise en place des indicateurs de qualité des données
Mesures et publication des rapports pour le management
Sensibilisation et formation des équipes sur la problématique de qualité des
données
La méthode
Il existe de nombreuses méthodes pour identifier, mesurer et résoudre
les problèmes de qualité des données. Souvent, les entreprises ont développé
de manière empirique des programmes damélioration de la qualité des données
pour répondre à un problème critique à un moment donné. Les praticiens et les
universitaires se sont penchés sur le problème de la qualité en général et des
données en particulier et ont développé des méthodologies adéquates. On peut
citer ici la méthodologie TIQM8 dlnfolmpact ou le programme TDQM9 développé
et enseigné au Massachusetts Institute of Technology.
Toutes les méthodes damélioration de la qualité de données comprennent un cycle
de quatre étapes:
Définition
Dans cette étape, lentreprise définit comment mesurer la qualité des données
afin de répondre aux besoins des utilisateurs. Elle décide des axes prioritaires
de travail.
8 www.infoimpact.com/tiqmmethodoIogy.cfm
web.mit.edu/tdqm/
Mesure
Il faut maintenant mesurer la qualité des données dans les projets en ligne
avec la stratégie de lentreprise et suivant des critères et des mesures définis
par les utilisateurs.
Analyse
Lorganisation évalue limpact et les coûts de la non-qualité pour les directions
métiers. Elle prépare aussi les plans damélioration de cette qualité. Lobjectif
est de présenter aux responsables concernés le business case du projet damélioration.
Amélioration
Dans cette étape, lentreprise exécute les projets damélioration et de correction.
Elle met en place les outils de mesure. Elle vérifie les indicateurs de succès
et restitue les résultats pour les décideurs.
Définir la qualité?
Dans une démarche de qualité, il est important de définir clairement
les caractéristiques attendues ainsi que les critères dévaluation de la qualité
des données. Il est ensuite plus facile de meffre en oeuvre les mesures de suivi
et les plans dactions de correction.
Do n n ées, info tio ils et con lia issaji cs
Commençons par définir les concepts de donnée, dinformation et de connaissance.
une donnée est une description élémentaire, souvent codée, dune chose, dune
transaction daffaire, dun événement, etc. Les données peuvent être conservées
et classées sous différentes formes : papier, numérique, alphabétique, images,
sons, etc.
Linformation représente les données transformées sous une forme significative
pour la personne qui les reçoit : elle a une valeur pour ses décisions et ses
actions
Bien que la définition de la connaissance fasse encore débat parmi les philosophes,
dans le monde de lentreprise cest le traitement des données et des informations
qui permet de générer des connaissances : un moyen de compréhension ou dapprentissage
dun problème ou dune activité.
Lidée générale est de gérer les données comme un actif de lentreprise au même
titre que ses produits, ses employés, ses clients. Il faut donc comprendre les
besoins des clients (ici les utilisateurs), créer des familles de données, cest-à-dire
toutes les données associées (Figure 3) et les gérer dans leur cycle de vie
complet. On doit nommer un steward de données ayant un rôle similaire à un chef
de produit.
Qualité des données
Une fois les données définies, nous pouvons expliciter ce qui fait leur
qualité. Cest un terme générique décrivant à la fois les caractéristiques des
données : complètes, fiables, pertinentes, à jour, cohérentes, mais aussi lensemble
des processus qui permet de garantir ses caractéristiques. Le but est dobtenir
des données sans doublon, sans fautes dorthographe, sans omission, sans variation
superflue et conformes à la structure définie.
Les données sont dites de qualités si elles satisfont aux exigences de leurs
utilisations. En dautres termes, la qualité des données dépend autant de leur
utilisation que de leur état. Pour satisfaire à lutilisation prévue, les données
doivent être exactes, opportunes et pertinentes, complètes, compréhensibles,
et dignes de confiance. La Figure 4 illustre les nombreux aspects de la qualité
des données.
etrenc.
S.mntiqij. II CntrôIe des versrons Interprétabilité
Alias
Orgin
. Qualité des Données
Disponibilité des systèmes ndardisti6n
CohéenGe
ud
lit
Figure 4 - Les dimensions de la qualité des données
Pour définir les problèmes de qualité dans votre entreprise, il est recommandé
de définir les dimensions possibles et leur importance
Duplication : les données sont répétées. Lentité est gérée par plusieurs
systèmes dinformations sous des identifiants différents et donc sa vue nest
pas unifiée.
Standards: les valeurs sont correctes par rapport à un intervalle de répartition
ou à un domaine. Par manque de standards de codification, lentreprise « Les
chantiers Techniques de Marseille » peut apparaître comme « Ets CTM », « C.T.M.
» ou « CTM SA»
Intégralité : toutes les données nécessaires sont disponibles pour le besoin
métier. Il est impossible deffectuer une campagne de-mailing avec une base
de données clients ne contenant pas ladresse email.
Exactitude: les données représentent la réalité ou sont vérifiables à partir
dune source externe. Le code postal ne correspond pas à la localité, le téléphone
a changé ou le SIRET na pas été mis à jour lors du déménagement de lentreprise.
Interprétabilité: une donnée doit être représentée sous un format cohérent
et sans ambiguïté. Par exemple, affichée sous la forme 11/12/1 963 sur lécran
du responsable du personnel de Paris, la date de naissance dun employé est
exacte, mais doit être affichée 12/11/1 963 sur lécran de son collègue américain.
Opportunité: les données sont à jour au moment de leur utilisation. Le rapport
mensuel des ventes doit inclure tous les résultats actualisés du mois pour toutes
les régions commerciales.
Les données doivent avoir la qualité nécessaire pour supporter le type dutilisation.
En dautres termes, la demande de qualité est aussi importante sur les données
nécessaires à lévaluation dun risque que sur celles utilisées dans une opération
de marketing de masse.
Indicateurs et Mesures
A partir de ces définitions théoriques, les organisations doivent créer
leurs propres définitions opérationnelles en fonction des objectifs et priorités
de lentreprise, afin de définir les indicateurs pour chacune des dimensions,
et vérifier par des mesures régulières leur évolution dans le temps.
Chaque dimension peut être mesurée soit de manière subjective en recueillant
la perception des utilisateurs, soit de manière objective au travers de suivis
automatiques des indicateurs spécifiques. La Figure 5 donne des exemples dindicateurs
de qualité suivant différents critères.
Figure 5 - Exemples dindicateurs de qualité
Une fois les indicateurs définis, il faut mettre en place un système de
mesure qui permette de
surveiller leur évolution dans le temps. La publication des indicateurs de qualité,
leur cible et leur
évolution permettent de définir les plans daction éventuels à mettre en oeuvre
pour corriger une
situation. La Figure 6 montre un exemple dindicateur et son évolution dans
le temps.
Encore 180 articles en erreur
Figure 6 - Mesures dun indicateur
10
|
Critères de Qualité des Données
|
Caractéristiques
|
Exemples dindicateurs
|
|
Opportunité
|
Lâge des données est-il conforme aux besoins métiers?
|
Date de la collecte des données
Date du dernier traitement
Contrôle de la version
|
|
Intégralité I Complétude
|
Est-ce que toutes les données nécessaires sont disponibles ?
|
Intégralité des valeurs optionnelles
Nombre de valeurs non renseignées
Nombre de valeurs par défaut par
rapport à la moyenne
|
|
Cohérence
|
Quelles sont les données sources des informations contradictoires?
|
Vérification de plausibilité Valeur de la déviation standard
|
|
Exactitude
|
Les valeurs représentent-elles la réalité?
|
Fréquence des changements de
valeur
Réaction (feedback) des clients
|
|
Interprétabilité
|
Les données sont-elles compréhensibles par les utilisateurs?
|
Valorisation des données utilisateur Violation de domaines
|
|
Standardisation, conformité
|
Quelles sont les données saisies, stockées ou affichées dans un format
non standard?
|
Certificat de conformité
|
|
Duplication
|
Quelles sont les données répétées?
|
Nom bre denregistrements dupliqués
|
Avec ces rapports, lorganisation est capable de déterminer les domaines
damélioration et les plans dactions associés, afin de remédier aux problèmes
de qualité ainsi mis en évidence.
La gouvernance
Dans le cadre de linitiative qualité de données, lentreprise définit
son modèle de gouvernance, cestà-dire son modèle de pilotage formalisé des personnes,
processus et techniques pour faciliter la capacité à sappuyer sur les données
comme un atout majeur pour lentreprise.
Rôle la direction générale et des directions opératio elles
Pour lancer cette démarche, deux garanties de succès doivent être réunies :
le sponsoring de la direction générale, et limplication de tous les acteurs.
Il faut, pour convaincre la direction générale, prendre le temps de mesurer
limpact de la non-qualité et surtout démontrer que la qualité est source de
compétitivité pour lentreprise. Reste ensuite à faire preuve de pédagogie auprès
des directions opérationnelles. Le directeur général ou le directeur des opérations,
propriétaire des données, ne simplique pas au quotidien dans la qualité des
données. Cependant il doit sassurer que linitiative est lancée, et créer un
comité Qualité des Données.
Le comité Qualité des Données
Le modèle de gouvernance doit comprendre une structure organisationnelle
qui est chargée de lamélioration de la qualité des données dans lentreprise.
Le comité Qualité des Données (Figure 7) est sous la responsabilité dun sponsor,
généralement nommé par un membre de la direction générale qui gère linitiative.
Le sponsor doit avoir une influence sur lensemble des directions métiers. Le
comité a la responsabilité de la qualité des données de lentreprise. Il définit
les objectifs et priorités, Il sassure que tous les projets incorporent la
gestion de la qualité des données dans leurs processus de saisies, de transformations
et de restitutions. Il sassure également de la disponibilité des financements
nécessaires à linitiative. Il se réunit régulièrement pour assurer le suivi
sur la qualité et faire le point sur les actions damélioration. Il décide des
nouvelles priorités.
- - -
Figure 7 - Comité Qualité des Données
Ce comité est constitué dexperts issus des principales directions de lentreprise,
les stewards. Ces derniers sont responsables des données relevant de leur domaine
dexpertise. Ils sont responsables de la définition et de la surveillance des
mesures et indicateurs de qualités des données de leur domaine, et coordonnent
les plans dactions damélioration des indicateurs. Lanalyste Qualité des Données
est un professionnel de la DSI. Il met en application les règles métiers définies
par les stewards dans les outils de profilage et de nettoyage.
Le socle technologique
Après avoir convaincu la direction générale et les directions métiers de
limportance de la qualité des
données, après avoir mis en place la structure organisationnelle pour supporter
linitiative, il est temps
dévaluer les solutions technologiques. La mise en place dune technologie de
qualité des données
doit permettre de
Faire les diagnostics et lévaluation des problèmes de qualité
Supporter les efforts dintégration sur toutes les sources de données
Automatiser le traitement des erreurs dans les processus dextraction et de
rechargement
Définir un framework pour capturer et gérer lensemble des erreurs liées à
la mauvaise qualité des données
Procurer un cadre pour mesurer lévolution des indicateurs qualité dans le
temps
Fournir des indicateurs de confiance sur la qualité des données utilisées
Les fonctions des outils
La plupart des solutions technologiques de qualité des données intègre
des outils qui offrent les fonctions de qualité des données suivantes
Profilage (Profihing): analyse de la qualité des données afin de déterminer
les domaines damélioration
Standardisation: moteur de règles qui sassure que les données sont conformes
à des règles de qualité
Nettoyage (Cleansing) : détection et correction des données corrompues
ou inexactes
Rapprochement (Matching) : comparaison et rapprochement des données
pour découvrir des duplications éventuelles
Enrichissement: utilisation de sources externes pour améliorer la complétude
des données
Décomposition (Parsing) : identification, vérification et décomposition
un par un des éléments des zones de saisie libres
Surveillance (Monitoring) : suivi de la qualité des données dans le
temps et production de rapports de qualité
Les outils de profilage des données analysent létat des données dans
les bases de données ou les fichiers. Ils collectent des statistiques et des
informations sur les données afin danalyser si elles sont de qualité suffisante
pour être utilisées dans dautres contextes. Ils analysent la conformité des
données par rapport aux standards de lentreprise et aux définitions de ces
champs (metadonnées). Ils identifient les dépendances avec les autres sources
de données et évaluent les duplications dinformation.
En utilisant les règles définies par les métiers, les outils de standardisation
et de validation automatisent le processus de vérification et de correction
des données afin que les abréviations soient standardisées, les données correctement
orthographiées et les modèles de formatage correctement utilisés. Ils valident
les valeurs des données par rapport à un intervalle de répartition ou à un domaine
(par exemple : validation des adresses suivant les standards postaux).
Les outils de nettoyage permettent de détecter et de corriger (ou de supprimer)
des enregistrements corrompus ou inexacts dune base de données ou dun fichier.
Les erreurs détectées ont pu être créées dans des environnements applicatifs
hétérogènes, saisies en erreur par un utilisateur ou corrompues lors dune transmission
ou du stockage. Lobjectif du nettoyage est de rendre la source de données cohérente
avec les autres sources de lentreprise. Les outils de nettoyage sont utilisés
a
posteriori sur les données, à la différence des outils de standardisation et
de validation qui sont utilisés lors de la saisie des données.
Les outils de rapprochement permeffent de comparer des données de sources différentes.
Ils permettent didentifier les relations entre les enregistrements de données
afin de les dédupliquer ou de réaliser des traitements par groupe. Ils permeffent
didentifier les enregistrements qui décrivent la même entité.
Les outils de décomposition permettent de transformer un champ de saisie contenant
des données multiples dans une structure généralement arborescente utilisée
par les applications. Par exemple, les outils de parsing peuvent être utilisés
pour reconnaître dans un champ les données dadresses, des mesures, des quantités
ou des références produits.
De même, les outils denrichissement permeffent dajouter à des enregistrements,
des données en provenance dautres sources internes ou externes.
Enfin, les outils de surveillance permeffent didentifier et de réagir immédiatement
aux problèmes avant que la qualité des données ne se dégrade. Ils permeffent
de suivre lévolution des données dans le temps et de déterminer leur détérioration
éventuelle. Ils identifient les tendances sur la qualité des données et alertent
sur les violations des règles de qualité définies.
Il est clair que ces différents outils qui gèrent les différents aspects de
la qualité des données ne sont pas indépendants les uns des autres. La Figure
8 illustre limbrication des différentes étapes qui amènent à une vue unique
des informations Client dans un processus bancaire.
Formulaire Web
André dupont
Telco sa
18 av des champs
Tourcoing
Identification Consolidation
Prénom : André Nom André P. Dupont
Nom Dupont Société : Telco SA
Société : Telco SA Domicile : 18 avenue des Champs
Adresse: 18 avenue des Champs 59200 Tourcoing
4 Code postal :59200 Bureau Zone industrielle Nord
ff Ville : Tourcoinçj rue des petits champs
59000 Lille
Enrichissement Date de naissance: 21juin 1965
- W de compte :00250001245 Téléphone privé 0212457899
Téléphone: 0212457899 Telephone bureau 02 1587 2002
I e.Mail : adupont3©free.fr e.Mail adupont@tree.tr
Enfants, date naissance Elodie 12105194
ÇAgence 025 Tourcoing Gare
Rapprochement Ouverture du compte 07/05/2004
Solde Compte I 225,45
André Paul Dupont
TelcosA
Type de compte : Epargne
Elodie Dupont
Date de naissance : 12mai1994
Type de compte : Jeune
Hélène Dupont
Type de compte Courant
18 rue des champs, 59200 Tourcoing
Figure 8 - Un processus de qualité
Une infrastructure de qualité
Les services de qualité des données sont au centre de linfrastructure
informatique. Lentreprise doit maintenant définir son architecture de données
et linfrastructure technique associée, en particulier lensemble des services
qui garantissent leur qualité. Au-delà des services daccès et dintégration,
il faut maintenant mettre en oeuvre des services de qualité lors de la saisie,
du traitement et de la restitution des données. La Figure 9 décrit le rôle central
des services de qualité dans larchitecture globale de données.
Sources
Externes
Source
Services
de Qualité
Figure 9 - Les services de qualité des données
Au-delà de la vision produit, on doit passer dune logique de projet à une
logique dentreprise. Cette vision de plate-forme de service doit définir les
briques logicielles pour répondre aux besoins métiers de qualité des données.
Du point de vue technique, il faut sassurer que limplémentation permette linteropérabilité
avec les outils dintégration de données (ETL, ElI, ESB...), ainsi quavec lensemble
des applications métiers, patrimoniales, les data warehouses et autres data
marts.
4
Services dintégration
Sources internes
Source 1
Source 2
I
Source
Rapprochemelit
Enrichissement
Stand&disation
Nettoyage
Réplication1
Parsing
Profilage
Fédération
- Surveillance
Scénarios de mise en oeuvre
La qualité des données a souvent été analysée de manière isolée pour répondre
à la problématique dun département ou localement sur une base de données. Historiquement,
les outils ont été déployés dans les silos applicatifs en mode batch comme une
étape dun processus déconnecté. Ce manque de coordination et léclatement des
systèmes dinformation renforce les risques de duplication, augmente la difficulté
de mise à jour, génère une perte de contrôle de conformité. Pourtant les utilisateurs
travaillent sur des données en provenance de sources multiples dans ces systèmes
et applications distribués. Les directions métiers demandent que toutes les
données de lentreprise soient disponibles, accessibles, réutilisables et à
jour. Les nouveaux projets informatiques exploitent des données collectées pour
un objectif particulier dans des applications dun autre domaine comme la Business
Intelligence ou la gestion de la relation client.
Cette omniprésence des données au coeur de tous les domaines dactivité indique
clairement que lamélioration de leur qualité doit être un processus permanent
répondant à un besoin global de lentreprise. La gestion de la qualité des données
fait donc partie des projets structurants de lentreprise. Que ce soient lefficacité
des départements marketing et commercial par la mise en place dun data warehouse,
lamélioration des performances opérationnelles dun projet de gestion des données
de référence (Master Data Management), en passant par loptimisation du service
aux clients par linstallation dun outil de GRC (CRM) ou encore la nécessité
de fournir des informations transparentes dans le respect des contraintes réglementaires,
toutes ces initiatives nécessitent des données fiables et cohérentes entre elles,
et par conséquent, de qualité.
Pour démarrer cette initiative, étant donné que les données de qualité sont
au coeur de tous les grands projets stratégiques de lentreprise, il est donc
dautant plus recommandé de la lancer simultanément à un projet stratégique.
Cela permet de justifier lanalyse globale des données de lentreprise et daffecter
en priorité des projets de résolution des problèmes identifiés, en cohérence
avec la stratégie métier. Linitiative permet ainsi de réaliser le projet sur
des fondations solides : des données de qualité.
Plusieurs domaines stratégiques sont dépendants de la mise à disposition et
du maintien de données
de qualité
La business intelligence
La conformité réglementaire
Les données de référence (master data)
Le service aux clients
La consolidation et lintégration de données
Business InteIIience&Data W rehouse
Linformatique décisionnelle (BI pour Business Intelligence) désigne les
moyens, les outils et les méthodes qui permettent de collecter, consolider,
modéliser et restituer les données dune entreprise, afin doffrir une aide à
la décision et de permettre aux responsables de la stratégie davoir une vue
densemble de lactivité traitée.
Ce type dapplication utilise en règle générale un entrepôt de données (data
warehouse) pour stocker des données transverses provenant de plusieurs sources
hétérogènes et fait appel à des traitements lourds de type batch pour la collecte
de ces informations.
Les applications classiques « dentreprise » permettent de stocker, restituer,
modifier les données des différents départements opérationnels de lentreprise
(production, marketing, facturation comptabilité, etc.). Ces départements possèdent
chacun une ou plusieurs applications propres, et les données y sont rarement
structurées ou codifiées de la même manière que dans les autres départements.
Chacun dispose le plus souvent de ses propres tableaux de bord et il est rare
que les indicateurs (par exemple : le chiffre daffaires sur un segment précis
de clientèle) soient mesurés partout de la même manière, selon les mêmes règles
et sur le même périmètre.
Pour pouvoir obtenir une vision synthétique de chaque service ou de lensemble
de lentreprise, il convient donc que ces données soient filtrées, croisées
et reclassées dans un entrepôt de données central. Cet entrepôt de données va
permettre aux responsables de lentreprise et aux analystes de prendre connaissance
des données à un niveau global et ainsi de prendre des décisions plus pertinentes.
Il est clair que linitiative Qualité de Données trouve toute sa place dans
le projet de Data Warehouse. Dune manière générale, la qualité des données
est de la responsabilité de léquipe du projet. En effet, cette dernière doit
préparer pour les utilisateurs, des données exploitables et donc de qualité,
le succès du projet en dépendant. La qualité des données permet tout dabord
de filtrer les données pour ne conserver que les bonnes données. Par
ses processus de contrôle, elle permet également de valider que le projet est
bien en ligne avec les besoins des utilisateurs en mettant à disposition des
données bien choisies, accessibles, complètes et en temps utile. Par la mise
en place dindicateurs et métriques associés, elle permet enfin de vérifier
que les utilisateurs comprennent la structure de lentrepôt et quils peuvent
accéder aux données facilement.
La gouvernance dentreprise et les questions de
transparence de linformation financière sont au centre des
débats depuis quelques années en France. Léclatement de
la bulle financière a déstabilisé les marchés et entâché la
confiance des investisseurs. De plus en plus de données,
généralement très dynamiques, issues de nombreuses
applications sources, sont utilisées pour gérer les processus
danalyse de risques et de conformité réglementaire. Un
ensemble de normes et de réglementations dont le nombre
saccroit régulièrement contrôle lactivité des entreprises, Il
oblige les directions générales et leurs directeurs financiers
à envisager les notions de risque et de conformité
réglementaire sous un aspect global et dans le cadre
général de lentreprise.
Ces nouvelles exigences placent les entreprises dans
lobligation danalyser en détail leur «chaîne dinformation ».
Elles doivent être en mesure de tracer linformation émise et
de remonter la chaîne pour identifier les données et les
décisions prises à partir de linformation.
Ici encore, linitiative Qualité des Données a un rôle
primordial dans la gestion des risques et la conformité
réglementaire. Il semble difficile de gérer la conformité
réglementaire sans faire confiance aux données. De plus,
consolider des informations nécessite que chaque entité
partage les mêmes définitions. Au-delà de laspect obligatoire les entreprises
nont pas dautre choix que dappliquer lois et règlements il sagit dexploiter
ce besoin de conformité pour améliorer la profitabilité et lenvironnement de
prise de décision. Linitiative permet de gérer dune manière intégrée et globale
la qualité des données. Elle donne les moyens de mesurer et surveiller cette
qualité. Par exemple, lévaluation de la qualité des données fait partie de
la directive Bâle Il. La démonstration du niveau de qualité des données par
un processus documenté est certainement un point de contrôle externe appréciable.
Enfin, linitiative Qualité des Données permet dagir sur les domaines identifiés
daméliorations sans impacter la qualité actuelle.
Bâle II
Les règles de transparence imposées par les directives européennes Bâle
Il implique de mettre en place un processus de consolidation des vues risques,
comptables et financières des données qui doit reposer sur des
données «dignes de
confiance ».
Lorganisme financier devra
prouver a posteriori la validité de ses méthodes définies a priori, en fonction
de ses données statistiques et cela sur des périodes assez longues (5 à 7 ans).
Elle devra en outre être capable de tracer lorigine de ses données.
Suivant le même canevas, de nouvelles normes Solvabilité Il sont en cours de
discussion pour les sociétés dassurance et de réassurance.
Données de référence
Aujourdhui les frontières entre les services, les canaux de distributions et
les départements des organisations disparaissent. Il sagit doptimiser la participation
et les interactions entre tous les services au-delà des frontières administratives
ou techniques. Tous les acteurs doivent partager un langage commun autour des
entités gérées par lentreprise : ses clients, ses produits, ses entités légales,
ses employés, etc. De même, les équipes informatiques tentent de réduire limpact
des silos isolants les différents systèmes applicatifs (ERP, CRM, SCM, etc.).
On assiste aujourdhui à une demande croissante, tant du côté des métiers que
du côté de linformatique, de la création et la gestion dun ensemble de données
de référence (Master Data Management MDM). Lobjectif dun projet de MDM est
doffrir à lorganisation une vue unique et unifiée des données à partir des
multiples applications opérationnelles.
Linitiative Qualité des Données a un rôle fondamental dans le projet de MDM.
Elle permet de standardiser, vérifier et éventuellement corriger les données
en provenance de multiples sources opérationnelles. Elle permet également de
faire les rapprochements de différents éléments des entités et de résoudre la
duplication des données sur les clients et les produits dans un enregistrement
de référence. Les projets de MDM se focalisent généralement sur laccès et la
transmission des données. Avec le support de linitiative Qualité des Données,
le projet MDM offre de meilleures données dans le référentiel général et par
delà, une meilleure image de la réalité de lentreprise.
Service aux clients
Afin de développer une stratégie centrée sur ses clients qui valorise, fidélise
et personnalise les relations, lentreprise doit disposer de toutes les informations
clients et maîtriser toutes les interactions avec ces derniers. Les outils de
gestion de la relation clients (Customer Relationship Management CRM), les
applications marketing, les centres dappels permettent de créer et entretenir
une relation mutuellement bénéfique entre lentreprise et ses clients. La faible
qualité des données liées aux relations entre lentreprise et ses clients peut
compromettre la rentabilité de linvestissement des projets de services aux
clients, voire de détériorer les relations.
Il est critique dassembler, présenter et maintenir des données lors de toutes
les interactions avec les clients, depuis lorthographe correcte du nom du client
jusquaux mises à jour dynamiques des listes de prix sur le site Web de lentreprise.
Ici encore, le dynamisme de la base de données nest pas à négliger. Conserver
les données clients exactes dans le temps est un défi important. Il est impératif
de mettre en oeuvre un programme de gestion de la qualité des données clients
qui évalue et met en place des processus de maintenance permanente de cette
qualité (conversion, formatage, nettoyage, déduplication, etc.).
CoIidt9netmtegati9n
Le succès dune fusion ou dune acquisition réside en grande partie dans la
rapidité dunification et dassimilation des deux organisations dans une entité
unique. Le facteur temps est en effet un élément critique dans lévaluation
du retour sur investissement de la fusion. En parallèle et en support de lorganisation,
la direction informatique est au défi dintégrer les systèmes et applications
de chaque entreprise rapidement. Ici encore, la qualité des données est sur
le chemin critique de cette unification. Il faut pouvoir homogénéiser les sources,
permettre léchange et lintégration des données entre les deux entités et garantir
laccès à des données standards pour toutes les fonctions et directions. Il
faut aussi permettre dobtenir une vue unique des données de référence pour
toutes les entités opérationnelles et les différentes filiales à létranger.
De la même manière, lexploitation des applications patrimoniales dans les nouvelles
architectures, la consolidation des environnements pour réduire les coûts dexploitation,
le partage de données au-delà des frontières de lentreprise nécessaire pour
intégrer et automatiser la chaîne dapprovisionnement, rendent la qualité des
données incontournable. Des données de mauvaise qualité affectent la performance
globale des professionnels. Les responsables ne font pas confiance aux informations
Loffre Qualité de Données dlnformatica
Informatica Corporation est un éditeur de solutions dintégration et de qualité
de données dentreprise qui permettent aux organisations daccéder, intégrer,
migrer et consolider les données générées et utilisées par lensemble de leurs
systèmes, processus et collaborateurs. Ces solutions permeffent de réduire la
complexité, garantir la cohérence et accroître la performance globale des activités
des entreprises. Acteur historique sur ce marché, Informatica a complété son
offre sur la qualité des données, à la suite du rachat de la société Similarity
Systems en janvier 2006 qui avait elle-même acquis les actifs de la société
Evoke Software fin 2005. Informatica propose aujourdhui lensemble des services
de qualité des données grâce à ses produits Informatica Data Explorer et Informatica
Data Quality.
Les offres de qualité des données complètent les offres traditionnelles dlnformatica
Informatica PowerCenter la plate-forme dextraction, transformation et chargement
(Extract, Transform, Load ETL). Elle permet aux organisations daccéder et
dintégrer des données à parfir de presque tout système dentreprise, et ce,
quel quen soit le format, puis de les transmettre à toute lentreprise au moment
voulu.
Informatica PowerExchange fournit « à la demande » un accès immédiat à tous
les systèmes de données critiques de lentreprisemainframes, bases de données
relationnelles, systèmes à base de fichiers, etc.
Informatica Data Explorer et Informatica Data Quality apportent des capacités
de diagnostic des données afin de comprendre, didentifier, et de localiser
les problèmes pour mieux en qualifier les incohérences et en assurer la correction.
Informatica Data Explorer se concentre sur les tâches de profilage des données
et ses résultats peuvent alimenter un processus dintégration, Il analyse les
données et produit un modèle complètement normalisé des données.
Informatica Data Quality est un outil danalyse, de nettoyage, de correction
et de déduplication de données. Il permet didentifier et de résoudre tout type
de problème de qualité de données, afin de les préparer pour une consolidation
ou un processus de chargement.
ANALYSER ALINER
Analyse structurelle et mapping Nettoyage et surveillance continus de la qualité
de données
Informatica Data Explorer
Informatica Data Explorer permet une évaluation et un profilage approfondis
de multiples sources de données. Informatica Data Explorer accède aux principaux
types de sources de données, notamment fichiers plats, bases de données relationnelles,
mainframe VSAM et IMS.
An alyse r
La qualité des données commence par la compréhension de toutes les données qui
se trouvent dans les systèmes sources. Informatica Data Explorer permet de découvrir
automatiquement et danalyser les données afin de corriger les problèmes de
qualité. Informatica Data Explorer met en oeuvre un processus de profilage qui
consiste à identifier le contenu, la structure et la qualité réelle de lensemble
des données. Ce processus est effectué selon trois dimensions : les valeurs
des attributs de chaque table, les relations entre les attributs de chaque table,
et les données entre les tables pour découvrir les attributs identiques ou se
recoupant.
aligner
A partir des informations collectées lors du processus de profilage des données,
Informatica Data Explorer construit un modèle de données tiers normalisé dans
lequel les redondances non souhaitées sont éliminées. Ce modèle peut alors être
utilisé comme zone intermédiaire pour déplacer des données vers une cible déterminée
ou en tant quentrepôt de données opérationnelles. Lensemble des informations
découvertes sont stockées dans un référentiel. Elles sont disponibles aux processus
de nettoyage (Informatica Data Quality) et dintégration (Informatica PowerCenter).
Informatica Data Quality
Informatica Data Quality fournit aux analystes métiers une plate-forme
pour concevoir, gérer et déployer des processus de qualité de données.
Avec le profil des sources de données, Informatica Data Quality peut mettre
en oeuvre un processus automatisé de nettoyage des données. Le Designer
permet de créer des règles, normes et données de référence relatives à la
qualité de données et de les déployer à lensemble de lentreprise. Il permet
également de gérer des tableaux de bord permettant la mesure et la surveillance
dindicateurs clés de qualité. Le Runtime et le Realtime permettent
de déployer ces programmes de qualité de données en mode batch ou temps réel.
Maintenir
Informatica Data Quality permet une amélioration continue de la qualité
des données au travers de son processus de management itératif et de ses fonctions
de création de rapports. Il est conçu pour être utilisé par les équipes danalystes
de données et les stewards. La solution fournit des tableaux de bord qui assurent
la surveillance des principaux paramètres de la qualité de données (complétude,
conformité, cohérence, exactitude, duplication et intégrité) pour toutes les
données. Les rapports permettent aux utilisateurs de descendre à des niveaux
de détail plus fins pour examiner les enregistrements de mauvaise qualité un
par un, et identifier les problèmes dans le cadre dun processus itératif de
découverte et de nettoyage.
Services
Le recueil de bonnes pratiques Informatica Velocity offre un
cadre dimplémentation des solutions dlnformatica et en particulier des solutions
de qualité des données. Il couvre les principales phases du projet de qualité
de données.
Offres de services
Bien entendu, Informatica dispose dun programme dassistance complet pour
le déploiement de ses
solutions. En particulier, Informatica propose les offres suivantes dans le
domaine de la qualité des
données:
Déploiement dlnformatica Data Quality
Déploiement de Data Cleanse et Match
Audit dlnformatica Data Quality
Quick start de loption Web services dlnformatica Data Quality
Quick start de loption rapports et tableaux de bord dlnformatica Data Quality
Conclusion
En conclusion, lamélioration de la qualité des données de lentreprise passe
par la mise en place dune initiative continue et globale.
Ce livre blanc a évoqué les concepts de qualité des données, son importance
dans les organisations, entreprises grandes ou petites et administrations. Une
mauvaise qualité des données coûte cher et conduit à des ruptures dans les processus,
à des décisions métiers moins pertinentes et à une gestion médiocre de la relation
client. De plus, elle peut invalider les efforts de lentreprise en matière
de conformité réglementaire.
Il est recommandé de sadosser à un grand projet stratégique dans lentreprise
pour lancer une initiative autour de la qualité des données. Mais, cette initiative
peut aussi être menée de façon indépendante. Lidée de démarche et de pérennité
est essentielle et caractéristique de lapproche qualité. Elle va à lencontre
dune opération unique et isolée qui ne permet de nettoyer et daméliorer les
données que ponctuellement. Cela signifie que les objectifs, mesures et indicateurs
associés doivent être portés par lensemble des acteurs concernés et notamment
une implication forte de la hiérarchie.
Cette démarche doit être lancée conjointement par les directions métiers, pour
leurs connaissances des impératifis liés à leur activité et des stratégies de
lentreprise, et la direction informatique, pour son expertise technologique.
Elle passe dabord par la connaissance de données. Il est nécessaire dévaluer
létat des données de votre organisation avec un focus sur laspect de qualité.
Laspect organisationnel est important. Il est crucial de construire une équipe
mixte métier et informatique, le comité Qualité des Données, ayant les compétences
nécessaires et du temps disponible pour satteler à cette tâche. Cette équipe
aura pour mission de définir les principaux indicateurs et mesures de la qualité
des données, justifier les programmes damélioration à mettre en oeuvre et de
mesurer de façon régulière les progrès effectués.
La technologie permet dautomatiser les tâches de contrôle et de nettoyage,
ainsi que la production des indicateurs et des rapports. Elle supporte dune
manière efficace les demandes des directions métiers. Elle prépare, transforme
et propose les informations clés de prise de décision. Mais la technologie nest
quun élément de la solution. Les ordinateurs gèrent les données, les utilisateurs
exploitent les connaissances.
La qualité des données est avant tout un problème métier, pas seulement un problème
informatique. Plus elle sera incorporée aux habitudes et à la culture de lentreprise,
plus la démarche qualité progressera. Paradoxalement, son succès résidera dans
sa banalisation.
A propos de JEMM research et de lauteur:
JEMM research est une société de recherches stratégiques et danalyses opérationnelles,
spécialisée dans les infrastructures logicielles, les systèmes ouverts, et les
approches orientées services. JEMM research conseille les entreprises utilisatrices
sur révolution de leur organisation, dans leur choix darchitecture et de technologies,
les aide dans les étapes du projet dévolution de leur système dinformation,
les accompagne dans le changement, et valide et documente les réalisations.
Par ailleurs, JEMM research aide les éditeurs de logiciels à comprendre, analyser,
définir leurs marchés cibles et à promouvoir leur offres en maximisant leur
chances de succès.
Christophe TOULEMONDE est Directeur du cabinet JEMM research. Avec plus de 20
ans dexpérience dans linformatique, Christophe est un expert reconnu des architectures
orientées-services, spécialiste de linfrastructure et de rintégration dentreprise
(données, applications, processus), du design et de rarchitecture des applications
distribuées et plus généralement de larchitecture dentreprise.
Auparavant, chez Meta Group, il a couvert, pour la zone EMEA, les domaines des
stratégies dintégration et de développement. Pendant 15 ans chez IBM et des
filiales du groupe en France et aux Etats-Unis, il a occupé divers postes de
direction technique et marketing. Il a publié de nombreux ouvrages sur le e-business
et lintégration dapplications.
www.jemmresearch.com
iemminfo@jemmresearch.com Tel : +33 1 39 1648 81
The Data Integration Company
Informatica France : Immeuble Le Linéa, rue du Général Leclerc -
92047 Paris La Défense Cedex (France)
Tél. : + 33 1 41 38 92 00 Fax : + 33 1 41 38 92 01 www.informatica.com/fr
Informatica Division Data Quality : Wilson House, Fenian Street Dublin
2 Irlande Tél. : +353 1 4004900 - Fax : +353 1 4004999 -
wmi.informatica.com
Siège international : 100 Cardinal Way, Redwood City, CA 94063 (USA)
Tél. : + 1 650 385 5000 Fax : + 1 650 385 5500 NVert USA :
+ 1 800 970 1179
wmi.informatica.com
Informatica dans le monde: Allemagne Australie Belgique Canada Etats-Unis
France Japon Pays-Bas Royaume-Uni Singapour Suisse
© 2008 Informatica Corporation. Tous droits réservés. Imprimé en France. Informatica,
le logo Informatica, Informatica Data Quality et Informatica Data Explorer sont
des marques commerciales ou des marques déposées dlnformatica Corporation aux
Etats-Unis et/ou dans dautres pays. Les autres noms de sociétés ou de produits
cités sont la propriété de leurs détenteurs respectifs et peuvent avoir fait
lobjet dun dépôt de marque.
© 2008 Informatica Corporation. Tous droits réservés.
Informatica, le logo Informatica, la signature The Data Integration Company,
PowerCenter, Informatica Data Quality, Informatica Data Explorer et Informatica
Complex Data Exchange sont des marques commerciales ou des marques déposées
d'Informatica Corporation aux Etats- Unis et/ou dans dautres pays. Les
autres noms de sociétés ou de produits cités sont la propriété de leurs
détenteurs respectifs et peuvent avoir fait lobjet d'un dépôt de marque.