Title: Fundamentos de Calidad de Datos
1 Fundamentos de Calidad de Datos
Sesión 3 Gestión de Calidad de Datos Alejandro
Mínguez
2Calidad como Way of life
- Estamos en la era de la calidad, y es esta la que
nos dará una ventaja competitiva, en un mundo
globalizado
3Aunque
- En cualquier proceso de calidad
- Cuanta más inversión de tiempo, mayor calidad,
pero nunca se llega al 100
4Agenda
- Evolución de la calidad de los datos
- Calidad de datos en entornos analíticos DWH
- Cómo aplicar la calidad de datos?
- Otras áreas de aplicación
- Conclusiones y recomendaciones
51 Evolución de la calidad de los datos
6Historia de la Calidad de Datos
- Desde que existen los datos informatizados,
siempre ha existido la preocupación de que sean
correctos. Inicialmente la Calidad de Datos se
realizaba con edición manual o con programas
desarrollados con lenguajes no adaptados para ese
uso, o incluso la edición manual de los datos. - A principios de los 80 se desarrollaron los
primeros sistemas de Calidad de Datos, por parte
del gobierno de Estados Unidos, para regular los
cambios de domicilio, fallecimientos, bodas,
divorcios, etc en un sistema denominado NCOA
(National Change of Address Registry) - La primera vez que se implemento un sistema
especializado en la calidad de datos en España
fue para corregir y/o informar el código postal,
en la dirección de los clientes, de las
principales entidades financieras del país. Este
fue desarrollado a principios de los 90, basado
en un sistema semiautomático, y apoyado por un
departamento de codificación manual, en el que se
utilizaban multitud de listados en papel. La
técnica utilizada era muy primitiva (fuerza
bruta), y no implementaba las metodologías, que
actualmente poseen los sistemas modernos de
calidad de datos.
7Definiciones de Data Quality
- Data Quality refers to the quality of data. Data
are of high quality if they are fit for their
intended uses in operations, decision making and
planning" - 2. The state of completeness, validity,
consistency, timeliness and accuracy that makes
data appropriate for a specific use. Government
of British Columbia - 3. The totality of features and characteristics
of data that bears on their ability to satisfy a
given purpose the sum of the degrees of
excellence for factors related to data. Glossary
of Quality Assurance Terms
www.wikipedia.org
8Qué es la calidad de datos?
- La Calidad de Datos no sólo se refiere a la
ausencia de defectos - Los datos deben proporcionar una visión única
- Debe estar correctamente relacionada e
interrelacionada con todas las fuentes - Los datos deben ser consistentes, completos y
adecuados para su función - Debemos asegurarnos de cumplir normativas y leyes
9Evolución de la Calidad de Datos y la Integración
10Impactos de Negocio
- Riesgo en el cumplimiento normativas
- Sistema de gestión del riesgo
- Sistema de integración del riesgo
- Riesgo en la inversión
- Riesgo competitivo
- Detección del fraude
- Riesgos legales (LOPD)
- Otros riesgos
- Cobro ineficiente
- Mala relación con el cliente
- Pérdida de oportunidades
- Aumento de costes
- Detección y corrección
- Prevención
- Reingeniería de procesos
- Penalizaciones
- Sobrepagos
- Recursos incrementados
- Retrasos
- Cargas de trabajo
- Tiempos de proceso
- Falta de credibilidad
- Temor en toma decisiones
- Menor predictabilidad
- Forecasting incorrecto
- Reporting ineficiente
11Quienes son los responsables del DQ las
organizaciones?
12Futuro inmediato de la Calidad de Datos
- Los problemas de Calidad de Datos son a menudo
ignorados / desconocidos / minusvalorados por la
dirección - Calidad de Datos es una ventaja competitiva
- Falta de una figura responsable
- Se requieren cambios organizativos
- Una compañía debe contar con responsables que
velen por la calidad de los datos de todos los
sistemas de información.
13Otros conceptos Calidad de la Información
- El concepto Calidad de la Información, o IQ, está
surgiendo con fuerza en los últimos años - Se trata del concepto de Calidad de Datos
orientado a los Sistemas de Información, es
decir, a la mejora de la información
proporcionada a la compañía - Algunos expertos extienden el término a lo que
también se denomina Calidad de Metadatos
14Otros conceptos Calidad de Metadatos
- El concepto Calidad de Metadatos surge en grandes
corporaciones que cuentan con miles de atributos
e indicadores - Se trata de una problemática de integración y/o
de herramientas de gestión de metadatos, no de
Calidad de Datos en sí - Objetivos claridad de las definiciones, lenguaje
común, única versión de la verdad, accesibilidad,
disponibilidad, seguridad, auditabilidad.
15En que momento se producen los errores
- En la entrada de datos (Data Entry)
- Incorporación de datos externos
- Errores de carga de los sistemas transaccionales
- Migraciones de datos
16Causas de la creciente mala Calidad de Datos
- Más datos de más fuentes en más sistemas
- ERPs, fuentes externas, web, call centres
- Datos introducidos para un propósito ahora está
siendo aplicados a otras aplicaciones - La Calidad de Datos puede ser relativamente bueno
para los sistemas transaccionales pero no para
sistemas BI o CRM - Mayores niveles de Calidad de Datos requerido
para procesos automatizados - La mala calidad de datos lleva a problemas de
pagos en sistemas ERP, SCM, etc. - Mayor sensibilidad del público
- Los clientes esperan un mejor servicio. Los datos
defectuosos llevan a una pobre gestión del
cliente.
17El impacto de la mala Calidad de Datos
- Impide la Business Intelligence
- Informes erróneos, defectos en el análisis
- Costes de Gestión
- Discrepancias entre aplicaciones puede requerir
trabajos de reconciliación de registros - Daña nuestra relación con el cliente
- Imposibilidad de ofrecer un buen servicio y un
trato personalizado - Imposibilidad de detectar fraudes, sobrepagos,
etc - No puede identificar duplicados, unidades
familiares y corporativas (households), etc - Incumplimiento de normativas
- Regulaciones
- Leyes La calidad de datos es uno de los pilares
fundamentales para el cumplimiento de la LOPD
182 Calidad de datos en entornos analíticos DWH
19Reflejo de la mala calidad de los datos en el BI
20DWH-BI
- Through 2007, more than 50 percent of data
warehouse projects will have limited acceptance,
or will be outright failures, as a result of a
lack of attention to data quality issues Gartner - La toma de decisiones basada en datos incorrectos
puede generar decisiones incorrectas. - Concepto Calidad de la Información
- Beneficios de la Calidad de Datos
- Mejora de la toma de decisiones
- Aumento de la confianza de los usuarios
21Soluciones de Calidad de Datos - Arquitectura
Cuadros de Mando Calidad de Datos
Cliente
Aplicaciones Bases de Datos
Servidor
Runtime
Runtime
Repositorio
Realtime / SOA
Soluciones integración
Diccionarios
22La (r)evolución, Calidad de Datos e Integración
Auditoría, control y creación de informes
Garantizar la coherencia de los datos, realizar
análisis de impacto y supervisar constantemente
la calidad de la información
Calidad
Perfilado
Acceso
Buscar y perfilar cualquier tipo de datos de
cualquier fuente
Validar, corregir y estandarizar, relacionar
datos de todo tipo
A cualquier sistema, por lotes o en tiempo real
Desarrollo y gestión
Desarrollar y colaborar con un repositorio común
y metadatos compartidos
23Calidad de Datos, Donde actúa? ETQL
Reporting Calidad
Visión única del cliente o producto
Aplicación
Reporting
Inteligencia
Servidor DQ
Data Mart
BBDD
Data Warehouse
Almacena- miento
- Calidad de Datos
- Conciliación fuentes
- Lógica difusa
- Scorecarding
- Limpieza
- Enriquecimiento
Operational Data Store
Carga
Transformación
Integración de datos
Extracción
Exploración Análisis Medición
Datos no estructurados
Sistemas externos
Fuentes de datos
CRM
Finanzas
Etc
243 Cómo aplicar la calidad de datos?
25Requerimientos de Calidad de Datos
Localizar relaciones entre registros, como
desduplicación, relación de dos o más tablas,
detección de unidades familiares o corporativas,
Calidad de Datos para cualquier área incluyendo
finanzas, control de gestión y producción
Perfilado, medición y cuantificación del impacto
de la calidad de datos, además de su seguimiento
y monitorización
Limpieza, estandarización, identificación de
datos personales, como nombres, direcciones y
teléfonos
Identificación de relaciones
Suite de Calidad de Datos Corporativa
Fuente Gartner Jun. 2007
26Ciclo de vida de un proyecto de Calidad de Datos
3
6
2
4
- Definir reglas de negocio para
- Conformidad
- Consistencia
- Normalización
- Desduplicación
1
5
27Procesos de Calidad de Datos
Matching
Perfilado de Datos
- Relacionar Consolidar Medir
Analizar - Enriquecer Corregir Estandarizar
Determinar
Datos
Mejora de datos
Limpieza de Datos
28Perfilado de datos
- El perfilado de datos permite localizar, medir,
monitorizar y reportar problemas de calidad de
datos - El perfilado no debe ser sólo el inicio de un
proyecto de Calidad de Datos, es un proyecto en
sí - Existen dos tipos de perfilado
- Perfilado de estructura
- Perfilado de contenido
29Perfilado de Estructura
- El perfilado de estructura consiste en el
análisis de los datos sin tener en cuenta su
significado - El análisis se realiza de forma semi-automática y
masiva - Tipos de análisis del Perfilado de Estructura
- Perfilado de Columnas
- Perfilado de Dependencias
- Perfilado de Redundancias
30Perfilado de Contenido
- El perfilado de contenido analiza con profundidad
el dato y su significado - Requiere una configuración para cada campo a
analizar - Se combina con el uso de diccionarios,
componentes específicos de tratamiento de datos,
separadores, etc
31Etapas del Perfilado de Datos
Integrar
Descubrir
Limpiar
Entregar
Acceder
Proyecto de descubrimiento
Tipo de proyecto
Limpieza Monitorización
Implantación Validación
Integración
Cuadro de Mandos Calidad de Datos
Nivel Actividad Perfilado
P. Estructura
P. Estructura
P. Contenido
P. Estructura
Tipo de Actividad
Análisis de estructura
Análisis de Contenido
Descubrimiento
Monitorización
Desarrollador ETL
Data Steward
Roles
32Perfilado de datos, indicadores de calidad
Qué dato falta o no es útil?
Existencia
Conformidad
Qué dato está almacenado en un formato no
estándar?
Consistencia
Qué datos aportan información conflictiva?
Precisión
Qué datos son incorrectos o están caducados?
Qué datos o atributos están repetidos?
Duplicados
Integridad
Qué información no está referenciada?
33Ejemplo Datos de Cliente
EXISTENCIA
CONFORMIDAD
CONSISTENCIA
DUPLICACION
INTEGRIDAD
PRECISION
34Ejemplo datos de Producto
35Ejemplo datos de Riesgo
For illustration purposes only. Actual reports
featured later in presentation
36Capacidades de Reporting
- Para el perfilado es fundamental una solución de
reporting
37Ejemplo Scorecard Calidad de Datos
38Limpieza y Enriquecimiento de datos
- La limpieza de datos permite
- Determinar y separar elementos de un campo
situándolo en su lugar correspondiente - Estandarizar formatos
- Corregir errores en los datos
- Enriquecimiento de datos
39Determinación y separación de Datos (parsing)
- La determinación y separación de datos consiste
en la descomposición de los distintos elementos
que componen los datos - Por ejemplo, el nombre siguiente
-
- Ingeniero JOSE RODRIGUEZ SILVA
-
- Título Ingeniero
- Nombre José
- 1º Apellido Rodríguez
- 2º Apellido Silva
-
40Estandarización
- La estandarización es la adecuación de un dato a
un formato esperado. - Por ejemplo, el NIF siguiente
-
- 5428846
-
- NIF estandarizado 05428846H
-
41Corrección
- La corrección consiste en el reemplazo de un
elemento erróneo por uno correcto - Por ejemplo, la dirección siguiente
- Calle Tumaco 14, 28010 Madrid
-
- Código postal corregido 28027
-
42Enriquecimiento
- El enriquecimiento consiste en la adición de
datos que no existían - Por ejemplo, el nombre siguiente
- Jose María Gomez Hurtado
-
- Sexo Varón
-
43Matching
- El matching de datos se utiliza para
- Detección de duplicados
- Relación entre dos fuentes de datos que no tienen
campos de unión entre sí - Detección de unidades familiares y corporativas
(Householding) - Se pueden aplicar múltiples criterios para las
relaciones, que posteriormente se pueden asociar
entre sí - Previo al matching es conveniente hacer una
pre-agrupación de la información - Existen dos métodos de matching
- Determinístico
- Probabilístico
44Pre-Grouping
Comparaciones sin pre-grouping
Sin Agrupación A-B, A-C, A-D, A-E, A-F, A-G,
B-C, B-D, B-E, B-F, B-G, C-D, C-E, C-F, C-G, D-E,
D-F, D-G, E-F, E-G, F-G21 comparaciones
Comparaciones con pre-grouping
Con agrupación fonética 1º apellido A-B, A-C,
B-C, D-E, D-F, D-G, E-F, E-G, FG 9 comparaciones
45Matching Determinístico
EVA
SANT LLUIS 90
933116311
?
?
?
?
?
?
SANT LLUIS 9
EVA
933116311
SI coincide(Razón) y coindice(calle) y
coincide(teléfono) y noesdistinto(CIF) entonces
Match positivo
?
46Matching Probabilístico
EVA
SANT LLUIS 90
933116311
100
80
92
50
100
100
SANT LLUIS 9
EBA
933116311
SI media ponderadagt90 entonces match positivo
92
?
47Consolidación
- Cuando se ha usado el matching para la detección
de duplicados, con frecuencia se desea fusionar
estos registros. A esto se le denomina
Consolidación. - Existen dos métodos principales de consolidación
- Registro Superviviente
- Mejor Registro
48Métodos de consolidación
Registro Superviviente
7 8
Mejor Registro
49Un proceso iterativo
Matching
Perfilado de Datos
- Relacionar Consolidar Medir
Analizar - Enriquecer Corregir Estandarizar
Determinar
Datos
Mejora de datos
Limpieza de Datos
504 Otras áreas de aplicación
51Aplicaciones del DQ en las compañías
- Las principales tipologías de proyecto de DQ son
- Calidad de Datos asociada a un proyecto de
integración - DWH-BI
- CRM
- Data Mining
- Migración
- Consolidación
- Sincronización
- Entorno Financiero
- Entornos de Marketing
- Sistemas de Información Geográfica
- Gestión de Datos Maestros
- Calidad de Datos Preventiva
52Requerimientos por tipo proyecto
Madurez Visión Corporativa
Data Governance
High
High
High
High
Análisis Calidad Datos
Calidad Datos General
Identificación de relaciones
Eficiencia del contacto
Low
Low
Low
Low
EDQM
53Conclusiones y recomendaciones
54Resumen
- En resumen
- La Calidad de Datos es fundamental para cualquier
compañía - Ahorro de costes
- Eficiencia
- Cumplimiento de la Ley
- Existe la tecnología y la metodología para
corregir la mala Calidad de Datos - Calidad e Integración una Solución Corporativa
55Resumen Beneficios de la Calidad de Datos
- Corrige errores de manera PROACTIVA e
INDUSTRIALIZADA - Reducción de costes de gestión, de oportunidad,
operacionales, etc - Proporciona una visión única de los elementos de
las bases de datos y da visibilidad de las
posibles agrupaciones que existan - Facilita el cumplimiento de normativas
- Mejora el mantenimiento de clientes y del
servicio ofrecido, además da confianza a los
usuarios de la información - Reduce las ineficiencias operacionales
- Maximiza el éxito de las iniciativas y proyectos
de Datawarehousing, CRM y BI y por consiguiente
se mejora la toma de decisiones - Aumenta el conocimiento de los datos y permite
conocer dónde se están produciendo los errores
56Gartner Calidad de Datos
- Predicción A través de 2008, las organizaciones
incrementarán las iniciativas de mejora de la
calidad de datos, llevados por la presión de las
normativas, por el deseo de la mejora de la
eficiencia y agilidad, y una insatisfacción
general del estado de sus datos corporativos - Claves Organizaciones donde la gerencia de alto
nivel comprende el impacto de la calidad de datos
están mejor posicionados para completar con éxito
programas de mejora de calidad de los datos. - Implicaciones de mercado los datos de alta
calidad (y los conocimientos, organización,
procesos y tecnología para lograrlos) será un
significante diferencial competitivo entre
negocios. Las organizaciones que olviden o
ignoren sus problemas de calidad de datos van a
ser superados por la competencia. - Recomendaciones Las organizaciones deben ver la
calidad de datos como un problema estratégico de
su negocio, y alinear sus recursos a través de la
mejora de calidad de datos. Las actividades clave
incluye el desarrollo de programas de
administración de datos, análisis y medición de
la calidad de datos, mejora de procesos de
negocio y la implementación de tecnología para
soportar los controles de calidad de datos.
57Los factores de éxito
Tecnología
Apoyo
58Apoyo
- Cual es la mejor forma de lograr el apoyo para
un proyecto de Calidad de Datos? - Divulgación interna, principalmente a las
unidades de negocio, tecnología y a dirección - Auditoría de Calidad de Datos
- Análisis y medición de los problemas de Calidad
de Datos de la Compañía - Conclusiones de los problemas de Calidad de Datos
- Propuesta de soluciones
- Análisis del ROI
59Metodología
- Decidir la metodología adecuada en función del
nivel de apoyo logrado. - Proyectos estratégicos con apoyo de la
dirección metodologías de Data Governance. - Proyectos tácticos con apoyo de una o varias
unidades de negocio. Proyectos relacionados de
Calidad de Datos, con establecimiento de mejores
prácticas para cada uno de ellos. - Proyectos departamentales, orientados a la
resolución de un problema determinado. - Establecer objetivos, definir métricas,
monitorizar, corregir, repetir y evolucionar.
60Tecnología
- La tecnología es fundamental para la resolución
de problemas de Calidad de Datos. - En la elección de la tecnología deben exigirse
los siguientes requisitos - Combinación con una plataforma de integración de
datos acceso universal a los datos - Tratamiento de cualquier tipo de datos. No sólo
nombres y direcciones. - Solución de reporting, scorecarding y
monitorización - Orientado a negocio
61Previsión de la inversión en Calidad de DatosPor
Forrester Research, Inc.
2000 2001 2002 2003 2004
2005 2006 2007 2008
Information Quality Market On Target To Top
1Billion By 2008, Forrester Research, 21 de
Marzo de 2005
62Resistencia al cambio
No es mi responsabilidad
Mejor no decir nada, no vayamos a abrir la caja
de Pandora
No veo que tengamos problemas en los datos
Escéptico
Catastrofista
Desentendido
63(No Transcript)