Fundamentos de Calidad de Datos - PowerPoint PPT Presentation

1 / 63
About This Presentation
Title:

Fundamentos de Calidad de Datos

Description:

Estamos en la era de la calidad, y es esta la que nos dar una ventaja ... Cuanta m s inversi n de tiempo, mayor calidad, ... Government of British Columbia ... – PowerPoint PPT presentation

Number of Views:335
Avg rating:3.0/5.0
Slides: 64
Provided by: alexm62
Category:

less

Transcript and Presenter's Notes

Title: Fundamentos de Calidad de Datos


1
Fundamentos de Calidad de Datos
Sesión 3 Gestión de Calidad de Datos Alejandro
Mínguez
2
Calidad como Way of life
  • Estamos en la era de la calidad, y es esta la que
    nos dará una ventaja competitiva, en un mundo
    globalizado

3
Aunque
  • En cualquier proceso de calidad
  • Cuanta más inversión de tiempo, mayor calidad,
    pero nunca se llega al 100

4
Agenda
  • Evolución de la calidad de los datos
  • Calidad de datos en entornos analíticos DWH
  • Cómo aplicar la calidad de datos?
  • Otras áreas de aplicación
  • Conclusiones y recomendaciones

5
1 Evolución de la calidad de los datos
6
Historia de la Calidad de Datos
  • Desde que existen los datos informatizados,
    siempre ha existido la preocupación de que sean
    correctos. Inicialmente la Calidad de Datos se
    realizaba con edición manual o con programas
    desarrollados con lenguajes no adaptados para ese
    uso, o incluso la edición manual de los datos.
  • A principios de los 80 se desarrollaron los
    primeros sistemas de Calidad de Datos, por parte
    del gobierno de Estados Unidos, para regular los
    cambios de domicilio, fallecimientos, bodas,
    divorcios, etc en un sistema denominado NCOA
    (National Change of Address Registry)
  • La primera vez que se implemento un sistema
    especializado en la calidad de datos en España
    fue para corregir y/o informar el código postal,
    en la dirección de los clientes, de las
    principales entidades financieras del país. Este
    fue desarrollado a principios de los 90, basado
    en un sistema semiautomático, y apoyado por un
    departamento de codificación manual, en el que se
    utilizaban multitud de listados en papel. La
    técnica utilizada era muy primitiva (fuerza
    bruta), y no implementaba las metodologías, que
    actualmente poseen los sistemas modernos de
    calidad de datos.

7
Definiciones de Data Quality
  • Data Quality refers to the quality of data. Data
    are of high quality if they are fit for their
    intended uses in operations, decision making and
    planning"
  • 2. The state of completeness, validity,
    consistency, timeliness and accuracy that makes
    data appropriate for a specific use. Government
    of British Columbia
  • 3. The totality of features and characteristics
    of data that bears on their ability to satisfy a
    given purpose the sum of the degrees of
    excellence for factors related to data. Glossary
    of Quality Assurance Terms

www.wikipedia.org
8
Qué es la calidad de datos?
  • La Calidad de Datos no sólo se refiere a la
    ausencia de defectos
  • Los datos deben proporcionar una visión única
  • Debe estar correctamente relacionada e
    interrelacionada con todas las fuentes
  • Los datos deben ser consistentes, completos y
    adecuados para su función
  • Debemos asegurarnos de cumplir normativas y leyes

9
Evolución de la Calidad de Datos y la Integración
10
Impactos de Negocio
  • Riesgo en el cumplimiento normativas
  • Sistema de gestión del riesgo
  • Sistema de integración del riesgo
  • Riesgo en la inversión
  • Riesgo competitivo
  • Detección del fraude
  • Riesgos legales (LOPD)
  • Otros riesgos
  • Cobro ineficiente
  • Mala relación con el cliente
  • Pérdida de oportunidades
  • Aumento de costes
  • Detección y corrección
  • Prevención
  • Reingeniería de procesos
  • Penalizaciones
  • Sobrepagos
  • Recursos incrementados
  • Retrasos
  • Cargas de trabajo
  • Tiempos de proceso
  • Falta de credibilidad
  • Temor en toma decisiones
  • Menor predictabilidad
  • Forecasting incorrecto
  • Reporting ineficiente

11
Quienes son los responsables del DQ las
organizaciones?
12
Futuro inmediato de la Calidad de Datos
  • Los problemas de Calidad de Datos son a menudo
    ignorados / desconocidos / minusvalorados por la
    dirección
  • Calidad de Datos es una ventaja competitiva
  • Falta de una figura responsable
  • Se requieren cambios organizativos
  • Una compañía debe contar con responsables que
    velen por la calidad de los datos de todos los
    sistemas de información.

13
Otros conceptos Calidad de la Información
  • El concepto Calidad de la Información, o IQ, está
    surgiendo con fuerza en los últimos años
  • Se trata del concepto de Calidad de Datos
    orientado a los Sistemas de Información, es
    decir, a la mejora de la información
    proporcionada a la compañía
  • Algunos expertos extienden el término a lo que
    también se denomina Calidad de Metadatos

14
Otros conceptos Calidad de Metadatos
  • El concepto Calidad de Metadatos surge en grandes
    corporaciones que cuentan con miles de atributos
    e indicadores
  • Se trata de una problemática de integración y/o
    de herramientas de gestión de metadatos, no de
    Calidad de Datos en sí
  • Objetivos claridad de las definiciones, lenguaje
    común, única versión de la verdad, accesibilidad,
    disponibilidad, seguridad, auditabilidad.

15
En que momento se producen los errores
  • En la entrada de datos (Data Entry)
  • Incorporación de datos externos
  • Errores de carga de los sistemas transaccionales
  • Migraciones de datos

16
Causas de la creciente mala Calidad de Datos
  • Más datos de más fuentes en más sistemas
  • ERPs, fuentes externas, web, call centres
  • Datos introducidos para un propósito ahora está
    siendo aplicados a otras aplicaciones
  • La Calidad de Datos puede ser relativamente bueno
    para los sistemas transaccionales pero no para
    sistemas BI o CRM
  • Mayores niveles de Calidad de Datos requerido
    para procesos automatizados
  • La mala calidad de datos lleva a problemas de
    pagos en sistemas ERP, SCM, etc.
  • Mayor sensibilidad del público
  • Los clientes esperan un mejor servicio. Los datos
    defectuosos llevan a una pobre gestión del
    cliente.

17
El impacto de la mala Calidad de Datos
  • Impide la Business Intelligence
  • Informes erróneos, defectos en el análisis
  • Costes de Gestión
  • Discrepancias entre aplicaciones puede requerir
    trabajos de reconciliación de registros
  • Daña nuestra relación con el cliente
  • Imposibilidad de ofrecer un buen servicio y un
    trato personalizado
  • Imposibilidad de detectar fraudes, sobrepagos,
    etc
  • No puede identificar duplicados, unidades
    familiares y corporativas (households), etc
  • Incumplimiento de normativas
  • Regulaciones
  • Leyes La calidad de datos es uno de los pilares
    fundamentales para el cumplimiento de la LOPD

18
2 Calidad de datos en entornos analíticos DWH
19
Reflejo de la mala calidad de los datos en el BI
20
DWH-BI
  • Through 2007, more than 50 percent of data
    warehouse projects will have limited acceptance,
    or will be outright failures, as a result of a
    lack of attention to data quality issues Gartner
  • La toma de decisiones basada en datos incorrectos
    puede generar decisiones incorrectas.
  • Concepto Calidad de la Información
  • Beneficios de la Calidad de Datos
  • Mejora de la toma de decisiones
  • Aumento de la confianza de los usuarios

21
Soluciones de Calidad de Datos - Arquitectura
Cuadros de Mando Calidad de Datos
Cliente
  • Conectores

Aplicaciones Bases de Datos
Servidor
Runtime
Runtime
Repositorio
  • SOA

Realtime / SOA
Soluciones integración
Diccionarios
22
La (r)evolución, Calidad de Datos e Integración
Auditoría, control y creación de informes
Garantizar la coherencia de los datos, realizar
análisis de impacto y supervisar constantemente
la calidad de la información
Calidad
Perfilado
Acceso
Buscar y perfilar cualquier tipo de datos de
cualquier fuente
Validar, corregir y estandarizar, relacionar
datos de todo tipo
A cualquier sistema, por lotes o en tiempo real
Desarrollo y gestión
Desarrollar y colaborar con un repositorio común
y metadatos compartidos
23
Calidad de Datos, Donde actúa? ETQL




Reporting Calidad
Visión única del cliente o producto
Aplicación
Reporting
Inteligencia

Servidor DQ
Data Mart
BBDD
Data Warehouse
Almacena- miento
  • Calidad de Datos
  • Conciliación fuentes
  • Lógica difusa
  • Scorecarding
  • Limpieza
  • Enriquecimiento

Operational Data Store
Carga
Transformación
Integración de datos
Extracción
Exploración Análisis Medición





Datos no estructurados
Sistemas externos
Fuentes de datos
CRM
Finanzas
Etc
24
3 Cómo aplicar la calidad de datos?
25
Requerimientos de Calidad de Datos
Localizar relaciones entre registros, como
desduplicación, relación de dos o más tablas,
detección de unidades familiares o corporativas,
Calidad de Datos para cualquier área incluyendo
finanzas, control de gestión y producción
Perfilado, medición y cuantificación del impacto
de la calidad de datos, además de su seguimiento
y monitorización
Limpieza, estandarización, identificación de
datos personales, como nombres, direcciones y
teléfonos
Identificación de relaciones
Suite de Calidad de Datos Corporativa
Fuente Gartner Jun. 2007
26
Ciclo de vida de un proyecto de Calidad de Datos
3
6
2
4
  • Definir reglas de negocio para
  • Conformidad
  • Consistencia
  • Normalización
  • Desduplicación

1
5
27
Procesos de Calidad de Datos
Matching
Perfilado de Datos
  • Relacionar Consolidar Medir
    Analizar
  • Enriquecer Corregir Estandarizar
    Determinar

Datos
Mejora de datos
Limpieza de Datos
28
Perfilado de datos
  • El perfilado de datos permite localizar, medir,
    monitorizar y reportar problemas de calidad de
    datos
  • El perfilado no debe ser sólo el inicio de un
    proyecto de Calidad de Datos, es un proyecto en
  • Existen dos tipos de perfilado
  • Perfilado de estructura
  • Perfilado de contenido

29
Perfilado de Estructura
  • El perfilado de estructura consiste en el
    análisis de los datos sin tener en cuenta su
    significado
  • El análisis se realiza de forma semi-automática y
    masiva
  • Tipos de análisis del Perfilado de Estructura
  • Perfilado de Columnas
  • Perfilado de Dependencias
  • Perfilado de Redundancias

30
Perfilado de Contenido
  • El perfilado de contenido analiza con profundidad
    el dato y su significado
  • Requiere una configuración para cada campo a
    analizar
  • Se combina con el uso de diccionarios,
    componentes específicos de tratamiento de datos,
    separadores, etc

31
Etapas del Perfilado de Datos
Integrar
Descubrir
Limpiar
Entregar
Acceder
Proyecto de descubrimiento
Tipo de proyecto
Limpieza Monitorización
Implantación Validación
Integración
Cuadro de Mandos Calidad de Datos
Nivel Actividad Perfilado
P. Estructura
P. Estructura
P. Contenido
P. Estructura
Tipo de Actividad
Análisis de estructura
Análisis de Contenido
Descubrimiento
Monitorización
Desarrollador ETL
Data Steward
Roles
32
Perfilado de datos, indicadores de calidad
Qué dato falta o no es útil?
Existencia
Conformidad
Qué dato está almacenado en un formato no
estándar?
Consistencia
Qué datos aportan información conflictiva?
Precisión
Qué datos son incorrectos o están caducados?
Qué datos o atributos están repetidos?
Duplicados
Integridad
Qué información no está referenciada?
33
Ejemplo Datos de Cliente
EXISTENCIA
CONFORMIDAD
CONSISTENCIA
DUPLICACION
INTEGRIDAD
PRECISION
34
Ejemplo datos de Producto
35
Ejemplo datos de Riesgo
For illustration purposes only. Actual reports
featured later in presentation
36
Capacidades de Reporting
  • Para el perfilado es fundamental una solución de
    reporting

37
Ejemplo Scorecard Calidad de Datos
38
Limpieza y Enriquecimiento de datos
  • La limpieza de datos permite
  • Determinar y separar elementos de un campo
    situándolo en su lugar correspondiente
  • Estandarizar formatos
  • Corregir errores en los datos
  • Enriquecimiento de datos

39
Determinación y separación de Datos (parsing)
  • La determinación y separación de datos consiste
    en la descomposición de los distintos elementos
    que componen los datos
  • Por ejemplo, el nombre siguiente
  • Ingeniero JOSE RODRIGUEZ SILVA
  • Título Ingeniero
  • Nombre José
  • 1º Apellido Rodríguez
  • 2º Apellido Silva

40
Estandarización
  • La estandarización es la adecuación de un dato a
    un formato esperado.
  • Por ejemplo, el NIF siguiente
  • 5428846
  • NIF estandarizado 05428846H

41
Corrección
  • La corrección consiste en el reemplazo de un
    elemento erróneo por uno correcto
  • Por ejemplo, la dirección siguiente
  • Calle Tumaco 14, 28010 Madrid
  • Código postal corregido 28027

42
Enriquecimiento
  • El enriquecimiento consiste en la adición de
    datos que no existían
  • Por ejemplo, el nombre siguiente
  • Jose María Gomez Hurtado
  • Sexo Varón

43
Matching
  • El matching de datos se utiliza para
  • Detección de duplicados
  • Relación entre dos fuentes de datos que no tienen
    campos de unión entre sí
  • Detección de unidades familiares y corporativas
    (Householding)
  • Se pueden aplicar múltiples criterios para las
    relaciones, que posteriormente se pueden asociar
    entre sí
  • Previo al matching es conveniente hacer una
    pre-agrupación de la información
  • Existen dos métodos de matching
  • Determinístico
  • Probabilístico

44
Pre-Grouping
Comparaciones sin pre-grouping
Sin Agrupación A-B, A-C, A-D, A-E, A-F, A-G,
B-C, B-D, B-E, B-F, B-G, C-D, C-E, C-F, C-G, D-E,
D-F, D-G, E-F, E-G, F-G21 comparaciones
Comparaciones con pre-grouping
Con agrupación fonética 1º apellido A-B, A-C,
B-C, D-E, D-F, D-G, E-F, E-G, FG 9 comparaciones
45
Matching Determinístico
EVA
SANT LLUIS 90
933116311
?
?

?
?
?
?
SANT LLUIS 9
EVA
933116311
SI coincide(Razón) y coindice(calle) y
coincide(teléfono) y noesdistinto(CIF) entonces
Match positivo
?
46
Matching Probabilístico
EVA
SANT LLUIS 90
933116311
100
80

92
50
100
100
SANT LLUIS 9
EBA
933116311
SI media ponderadagt90 entonces match positivo
92
?
47
Consolidación
  • Cuando se ha usado el matching para la detección
    de duplicados, con frecuencia se desea fusionar
    estos registros. A esto se le denomina
    Consolidación.
  • Existen dos métodos principales de consolidación
  • Registro Superviviente
  • Mejor Registro

48
Métodos de consolidación
Registro Superviviente
7 8
Mejor Registro
49
Un proceso iterativo
Matching
Perfilado de Datos
  • Relacionar Consolidar Medir
    Analizar
  • Enriquecer Corregir Estandarizar
    Determinar

Datos
Mejora de datos
Limpieza de Datos
50
4 Otras áreas de aplicación
51
Aplicaciones del DQ en las compañías
  • Las principales tipologías de proyecto de DQ son
  • Calidad de Datos asociada a un proyecto de
    integración
  • DWH-BI
  • CRM
  • Data Mining
  • Migración
  • Consolidación
  • Sincronización
  • Entorno Financiero
  • Entornos de Marketing
  • Sistemas de Información Geográfica
  • Gestión de Datos Maestros
  • Calidad de Datos Preventiva

52
Requerimientos por tipo proyecto
Madurez Visión Corporativa
Data Governance

High
High
High
High
Análisis Calidad Datos
Calidad Datos General
Identificación de relaciones
Eficiencia del contacto
Low
Low
Low
Low
EDQM
53
Conclusiones y recomendaciones
54
Resumen
  • En resumen
  • La Calidad de Datos es fundamental para cualquier
    compañía
  • Ahorro de costes
  • Eficiencia
  • Cumplimiento de la Ley
  • Existe la tecnología y la metodología para
    corregir la mala Calidad de Datos
  • Calidad e Integración una Solución Corporativa

55
Resumen Beneficios de la Calidad de Datos
  • Corrige errores de manera PROACTIVA e
    INDUSTRIALIZADA
  • Reducción de costes de gestión, de oportunidad,
    operacionales, etc
  • Proporciona una visión única de los elementos de
    las bases de datos y da visibilidad de las
    posibles agrupaciones que existan
  • Facilita el cumplimiento de normativas
  • Mejora el mantenimiento de clientes y del
    servicio ofrecido, además da confianza a los
    usuarios de la información
  • Reduce las ineficiencias operacionales
  • Maximiza el éxito de las iniciativas y proyectos
    de Datawarehousing, CRM y BI y por consiguiente
    se mejora la toma de decisiones
  • Aumenta el conocimiento de los datos y permite
    conocer dónde se están produciendo los errores

56
Gartner Calidad de Datos
  • Predicción A través de 2008, las organizaciones
    incrementarán las iniciativas de mejora de la
    calidad de datos, llevados por la presión de las
    normativas, por el deseo de la mejora de la
    eficiencia y agilidad, y una insatisfacción
    general del estado de sus datos corporativos
  • Claves Organizaciones donde la gerencia de alto
    nivel comprende el impacto de la calidad de datos
    están mejor posicionados para completar con éxito
    programas de mejora de calidad de los datos.
  • Implicaciones de mercado los datos de alta
    calidad (y los conocimientos, organización,
    procesos y tecnología para lograrlos) será un
    significante diferencial competitivo entre
    negocios. Las organizaciones que olviden o
    ignoren sus problemas de calidad de datos van a
    ser superados por la competencia.
  • Recomendaciones Las organizaciones deben ver la
    calidad de datos como un problema estratégico de
    su negocio, y alinear sus recursos a través de la
    mejora de calidad de datos. Las actividades clave
    incluye el desarrollo de programas de
    administración de datos, análisis y medición de
    la calidad de datos, mejora de procesos de
    negocio y la implementación de tecnología para
    soportar los controles de calidad de datos.

57
Los factores de éxito
Tecnología
Apoyo
58
Apoyo
  • Cual es la mejor forma de lograr el apoyo para
    un proyecto de Calidad de Datos?
  • Divulgación interna, principalmente a las
    unidades de negocio, tecnología y a dirección
  • Auditoría de Calidad de Datos
  • Análisis y medición de los problemas de Calidad
    de Datos de la Compañía
  • Conclusiones de los problemas de Calidad de Datos
  • Propuesta de soluciones
  • Análisis del ROI

59
Metodología
  • Decidir la metodología adecuada en función del
    nivel de apoyo logrado.
  • Proyectos estratégicos con apoyo de la
    dirección metodologías de Data Governance.
  • Proyectos tácticos con apoyo de una o varias
    unidades de negocio. Proyectos relacionados de
    Calidad de Datos, con establecimiento de mejores
    prácticas para cada uno de ellos.
  • Proyectos departamentales, orientados a la
    resolución de un problema determinado.
  • Establecer objetivos, definir métricas,
    monitorizar, corregir, repetir y evolucionar.

60
Tecnología
  • La tecnología es fundamental para la resolución
    de problemas de Calidad de Datos.
  • En la elección de la tecnología deben exigirse
    los siguientes requisitos
  • Combinación con una plataforma de integración de
    datos acceso universal a los datos
  • Tratamiento de cualquier tipo de datos. No sólo
    nombres y direcciones.
  • Solución de reporting, scorecarding y
    monitorización
  • Orientado a negocio

61
Previsión de la inversión en Calidad de DatosPor
Forrester Research, Inc.
2000 2001 2002 2003 2004
2005 2006 2007 2008
Information Quality Market On Target To Top
1Billion By 2008, Forrester Research, 21 de
Marzo de 2005
62
Resistencia al cambio
No es mi responsabilidad
Mejor no decir nada, no vayamos a abrir la caja
de Pandora
No veo que tengamos problemas en los datos
Escéptico
Catastrofista
Desentendido
63
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com