Data Warehouse - PowerPoint PPT Presentation

About This Presentation
Title:

Data Warehouse

Description:

Data Warehouse Administraci n de Bases de Datos Fernando Bleye 7/5/2003 Introducci n Qu es un Sistema de Informaci n de Gesti n (SIG)? Es el proceso por el ... – PowerPoint PPT presentation

Number of Views:704
Avg rating:3.0/5.0
Slides: 37
Provided by: Fer1152
Category:

less

Transcript and Presenter's Notes

Title: Data Warehouse


1
Data Warehouse
  • Administración de Bases de Datos
  • Fernando Bleye
  • 7/5/2003

2
IntroducciónQué es un Sistema de Información de
Gestión (SIG)?
  • Es el proceso por el cual los datos que son
    importantes para una empresa son identificados,
    analizados y recolectados para su posterior uso.
  • El primer objetivo de un SIG es incrementar la
    inteligencia de los procesos del negocio
    (Business Intelligence).
  • El SIG debe permitir observar el estado del
    negocio y el descubrimiento de información.
  • En los últimos años ha cambiado la forma de
    entender los SIG
  • Mercados cambiantes y altamente competitivos.
  • Las nuevas tecnologías ofrecen nuevas
    oportunidades.
  • Existe deseo de conocer mejor el comportamiento
    de los clientes.
  • El aumento espectacular del volumen de datos hace
    evidente la necesidad de una infraestructura para
    la logística de la información.

3
Perspectiva histórica de los Sistemas de
Información
  • Primeros sistemas de información basados en
    aplicaciones.
  • Generan ficheros específicos y/o utilizan bases
    de datos normalmente heterogéneas entre ellas
    donde almacenan la información.
  • Diseño marcado por las necesidades puntuales del
    día a día de diferentes departamentos del
    negocio.
  • La integración entre aplicaciones no era un
    objetivo.
  • Aunque la tecnología ha mejorado, perdura la
    falta de integración, consistencia, coherencia
    (limitaciones) , sin embargo la demanda de
    información crece.
  • Problema Las aplicaciones siguen profundamente
    marcadas por las primeras consideraciones que
    dirigieron su desarrollo.
  • La arquitectura sobre la que se construyeron
    estas aplicaciones (OLTP) no es válida para
    soportar las necesidades de los sistemas de
    información de gestión actuales.
  • En estos sistemas la arquitectura de los datos
    nunca fue un objetivo del negocio.

4
Nacimiento del conceptoData Warehouse
  • La complejidad y dinamismo de la economía
    digital han situado en un lugar predominante a
    los gestores, desvelando las dificultades de
    acceso a la información de la empresa.
  • La calidad y disponibilidad de la información se
    convierte en un objetivo primordial del negocio.
  • Se apunta como primera solución crear una gran
    base de datos virtual para integrar los datos de
    las aplicaciones existentes, una vez que hayan
    sido depurados y reconciliadas sus disparidades.
    Esto posibilitará que los datos sean utilizados
    para la gestión.
  • La solución pasa por separar el procesamiento en
    dos grandes categorías
  • Proceso Operacional (OLTP).
  • Procesamiento para el sistema de soporte de
    decisiones (OLAP/DSS/DM).
  • Como consecuencia de lo anterior aparece el
    concepto de

Data Warehouse
5
Definición Data Warehouse
  • Data Warehousing / Data Warehouse / DW(Almacenes
    de datos)
  • El Data Warehouse es un componente de la
    arquitectura de sistemas, temático, integrado, no
    volátil y dependiente del tiempo diseñado para
    ayudar en la toma de decisiones.W. H. Inmon
    (considerado el padre del concepto DW) 1992
  • Conjunto de tecnologías de soporte a la toma de
    decisión, cuyo objeto es que quien trabaja con
    los conocimientos (ejecutivo, director, analista)
    pueda tomar decisiones de manera más rápida y
    eficaz.Chaudhuri y Dayal 1997

6
Pero, Qué es un Data Warehouse?
  • El DW es un conjunto de tecnologías, NO UN
    PRODUCTO. Debe construirse, paso a paso.Es una
    arquitectura que debe construirse de acuerdo a
    las necesidades y entorno específico del cliente,
    y debe construirse de manera ITERATIVA, para
    consolidar y administrar datos de varias fuentes
    con el propósito de conseguir en un período de
    tiempo aceptable y gracias a las nuevas
    capacidades de procesamiento y técnicas
    analíticas
  • Responder preguntas de negocio (OLAP - Análisis
    de datos)
  • Ayudar en la toma de decisiones (DSS EIS)
  • Descubrir conocimiento (Data Mining - Minería de
    datos)
  • El Data Warehouse es una arquitectura bien
    definida cuyo objetivo inicial es satisfacer la
    demanda de los gestores de obtener una visión
    integrada de la empresa y su entorno.

7
Terminología y definiciones
  • OLAP (On-Line Analytical Processing o
    procesamiento analítico on-line)
  • Se define como análisis rápido de información
    multidimensional compartida.Richard Creeth,
    Nigel Pendse
  • Herramientas OLAP (para análisis de datos en DW)
  • Frontales para el acceso a los datos del DW (o
    bases de datos multidimensionales también
    denominadas OLAP) basados en el modelo de datos
    multidimensional.
  • DSS (Decision-Support Systems o sistemas de
    soporte a la toma de decisiones)EIS (Executive
    Information Systems o sistemas de información
    ejecutiva)
  • Hacen alusión a las herramientas para obtener
    datos de nivel superior del DW para la toma de
    decisiones.
  • Herramientas DSS / EIS
  • Objetivo apoyar la toma de decisiones mediante
    la aplicación de modelos matemáticos y
    estadísticos, o de conocimiento específico a un
    problema particular.
  • Son un sistema integrado de planificación y
    tratamiento de la información que incorpora la
    habilidad de consultar los datos del DW en una
    forma determinada, analizar la información
    obtenida y predecir, en base a unos determinados
    modelos, el impacto de las futuras decisiones
    antes de llevarlas a la práctica.
  • DM (Data Mining o minería de datos)
  • Se emplea como parte del proceso de descubrir
    conocimiento
  • Reglas de asociación, Patrones secuenciales,
    Árboles de clasificación.
  • Objetivos
  • Predicción, Identificación, Clasificación,
    Optimización.

8
Terminología y definiciones
  • OLTP (On-Line Transaction Processing o
    procesamiento de transacciónes on-line)
  • Los datos que una empresa utiliza como soporte a
    los negocios se les denomina operacionales. Los
    sistemas usados con el fin de recogerlos u operar
    con ellos reciben el nombre de OLTP.
  • Es el procesamiento de datos soportado por las
    bases de datos tradicionales (también denominadas
    transaccionales).
  • BDs Relacionales (normalmente), Red, Jerárquicas,
  • Operaciones de Añadir, Modificar, Eliminar,
    Consulta.
  • Optimizado para transacciones que habitualmente
    sólo abarcan una pequeña parte de una base de
    datos.
  • Orientado a conseguir la máxima eficacia y
    rapidez en las transacciones (actualizaciones)
    individuales de los datos, y no a su análisis de
    forma agregada.
  • Bases de datos transaccionales (basadas en el
    modelo de datos ER) no pueden ser optimizadas
    para OLAP, DSS o Minería de Datos.

9
Terminología y definiciones
  • BI (Business Intelligence)
  • Considerado como una Tecnología de Información
  • Describe un conjunto de conceptos y métodos
    diseñados para mejorar la toma de decisiones en
    los negocios a través del uso de sistemas basados
    en hechos. Los sistemas basados en hechos
    abarcan
  • Sistemas de información ejecutiva - EIS
    (Executive Information Systems)
  • Sistemas de soporte a la toma de decisiones - DSS
    (Decision-Support Systems)
  • Procesamiento analítico on-line - OLAP (On-Line
    Analytical Processing)
  • Minería de datos - DM (Data Mining)
  • Herramientas de visualización de datos Data
    Visualization
  • Sistemas de información Geográfica - Geoghaphic
    Information Systems
  • Howard Dresner
  • Es el conjunto de tecnologías que permiten a las
    empresas utilizar la información disponible en
    cualquier parte de la organización para hacer
    mejores análisis, descubrir nuevas oportunidades
    y tomar mejores decisiones estratégicas.

10
Terminología y definiciones
  • Metadata en un Data Warehouse
  • Metadata es la información sobre los datos que se
    introducen, transforman y existen en el DW.
    (Datos acerca de los datos)
  • Metadata normalmente incluye los siguientes
    elementos
  • Las estructuras de datos.
  • Las definiciones del sistema de registro desde el
    cual se construye el DW.
  • Las especificaciones de transformaciones de datos
    que deben realizarse para la carga de nuevos
    datos en el DW desde las fuentes de datos.
  • El modelo de datos del DW.
  • Información de cuando los nuevos elementos de
    datos se agregan al DW y cuando los elementos de
    datos antiguos se eliminan o se resumen.
  • Los niveles de sumarización, el método de
    sumarización y las tablas de registros de el DW.

11
Sistemas operacionales (OLTP) vsSistemas
analíticos (OLAP, DSS, DM)
Sistema Operacional (BD tradicional) Sistema Analítico (DW o almacén de datos)
Almacena datos actuales Almacena datos históricos(datos tienen clave de tiempo)
Almacena datos de detalle Almacena datos de detalle y datos agregados a distintos niveles
Los datos son dinámicos (actualizables) Los datos son principalmente estáticos
Las actualizaciones no suelen estar programadas Las actualizaciones son escasas y programadas, incremental a intervalos regulares
Los procesos (transacciones) son repetitivos Los procesos no son previsibles
Dedicado al procesamiento de transacciones Dedicado al análisis de datos
Orientado a los procesos operativos Orientado a la obtención de información
Soporta decisiones diarias (corto plazo) Soporta decisiones estratégicas(medio y largo plazo)
Sirve a muchos usuarios Sirve a técnicos de dirección pocos usuarios
Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos
Modelo de datos relacional (normalmente) Modelo de datos multidimensional
12
Base de Datos operativa vsData Warehouse
  • Una base de datos operativa
  • Almacena la información de un sector del negocio.
  • Se actualiza a medida que llegan datos que deban
    ser almacenados.
  • Se opera mediante los cuatro mecanismos clásicos
    añadir-eliminar-modificar-consulta.
  • Normalmente se orienta hacia la elaboración de
    informes periódicos.
  • Suele manejar pequeños volúmenes de datos.
  • Entorno optimizado para muchas transacciones (con
    gran cantidad de actualizaciones).
  • Sirve de infraestructura al día a día de las
    funciones de explotación de una empresa.
  • Un Data Warehouse
  • Almacena información integrada de los distintos
    sectores del negocio.
  • Su actualización se realiza a intervalos
    regulares (típicamente una al día) dentro de un
    proceso controlado, y tras realizar un
    preprocesado de los datos que se van a almacenar.
  • Su orientación es hacia la consulta del estado
    del negocio y obtención de información para ayuda
    en la toma de decisiones estratégicas.
  • Se ofrece información bajo demanda (análisis
    mediante el uso de herramientas de generación de
    informes que consultan el data warehouse).
  • Refleja el modelo de negocio, frente al modelo de
    proceso.

13
Características de un Data Warehouse
  • Un DW es normalmente un almacén de datos
    integrados proveniente de fuentes diversas (datos
    de una empresa o negocio)
  • Datos externos de ficheros generados por
    aplicaciones ad hoc.
  • Administración, Contabilidad, Facturación
  • Datos provenientes de diferentes sistemas de BDs
    transaccionales (datos operacionales), que
    normalmente son heterogéneas.
  • Datos generados por las herramientas de análisis
    y de obtención de información y conocimiento a
    partir de los datos originales del DW.
  • Los datos almacenados en el DW mantienen series
    de tiempo y de tendencia.
  • Mayor cantidad de datos históricos que los
    contenidos normalmente por las BDs
    transaccionales.

14
Características de un Data Warehouse
  • Abarcan gran cantidad de datos (suelen ser del
    orden de Terabytes).
  • Tienen un orden de magnitud (a veces dos)
    superior al de las bases de datos fuente.
  • El volumen de datos es tratado por medio de
  • Almacenes de datos en grandes empresasSon
    proyectos de gran tamaño que requieren una enorme
    inversión de tiempo y recursos.
  • Almacenes de datos virtualesProporcionan vistas
    de bases de datos operacionales que se
    materializan para un acceso eficiente.
  • Data marts (mercadillos de datos)Tienen
    generalmente como objetivo un subconjunto de la
    organización de la empresa (por ejemplo un
    departamento).
  • La tarea más difícil y que más tiempo consume en
    la construcción de un DW es extraer, transformar
    y cargar los datos en él.

15
Proceso de Extracción, Transformación y Carga
(ETL) de datos en el DW
Carga
Transformación
OLAP
Extracción y Limpiado
DW
DSS
DM
DataWarehouse
DatosPreprocesados
  • Fuentes de Datos
  • Bases de datos
  • Ficheros

16
Modelado de datosEl modelo de datos Relacional
  • Ejemplo de Modelo Relacional ? Entidad-Relación
    (ER) de una empresa

17
Modelo de datos para DWEl modelo de datos
Relacional (KO)
  • Situación que se presenta para trabajar en
    análisis de datos en el modelo ER
  • Legibilidad limitada.Los usuarios finales no son
    capaces de entender el modelo ER (normalmente no
    son informáticos). Evidentemente, por tanto, no
    pueden "navegar" por dicho modelo en busca de
    información.
  • Dificultad para las herramientas de consulta en
    el acceso a un modelo ER general.A menudo
    presentan prestaciones mediocres o inaceptables
    cuando se trabaja en entornos de grandes
    volúmenes de información (problemas de
    optimización de consultas)
  • La utilización de la técnica de modelado ER
    frustra la recuperación de información intuitiva
    y con alto rendimiento (característica deseable
    de un Data Warehouse).
  • Modelo de datos no apropiado para Almacenes de
    datos (DW)

18
Modelado de datosEl modelo de datos
multidimensional
  • Características del Modelo Dimensional (o
    Multidimensional)
  • Un modelo dimensional está compuesto de
  • Una tabla con una clave primaria compuesta,
    denominada tabla de hechos y un conjunto de
    tablas más pequeñas denominadas tablas de
    dimensiones.
  • Cada una de las tablas de dimensión tiene una
    clave primaria que corresponde exactamente con
    uno de los componentes de la clave compuesta de
    la tabla de hechos.
  • La tabla de hechos, debido a su clave primaria
    compuesta de dos o más claves ajenas, siempre
    expresa una relación 'n' a 'n'. Las tablas de
    hechos, además de sus campos clave, contienen una
    o más medidas numéricas o "hechos", que se "dan"
    para la combinación de las claves que definen
    cada registro.

19
Modelado de datosEl modelo de datos
multidimensional
  • Características del Modelo Dimensional (o
    Multidimensional)
  • Tiene estructura que asemeja una estrella (o un
    copo de nieve)
  • Una gran tabla central o tabla de hechos está
    conectada con un conjunto de tablas (una por
    dimensión) dispuestas de manera radial alrededor
    de esta tabla central. Recibe a menudo el nombre
    de "star join" o modelado en estrella.
  • El modelado en estrella es altamente
    desnormalizado. Con ello se logra minimizar el
    número de uniones y, por consiguiente,
    incrementar el rendimiento de las consultas
  • Una variante del modelo en estrella es el modelo
    en copo de nieve o snowflake. En este modelado se
    normalizan las dimensiones (más de una tabla por
    dimensión) creando así jerarquías en las mismas y
    conservando lo esencial del modelo en estrella
    las tablas de hechos
  • Permite el empleo de diferentes bases de datos
  • Denominado ROLAP, cuando se aplica el modelo
    dimensional a una base de datos relacional.
  • Denominado MOLAP, cuando se aplica el modelo
    dimensional sobre base de datos dimensional.

20
Modelado de datosEl modelo de datos
multidimensional
  • Ejemplo de Modelo Dimensional (o Multidimensional)

21
Modelado de datosEl modelo de datos
multidimensional
  • Visualización del Modelo Dimensional mediante
    representación en cubo

22
Modelado de datosEl modelo de datos
multidimensional
  • Las herramientas OLAP permiten navegar a través
    de los datos almacenados en un modelo de datos
    dimensional para analizarlos dinámicamente desde
    una perspectiva multidimensional, es decir,
    considerando unas variables en relación con otras
    y no de forma independiente entre sí, permitiendo
    enfocar el análisis desde distintos puntos de
    vista (por ejemplo se podría rotar el cubo de
    datos anterior para mostrar las ventas por
    producto a modo de filas). Esta visión
    multidimensional de los datos puede visualizarse
    como un cubo de Rubik, que puede girarse para
    examinarlo desde distintos puntos de vista, y del
    que se pueden seleccionar distintas rodajas o
    cubos dependiendo de los aspectos de interés
    para el análisis.

23
Modelo de datos para DWEl modelo de datos
multidimensional
  • Situación que se presenta para trabajar en
    análisis de los datos en el modelo Dimensional
  • El modelo de datos es intuitivo.
  • Es el mismo que manejan habitualmente los
    usuarios finales Ejecutivos, Directivos y
    Analistas.
  • Permite a las herramientas OLAP analizar los
    datos desde una perspectiva multidimensional (una
    tabla de hechos puede verse desde la perspectiva
    de varias tablas de dimensiones técnica
    denominada pivotación o rotación).
  • Permite crear fácilmente representaciones
    jerárquicas
  • Exploración ascendente (roll-up)
  • Desplaza la jerarquía hacia arriba agrupando en
    unidades mayores (de grano más grueso) a través
    de una dimensión (por ejemplo, resumiendo los
    datos semanales en trimestrales o anuales)
  • Exploración descendente (drill-down)
  • Se da una visión más concreta (de grano más
    fino), por ejemplo, disgregar las ventas por
    provincias en ciudades, y clasificar los
    productos por tipos o categorías.

24
Modelo de datos para DWEl modelo de datos
multidimensional
  • Situación que se presenta para trabajar en
    análisis de los datos en el modelo Dimensional
  • Las ampliaciones del modelo son sencillas y
    transparentes para las aplicaciones y consultas
    que ya trabajan con el modelo
  • Añadir nuevos atributos a la tabla de hechos
  • Añadir nuevas tablas de dimensiones
  • Existe un número creciente de utilidades
    administrativas y aplicaciones que gestionan y
    utilizan los agregados (dependientes del modelo
    dimensional).
  • Los agregados son resúmenes de registros
    (redundantes con la información ya existente en
    el DW) y son empleados para mejorar el
    rendimiento de las consultas.

25
Pasos para el desarrollo de un DW
  • Identificar los requerimientos de usuario y
    delimitar el ámbito del proyecto.
  • Desarrollar el modelo de datos lógico del DW
    (modelo de datos dimensional).
  • Implementar la arquitectura (seleccionar
    tecnologías, hardware y software) que constituirá
    la infraestructura del DW.
  • Implementar físicamente el modelo lógico de datos
    ? crear la base de datos.
  • Identificar las fuentes de datos -sistemas
    operacionales y/o externos- del DW.
  • Describir los procesos de conversión necesarios
    para la incorporación de los datos origen al DW.

26
Pasos para el desarrollo de un DW
  • Documentar el metadata del DW.
  • Seleccionar y/o desarrollar los programas de
    extracción, limpieza, conversión e integración de
    los datos fuente.
  • Cargar la base de datos del DW con los programas
    anteriores.
  • Verificar con el usuario final la calidad de los
    datos, disponibilidad y rendimiento.
  • El siguiente paso debería ser reconstruir de
    forma incremental (iteraciones), las entradas al
    sistema de procesamiento para establecer un
    entorno bien definido que permita las cargas
    automáticas de datos, y a lo largo del tiempo,
    eliminar completamente todas las aplicaciones
    viejas, desintegradas y con problemas de
    mantenimiento.

27
Software en un Data WarehouseBases de datos
usadas para data warehouse
PRODUCTO (EMPRESA DISTRIBUIDORA) Adabas D (Software AG) Advanced Pick (Pick Systems) DB2 (IBM) Fast-Count DBMS (MegaPlex Software) HOPS (HOPS International) Microsoft SQL Server (Microsoft) Model 204 (Computer Corporation of America) NonStop SQL (Tandem) Nucleus Server (Sand Technology Systems) OnLine Dynamic Server (Informix) Extended Parallel Server (Informix) OpenIngres (Computer Associates) Oracle Server (Oracle) Rdb (Oracle) Red Brick Warehouse (Red Brick Systems) SAS System (SAS) Sybase IQ (Sybase) Sybase SQL Server, SQL Server MPP (Sybase) SymfoWARE (Fujitsu) Teradata DBS (NCR) THOR (Hitachi) Time Machine (Data Management Technologies, Inc.) Titanium (Micro Data Base Systems, Inc.) Unidata,Unidata (Inc.) UniVerse (VMARK) Vision (Innovative Systems Techniques, Inc.) WX9000 (White Cross Systems, Inc.) XDB Server (XDB Systems, Inc.)
Datos de Software obtenidos del manual para la construcción de un Data Warehouse referenciado en la bibliografía. Datos de Software obtenidos del manual para la construcción de un Data Warehouse referenciado en la bibliografía.
28
Software en un Data WarehouseHerramientas de
consulta y reporte
PRODUCTO (EMPRESA DISTRIBUIDORA) Access (Microsoft) Access (Sonetics) Actuate Reporting System (Actuate Software Corporation) AMIS Information Server (Hoskyns Group plc) Application System (IBM) Approach (Lotus Corporation) ARPEGGIO (Wall Data Inc.) APTuser (International Software Group) AS/Access for Microsoft Access (Martin Spencer Associates) ASK Joe (Information Management Services) aXcess/400 (Glenbrook Software) BrioQuery (Brio Technology) Business Objects (Business Objects, Inc.) Crystal Reports, Crystal Info (Seagate Software) d.b. Express (Computer Concepts Corp.) Databoard, Dataread (SLP Infoware) DataDirect Explorer (Intersolv) DataSite (NetScheme Solutions, Inc.) DB Publisher (Xense Technology Inc.) DbPower (Db-Tech Inc.) Decision Analyzer (Decisión Technology) DECquery, DECdecision (Touch Technologies, Inc.) Discoverer, Discoverer/2000 (Oracle Corporation) DS Server, DS Modeler (Interweave) EasyReporter (Speedware Corporation) Eclipse Query/Report (Cornut Informatique) ELF (ELF Software) English Wizard (English Wizard) EnQuiry (Progress Software) Esperant (Speedware) FOCUS Six (Information Builders, Inc.) 4S-Report (Four Seasons Software, Inc) Freequery (Dimension Software Systems) Front Center for Reporting, Nomad (Thomson Software Products) GQL (Andyne) HarborLight (Harbor Software) HP Information Access (Hewlett-Packard) Impress, SqlBuddy (Objective Technologies, Inc.) Impromptu (Cognos Corporation) InfoAssistant (Asymetrix) InfoMaker (Powersoft Corporation) InfoQuery (Platinum Technology, Inc.) InfoReports (Platinum Technology, Inc.) InformEnt Warehouse Desktop (Fiserv) Internet DataSpot (DTL Data Technologies Ltd.) inSight (Williams Partner) Interactive Query (New Generation software) IQ/Objects, IQ/SmartServer (IQ Software Corporation) Iridon Panorama (The Great Elk Company Limited) Kinetix (Hilco Technologies) LANSA/Client (LANSA USA) MARKIS/400 (AS Software) Nirvana (Synergy Technologies) OR-REPORTER II (Output Reporting, Inc.) Oracle Reports, Browser (Oracle Corporation) Paradox (Borland) Platinum Report Facility (Platinum Technology, Inc) ProBit (System Builder) Productivity Series Reports (michaels, ross cole) QBE Vision (Sysdeco) QMF (IBM) QueryObject (Cross/Z International, Inc.) Quest (Centura Software Corporation) RR Report Writer (Concentric Data Systems) Report Writer (Raima) Reportoire (Synergistic Systems, Inc.) Reports (Nine to Five software Co.) ReporTool (Zen Software) ReportSmith (Borland) Rocket Shuttle (Rocket Software, Inc.) Safari ReportWriter (Interactive Software Systems) Sagent Data Mart Solution (Sagent Technology, Inc.) SAS System (SAS Institute) Second Wind (Anju Technologies) Select! (Attachmate) SEQUEL (Advanced Systems Concepts) Snow Report Writer (Snow International Corporation) Spectrum Writer (Pacific Systems Group) SQLPRO Agent (Beacon Ware, Inc.) SQR Workbench (MITI) Strategy (ShowCase Corporation) The Reporter (Sea Change Systems, Inc) Unique XTRA (Unique AS) URSA InfoSuite (Decision Support Inc.) ViewPoint (Informix) Viper (Brann Software) VisPro/Reports (Hock Ware) Visual Cyberquery (Cyberscience Corporation) Visual Dbase (Borland) Visual Express (Computer Associates International) Visual FoxPro (Microsoft Corporation) Visual Net (CNet Svenska AB) Visualizer Query, Charts (IBM) Voyant (Brossco Systems) WebBiz (Cybercom Partners) WebSeQueL (InfoSpace Inc.) WinQL (Data Access Corporation) Xentis (GrayMatter Software Corporation)
29
Software en un Data WarehouseHerramientas de
base de datos multidimensional/olap
PRODUCTO, EMPRESA DISTRIBUIDORA, TIPO Acuity ES, Acuity Management Systems Ltd., MDDB Acumate ES, Kenan Systems Corporation, MDDB Advance For Windows, Lighten, Inc., MDDB AMIS OLAP Server, Hoskyns Group plc, MDDB BrioQuery, Brio Technology, MDDB Business Objects, Business Objects, Inc., Relacional Commander OLAP, Decision, Prism, Comshare Inc., MDDB Control, KCI Computing, Relacional CrossTarget, Dimensional Insight, MDDB Cube-It, FICS Group, MDDB Dataman, SLP Infoware, MDDB DataTracker, Silvon Software, Inc., Relacional DecisionSuite, Information Advantage, Inc., Relacional Delta Solutions, MIS AG, MDDB Demon for Windows, Data Command Limited, MDDB DSS Agent, MicroStrategy, Relacional DynamicCube.OCX, Data Dynamics, Ltd., Relacional EKS/Empower, Metapraxis, Inc., MDDB Essbase Analysis Server, Arbor Software Corporation, MDDB Essbase/400, ShowCase Corporation, MDDB Express Server, Objects, Oracle, MDDB Fiscal, Lingo Computer Design, Inc., Relacional Fusion, Information Builders, Inc., MDDB FYI Planner, Think Systems, MDDB Gentia, Planning Sciences, MDDB Helm, Codeworks, MDDB Holos, Holistic Systems, MDDB Hyperion OLAP, Hyperion Software, MDDB InfoBeacon, Platinum technology, Inc., Relacional Informer, Reportech, MDDB/Relacional Intelligent Decision Server, IBM, Relacional IQ/Vision, IQ Software Corporation, Relacional Khalix, Longview Solutions, Inc., Relacional Lightship, Pilot Software, Inc., MDDB Matryx, Stone, Timber, River, MDDB MDDB Server, SAS, Relacional Media, Speedware Corporation, MDDB Metacube, Informix, Relacional MIKSolution, MIK, MDDB MIT/400, SAMAC, Inc, MDDB MSM, Micronetics Design Corporation, MDDB Muse, OCCAM Research Corp., MDDB OLAP Office, Graphitti Software GmbH, MDDB OpenOLAP, Inphase Software Limited, Relacional Pablo, Andyne, MDDB/Relacional
MDDB Multidimensional Data Base. MDDB Multidimensional Data Base.
30
Software en un Data WarehouseSistemas de
información ejecutivos
PRODUCTO, EMPRESA DISTRIBUIDORA, TIPO Acuity/ES, Acuity Management Systems Limited, 1 Applixware, Applix, 1 BusinessMetrics, Valstar Systems Ltd., 1 BOARD, Pragma Inform, 1 COINS, Russell Consulting Limited, 1 ColumbusEIS, Jitcons YO, 1 Commander EIS, Comshare Inc., 1 Corporate Management/ Financial Executive Information System, Strategic Information Associates, Inc., 1 CorVu, CorVu Pty Ltd., 1 Decision Suite, Softkit, 1 Discovery EIS, Atlantic Information Systems Ltd., 1 EIS, Inphase Software Limited, 1 Electronic Balanced Scorecard, ASI Financial Services, 1 Enterprise Periscope, Everyware Development Corp., 1 Eureka, European Management Systems, 1 ExecuSense, TLG Corporation, 1 FOCUS EIS, Information Builders, Inc., 1 Forest Trees, Platinum Technologies, Inc., 1 iMonitor, BayStone Software, 1 InfoManager, Ferguson Information Systems, 1 Iridon Almanac, The Great Elk Company Limited, 1 InSight, Arcplan Information Services, 2 LEADER, Sterling Strategic Solutions, 1 MagnaFORUM, Forum Systems, Inc., 1 Merit, GIST, s.r.o., 1 Open EIS Pak, Microsoft, 1 Panorama Business Views, Panorama Business Views Inc., 1 Perspectives, Syntell, 1 Qbit, Zenia Software, Inc., 1 Reveal, CSD Software Inc., 1 SAS System, SAS Institute, 1 Show Business EIS, Show Business Software, 1 Tiler EIS, Avoca Systems Limited, 1 Track, Track Business Solutions, 1 Traffic Control EIS, Research Planning, Inc., 3 VentoMap, VentoSales, Vento Software Inc., 1 Virtual Headquarters Management System, vHQ LLC, 1 Visual EIS, Synergistic Software, 1 Visual Publisher, KMA Associates International, Inc, 1 VITAL, Braintec Corporation, 1 Wingz, Investment Intelligence Systems Group, 1 Wired for OLAP, AppSource Corporation, 1 Xecutive Pulse EIS, Megatrend Systems, Ltd., 1
TIPO 1.- Proporciona un sistema de información ejecutivo con capacidades analíticas. 2.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/3. 3.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/2 y R/3. TIPO 1.- Proporciona un sistema de información ejecutivo con capacidades analíticas. 2.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/3. 3.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/2 y R/3.
31
Data Mining (DM)Minería de datosIntroducción
  • La idea clave es que los datos contienen más
    información oculta de la que se ve a simple
    vista.
  • KDD (Knowlegde Discovery in Databases)
    descubrimiento de conocimiento en bases de datos
  • KDD proceso completoextracción no trivial de
    conocimiento implícito, previamente desconocido y
    potencialmente útil, a partir de una base de
    datosFrawley et al., 1991
  • DM etapa de descubrimiento en el proceso de
    KDDpaso consistente en el uso de algoritmos
    concretos que generan una enumeración de patrones
    a partir de los datos preprocesadosFayyad et
    al., 1996

32
Data Mining (DM)Minería de datosAplicaciones
  • Informática
  • Soporte al Diseño de Bases de Datos.
  • Reverse Engineering (nomalizar bases de datos
    desnormalizadas).
  • Mejora de Calidad de Datos.
  • Mejora de Consultas (si se descubren dependencias
    funcionales)
  • Comercio/Marketing
  • Identificar patrones de compra de los clientes.
  • Buscar asociaciones entre clientes y
    características demográficas.
  • Predecir respuesta a campañas de marketing.
  • Análisis de cestas de la compra.
  • Banca
  • Detectar patrones de uso fraudulento de tarjetas
    de crédito.
  • Identificar clientes leales.
  • Predecir clientes con probabilidad de cambiar su
    afiliación.
  • Determinar gasto en tarjeta de crédito por
    grupos.
  • Encontrar correlaciones entre indicadores
    financieros.
  • Identificar reglas de mercado de valores a partir
    de históricos.

33
Data Mining (DM)Minería de datosAplicaciones
  • Seguros y Salud Privada
  • Análisis de procedimientos médicos solicitados
    conjuntamente.
  • Predecir qué clientes compran nuevas pólizas.
  • Identificar patrones de comportamiento para
    clientes con riesgo.
  • Identificar comportamiento fraudulento.
  • Transportes
  • Determinar la planificación de la distribución
    entre tiendas.
  • Analizar patrones de carga.
  • Medicina
  • Identificación de terapias médicas satisfactorias
    para diferentes enfermedades.
  • Asociación de síntomas y clasificación
    diferencial de patologías.
  • Estudio de factores (genéticos, precedentes,
    hábitos, alimenticios, etc.) de riesgo/salud en
    distintas patologías.
  • Segmentación de pacientes para una atención más
    inteligente según su grupo.
  • Predicciones temporales de los centros
    asistenciales para el mejor uso de recursos,
    consultas, salas y habitaciones.
  • Estudios epidemiológicos, análisis de
    rendimientos de campañas de información,
    prevención, sustitución de fármacos, etc.

34
Conclusiones
  • El aumento espectacular del volumen de datos en
    las empresas y su falta de integración crean la
    necesidad de una infraestructura para la
    logística de la información. Este es el principio
    u origen del Data Warehouse.
  • No existe una única definición (ni traducción) de
    Data Warehouse.
  • El DW es un conjunto de tecnologías, no un
    producto.
  • GRAN BASE DE DATOS.
  • Herramientas para manipular los datos.
  • Basado en el modelo de datos dimensional.
  • La construcción de un DW es un proceso ITERATIVO.
  • Un DW engloba las tecnologías que sirven de
    soporte al Business Intelligence.
  • Es parte componente de un Sistema de Información
    de Gestión.

35
Conclusiones
  • Un administrador de Data Warehouse tiene que
  • Ser primero un excelente Administrador de Bases
    de Datos.
  • Tener amplios conocimientos en Fundamentos de
    Bases de Datos, Gestión, Planificación e
    Informática en general.
  • Tener una extensa experiencia de trabajo con
    diferentes sistemas de bases de datos.

36
Bibliografía
  • Básica
  • Título Fundamentos de sistemas de bases de datos
    (3ª edición) - Capítulo 26 Autor(es) Elmasri,
    Ramez Navathe, ShamkantEditorial Addison
    Wesley
  • Data Warehouse
  • http//www.ica.com.uy/dw/dw-doc.htmSistemas de
    Data Warehousing
  • http//www.tid.es/presencia/publicaciones/comsid/e
    sp/22/08.pdf(caso concreto de telefónica)
  • Manual para la construcción de un Data
    Warehousehttp//www.inei.gob.pe/cpi-mapa/bancopub
    /libfree/lib619/INDEX.HTM
  • http//kybele.escet.urjc.es/adto/
  • Minería de datos
  • http//www.daedalus.es/Web.php?pag040000
  • http//www.gsi.dit.upm.es/gfer/ssii/aprendizaje/M
    D.pdf
  • http//www.tid.es/presencia/publicaciones/comsid/e
    sp/22/09.pdf(caso concreto de telefónica)
  • Business Intelligence
  • http//www.bitam.com/DefBI.htm
  • http//www.aliga.org/JORNADAS_DW_V2.PPT
Write a Comment
User Comments (0)
About PowerShow.com