Title: Data Warehouse
1Data Warehouse
- Equipe
- Gilmar Ferreira
- Marcos Costa
- Ricardo Araújo
2O Cenário
- Corporações
- Necessitam de decisões rápidas e precisas
- Reação rápida a mudanças do ambiente
- Obtenção de vantagem competitiva
3O Cenário
- Dados
- Disponíveis em sistemas não integrados
- Espalhados em múltiplas e independentes
plataformas - Dificuldade de análise
4Conceitos
- Processamento Operacional (OLTP)
- Funcionalidades do negócio
- Processamento de transações inserção,
atualização, consulta e deleção - Reflete valor corrente, não-redundante e
atualizável - Altamente voláteis
- Modelagem E/R
5Conceitos
- Processamento Analítico (OLAP)
- Suporte à tomada de decisão
- Dados históricos, não voláteis, ready-only
- Integram informações de diversos sistemas
operacionais - Permitem identificações de perfis, tendências e
padrões
6Conceitos
- Processamento Analítico (OLAP)
- Redundância de dados aceita
- Alto desempenho na recuperação de dados versus
economia de espaço - Banco de Dados Multidimensional
7Conceitos
8Conceitos
- MOLAP
- Banco de dados multidimensional
- Conjunto de interfaces, aplicações e banco de
dados - Tecnologia proprietária
- Dados armazenados em cubo de n dimensões
- Alta performace
9Conceitos
- ROLAP
- Conjunto de interfaces e aplicações que dá ao BD
relacional características dimensionais - HOLAP
- Combina as tecnologias MOLAP E ROLAP
- Objetivo combinar as melhores características de
ambas
10Conceitos
- Sistema de Apoio à Decisão (SAD)
- Realizam processamento analítico
- Provêem as informações necessárias ao usuário
- Permitem análise de situações e tomada de
decisões - Necessidades estratégicas e táticas
11Data Warehouse
- Data WareHouse
- SAD
- Fornece informações para auxiliar a tomada de
decisões estratégicas - Une, de forma organizada, informações espalhadas
em diversas fontes
12Definição de DW
- Data WareHouse
- Inmon Data Warehouse é uma coleção de dados
orientados à assunto, integrada, dinâmica e
não-volátil, para o suporte a decisões de
gerenciamento - Kimball Data Warehouse é a fonte de dados de
consulta do empreendimento
13Data Mart
- Data Mart
- Subconjunto lógico do DW
- Projetado para representar uma função particular
do negócio - Rapidamente implementável e de baixo custo
- Controle local, em vez de centralizado
- Redução do tempo de resposta a consultas
14Data Mart
- Problemas
- Pode acarretar a fragmentação de dados da
organização - Solução
- Deve haver planejamento para futura integração
com um DW único de toda empresa - Construção de um DW na forma de DM distribuídos
em unidades individuais
15ODS Operational Data Store
- ODS
- Usados para decisões a curto prazo envolvendo
aplicações de missão crítica - Trabalha diretamente com sistemas legados
- Dados mais antigos podem ser movidos e
sumarizados para o DW
16Modelagem Processamento Analítico
- Problemas da Modelagem E/R
- Redução de visão global do negócio para grandes
modelos - Não tem alto desempenho na recuperação de dados
(principalmente joins) - Para cada variação na estrutura do modelo, há
necessidade de reescrever e ajustar as
implementações
17Modelagem Processamento Analítico
- Modelagem Dimensional
- Específica para processamento analítico
- Apresentação de dados padronizada, intuitiva e
que permite alto desempenho de acesso - Dois tipo de tabelas Fato e dimensão.
- Chave primária simples da tabela dimensão
corresponde à chave estrangeira de fato (Esquema
estrela)
18O ambiente de um DW
- Arquitetura resumida de DW
19Características básicas
- Orientado por tema
- Integrado
- Não-volátil
- Variante no tempo
- Dados sumarizados
- Metadados
- Dados oriundos de fontes internas e/ou externas
20Orientado por temas
- Refere-se ao fato do DW armazenar informações
sobre temas específicos importantes para o
negócio da empresa - Exemplos produtos, atividades, contas, clientes,
etc. - O ambiente operacional é organizado por
aplicações funcionais - Exemplo, em uma organização bancária, estas
aplicações incluem empréstimos, investimentos e
seguros.
21Integrado
- Refere-se à consistência de nomes das unidades
das variáveis - Dados foram transformados até um estado uniforme
- Por exemplo, todas as medidas (cm,
polegadas,jardas) são convertidas para metros.
22Não volátil
- Permite o "load-and-access
- Os dados após serem extraídos, transformados e
transportados para o DW estão disponíveis aos
usuários somente para consulta
23Variante no tempo
- Os DW armazenam dados por um período de tempo de
5 a 10 anos - Refere-se a algum momento específico
- não é atualizável
- No DW haverá sempre uma tabela dimensão ou fato,
cuja estrutura registrará o elemento tempo
24Metadados
- Dados sobre dados INMON
- Provêm informações sobre a estrutura de dados e
as relações entre estas dentro ou entre bancos de
dados - São todas as informações do ambiente do DW que
não são seus próprios dados Kimball
25Granularidade
- É o nível de detalhes dentro do banco de dados do
DW - Quanto menor a granularidade, maior o nível de
detalhes e, conseqüentemente, maior o volume de
dados armazenado - Exemplo, Registro de Vendas de uma rede de
supermercados - diária sumarização de vendas e carga diária no
Banco de Dados - mensal sumarização de dados e carga a cada 30
dias no Banco de Dados
26Agregação
- São registros sumarizados logicamente redundantes
com os dados básicos do DW - Finalidades
- melhorar o tempo de reposta as consultas
- reduzir o tempo de processamento
- reduzir espaço de armazenamento
27Modelagem dimensional
- Hipercubo, onde cada célula contém um valor a
partir dos lados desse cubo que definem as
dimensões
valor
28Modelagem dimensional
- Representação voltada para processamento
analítico. Intuitividade para o decisor - Suporte de tecnologias MOLAP, ROLAP ou HOLAP
- Dois tipos principais de estruturas ou esquemas
estrela (star schema) ou floco de neve (snowflake
schema)
29Modelagem dimensional
- Tabelas fatos
- Contêm as medições numéricas do negócio
- Exemplo unidades_vendidas, custo_dolar
- Grande quantidade de dados
- Chave primária composta por FKs
- Atributos numéricos e valorados
30Modelagem dimensional
- Tabelas dimensão
- Contém dados descritivos do negócio
- Chave primária simples
- Pequena quantidade de informações se comparadas
com as tabelas fato - Modelos reais contêm entre 4 e 15 dimensões
- Modelos com mais de 20 dimensões devem ser melhor
estudados
31Esquema estrela
- Este esquema é chamado de estrela, por
apresentar a tabela de fatos "dominante" no
centro do esquema e as tabelas de dimensões nas
extremidades.
32Esquema estrela
- Permite projetar o BD da forma como o usuário
pensa em usá-lo analiticamente - Limitações
- Tabela dimensional possui uma quantidade muito
grande de atributos - Soluções
- Múltiplas tabelas de fatos
- Tabelas associativas
- Tabelas externas
33Esquema estrela
- Múltiplas tabelas de fato
34Esquema estrela
35Esquema estrela
36Esquema floco de neve
- Extensão esquema estrela onde cada uma das
"pontas" da estrela passa a ser o centro de
outras estrelas
37Integração de Data Marts e DW
- Possível através do conceito de Data Warehouse
bus - Esquema geral e padronizado de tabelas dimensão e
fato - Permite desenvolvimento evolucionário
38Topologias de DWs
- Centralizada
- Único Banco de Dados Físico
- usados onde existe uma necessidade comum de
informações. - Data Warehouse e Data Marts
- ligação de vários DM a um DW
- Usuário pode pode acessar os DM (gerente de
departamento) ou acessar o DW para obter
informações globais da organização
39Topologias de DWs
- Distribuída
- Vários DW interligados através de uma rede com
forte suporte a processamento distribuído - Usuário pode conectar-se a qualquer DW
- Apresenta problemas de desempenho
- Será muito utilizada para dar suporte às
aplicações para Web.
40Topologias de DWs
- Desenvolvimento estratégico
- Desenvolvimento botton-up de Data Marts
-
- Desenvolvimento top-down de dados
- Possibilita criação de Sistemas flexíveis e
escaláveis
41Arquitetura de um DW
- Arquitetura de Dados
- Uma camada (one tier)
- Dados armazenados uma única vez
- Duas camadas (two tier)
- Dados operacionais e analíticos separados em
camadas distintas - Três camadas (three tier)
- Transformação de dados não é executada em um
único passo
42Arquitetura de Dados do DW
43Arquitetura de Dados do DW
44Arquitetura de Dados do DW
45Arquitetura de um DW
- Arquitetura de Acesso aos Dados
- Duas camadas
- Acesso direto ao DW e Metadados
- Três camadas (ROLAP)
- Servidor de aplicações
- Três camadas (MOLAP)
- Servidor de aplicações Cubo OLAP
46Arquitetura de Acesso aos Dados do DW
47Arquitetura de Acesso aos Dados do DW
48Arquitetura de Acesso aos Dados do DW
49Arquitetura de um DW
- Arquitetura Funcional
- Plano geral do que se deseja do Data Warehouse
- Descreve o fluxo de dados em todas as etapas
- Especifica técnicas e ferramentas necessárias
50Arquitetura Funcional do DW
51Arquitetura Funcional do DW
- Componentes da Área Interna
- Sistemas Fontes
- Sistemas operacionais internos fontes externas
- Área de Organização de Dados
- Lugar onde os valores a serem adicionados são
tratados (Motor do DW) - Servidor de Apresentação
- Compartilhado entre as Áreas
- Componentes
- Data Marts com dados agregados
- Data Marts com dados atômicos
- Data Warehouse Bus
- Catálogo de Metadados
52Arquitetura Funcional do DW
- Serviços da Área Interna
- Extração
- Carga incremental
- Baseado em transações
- Carga completa
- Transformação de dados
- Integração
- Limpeza
- Conversão de tipos
- Combinação
- Agregação
- etc.
53Arquitetura Funcional do DW
- Serviços da Área Interna (cont)
- Carga de Dados
- Suporte para múltiplos destinos
- Otimização do processo de carga
- Controle de Dados organizados
- Definição e Agendamento de trabalhos
- Monitoramento
- Arquivo de log
- Manipulação de exceções
- Manipulação de erros
- Notificação
54Arquitetura Funcional do DW
- Gerenciamento de recursos da Área Interna
- Backup e Recovery
- Archive e Retrieval
- Metadados da Área Interna
- Dos sistemas fonte
- Das especificações da fonte
- Das informações descritivas da fonte
- Dos processos de informação
55Arquitetura Funcional do DW
- Metadados da Área Interna (cont)
- Da área de organização de dados
- Das informações de aquisição de dados
- Do gerenciamento das tabelas dimensão
- Das transformações e agregações
- De auditorias, logs de trabalho e documentação
- Do banco de dados
56Arquitetura Funcional do DW
- Componentes da Área Externa
- Servidor de apresentação
- Dados disponibilizados para usuário final
- Ferramenta de acesso aos dados
- Consultas ad hoc (utilização de cache)
- Drill down, Drill up ou roll up, Slice e Dice
- Ferramenta geradora de relatórios
- Relatórios padronizados (utilização de cache)
- Modelos de aplicações
- Data Mining
- Sistemas após o DW
- Sistemas de geração de relatórios orientados a
transações (ex. Sistema de previsão de demanda)
57Arquitetura Funcional do DW
- Serviços da Área Externa
- Warehouse browsing
- Ligados ao cadastro de metadados
- Serviços de acesso e segurança
- Autenticação e autorização
- Serviços de monitoramento de atividades
- Centrados sobre
- Desempenho, suporte ao usuário, marketing e
planejamento
58Arquitetura Funcional do DW
- Serviços da Área Externa (cont)
- Serviços de gerenciamento de consultas
- Simplificação do conteúdo
- Reformulação da consulta
- Redirecionamento de consulta
- Consciência de agregados
- Serviços de padronização de relatórios
- Permitir criação de relatórios em formatos
pré-definidos
59Arquitetura Funcional do DW
- Metadados da Área Externa
- Descrição das colunas, tabelas e agrupamentos
- Consultas pré-formuladas
- Perfis de privilégio de usuários
- Mapas de acessos à tabelas, visões, relatórios e
dados - Documentação para Usuário Final
60Arquitetura Funcional do DW
- Tendências Futuras
- Área Interna
- Sistema de participação de fonte ativa
- Envio de dados
- Sistemas orientados a objetos
- Área Externa
- Autenticação e autorização
- Centralização dos serviços de acesso
- Acesso a clientes baseados na Web
61Ferramentas
- DBMINER
- Procura integrar tecnologias de DW e Data Mining
- Banco de dados analítico MOLAP
- Importa um conjunto de tabelas provenientes de
BDRs como MS SQL Server, MS Acess, Oracle ou Text
Files - Possui wizard para montar Data Mart
62Ferramentas
- MS SQL Server
- Conjunto de Aplicativos da Microsoft
- Banco de dados relacional, ferramentas OLAP e MS
English Query - Torna possível implementação de sistemas de
suporte à decisão ROLAP, MOLAP, OLAP - Serviços de importação, extração, transformação,
validação e limpeza de dados heterogêneos - Serviços de gerenciamento e ferramentas voltadas
para o usuário final
63Conclusões
- Data Warehousing integra grandes volumes de dados
originados em sistemas separados - Necessitam de grande esforço para seu
desenvolvimento - Torna possível a descoberta de conhecimento
escondido nos dados - Útil para organizações que precisem tomar
decisões estratégicas de risco e que necessitem
se posicionar de forma vantajosa
64Conclusões
- Desenvolvimento de servidores de BD paralelos
poderá viabilizar o suporte a Data Warehouses
cada vez maiores - Tratará dados multimídia
- Data WareHouse deverá também ser viabilizado na
Internet