Title: DAMA-UPC: gesti
1DAMA-UPC gestió de grans volums de dades i la
influència de l'estadística en entorns de gestió
de la informació
2Contingut de la presentació
- Presentació DAMA-UPC
- Grans volums de dades
- Count Bloom Filters
- Optimització de consultes a SGBDs
- DEX Exploració de la informació. BIBEX
- Entity Resolution
- Conclusions
3Contingut de la presentació
- Presentació DAMA-UPC
- Grans volums de dades
- Count Bloom Filters
- Optimització de consultes a SGBDs
- DEX Exploració de la informació. BIBEX
- Entity Resolution
- Conclusions
4DAMA-UPC
- Format per unes 25 persones, 3 professors (2
informàtics, 1 estadística), 6 estudiants
(master/doct), 10 desenvolupadors, 6 becaris
suport. - Campus Nord, UPC.
- Arees de recerca (aspectes pràctics, software
gratuit) - Data Quality
- DAURUM, Record Linkage Software V4.3.
- Institut Català dOncologia.
- Data Exploration
- DEX, graph database. Graph query engine that
allows to query large graphs. - ANCERT (IT company of the Notaries of Spain).
Work with Yahoo!Research, Institut Català
dOncologia, BIBEX. (www.dama.upc.edu/bibex). - Distributed and parallel querying systems
- Relational DBMSs query optimization, query
ecxecution, join, sort.
5Customers and achievements
- Major achievements of DAMA-UPC
- Grup de Recerca Emergent, Generalitat de
Catalunya. - RD project, MEC.
- SEMEDIA FP6 EC project.
- Member of Xarxa IT, Departament dInnovació,
Universitats i Industria - Technology Transfer in Catalunya.
- We collaborate with industry to increase their
competitivity. - IBM Faculty and PhD Award, 2004.
- Industry partners
- IBM.
- Institut Català dOncologia.
- ANCERT.
- Departament de Salut, Generalitat de catalunya.
- Agència Catalana de lAigua.
- Ajuntament de Sabadell
- DAMM
- Cancer registries of Spain (Balearic Islands,
Canary Islands, Aragón, Catalunya)
6Contingut de la presentació
- Presentació DAMA-UPC
- Grans volums de dades
- Count Bloom Filters
- Optimització de consultes a SGBDs
- DEX Exploració de la informació. Exemple BIBEX
- Entity Resolution
- Conclusions
7Grans volums de dades
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- Objectius per la xerrada
- Projectes que involucren directament o indirecta
lestadística - Count Bloom Filters estructura de dades que dóna
un comptatge aproximat devents. - Optimització de consultes ús de tècniques
estadístiques per validar els resultats. - DEX motor de consulta de grafs/BIBEX.
- Entity Resolution Millora de la qualitat de les
bases de dades a partir de software de comparació
de registres. - Mostrar les formes de tractar les dades de forma
eficient en temps dexecució.
8Count Bloom Filters
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- J. Aguilar, P. Trancoso, V. Muntés, J. L.
Larriba-Pey - IBM Toronto Lab. Markham, ON.
- University of Cyprus
9Count Bloom Filters
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- Uso de Bloom Filters (Bloom, 1970)
- Count Bloom Filters (Fan et al. 2000)
- Spectral Bloom Filters (Cohen et al. 2003)
- Dynamic Count Filters (Aguilar et al. 2005)
- Partitioned Dynamic Count Filters (Aguilar et al.
2007) - Article derivat (Dominguez at al. 2008)
- Entornos
- Redes de comunicación
- Minimización de comunicación en Proxy Caching
(Fan. 2000) - Longest Prefix Matching (Dharmapurikar et. Al.
2003) - Contaje de tráfico de paquetes (Estan et al.
2001) - Bases de datos
- Iceberg queries (Fang et al. 1998)
- Estado de teléfonos móviles
- Bloom Histograms (Wang et al. 2004)
10Motivación
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- Representación dinámica y adaptable de secuencias
de datos temporales - Dynamic Count Filters (DCF) (SIGMOD Record)
- Partitioned DCF (PDCF) (inédito, para esta
prueba) - Mejoramos tiempo de respuesta puntual
- Reducimos la memoria necesaria
- Adaptamos a las características de los datos
- Aumentamos la calidad de servicio (QoS)
- Pueden implementarse en hardware
11Ejemplo (Proxy Caching)
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
Red de proxies
12Ejemplo (Proxy Caching)
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
Cada cierto tiempo se hace un broadcast de la
SC. Cuanto menor tamaño, mejor.
- Summary Cache
- URL exacta (16 bytes)
- Dirección del servidor (lt16 bytes).
- Count Bloom Filters (lt1byte)
Si no está la página, se manda la petición al
siguiente nodo de la red
13Bloom Filters (Bit Filters)
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
k funciones de Hash (k3)
Fase de inicialización y fase de consulta
Probabilidad de un 0 (1-1/m)kn
Probabilidad falso positivo (1-(1-1/m)kn)k
m
- Problemas de los BF
- Falsos positivos
- Sólo detectan presencia, no ocurrencias
- No permiten borrado
M datos n valores distintos
B. Bloom. Space time , Communic. of the ACM, 1970
14Count Bloom Filters (CBF)
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
K (K3) funciones de Hash
- Ventajas de CBF
- Permiten determinar número de ocurrencias de un
elemento - Permiten actualizaciones
- Problemas de los CBF
- Solución estática saturación
- Probabilidad de falsos positivos.
15Partitioned DCF
Partitioning Vector
PDCF g 4 particiones
16Características de los PDCF
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
Tamaño contadores Tiempo acceso Coste de reconstrucción Contadores saturados Ineficiencia de memoria
CBF Estáticos Rápido No posible Si Alta
SBF Dinámicos Lento Alto/frecuente eventualmente Muy alta
DCF Dinámicos Rápido Muy alto No Alta
PDCF Dinámicos Rápido Bajo No Moderada
17Visión general
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- PDCF1. Igual número de contadores que SBF y DCF.
- PDCF2. Igual memoria que para SBF. M10n
SBF DCF PDCF1 PDCF2
n10,000 Tiempo de ejecución (Seg.) Memoria máxima (KBytes) Precisión de la representación () 34.2 203.3 90.3 4.8 111.5 90.3 2.8 63.2 90.4 3.0 178 97.8
n100,000 Tiempo de ejecución (Seg.) Memoria máxima (KBytes) Precisión de la representación () 930 1726.2 90.7 32 1115.7 90.8 3.5 381.8 90.7 3.6 1683.4 98.7
18Inserción masiva de datos
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
n 10K
19Inserción masiva (precisión de la representación)
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
20Optimització de queries
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- V. Muntés, J. Aguilar, M. Pérez-Casany, J. Ll
Larriba-Pey - IBM Toronto Lab. Markham, ON
- Dept. MA-II i DAMA-UPC, UPC.
21Query Optimization
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- Large RDBMs imply large queries.
- Dynamic programming tools have memory
limitations. - Other devices that are fast and obtain close to
optimal solutions.
22DBMS Structure
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
SQL Query
Query Engine
Parser- Optimizer
Results
23Evolutionary Optimizer (Genetic Programming)
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
24Solution representation QEP
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- Carquinyoli Genetic Optimizer (CGO) uses the
typical Query Execution Plan (QEP) to represent
the operation order to solve a query - In CGO, each join operation represents a unique
join condition - The search space is reduced by avoiding
- Cross Products
- Artificial Joins
25Motivation
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- Most of the non-deterministic approaches need to
be parameterized carefully in order to obtain the
desired efficiency - Do randomized characteristics of a genetic
algorithms allow us to extract general
conclusions?
26The Carquinyoli Genetic Optimizer
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
P
C
M
27Experiment Design
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
Total Number of Observations 7290
28Statistical Model
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- ANOVA aims at decomposing the total variability
of a sample among different parts corresponding
to the factors that could potentially be the
cause - We propose and accept the following model
Link to Model Goodness of fit
- In order of importance N, G, P, C and M
29Goodness of fit
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
R-Square variability explained by the model
- The error terms are independent and follow a
normal distribution with zero mean and constant
variance
30Practical Recommendations
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
Star Join Query
SELECT s.name, s.s_id FROM T1,
... TN WHERE T1.a T2.b, ... AND T4.c X
Crossovers
C N/2
G 200
Mutations
C N/4
31DEX a graph query engine
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- N. Martínez-Bazán, V. Muntés, S. Gómez-Villamor,
J. Nin, M. Sánchez, J. L. Larriba-Pey - IIIA, Universitat Autònoma de Barcelona
32Motivation
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
Main focus
- High-performance
- Exploration
- on Large Graphs
- for Information Retrieval
Activity
Data
Area of interest
33DEX
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- GDBMS based on the Graph Database Model
- Data representation in the form of a large graph
- Query operations are based on graph operations
- Query results are in the form of new graphs
- Constraints node and edge types, explicit
relationships, attribute domains - Integrates data from multiple data sources
RDBMS, CSV, XML, HTML, RDF - Implemented with specialized structures to
satisfy the requirements of high-performance
storage and retrieval for very large data graphs - Supported in Windows and Linux with a Java API as
interface - Examples
- BIBEX WEB interface to Computer Science
bibliographic databases - OCP fraud detection in patrimonial transactions
34Example of a DbGraph Schema
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
Contains information of a data source and its type
The definition of an entity or collection of data
units
It can represent either an edge or a constraint
between attributes
A characteristic or property of a dataset
35Exploral Process
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- The natural query mechanism of DEX is the
exploration of the relationships in a graph
(RELATIONSHIP vs. VALUE oriented analysis) - Queries are implemented as a combination of
low-level graph-oriented operations, based on
very efficient bit vector manipulations
36BIBEX una eina de recerca bibliogràfica
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- Poder fer consultes del tipus
- Món dun investigador
- Recomanació darticles
- Recomanació de revisors
- Mètriques de qualitat de la recerca
- BIBEX, eina de cerca bibliogràfica basada en
DBLP, Univ. Trier i en Citeseer. Permet fer
consultes 1, 2, 3 anteriors. - www.dama.upc.edu/bibex
37Entity Resolution
- Count Bloom Filters
- Optimització de consultes
- DEX
- Entity Resolution
- DAURUM, aplicació deliminació de duplicats a
bases de dades. - Basat en teoria de Fellegi i Sunter. Aproximació
probabilística a lassignació de pesos als camps
comparats. - Fem aproximació informàtica per tal de fer que el
sistema sigui molt eficient en temps dexecució i
no es penalitzi la qualitat.
38Conclusions
- DAMA-UPC treballa en diferents aspectes de la
velocitat de les aplicacions de gestió de la
informació. - Es tenen en compte diferents aspectes
- Velocitat en lexecució
- DEX, DAURUM
- Generar software que es pugui oferir
- DEX, DAURUM, CGO, QA.
- Buscar temes de recerca que tinguin aplicació
directa en el mercat - Fer servir metodologia estadística i matemàtica
per fer de la recerca una eina eficient i que
asseguri resultats fiables - A DAMA-UPC ens agradaria fer un servei a la
socientat, que permetés usar la tecnologia que
generem per tal de millorar la qualitat de vida
dels seus membres