Data Mining - PowerPoint PPT Presentation

1 / 51
About This Presentation
Title:

Data Mining

Description:

constituidos por muchos elementos no id nticos que est n conectados ... Scott White & Padhraic Smyth: Algorithms for Estimating Relative Importance in Networks. ... – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 52
Provided by: fernand66
Category:

less

Transcript and Presenter's Notes

Title: Data Mining


1
Data Mining
  • Redes

Fernando Berzalfberzal_at_decsai.ugr.es http//elvex
.ugr.es/idbis/dm/
2
Redes
3
Redes
  • Áreas de aplicación
  • Cheminformatics Compuestos químicos.
  • Bioinformatics Estructuras proteínicas
    bio-pathways
  • Ingeniería del Software Análisis de programas
  • Análisis de redes de flujo (tráfico, workflow)
  • Bases de datos semiestructuradas, p.ej. XML
  • Gestión del conocimiento ontologías y redes
    semánticas
  • CAD Diseño de circuitos electrónicos (ICs)
  • Sistemas de información geográfica cartografía
  • Redes sociales, p.ej. Web

4
Redes
Interacciones de la proteína de la levadura
from H. Jeong et al Nature 411, 41 (2001)
5
Redes
La Pirámide de la Complejidad de la Vida
from Z.N. Oltvai and A.-L. Barabasi. Science,
2002
6
Redes
Food Web
7
Redes
Internet
8
Redes
Red social Coautores
9
Redes
Red social US Biotech Industry
10
Redes
Red social FOAF (friend of a friend)
11
Redes
Red social Estructura de una organización
www.orgnet.org
12
Redes
  • Las redes son grafos
  • Vértices Objetos
  • Puede haber distintos tipos de objetos
  • Los objetos pueden tener atributos
  • Los objetos pueden tener etiquetas
  • Aristas Enlaces entre objetos
  • Puede haber distintos tipos de enlaces
  • Los enlaces pueden tener atributos
  • Los enlaces pueden ser dirigidos (o no dirigidos)
  • No se requiere que los enlaces sean binarios

13
Redes
  • Redes sociales
  • Nodos Individuos
  • Enlaces Relaciones sociales (familiares,
    económicas)
  • Redes de telecomunicaciones
  • Nodos de la red Ordenadores, routers, satélites
  • Enlaces Distintos tipos de medios guiados y no
    guiados
  • Redes de transporte
  • Nodos Ciudades
  • Conexiones Carreteras, vías férreas y rutas
    aéreas
  • Ingeniería del Software ? Software Mining
  • Nodos Módulos
  • Relaciones Dependencias

14
Redes Ejemplos
  • Coautores
  • Nodos Científicos
  • Enlaces Artículos escritos conjuntamente

15
Redes Ejemplos
  • Redes de telecomunicaciones
  • Nodos Ordenadores, routers, satélites
  • Enlaces Distintos tipos de medios guiados y no
    guiados

16
Redes Ejemplos
  • Redes biológicas

17
Redes Ejemplos
  • Web
  • Nodos Documentos
  • Enlaces entre URLs

18
Redes
  • El estudio de redes engloba muchos tipos de
    redessociales, económicas, biológicas, de
    contenido
  • Características de las redes
  • Gran escala
  • Evolución continua
  • Distribución (los nodos deciden con quién
    conectarse)
  • Interacción sólo a través de los enlaces
    existentes

19
Propiedades de las redes
  • Propiedades de interés
  • Componentes conectadoscuántos? de qué tamaño?
  • Diámetro de la redDistancia media, peor caso
  • Grado de los nodos (degree distribution)y
    existencia de hubs (vértices muy conectados)
  • Agrupamiento(balance entre conexiones locales y
    de larga distancia roles de ambos tipos de
    conexiones)

20
Propiedades de las redes
  • Conectividad
  • p.ej. WWW

21
Propiedades de las redes
  • Diámetro de la red
  • p.ej. small worlds

22
Propiedades de las redes
  • Coeficiente de agrupamiento
  • nbr(u) Vecinos de u en el grafo
  • k Número de vecinos de u (i.e. nbr(u))
  • max(u) Número máximo de aristas entre los
    vecinos de u, p.ej. k(k-1)/2
  • Coeficiente de agrupamiento del nodo uc(u)
    (aristas entre vecinos de u) / max(u)
  • Coeficiente de agrupamiento del grafo GC
    Promedio de c(u) para todos los nodos de G

23
Propiedades de las redes
  • Coeficiente de agrupamiento
  • k 4
  • m 6
  • c(u) 4/6 0.66
  • 0 lt c(u) lt 1
  • Parecido a un clique de los vecinos de u
  • Interpretación Mis amigos suelen ser amigos
    entre sí

24
Propiedades de las redes
  • Coeficiente de agrupamiento
  • Algunas redes reales (CgtCrand, LltLrand)C
    Clustering CoefficientL Path Length

25
Propiedades de las redes
  • Grado de los nodos
  • Distribución Normal
  • Parámetros Media y desviación

26
Propiedades de las redes
  • Grado de los nodos
  • Distribución de Poisson
  • Único parámetro ? (media y desviación)

27
Propiedades de las redes
  • Grado de los nodos
  • Distribución de Pareto (power law)
  • P(x) 1/x?
  • Hubs Un número pequeño de vértices con un grado
    elevado (fenómeno que no aparece en las
    distribuciones normales/binomiales/de Poisson)

28
Propiedades de las redes
  • Grado de los nodos
  • Cómo distinguir entre una distribución y otra?
  • Log-log plot
  • Pareto
  • log(PrX x) log(1/xa) -a log(x)
  • Lineal, pendiente a
  • Normal
  • log(PrX x) log(a exp(-x2/b)) log(a)
    x2/b
  • No lineal, cóncava entorno a la media
  • Poisson
  • log(PrX x) log(exp(-l) lx/x!)
  • No lineal

29
Propiedades de las redes
  • Grado de los nodos
  • a WWWpower law
  • b Coauthorship
  • networks
  • power law withexponential cutoff
  • c Power grid
  • exponential
  • d Social networkgaussian

30
Modelos de redes
  • Las redes naturales suelen tener
  • Una (o muy pocas) componentes conexas
  • Independientemente del tamaño de la red
  • Un diámetro pequeño (6 grados de separación)
  • Constante, que crece logarítmicamente o que
    incluso decrece con el tamaño de la red
  • Un alto grado de agrupamiento (comunidades)
  • Mucho mayor que el que resultaría de una red
    aleatoria (y, aún así, con un pequeño diámetro)
  • Mezcla de conexiones
  • Conexiones locales y de larga distancia
  • comparten características universales ?

31
Modelos de redes
  • Random networks (redes aleatorias)
  • Random-biased networks (redes aleatorias
    sesgadas)
  • Small-world networks (qué pequeño es el mundo)
  • Scale-free networks (redes libres de escala)
  • Hierarchical modular networks (redes
    jerárquicas/modulares)
  • Affiliation networks (redes de afiliación)

32
Modelos de redes
  • Random Networks
  • Modelo de Erdos Renyi
  • Pocas componentes conexas (típicamente una)
  • Bajo coeficiente de agrupamiento
  • Distribución de Poisson

33
Modelos de redes
  • Random Networks
  • Modelo de Erdos Renyi

Componente principal
Número de enlaces
34
Modelos de redes
  • Small-World Networks
  • Modelo de Watts Strogatz
  • Pocas componentes conexas (típicamente una)
  • Diámetro pequeño
  • Distribución de Poisson
  • Alto coeficiente de agrupamiento

35
Modelos de redes
  • Small-World Networks
  • Modelo de Watts Strogatz
  • Average path length, normalized by system size,
    plotted as a function of the average number of
    shortcuts.

36
Modelos de redes
  • Scale-Free Networks
  • Modelo de Barabasi Albert
  • Pocas componentes conexas (típicamente una)
  • Diámetro pequeño
  • Distribución de Pareto
  • Bajo coeficiente de agrupamiento
  • Hubs
  • Modelo natural
  • Número variable de nodos La red va creciendo
    conforme se añaden nuevos nodos.
  • Es más probable crear enlaces a nodos que ya
    tienen muchos enlaces (preferential attachment
    rich get richer).

37
Modelos de redes
38
Modelos de redes
  • Scale-Free Networks
  • Características
  • Muestran rasgos de auto-organización en sistemas
    complejos Los enlaces no son aleatorios.
  • Resistentes frente a fallos aleatorios, que
    pueden causar con facilidad la disrupción de una
    red aleatoria pero no la de una red libre de
    escala.
  • Vulnerables frente a ataques organizados Los
    hubs son esenciales para mantener la red unida.

39
Modelos de redes
  • Scale-Free Networks
  • Características

40
Modelos de redes
  • Hierarchical/Modular Networks
  • Organización jerárquica
  • Hubs
  • Cliques

41
Modelos de redes
  • Hierarchical/Modular Networks

42
Modelos de redes
  • Affiliation Networks (redes de afiliación)
  • Grafo bipartido para modelar interacciones
    sociales

43
Modelos de redes
  • Affiliation Networks (redes de afiliación)

44
Modelos de redes
  • Affiliation Networks (redes de afiliación)

45
Problemas de interés
  • Búsquedas en redes (con información local
    incompleta)
  • Problemas de difusiónepidemias, contagio social
    (ideas, modas, productos)
  • Análisis de las propiedades de una redp.ej.
    Robustez

46
Problemas de interés
  • Desde el punto de vista algorítmico
  • Objetos
  • Ordenación (ranking),
  • Clasificación y detección de anomalías,
  • Agrupamiento (detección de grupos)
  • Identificación de objetos (entity resolution).
  • Enlaces
  • Predicción de enlaces
  • Grafos
  • Detección de subgrafos
  • Clasificación de grafos
  • Modelos de generación de grafos

47
Bibliografía
  • Redes Orígenes Aplicaciones (redes sociales,
    Web)
  • Stanley Milgram The small world problem.
    Psychology Today, 260-67 (1967)
  • Phillip W. Anderson More is different.Science,
    177393-396 (1972)
  • Mark S. Granovetter The strength of weak
    ties.American Journal of Sociology, 781360-1380
    (1973)
  • Stanley Wasserman Katherine Faust Social
    Network Analysis Methods and Applications.
    Cambridge University Press, 1994
  • John P. Scott Social Network Analysis, 2nd
    edition.Sage Publications Ltd., 2000.
  • Andrei Broder, Ravi Kumar, Farzin Maghoul,
    Prabhakar Raghavan, Sridhar Rajagopalan, Raymie
    Stata, Andrew Tomkins Janet Wiener Graph
    structure in the Web. Computer Networks
    33309320 (2000)
  • Steven H. Strogatz Exploring Complex
    Networks.Nature, 410268-275 (2001)
  • Albert-Laszlo Barabasi Linked How Everything Is
    Connected to Everything Else and What It Means.
    Plume, 2003. ISBN 0452284392
  • Duncan J. Watts Six Degrees The Science of a
    Connected Age. W. W. Norton Company, 2004. ISBN
    0393325423
  • Jure Leskovec, Jon M. Kleinberg Christos
    Faloutsos Graphs over time densification laws,
    shrinking diameters and possible explanations.
    KDD'2005

48
Bibliografía
  • Redes Modelos
  • Paul Erdös Alfred Rényi On the evolution of
    random graphs.Mathematical Institute of the
    Hungarian Academy of Sciences, 517-61 (1960)
    reprinted in Duncan, Barabasi Watts (eds.)
    The Structure and Dynamics of Networks
  • Ray Solomonoff Anatol Rapoport Connectivity of
    random nets.Bulletin of Mathematical Biophysics,
    13107-117 (1951)reprinted in Duncan, Barabasi
    Watts (eds.) The Structure and Dynamics of
    Networks
  • Duncan J. Watts Steven H. Strogatz Collective
    dynamics of small-world networks.Nature,
    393440-442 (1998)
  • Albert-László Barabási Réka Albert Emergence
    of scaling in random networks.Science,
    286509-512 (1999)
  • Réka Albert, Hawoong Jeong Albert-László
    Barabási Error and attack tolerance of complex
    networks. Nature 406378-382 (2000)
  • M.E.J. Newman, S.H. Strogatz D.J. Watts Random
    graphs with arbitrary degree distributions and
    their applications. Physical Review E, 64026118
    (2001)
  • M.E.J. Newman, S.H. Strogatz D.J. Watts Random
    graphs models of social networks. PNAS
    992566-2572 (2002)
  • Erzsébet Ravasz Albert-László Barabási
    Hierarchical organization in complex networks.
    Physical Review E, 67026112 (2003)
  • Mark Newman The structure and function of
    complex networks. SIAM Review 45167-256 (2003)

49
Bibliografía
  • Búsqueda en redes
  • Sergey Brin Lawrence Page The anatomy of a
    large-scale hypertextual Web search engine.
    Computer Networks and ISDN Systems, April 1998
  • David Gibson, Jon M. Kleinberg Prabhakar
    Raghavan Inferring Web Communities from Link
    Topology. ACM Conference on Hypertext and
    Hypermedia, June 1998
  • Jon M. Kleinberg Authoritative sources in a
    hyperlinked environment. Journal of the ACM,
    September 1999
  • Toby Walsh Search in a Small World. IJCAI1999
  • Jon M. Kleinberg. Navigation in a Small World.
    Nature, August 2000.
  • Jon M. Kleinberg The small-world phenomenon An
    algorithm perspective. STOC2000
  • Scott White Padhraic Smyth Algorithms for
    Estimating Relative Importance in Networks.
    KDD'2003
  • Hanghang Tong Christos Faloutsos Center-Piece
    Subgraphs Problem Definition and Fast Solutions.
    KDD'2006
  • Alekh Agarwal, Soumen Chakrabarti Sunny
    Aggarwal Learning to Rank Networked Entities.
    KDD'2006
  • Jeffrey Davitz, Jiye Yu, Sugato Basu, David
    Gutelius Alexandra Harris iLink Search and
    Routing in Social Networks. KDD'2007.

50
Bibliografía recomendada
  • Jiawei Han Micheline Kamber Data Mining
    Concepts and Techniques 2ª edición, sección 9.2
    Addison-Wesley, 2006. ISBN 1-55860-901-3
  • Mark Newman, Albert-Laszlo Barabasi Duncan J.
    Watts (editors) The Structure and Dynamics of
    Networks. Princeton University Press, 2006. ISBN
    0-691-11357-2

51
Bibliografía recomendada
  • Libros divulgativos
  • Albert-Laszlo Barabasi Linked How Everything Is
    Connected to Everything Else and What It Means.
    Plume, 2003. ISBN 0452284392
  • Duncan J. Watts Six Degrees The Science of a
    Connected Age. W. W. Norton Company, 2004. ISBN
    0393325423
Write a Comment
User Comments (0)
About PowerShow.com