Modelos Alternativos (1) M. Andrea Rodr - PowerPoint PPT Presentation

About This Presentation
Title:

Modelos Alternativos (1) M. Andrea Rodr

Description:

Modelos Alternativos (1) M. Andrea Rodr guez Tastets ... Structure Guided. Hypertext. Ejemplo: Boolean. q. 0. 0. 1. 0. D7. 0. 0. 1. 1. D6. 1. 1. 1. 1. D5. 0. 0 ... – PowerPoint PPT presentation

Number of Views:41
Avg rating:3.0/5.0
Slides: 31
Provided by: infU1
Category:

less

Transcript and Presenter's Notes

Title: Modelos Alternativos (1) M. Andrea Rodr


1
Modelos Alternativos (1)M. Andrea Rodríguez
TastetsDIIC - Universidad de Concepciónhttp//ww
w.inf.udec.cl/andrea
2
Modelos
U s e r T a s k
Retrieval Adhoc Filtering
Browsing
3
Ejemplo Boolean
K3 K2 K1 Sim
D1 1 0 1 0
D2 1 0 0 0
D3 0 1 1 1
D4 1 0 0 0
D5 1 1 1 1
D6 1 1 0 0
D7 0 1 0 0
q
q k1 ? (k2 ? ?k3) Qdnf (1,1,1) ?(1,1,0)
?(1,0,0)
4
Ejemplo Vector (1)
Kc Kb Ka qdj
D1 1 0 1 2
D2 1 0 0 1
D3 0 1 1 2
D4 1 0 0 1
D5 1 1 1 3
D6 1 1 0 2
D7 0 1 0 1
q 1 1 1
q ka ? (kb ? ?kc) Qdnf (1,1,1) ?(1,1,0)
?(1,0,0)
5
Ejemplo Vector (2)
K3 K2 K1 qdj
D1 1 0 1 4
D2 1 0 0 1
D3 0 1 1 5
D4 1 0 0 1
D5 1 1 1 6
D6 1 1 0 3
D7 0 1 0 2
q 1 2 3
q k1 ? (k2 ? ?k3) Qdnf (1,1,1) ?(1,1,0)
?(1,0,0)
6
Ejemplo Vector (3)
K3 K2 K1 qdj
D1 2 0 1 5
D2 1 0 0 1
D3 0 1 3 11
D4 2 0 0 2
D5 1 2 4 17
D6 1 2 0 5
D7 0 5 0 10
q 1 2 3
q k1 ? (k2 ? ?k3) Qdnf (1,1,1) ?(1,1,0)
?(1,0,0)
7
Modelos Basados en Teoría de Conjuntos
8
Modelos Basados en Teoría de Conjuntos
  • El modelo Booelan impone un criterio binario para
    determinar relevancia.
  • La pregunta es entonces cómo extender el modelo
    Boolean para acomodar la correspondencia parcial.
  • Dos estrategias son
  • Modelo de conjuntos difusos (fuzzy set)
  • Modelo Boolean extendido

9
Conjuntos Difusos
  • Consultas y documentos representados por
    conjuntos de téminos índices.
  • La vaguedad es modelada como un conjunto difuso
  • cada término es asociado con un conjunto difuso
  • cada documento tiene un grado de membresía en
    este conjunto difuso
  • Esta interpretación da el fundamento para muchos
    modelos de IR basados en teoría difusa.
  • Aquí se presenta el modelo de Ogawa, Morita, and
    Kobayashi (1991)

10
Conjuntos Difusos
  • La teoría difusa modela clases cuyos límites no
    están bien definidos.
  • La idea clave es introducir la noción de grado de
    membresía asociado con los elementos de un
    conjunto.
  • Este grado de membresía varía entre 0 y 1 y
    permite modelar la noción de membresía marginal.
  • Así, membresía es ahora una noción gradual,
    contraria a la noción binaria del modelo Boolean
    clásico.

11
Teoría de Conjuntos Difusos
  • Definición
  • Un conjunto difuso A de U es caracterizado por
    una función de membresía ?(A,u) U ?
    0,1, la cual asocia a cada elemento u de U un
    número ?(u) en el intervalo 0,1
  • Definición
  • Sean A y B dos conjuntos difusos de U. También,
    sea A el complemento A. Entonces,
  • ?(A,u) 1 - ?(A,u)
  • ?(A?B,u) max(?(A,u), ?(B,u))
  • ?(A?B,u) min(?(A,u), ?(B,u))

12
Recuperación de Información Difusa
  • Conjuntos difusos son modelados basados en un
    tesaurus
  • Este tesaurus es construido como sigue
  • Sea vec(c) una matriz de correlación term-term
  • Sea c(i,l) un factor normalizado de correlación
    para (ki,kl) c(i,l) n(i,l)
    ni nl - n(i,l)
  • ni número de docs que contienen a ki
  • nl número de docs que contienen a kl
  • n(i,l) número de docs que contienen a ki y kl
  • Nosotros ahora tenemos la noción de proximity
    entre términos índices.

13
Recuperación de Información Difusa
  • El factor de correlación c(i,l) puede ser usado
    para definir membresía de conjuntos difusos para
    un documento dj como sigue ?(i,j) 1 -
    ? (1 - c(i,l)) kl ? dj
  • ?(i,j) membresía de dj en el conjunto difuso
    asociado a ki
  • La expresión anterior computa una suma algebraica
    sobre todos los términos en el documento dj
  • Un documento dj pertenece al conjunto difuso
    para ki, si sus términos están asociados con ki

14
Recuperación de Información Difusa
  • ?(i,j) 1 - ?(1 - c(i,l)) kl
    ? dj
  • ?(i,j) membresía de documento dj en
    subconjunto difuso asociado con ki
  • Si documento dj contiene un término kl que está
    estrechamente relacionado con ki, entonces
  • c(i,l) 1
  • ?(i,j) 1
  • índice ki es un buen índice difuso para el
    documento doc

15
Ejemplo
  • q ka ? (kb ? ?kc)
  • vec(qdnf) (1,1,1) (1,1,0) (1,0,0)
    vec(cc1) vec(cc2) vec(cc3)
  • ?(q,dj) ?(cc1cc2cc3,j) 1 - (1
    - ?(a,j) ?(b,j) ?(c,j)) (1 - ?(a,j)
    ?(b,j) (1-?(c,j))) (1 - ?(a,j)
    (1-?(b,j)) (1-?(c,j)))

16
Ejemplo
q k1 ? (k2 ? ?k3) Qdnf (1,1,1) ?(1,1,0)
?(1,0,0)
K3 K2 K1
K3 1 2/7 2/6
K2 2/7 1 2/5
k1 2/6 2/5 1
K3 K2 K1
D1 1 0 1
D2 1 0 0
D3 0 1 1
D4 1 0 0
D5 1 1 1
D6 1 1 0
D7 0 1 0
17
Ejemplo
q k1 ? (k2 ? ?k3) Qdnf (1,1,1) ?(1,1,0)
?(1,0,0)
K3 K2 K1 ?(q,dj)
D1 1 0 1
D2 1 0 0
D3 0 1 1
D4 1 0 0
D5 1 1 1
D6 1 1 0
D7 0 1 0
K3 K2 K1
K3 1 2/7 2/6
K2 2/7 1 2/5
k1 2/6 2/5 1
?(q,dj) ?(cc1cc2cc3,j) 1 - (1 - ?(k1,j)
?(k2,j) ?(k3,j)) (1 - ?(k1,j) ?(k2,j)
(1-?(k3,j))) (1 - ?(k1,j) (1-?(k2,j))
(1-?(k3,j)))
18
Ejemplo
q k1 ? (k2 ? ?k3) Qdnf (1,1,1) ?(1,1,0)
?(1,0,0)
K3 K2 K1 ?(q,dj)
D1 1 0 1 0.57
D2 1 0 0
D3 0 1 1
D4 1 0 0
D5 1 1 1
D6 1 1 0
D7 0 1 0
K3 K2 K1
K3 1 2/7 2/6
K2 2/7 1 2/5
k1 2/6 2/5 1
?(q,dj) ?(cc1cc2cc3,j) 1 - (1 - ?(k1,j)
?(k2,j) ?(k3,j)) (1 - ?(k1,j) ?(k2,j)
(1-?(k3,j))) (1 - ?(k1,j) (1-?(k2,j))
(1-?(k3,j)))
?(k1,dj) 1, ?(k2,dj) 1-(1-c(k2,k1))(1-c(k2,k3
))0.57, ?(k3,dj) 1
19
Recuperación de Información Difusa
  • Modelos difusos IR han sido discutidos en la
    literatura de teoría difusa
  • Experimentos con datos de colecciones de pruebas
    no son disponibles
  • Entonces,no es posible compararlos.

20
Modelo Boolean Extendido
  • Recuperación Booelan es simple y elegante
  • Pero, no tiene ranking
  • Cómo extender el modelo?
  • interpretar conjunciones y disyunciones en
    términos de distancias Euclidiana

21
Modelo Boolean Extendido
  • Como con el modelo difuso, un ranking puede
    obtenerse al relajar la condición de membresía de
    conjunto.
  • Se extiende el modelo Boolean con nociones de
    correspondencia parcial (partial matching) y peso
    de términos
  • Combina características del modelo Vector con
    propiedades de algebra Boolean

22
Idea
  • El modelo Boolean extendido (Salton, Fox, and
    Wu, 1983) está basado en una crítica de la
    premisa básica en algebra Boolean
  • Sea,
  • q kx ? ky
  • wxj fxj idf(x) asociado con
    kx,dj maxi(idf(i))

23
qand kx ? ky wxj x and wyj y
(1,1)
ky
dj1
AND
y wyj
dj
x wxj
(0,0)
kx
24
qor kx ? ky wxj x and wyj y
(1,1)
ky
dj1
OR
dj
y wyj
x wxj
(0,0)
kx
25
Generalizando la idea
  • Podemos extender la idea anterior para un espacio
    Euclideano t-dimensional
  • Esto puede ser hecho usando p-norms ,la cual
    extiende la noción de distancia a p-distancia,
    donde 1 ? p ? ? es un nuevo parámetro
  • Una consulta conjuntiva generalizada está dada
    por
  • qor k1 k2 . . . kt
  • Una consulta disyuntiva generaliza está dada por
    qand k1 k2 . . .
    kt

26
Idea Generalizada
p
p
p
  • sim(qor,dj) (x1 x2 . . . xm )
    m

p
p
p
  • sim(qand,dj) 1 - ((1-x1) (1-x2) . . .
    (1-xm) ) m

27
Propiedades
p
p
p
  • sim(qor,dj) (x1 x2 . . . xm )
    m
  • Si p 1 entonces (como Vector)
  • sim(qor,dj) sim(qand,dj) x1 . . .
    xm m
  • Si p ? entonces (como Fuzzy)
  • sim(qor,dj) max (wxj)
  • sim(qand,dj) min (wxj)

28
Propiedades
  • Variando p, podemos hacer que el modelo se
    comporte como un vector, como difuso o como un
    modelo intermedio.
  • Esto es bastante poderoso
  • (k1 k2) k3
  • k1 y k2 pueden ser usados como en una
    recuperación vectorial mientras que la presencia
    de k3 es requerida.

29
Propiedades
  • q (k1 k2) k3
  • sim(q,dj) ( (1 - ( (1-x1) (1-x2) ) )
    x3 ) 2
    2

p
p
p
p
30
Conclusiones
  • Modelo poderoso
  • Propiedades interesantes y útiles
  • Computación compleja
  • Operación distributiva no se cumple para
    computación de ranking
  • q1 (k1 ? k2) ? k3
  • q2 (k1 ? k3) ? (k2 ? k3)
  • sim(q1,dj) ? sim(q2,dj)
Write a Comment
User Comments (0)
About PowerShow.com