Modelos Alternativos (2) M. Andrea Rodr - PowerPoint PPT Presentation

About This Presentation
Title:

Modelos Alternativos (2) M. Andrea Rodr

Description:

Structure Guided. Hypertext. Modelo Vector Generalizado. Modelos cl sicos asumen la independencia de los t rminos ndices. Para el modelo vector: ... – PowerPoint PPT presentation

Number of Views:99
Avg rating:3.0/5.0
Slides: 68
Provided by: infU1
Category:

less

Transcript and Presenter's Notes

Title: Modelos Alternativos (2) M. Andrea Rodr


1
Modelos Alternativos (2)M. Andrea Rodríguez
TastetsDIIC - Universidad de Concepciónhttp//ww
w.inf.udec.cl/andrea
2
Modelos
U s e r T a s k
Retrieval Adhoc Filtering
Browsing
3
Modelo Vector Generalizado
  • Modelos clásicos asumen la independencia de los
    términos índices.
  • Para el modelo vector
  • El conjunto de vectores de términos k1, k2, ...,
    kt are linealmente independientes, los cuales
    forman la base para el subespacio de interes.
  • Esto se interpreta también como una
    ortogonalidad
  • ?i,j ? ki ? kj 0
  • En 1985, Wong, Ziarko, y Wong propusieron una
    interpretación en la cual los vectores de
    términos son linealmnete independientes, pero no
    ortogonales.

4
Idea Base
  • En el modelo vector generalizado, dos vectores de
    términos índices pueden ser no ortogonales y son
    representados en base a componentes más pequeños
    (minterms).
  • Tal como antes, sea,
  • wij el peso asociado con ki,dj
  • k1, k2, ..., kt sea el conjunto de todos los
    términos
  • Si estos pesos son todos binarios, todos los
    patrones de ocurrencia de los términos puden ser
    representados por
  • m1 (0,0, ..., 0) m5 (0,0,1,
    ..., 0)
  • m2 (1,0, ..., 0) .
  • m3 (0,1, ..., 0)
  • m4 (1,1, ..., 0) m2t (1,1,1,..1)
  • Aquí, m2 indica documentos en los cuales sólo el
    término k1 occurre.

5
Idea Base
  • La base para el modelo vector generalizado está
    formado por un conjunto de vectores definidos
    sobre el conjunto de minterms (que son
    ortogonales), como sigue 0 1 2
    ... 2t
  • m1 (1, 0, 0, ..., 0, 0)
  • m2 (0, 1, 0, ..., 0, 0)
  • m3 (0, 0, 1, ..., 0, 0)
  • m2t (0, 0, 0, ..., 0, 1)
  • Note que,
  • ?i,j ? mi ? mj 0 e.i., ortogonales

6
Idea Base
  • Vectores minterm son ortogonales, pero no
    necesariamente independientes
  • El minterm m4 está dado por m4 (1, 1, 0,
    ..., 0, 0)
  • Este minterm indica la ocurrencia de los términos
    k1 y k2 en el mismo documento. Si tal
    documento existe en una colección, se dice que el
    mintem m4 está activo y que una dependencia entre
    estos términos está inducida.
  • Se asume que la co-ocurrencia de términos en
    documentos induce dependencias entre ellos.

7
Formando el Vector de Términos
  • El vector asociado con el término ki es
    computado
  • El peso c con el par ki,mr suma los pesos de
    los términos ki en todos lo documentos en los
    cuales tiene un patrón de ocurrencia dado por
    mr.
  • Note que para una colección de tamaño N, sólo N
    minterms afectan el ranking.

t
8
Dependencia entre Términos Índices
  • Un grado de correlación entre términos entre ki y
    kj puede ser determinado por
  • Este grado de correlación suma (en una forma
    ponderada) las dependencias entre ki y kj
    inducido por los documentos en la colección
    (representado por el mr minterms).
  • Luego se aplica el modelo vectorial

9
Ejemplo
k1 k2 k3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 2
d7 0 5 0

q 1 2 3
10
Cálculo de C
i,r
k1 k2 k3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 2
d7 0 5 0

q 1 2 3
k1 k2 k3
d1m6 1 0 1
d2m2 1 0 0
d3m7 0 1 1
d4m2 1 0 0
d5m8 1 1 1
d6m7 0 1 1
d7m3 0 1 0

qm8 1 1 1
c1,r c2,r c3,r
m1 0 0 0
m2 3 0 0
m3 0 5 0
m4 0 0 0
m5 0 0 0
m6 2 0 1
m7 0 3 5
m8 1 2 4
11
Cálculo de vector de términos índices
c1,r c2,r c3,r
m1 0 0 0
m2 3 0 0
m3 0 5 0
m4 0 0 0
m5 0 0 0
m6 2 0 1
m7 0 3 5
m8 1 2 4
12
Cálculo de vector de documentos
k1 k2 k3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 2
d7 0 5 0

q 1 2 3
13
Calculo de Ranking
14
Conclusiones
  • El modelo considera correlación entre términos
    índices.
  • No es claro cuánto mejor es con respecto al
    modelo vector clásico.
  • Costo computacional mayor
  • Ideas nuevas e interesantes

15
Latent Semantic Indexing
  • IR clásica puede llevar a una recuperación
    deficiente por
  • Documentos no relacionados pueden ser incluidos
    en la respuesta.
  • Documentos relevantes que no contienen al menos
    un térmico índice no son considerados.
  • Razonamiento
  • recuperación basada en términos índices es vaga y
    afectada por ruido.
  • El usuario está más relacionado a conceptos e
    ideas que a términos índices.
  • Un documento que comparte conceptos con otro
    documento conocido de ser relevante puede ser de
    ínteres también.

16
Latent Semantic Indexing
  • La clave es mapear documentos y consultas a un
    espacio de dimensión menor (e.i. un espacio
    compuesto de conceptos de mayor nivel con un
    conjunto menor de términos índices).
  • Recuperar en este espacio reducido de conceptos
    puede ser mejor para recuperar que un espacio de
    términos índices.

17
Latent Semantic Indexing
  • Definiciones
  • Sea t el número total de términos índices
  • Sea N el número de documentos
  • Sea (Mij) una matriz de documento-término con t
    filas y N columnas
  • Cada elemento de esta matriz está asociada con un
    peso wij asociado con el par ki,dj
  • El peso wij puede basarse en el esquema tf-idf

18
Latent Semantic Indexing
  • La matriz (Mij) puede ser descompuesta en 3
    matrices (decomposición de valor singular) como
    sigue
  • (Mij) (K) (S) (D)t
  • (K) es la matriz de vectores propios derivada de
    (M)(M)t
  • (D)t es la matriz de vectores propios derivada de
    (M)t(M)
  • (S) es una matriz diagonal r x r de valores
    singulares donde
  • r min(t,N) que es el rango de (Mij)

19
Ejemplo
  • Sea (Mij) la matriz dada por
  • determinar las matrices (K), (S), y (D)t

k1 k2 k3 qdj
d1 2 0 1 5
d2 1 0 0 1
d3 0 1 3 11
d4 2 0 0 2
d5 1 2 4 17
d6 1 2 2 5
d7 0 5 0 10

q 1 2 3
20
Latent Semantic Indexing
  • En la matriz (S), seleccionar sólo los s
    valores singulares mayores
  • mantenga las correspondientes columnas en (K) y
    (D)t
  • La matriz resultante es llamada (M)s y está dada
    por
  • (M)s (K)s (S)s (D)t
  • donde s, s lt r, es la dimensionalidad del
    espacio de conceptos
  • El parámetro s debe ser
  • suficientemente grande para permitir la
    caracterización de los datos
  • suficientemente pequeño para filtrar datos no
    relevantes.

s
21
Latent Ranking
  • La consulta puede ser modelada como un
    seudo-documento en la matriz original (M)
  • Asuma que la consulta es numerada como un
    documento 0 in la matriz
  • La matriz cuantifica la relación
    entre cualquier par de documentos en el espacio
    reducido
  • La primera fila de la matriz da el ranking de
    todos los documentos con respecto a la consulta
    del usuario.

22
Conclusiones
  • Latent semantic indexing otorga una
    conceptualización interesante de recuperación de
    información
  • Permite reducir la complejidad de la
    representación, el cual puede ser explorado,por
    ejemplo, con el propósito de interacción con el
    usurario.

23
Modelo de Redes Neuronales
  • IR clásica
  • Términos son usados parta indexar documentos y
    consultas
  • Recuperación está basada en el matching de
    términos índices.
  • Motivación
  • Redes neuronales son conocidas por ser buenas
    para realizar matching.

24
Modelo de Redes Neuronales
  • Redes Neuronales
  • El cerebro humano está compuesto de billones de
    neuronas
  • Cada neurona puede ser vista como una unidad de
    procesamiento
  • Un neurona es estimulada por una señal de entrada
    y emite una señal de salida como reacción
  • Una cadena de reacción de propagación de señales
    es llamada spread activation process
  • Como resultado de este proceso, el cerebro puede
    controlar el cuerpo para lograr reacciones
    físicas.

25
Modelo de Redes Neuronales
  • Una red neuronal es una simplificación de la
    interacción de neuronas en el cerebro humano.
  • Nodos son unidades de procesamiento
  • Arcos son conexiones sinápticas
  • La fuerza de propagación es modelada como un peso
    asignado a cada arco
  • El estado de un nodo es definido por su nivel de
    activación
  • Dependiendo de su nivel de activación, un nodo
    puede generar una señal de salida.

26
Redes Neuronales para IR
  • Basado en el trabajo de Wilkinson Hingston,
    SIGIR91

27
Redes Neuronales para IR
  • Redes de tres niveles
  • Las señales se propagan a través de la red
  • Primer nivel de propagación
  • Los términos de la consulta inician la señal
  • Estas señales se propoagan a través de la red
    hasta alcanzar los nodos documentos
  • Segundo nivel de propagación
  • Los nodos documentos pueden ellos por sí mismos
    generar nuevas señales las cuales afectan los
    términos de los documentos
  • Los nodos de términos de documentos pueden
    responder con nuevas señales

28
Cuantificación de la Señal
  • Normalizar la fuerza de la señal (MAX 1)
  • Términos de consulta emiten una señal igual a 1
  • Pesos asociados a cada arco desde un nodo
    término de consulta ki a un nodo término
    documento ki
  • Wiq wiq sqrt ( ?i wiq
    )
  • Pesos asociados a cada arco desde un nodo
    término de un document ki a un nodo documento
    dj
  • Wij wij sqrt (
    ?i wij )

2
2
29
Cuantificación de la Señal
  • Después del primer nivel de propación, el nivel
    de activación de un nodo documento dj está dado
    por
  • ?i Wiq Wij ?i wiq wij
    sqrt ( ?i wiq ) sqrt ( ?i
    wij )
  • el cual es exactamente el ranking del modelo
    vectorial
  • Nuevas señales pueden ser intercambiadas entre
    nodos términos de documento y nodos documento en
    un proceso análago a un ciclo de feedback
  • Un threshold mínimo debe ser asegurado para
    evitar generación de señales perturbadoras.

2
2
30
Conclusiones
  • El modelo da una formulación interesante al
    problema de IR
  • El modelo no ha sido evaluado extensiblemente
  • No es claro las mejoras que otorga

31
Modelo Alternativos Probabilísticos
  • Teoría de Probabilidad
  • Semánticamente clara
  • Computacionalmente enrredada
  • Por qué Redes Bayesianas?
  • Es un formalismo claro que combina evidencias
  • Comparticiona el mundo (dependencias)
  • Redes Bayesianas para IR
  • Redes de Inferencia (Turtle Croft, 1991)
  • Redes de Creencia (Ribeiro-Neto Muntz, 1996)

32
Inferencia Bayesiana
  • Escuelas de pensamiento en probabilidad
  • Frecuencia noción estadística relacionada con
    las leyes de cambios
  • Epistemología interpreta la probabilidad como
    grado de creencia

33
Inferencia Bayesiana
  • Axiomas básicos
  • 0 lt P(A) lt 1
  • P(sure)1
  • P(A V B)P(A)P(B) Si A y B son mutuamente
    exclusivos

34
Inferencias Bayesianas
  • Otras formulaciones
  • P(A)P(A ? B)P(A ? B)
  • P(A) ??i P(A ? Bi) , donde Bi,?i es un conjunto
    exhaustivo y mutuamente exclusivo
  • P(A) P(A) 1
  • P(AK) creencia en A dado el conocimiento de
    K
  • if P(AB)P(A), A y B son independientes
  • if P(AB ? C) P(AC), A y B son condicionalmente
    independientes, dado C
  • P(A ? B)P(AB)P(B)
  • P(A) ??i P(A Bi)P(Bi)

35
Inferencia Bayesiana
  • Regla de Bayes El corazón de la técnica
    Bayesiana
  • P(He) P(eH)P(H)/ P(e)
  • donde, H una hipótesis y e es una
    evidencia
  • P(H) Probabilidad anterior
  • P(He) Probabilidad posterior
  • P(eH) Probabilidad de e si H es verdadero
    P(e) una constante normalizadora, entonces
    escribimos
  • P(He) P(eH)P(H)

36
Redes Bayesianas
  • Definición
  • Son grafos dirigidos acíclicos en los cuales
    nodos representan variables aleatorias, los arcos
    representan relaciones de causalidad entre estas
    variables, y la fuerza de estas causalidades son
    expresadas por probabilidaddes condicionales.

37
Redes Bayesianas
  • yi Nodos padres (en este caso, nodos de raíz)
  • x nodo hijo
  • yi causa x
  • Y el conjunto de padres de x
  • La enfuencia de Y en x
  • puede ser cuantificada por cualquier función
  • F(x,Y) tal que ??x F(x,Y) 1
  • 0 lt F(x,Y) lt 1
  • Por ejemplo, F(x,Y)P(xY)

y1
y2
y3
x1
38
Redes Bayesianas
  • Dada la dependencia declarada en una red
    Bayesiana, la expresión para la probabilidad
    conjunto puede ser calculada como un producto
    de probabilidad condicional local, por ejemplo,
  • P(x1, x2, x3, x4, x5)
  • P(x1 ) P(x2 x1 ) P(x3 x1 ) P(x4 x2, x3 ) P(x5
    x3 ).
  • P(x1 ) probabilidad anterior del nodo raíz

39
Redes Bayesianas
  • En una red Bayesiana cada variable es
    condicionalmente dependiente de todos los no
    descendientes, sus padres Por ejemplo,
  • P(x4, x5 x2 , x3) P(x4 x2 , x3) P( x5 x4)

40
Modelo de Redes de Inferencia
  • Vista Epistemológica del problema de IR
  • Variables aleatorias asociadas con documentos,
    términos índices y consultas
  • Una variable aleatoria asociada con un documento
    dj representa el evento de observar tal documento

41
Modelo de Redes de Inferencia
  • Nodos
  • documentos (dj)
  • términos índices (ki)
  • consultas (q, q1, y q2)
  • necesidad de información del usuario (I)
  • Arcos
  • desde dj, su nodo de término índice ki indica que
    la observación de dj aumenta la creencia en la
    variable ki

42
Modelo de Redes de Inferencia
  • dj tiene términos k2, ki, y kt
  • q tiene términos k1, k2, y ki
  • q1 y q2 es una formulación Boolean
  • q1((k1? k2) v ki)
  • I (q v q1)

43
Modelo de Redes de Inferencia
  • Definiciones
  • k1, dj,, son q variables aleatorias
  • k(k1, k2, ...,kt) un vector t-dimensional
  • ki,?i?0, 1, entonces k tiene 2t posibles
    estados
  • dj,?j?0, 1 ?q?0, 1
  • El ranking de un documento dj es calculado como
    P(q? dj)
  • q y dj,son representación cortas para q1 y dj 1
  • (dj representa un estado donde dj 1 and ?l?j ?
    dl 0, porque se observa un documento en cada
    momento)

44
Modelo de Redes de Inferencia
  • P(q ? dj) ??k P(q ? dj k) P(k)
  • ??k P(q ? dj ? k)
  • ??k P(q dj ? k) P(dj ? k)
  • ??k P(q k) P(k dj ) P( dj )
  • P((q ? dj)) 1 - P(q ? dj)

45
Modelo de Redes de Inferencia
  • Como la instanciación de dj hace todos los nodos
    de términos índices mutuamente independientes
    P(k dj ),entonces
  • P(q ? dj) ??k P(q k) x
  • (??igi(k)1 P(ki dj ))x (??igi(k)0
    P(ki dj)) x
  • P( dj )
  • recuerde que gi(k) 1 si ki1 en el vector
    k
  • 0 en otro caso

46
Modelo de Redes de Inferencia
  • Probabilidad anterior P(dj) refleja la
    probabilidad asociado a un evento de observación
    a un documento dj
  • Uniforme para N documentos
  • P(dj) 1/N
  • P(dj) 1 - 1/N
  • Basada en la norma del vector dj
  • P(dj) 1/dj
  • P(dj) 1 - 1/dj

47
Modelo de Redes de Inferencia
  • Para el modelo Boolean
  • P(dj) 1/N
  • 1 if gi(dj)1
  • P(ki dj)
  • 0 otro caso
  • P(ki dj) 1 - P(ki dj)
  • ? solo los nodos asociados con los términos
    índices del documento dj son activados

48
Modelo de Redes de Inferencia
  • Para el modelo Boolean
  • 1 if ?qcc (qcc? qdnf) ? (? ki, gi(k)
    gi(qcc)
  • P(q k)
  • 0 otherwise
  • P(q k) 1 - P(q k)
  • ? uno de los componentes conjuntivos de la
    consulta debe ser igualado por los términos
    índices activos en k

49
Modelo de Redes de Inferencia
  • Para una estrategia tf-idf
  • P(dj) 1 / dj
  • P(dj) 1 - 1 / dj
  • ? probabilidad anterior refleja la importancia
    de normalización de documento

50
Modelo de Redes de Inferencia
  • Para la estrategia tf-idf
  • P(ki dj) fi,j
  • P(ki dj) 1- fi,j
  • ? La relevancia del término ki es determinada
    por su factor de frecuencia de término
    normalizada fi,j freqi,j / max freql,j

51
Modelo de Redes de Inferencia
  • Para estrategia tf-idf
  • Define un vector ki dado por
  • ki k ((gi(k)1) ? (?j?i gj(k)0))
  • ? en el estado ki sólo el nodo ki está activo
    y todos los otros inactivos

52
Modelo de Redes de Inferencia
  • Para la estrategia tf-idf
  • idfi if k ki ? gi(q)1
  • P(q k)
  • 0 if k ? ki v
    gi(q)0
  • P(q k) 1 - P(q k)
  • ? sumamos las contribuciones individuales de
    cada término por su normalizado idf

53
Modelo de Redes de Inferencia
  • Para la estrategia tf-idf
  • Como P(qk)0 ?k ? ki, se reescribe P(q ? dj)
    como
  • P(q ? dj) ??ki P(q ki) P(ki dj )x
  • (??ll?i P(kl dj)) x P( dj )
  • (??i P(kl dj))x P( dj )x
  • ??ki P(ki dj ) xP(q ki) / P(ki
    dj)

54
Modelo de Redes de Inferencia
  • Para una estrategia tf-idf
  • Aplicando la probabilidad,se tiene que
  • P(q ? dj) Cj (1/dj) ??i fi,j idfi
    (1/(1- fi,j ))
  • ? Cj cambia de documento en documento
  • ? El ranking es distinto del cual dado por
    el modelo vectorial

55
Modelo de Redes de Inferencia
  • Combinando evidencia
  • Sea I q v q1
  • P(I ? dj) ??k P(I k) P(k dj ) P( dj)
  • ??k 1 - P(qk)P(q1 k) P(k dj
    ) P( dj)
  • ? Puede llevar a un rendimiento de recuperación
    el cual sobrepasa el rendimiento de los nodos de
    consulta individuales (Turtle Croft)

56
Modelo de Redes de Creencia
  • Como el Modelo de Redes de Inferencia
  • Una vista epistemológica
  • Variables aleatorias para docuementos,índices y
    consultas
  • Contrario a Redes de Inferencia
  • Espacio de muestreo bien definido
  • Vista de teoría de conjuntos
  • Diferente topología de red

57
Modelo de Redes de Creencia
  • El espacio de probabilidad
  • Define
  • Kk1, k2, ...,kt el espacio de muestreo (un
    espacio conceptual)
  • u ? K un subconjunto de K (un concepto)
  • ki un término índice (un concepto elemental)
  • k(k1, k2, ...,kt) un vector asociado a cada u
    tal que gi(k)1 ? ki ? u
  • ki una variable binaria aleatoria asociada con el
    término índice ki , (ki 1 ? gi(k)1 ? ki ? u)

58
Modelo de Redes de Creencia
  • Un vista de teoría de conjunto
  • Define
  • un documento dj y una consulta q como conceptos
    en K
  • un concepto genérico c en K
  • una probabilidad de distribución P sobre K,
    como
  • P(c)??uP(cu) P(u)
  • P(u)(1/2)t
  • P(c) es el grado de cobertura del espacio por c

59
Modelo de Redes de Creencia
  • Topología de Red
  • consultas
  • documentos

q
k1
k2
ki
kt
dn
dj
d1
60
Modelo de Redes de Creencia
  • Asume
  • P(djq) es adoptado como un ranking del documento
    dj con respecto a la consulta q. Refleja el grado
    de cobertura que da el concepto dj para el
    concepto q.

61
Modelo de Redes de Creencia
  • El ranking de dj
  • P(djq) P(dj ? q) / P(q)
  • P(dj ? q)
  • ??u P(dj ? q u) P(u)
  • ??u P(dj u) P(q u) P(u)
  • ??k P(dj k) P(q k) P(k)

62
Modelo de Redes de Creencia
  • Para el modelo vectorial
  • Define
  • Define un vestor ki dado por
  • ki k ((gi(k)1) ? (?j?i gj(k)0))
  • ? en el estado ki sólo el nodo ki está activo

63
Modelo de Redes de Creencia
  • Para el modelo vectorial
  • Define
  • (wi,q / q) if k ki ? gi(q)1
  • P(q k)
  • 0 if k ? ki
    v gi(q)0
  • P(q k) 1 - P(q k)
  • ? (wi,q / q) es una versión normalizada del
    peso del término índice ki en la consulta q

64
Modelo de Redes de Creencia
  • Para el modelo vectorial
  • Define
  • (wi,j / dj) if k ki ? gi(dj)1
  • P(dj k)
  • 0 if k ? ki v
    gi(dj)0
  • P( dj k) 1 - P(dj k)
  • ? (wi,j / dj) es una versión normalizada del
    peso del término índice ki en el documento d,j

65
Modelode Redes Bayesianas
  • Comparación
  • Modelo de redes de inferencia en el primero y
    bien conocido
  • Modelo de redes de creencia adopta una vista de
    teoría de conjunto
  • Modelo de redes de creencia adopta un claro
    espacio de muestreo
  • Modelo de redes de creencia separa claramente la
    consulta de los documentos
  • Modelo de redes de creencia es capaz de
    reproducir el ranking derivado de una red de
    inferencia (pero no el inverso)

66
Modelo de Redes Bayesianas
  • Costo Computacional
  • Modelo de Redes de Inferencias es lineal en el
    número de documentos.
  • Redes de creencia sólo los estados de los
    términos de la consulta son considerados
  • Las redes no tienen ciclos y no imponen costos
    adicionales

67
Modelos de Redes Bayesianas
  • Impacto
  • La combinación de propiedades de distintos
    modelos es una idea que ayuda a la mejora en
    recuperación de información.
Write a Comment
User Comments (0)
About PowerShow.com