Title: Modelos Alternativos (2) M. Andrea Rodr
1Modelos Alternativos (2)M. Andrea Rodríguez
TastetsDIIC - Universidad de Concepciónhttp//ww
w.inf.udec.cl/andrea
2Modelos
U s e r T a s k
Retrieval Adhoc Filtering
Browsing
3Modelo Vector Generalizado
- Modelos clásicos asumen la independencia de los
términos índices. - Para el modelo vector
- El conjunto de vectores de términos k1, k2, ...,
kt are linealmente independientes, los cuales
forman la base para el subespacio de interes. - Esto se interpreta también como una
ortogonalidad - ?i,j ? ki ? kj 0
- En 1985, Wong, Ziarko, y Wong propusieron una
interpretación en la cual los vectores de
términos son linealmnete independientes, pero no
ortogonales.
4Idea Base
- En el modelo vector generalizado, dos vectores de
términos índices pueden ser no ortogonales y son
representados en base a componentes más pequeños
(minterms). - Tal como antes, sea,
- wij el peso asociado con ki,dj
- k1, k2, ..., kt sea el conjunto de todos los
términos - Si estos pesos son todos binarios, todos los
patrones de ocurrencia de los términos puden ser
representados por - m1 (0,0, ..., 0) m5 (0,0,1,
..., 0) - m2 (1,0, ..., 0) .
- m3 (0,1, ..., 0)
- m4 (1,1, ..., 0) m2t (1,1,1,..1)
- Aquí, m2 indica documentos en los cuales sólo el
término k1 occurre.
5Idea Base
- La base para el modelo vector generalizado está
formado por un conjunto de vectores definidos
sobre el conjunto de minterms (que son
ortogonales), como sigue 0 1 2
... 2t - m1 (1, 0, 0, ..., 0, 0)
- m2 (0, 1, 0, ..., 0, 0)
- m3 (0, 0, 1, ..., 0, 0)
- m2t (0, 0, 0, ..., 0, 1)
- Note que,
- ?i,j ? mi ? mj 0 e.i., ortogonales
6Idea Base
- Vectores minterm son ortogonales, pero no
necesariamente independientes - El minterm m4 está dado por m4 (1, 1, 0,
..., 0, 0) - Este minterm indica la ocurrencia de los términos
k1 y k2 en el mismo documento. Si tal
documento existe en una colección, se dice que el
mintem m4 está activo y que una dependencia entre
estos términos está inducida. - Se asume que la co-ocurrencia de términos en
documentos induce dependencias entre ellos.
7Formando el Vector de Términos
- El vector asociado con el término ki es
computado - El peso c con el par ki,mr suma los pesos de
los términos ki en todos lo documentos en los
cuales tiene un patrón de ocurrencia dado por
mr. - Note que para una colección de tamaño N, sólo N
minterms afectan el ranking.
t
8Dependencia entre Términos Índices
- Un grado de correlación entre términos entre ki y
kj puede ser determinado por - Este grado de correlación suma (en una forma
ponderada) las dependencias entre ki y kj
inducido por los documentos en la colección
(representado por el mr minterms). - Luego se aplica el modelo vectorial
9Ejemplo
k1 k2 k3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 2
d7 0 5 0
q 1 2 3
10 Cálculo de C
i,r
k1 k2 k3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 2
d7 0 5 0
q 1 2 3
k1 k2 k3
d1m6 1 0 1
d2m2 1 0 0
d3m7 0 1 1
d4m2 1 0 0
d5m8 1 1 1
d6m7 0 1 1
d7m3 0 1 0
qm8 1 1 1
c1,r c2,r c3,r
m1 0 0 0
m2 3 0 0
m3 0 5 0
m4 0 0 0
m5 0 0 0
m6 2 0 1
m7 0 3 5
m8 1 2 4
11Cálculo de vector de términos índices
c1,r c2,r c3,r
m1 0 0 0
m2 3 0 0
m3 0 5 0
m4 0 0 0
m5 0 0 0
m6 2 0 1
m7 0 3 5
m8 1 2 4
12Cálculo de vector de documentos
k1 k2 k3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 2
d7 0 5 0
q 1 2 3
13Calculo de Ranking
14Conclusiones
- El modelo considera correlación entre términos
índices. - No es claro cuánto mejor es con respecto al
modelo vector clásico. - Costo computacional mayor
- Ideas nuevas e interesantes
15Latent Semantic Indexing
- IR clásica puede llevar a una recuperación
deficiente por - Documentos no relacionados pueden ser incluidos
en la respuesta. - Documentos relevantes que no contienen al menos
un térmico índice no son considerados. - Razonamiento
- recuperación basada en términos índices es vaga y
afectada por ruido. - El usuario está más relacionado a conceptos e
ideas que a términos índices. - Un documento que comparte conceptos con otro
documento conocido de ser relevante puede ser de
ínteres también.
16Latent Semantic Indexing
- La clave es mapear documentos y consultas a un
espacio de dimensión menor (e.i. un espacio
compuesto de conceptos de mayor nivel con un
conjunto menor de términos índices). - Recuperar en este espacio reducido de conceptos
puede ser mejor para recuperar que un espacio de
términos índices.
17Latent Semantic Indexing
- Definiciones
- Sea t el número total de términos índices
- Sea N el número de documentos
- Sea (Mij) una matriz de documento-término con t
filas y N columnas - Cada elemento de esta matriz está asociada con un
peso wij asociado con el par ki,dj - El peso wij puede basarse en el esquema tf-idf
18Latent Semantic Indexing
- La matriz (Mij) puede ser descompuesta en 3
matrices (decomposición de valor singular) como
sigue - (Mij) (K) (S) (D)t
- (K) es la matriz de vectores propios derivada de
(M)(M)t - (D)t es la matriz de vectores propios derivada de
(M)t(M) - (S) es una matriz diagonal r x r de valores
singulares donde - r min(t,N) que es el rango de (Mij)
19Ejemplo
- Sea (Mij) la matriz dada por
- determinar las matrices (K), (S), y (D)t
k1 k2 k3 qdj
d1 2 0 1 5
d2 1 0 0 1
d3 0 1 3 11
d4 2 0 0 2
d5 1 2 4 17
d6 1 2 2 5
d7 0 5 0 10
q 1 2 3
20Latent Semantic Indexing
- En la matriz (S), seleccionar sólo los s
valores singulares mayores - mantenga las correspondientes columnas en (K) y
(D)t - La matriz resultante es llamada (M)s y está dada
por - (M)s (K)s (S)s (D)t
- donde s, s lt r, es la dimensionalidad del
espacio de conceptos - El parámetro s debe ser
- suficientemente grande para permitir la
caracterización de los datos - suficientemente pequeño para filtrar datos no
relevantes.
s
21Latent Ranking
- La consulta puede ser modelada como un
seudo-documento en la matriz original (M) - Asuma que la consulta es numerada como un
documento 0 in la matriz - La matriz cuantifica la relación
entre cualquier par de documentos en el espacio
reducido - La primera fila de la matriz da el ranking de
todos los documentos con respecto a la consulta
del usuario.
22Conclusiones
- Latent semantic indexing otorga una
conceptualización interesante de recuperación de
información - Permite reducir la complejidad de la
representación, el cual puede ser explorado,por
ejemplo, con el propósito de interacción con el
usurario.
23Modelo de Redes Neuronales
- IR clásica
- Términos son usados parta indexar documentos y
consultas - Recuperación está basada en el matching de
términos índices. - Motivación
- Redes neuronales son conocidas por ser buenas
para realizar matching.
24Modelo de Redes Neuronales
- Redes Neuronales
- El cerebro humano está compuesto de billones de
neuronas - Cada neurona puede ser vista como una unidad de
procesamiento - Un neurona es estimulada por una señal de entrada
y emite una señal de salida como reacción - Una cadena de reacción de propagación de señales
es llamada spread activation process - Como resultado de este proceso, el cerebro puede
controlar el cuerpo para lograr reacciones
físicas.
25Modelo de Redes Neuronales
- Una red neuronal es una simplificación de la
interacción de neuronas en el cerebro humano. - Nodos son unidades de procesamiento
- Arcos son conexiones sinápticas
- La fuerza de propagación es modelada como un peso
asignado a cada arco - El estado de un nodo es definido por su nivel de
activación - Dependiendo de su nivel de activación, un nodo
puede generar una señal de salida.
26Redes Neuronales para IR
- Basado en el trabajo de Wilkinson Hingston,
SIGIR91
27Redes Neuronales para IR
- Redes de tres niveles
- Las señales se propagan a través de la red
- Primer nivel de propagación
- Los términos de la consulta inician la señal
- Estas señales se propoagan a través de la red
hasta alcanzar los nodos documentos - Segundo nivel de propagación
- Los nodos documentos pueden ellos por sí mismos
generar nuevas señales las cuales afectan los
términos de los documentos - Los nodos de términos de documentos pueden
responder con nuevas señales
28Cuantificación de la Señal
- Normalizar la fuerza de la señal (MAX 1)
- Términos de consulta emiten una señal igual a 1
- Pesos asociados a cada arco desde un nodo
término de consulta ki a un nodo término
documento ki - Wiq wiq sqrt ( ?i wiq
) - Pesos asociados a cada arco desde un nodo
término de un document ki a un nodo documento
dj - Wij wij sqrt (
?i wij )
2
2
29Cuantificación de la Señal
- Después del primer nivel de propación, el nivel
de activación de un nodo documento dj está dado
por - ?i Wiq Wij ?i wiq wij
sqrt ( ?i wiq ) sqrt ( ?i
wij ) - el cual es exactamente el ranking del modelo
vectorial - Nuevas señales pueden ser intercambiadas entre
nodos términos de documento y nodos documento en
un proceso análago a un ciclo de feedback - Un threshold mínimo debe ser asegurado para
evitar generación de señales perturbadoras.
2
2
30Conclusiones
- El modelo da una formulación interesante al
problema de IR - El modelo no ha sido evaluado extensiblemente
- No es claro las mejoras que otorga
31Modelo Alternativos Probabilísticos
- Teoría de Probabilidad
- Semánticamente clara
- Computacionalmente enrredada
- Por qué Redes Bayesianas?
- Es un formalismo claro que combina evidencias
- Comparticiona el mundo (dependencias)
- Redes Bayesianas para IR
- Redes de Inferencia (Turtle Croft, 1991)
- Redes de Creencia (Ribeiro-Neto Muntz, 1996)
32Inferencia Bayesiana
- Escuelas de pensamiento en probabilidad
- Frecuencia noción estadística relacionada con
las leyes de cambios - Epistemología interpreta la probabilidad como
grado de creencia
33Inferencia Bayesiana
- Axiomas básicos
- 0 lt P(A) lt 1
- P(sure)1
- P(A V B)P(A)P(B) Si A y B son mutuamente
exclusivos
34Inferencias Bayesianas
- Otras formulaciones
- P(A)P(A ? B)P(A ? B)
- P(A) ??i P(A ? Bi) , donde Bi,?i es un conjunto
exhaustivo y mutuamente exclusivo - P(A) P(A) 1
- P(AK) creencia en A dado el conocimiento de
K - if P(AB)P(A), A y B son independientes
- if P(AB ? C) P(AC), A y B son condicionalmente
independientes, dado C - P(A ? B)P(AB)P(B)
- P(A) ??i P(A Bi)P(Bi)
35Inferencia Bayesiana
- Regla de Bayes El corazón de la técnica
Bayesiana - P(He) P(eH)P(H)/ P(e)
- donde, H una hipótesis y e es una
evidencia - P(H) Probabilidad anterior
- P(He) Probabilidad posterior
- P(eH) Probabilidad de e si H es verdadero
P(e) una constante normalizadora, entonces
escribimos - P(He) P(eH)P(H)
36Redes Bayesianas
- Definición
- Son grafos dirigidos acíclicos en los cuales
nodos representan variables aleatorias, los arcos
representan relaciones de causalidad entre estas
variables, y la fuerza de estas causalidades son
expresadas por probabilidaddes condicionales.
37Redes Bayesianas
- yi Nodos padres (en este caso, nodos de raíz)
- x nodo hijo
- yi causa x
- Y el conjunto de padres de x
- La enfuencia de Y en x
- puede ser cuantificada por cualquier función
- F(x,Y) tal que ??x F(x,Y) 1
- 0 lt F(x,Y) lt 1
- Por ejemplo, F(x,Y)P(xY)
y1
y2
y3
x1
38Redes Bayesianas
- Dada la dependencia declarada en una red
Bayesiana, la expresión para la probabilidad
conjunto puede ser calculada como un producto
de probabilidad condicional local, por ejemplo, - P(x1, x2, x3, x4, x5)
- P(x1 ) P(x2 x1 ) P(x3 x1 ) P(x4 x2, x3 ) P(x5
x3 ). - P(x1 ) probabilidad anterior del nodo raíz
39Redes Bayesianas
- En una red Bayesiana cada variable es
condicionalmente dependiente de todos los no
descendientes, sus padres Por ejemplo, - P(x4, x5 x2 , x3) P(x4 x2 , x3) P( x5 x4)
40Modelo de Redes de Inferencia
- Vista Epistemológica del problema de IR
- Variables aleatorias asociadas con documentos,
términos índices y consultas - Una variable aleatoria asociada con un documento
dj representa el evento de observar tal documento
41Modelo de Redes de Inferencia
- Nodos
- documentos (dj)
- términos índices (ki)
- consultas (q, q1, y q2)
- necesidad de información del usuario (I)
- Arcos
- desde dj, su nodo de término índice ki indica que
la observación de dj aumenta la creencia en la
variable ki
42Modelo de Redes de Inferencia
-
- dj tiene términos k2, ki, y kt
- q tiene términos k1, k2, y ki
- q1 y q2 es una formulación Boolean
- q1((k1? k2) v ki)
- I (q v q1)
43Modelo de Redes de Inferencia
- Definiciones
- k1, dj,, son q variables aleatorias
- k(k1, k2, ...,kt) un vector t-dimensional
- ki,?i?0, 1, entonces k tiene 2t posibles
estados - dj,?j?0, 1 ?q?0, 1
- El ranking de un documento dj es calculado como
P(q? dj) - q y dj,son representación cortas para q1 y dj 1
- (dj representa un estado donde dj 1 and ?l?j ?
dl 0, porque se observa un documento en cada
momento)
44Modelo de Redes de Inferencia
- P(q ? dj) ??k P(q ? dj k) P(k)
- ??k P(q ? dj ? k)
- ??k P(q dj ? k) P(dj ? k)
- ??k P(q k) P(k dj ) P( dj )
- P((q ? dj)) 1 - P(q ? dj)
45Modelo de Redes de Inferencia
- Como la instanciación de dj hace todos los nodos
de términos índices mutuamente independientes
P(k dj ),entonces - P(q ? dj) ??k P(q k) x
- (??igi(k)1 P(ki dj ))x (??igi(k)0
P(ki dj)) x - P( dj )
- recuerde que gi(k) 1 si ki1 en el vector
k - 0 en otro caso
46Modelo de Redes de Inferencia
- Probabilidad anterior P(dj) refleja la
probabilidad asociado a un evento de observación
a un documento dj - Uniforme para N documentos
- P(dj) 1/N
- P(dj) 1 - 1/N
- Basada en la norma del vector dj
- P(dj) 1/dj
- P(dj) 1 - 1/dj
47Modelo de Redes de Inferencia
- Para el modelo Boolean
- P(dj) 1/N
- 1 if gi(dj)1
- P(ki dj)
- 0 otro caso
-
- P(ki dj) 1 - P(ki dj)
- ? solo los nodos asociados con los términos
índices del documento dj son activados -
48Modelo de Redes de Inferencia
- Para el modelo Boolean
- 1 if ?qcc (qcc? qdnf) ? (? ki, gi(k)
gi(qcc) - P(q k)
- 0 otherwise
- P(q k) 1 - P(q k)
- ? uno de los componentes conjuntivos de la
consulta debe ser igualado por los términos
índices activos en k
49Modelo de Redes de Inferencia
- Para una estrategia tf-idf
- P(dj) 1 / dj
- P(dj) 1 - 1 / dj
- ? probabilidad anterior refleja la importancia
de normalización de documento -
50Modelo de Redes de Inferencia
- Para la estrategia tf-idf
-
- P(ki dj) fi,j
- P(ki dj) 1- fi,j
- ? La relevancia del término ki es determinada
por su factor de frecuencia de término
normalizada fi,j freqi,j / max freql,j
51Modelo de Redes de Inferencia
- Para estrategia tf-idf
- Define un vector ki dado por
- ki k ((gi(k)1) ? (?j?i gj(k)0))
-
- ? en el estado ki sólo el nodo ki está activo
y todos los otros inactivos
52Modelo de Redes de Inferencia
- Para la estrategia tf-idf
- idfi if k ki ? gi(q)1
- P(q k)
- 0 if k ? ki v
gi(q)0 - P(q k) 1 - P(q k)
- ? sumamos las contribuciones individuales de
cada término por su normalizado idf
53Modelo de Redes de Inferencia
- Para la estrategia tf-idf
- Como P(qk)0 ?k ? ki, se reescribe P(q ? dj)
como - P(q ? dj) ??ki P(q ki) P(ki dj )x
- (??ll?i P(kl dj)) x P( dj )
- (??i P(kl dj))x P( dj )x
- ??ki P(ki dj ) xP(q ki) / P(ki
dj)
54Modelo de Redes de Inferencia
- Para una estrategia tf-idf
- Aplicando la probabilidad,se tiene que
- P(q ? dj) Cj (1/dj) ??i fi,j idfi
(1/(1- fi,j )) - ? Cj cambia de documento en documento
- ? El ranking es distinto del cual dado por
el modelo vectorial
55Modelo de Redes de Inferencia
- Combinando evidencia
- Sea I q v q1
- P(I ? dj) ??k P(I k) P(k dj ) P( dj)
- ??k 1 - P(qk)P(q1 k) P(k dj
) P( dj) - ? Puede llevar a un rendimiento de recuperación
el cual sobrepasa el rendimiento de los nodos de
consulta individuales (Turtle Croft)
56Modelo de Redes de Creencia
- Como el Modelo de Redes de Inferencia
- Una vista epistemológica
- Variables aleatorias para docuementos,índices y
consultas - Contrario a Redes de Inferencia
- Espacio de muestreo bien definido
- Vista de teoría de conjuntos
- Diferente topología de red
57Modelo de Redes de Creencia
- El espacio de probabilidad
- Define
- Kk1, k2, ...,kt el espacio de muestreo (un
espacio conceptual) - u ? K un subconjunto de K (un concepto)
- ki un término índice (un concepto elemental)
- k(k1, k2, ...,kt) un vector asociado a cada u
tal que gi(k)1 ? ki ? u - ki una variable binaria aleatoria asociada con el
término índice ki , (ki 1 ? gi(k)1 ? ki ? u)
58Modelo de Redes de Creencia
- Un vista de teoría de conjunto
- Define
- un documento dj y una consulta q como conceptos
en K - un concepto genérico c en K
- una probabilidad de distribución P sobre K,
como - P(c)??uP(cu) P(u)
- P(u)(1/2)t
- P(c) es el grado de cobertura del espacio por c
59Modelo de Redes de Creencia
- Topología de Red
- consultas
- documentos
q
k1
k2
ki
kt
dn
dj
d1
60Modelo de Redes de Creencia
- Asume
- P(djq) es adoptado como un ranking del documento
dj con respecto a la consulta q. Refleja el grado
de cobertura que da el concepto dj para el
concepto q.
61Modelo de Redes de Creencia
- El ranking de dj
- P(djq) P(dj ? q) / P(q)
- P(dj ? q)
- ??u P(dj ? q u) P(u)
- ??u P(dj u) P(q u) P(u)
- ??k P(dj k) P(q k) P(k)
62Modelo de Redes de Creencia
- Para el modelo vectorial
- Define
- Define un vestor ki dado por
- ki k ((gi(k)1) ? (?j?i gj(k)0))
- ? en el estado ki sólo el nodo ki está activo
63Modelo de Redes de Creencia
- Para el modelo vectorial
- Define
- (wi,q / q) if k ki ? gi(q)1
- P(q k)
- 0 if k ? ki
v gi(q)0 - P(q k) 1 - P(q k)
- ? (wi,q / q) es una versión normalizada del
peso del término índice ki en la consulta q
64Modelo de Redes de Creencia
- Para el modelo vectorial
- Define
- (wi,j / dj) if k ki ? gi(dj)1
- P(dj k)
- 0 if k ? ki v
gi(dj)0 - P( dj k) 1 - P(dj k)
- ? (wi,j / dj) es una versión normalizada del
peso del término índice ki en el documento d,j
65Modelode Redes Bayesianas
- Comparación
- Modelo de redes de inferencia en el primero y
bien conocido - Modelo de redes de creencia adopta una vista de
teoría de conjunto - Modelo de redes de creencia adopta un claro
espacio de muestreo - Modelo de redes de creencia separa claramente la
consulta de los documentos - Modelo de redes de creencia es capaz de
reproducir el ranking derivado de una red de
inferencia (pero no el inverso)
66Modelo de Redes Bayesianas
- Costo Computacional
- Modelo de Redes de Inferencias es lineal en el
número de documentos. - Redes de creencia sólo los estados de los
términos de la consulta son considerados - Las redes no tienen ciclos y no imponen costos
adicionales
67Modelos de Redes Bayesianas
- Impacto
- La combinación de propiedades de distintos
modelos es una idea que ayuda a la mejora en
recuperación de información.