Title: Tema 1. Modelos de RI avanzados
1Tema 1.Modelos de RI avanzados
- Sistemas de Gestión Documental
2Introducción
- IR representación, almacenamiento, organización
y acceso a la información - Las Necesidades de Información
- NIC / NIOP
- Problema de caracterización
- Problema de formulación de consulta
3Introducción
- Ejemplo de consulta
- Encontrar las páginas que contengan información
sobre equipos de ajedrez que se enfrentan en
torneos nacionales y tienen alguna subvención de
algún tipo. La página debe contener información
sobre el ranking nacional del equipo en los
últimos 3 años y la dirección de e-mail o el
teléfono del entrenador. - La dificultad está en construir la consulta para
que la entienda el SRI.
4Introducción
- Information retrieval / Data retrieval
- NIOP / NIC
- Lenguaje Natural / Lenguaje de consulta
- Permite errores / No permite errores
- Información / Datos
- Inexacto / Exacto
5Introducción
- Data retrieval
- No resuelve el problema de la RI. Sólo devuelve
datos sobre un tema. Es estructurado y nada
ambiguo en cuanto a las consultas. - Information retrieval (RI)
- Trata de resolver la NI. Debe interpretar los
contenidos de los documentos y hacer un ranking
de las respuestas. La consulta no es estructurada
(LN) y es ambigua. La relevancia es el principal
punto de interés.
6Introducción
- RI tema específico de bibliotecarios y
especialistas ??? - Puntos originales de interés indexación y
búsquedas - Investigación actual modelización,
clasificación, arquitectura de sistemas,
interfaces de usuario, visualización de datos,
filtraje, lenguajes, etc. - Desde los años 1990 explota el interés debido al
nacimiento del World Wide Web.
7Introducción
- Respecto al Web
- Es la BD Documental más grande del mundo
- Presenta problemas
- Nadie se hace responsable de los contenidos
- No es fácil buscar ni indexar
- No hay herramientas de soporte perfectas
- No se usa un lenguaje útil para las máquinas
- ...
8Modelos de RI
- La RI se basa en la utilización de términos
índice para indexar y recuperar documentos. - Indexar un documento puede consistir en sustituir
su contenido por un conjunto de términos índices
que lo representan. - Recuperar puede consistir en especificar un
conjunto de términos que deben hallarse entre los
índices de un documento, estableciendo un ranking
de relevancia.
9Modelos de RI
- El problema de la RI será, pues, la manera de
predecir la relevancia de los documentos y su
grado de relevancia (ranking). - Las distintas premisas utilizadas en el cálculo
de la relevancia darán lugar a distintos
modelos de trabajo o de RI.
10Modelos de RI
- Un modelo de RI se define como
- Es una cuádrupla D,Q,F,R(qi,dj), con
- D es un conjunto de representaciones de
documentos - Q es un conjunto de representaciones de
necesidades de información de los usuarios - F es un marco de modelado de documentos,
consultas y sus relaciones - R(qi,dj) es una función de ranking que asocia un
número real con una consulta y un documento. El
ranking define el orden en el que el documento
satisface la consulta.
11Modelos de RI
- Para construir un modelo
- Analizar las representaciones de documentos y
consultas - Concebir el marco en el que pueden ser
representados - Construcción de función de ranking
- Ejemplo modelo de espacios vectoriales
12Modelos de RI
- Algunos modelos clásicos
- Booleano (set theoretic)
- Vectorial (algebraico)
- Probabilístico (teoría de la probabilidad)
- Listas no solapadas
- Nodos próximos
Contenido
Estructura
13Modelos de RI
Taxonomía de los modelos de RI
TEORIA DE CONJUNTOS Conjuntos difusos
Booleano extendido
MODELOS CLASICOS Booleano Espacios
Vectoriales Probabilístico
ALGEBRAICO Vector generalizado Latent
Semantic Indexing Redes Neuronales
Recuperación Búsqueda retrospectiva DSI
ACCIONES DEL USUARIO
MODELOS ESTRUCTURADOS Listas no solapadas
Nodos próximos
PROBABILISTICO Redes de inferencia Redes
de confianza
Navegación
NAVEGACION Plana Guía estructurada
Hipertexto
14Modelos clásicos
- Los documentos se describen a través de un
conjunto de términos representativos llamados
índices o términos índice. - Los índices son principalmente nombres, y se usan
en menor medida verbos, adjetivos, adverbios, ... - Sin embargo, se pueden considerar todos los
términos como importantes en una aproximación
llamada full text.
15Modelos clásicos
- No todos los términos son igualmente importantes.
- Ej. Un término que aparece en todos los
documentos de una colección será menos importante
que otro que aparezca sólo en unos pocos, puesto
que ayuda a discernir. - El proceso de decidir la importancia de un
término se puede realizar a través de la
asignación de pesos - Para ki (término), dj (documento), wij ? 0 es el
peso asociado al término en el documento.
16Modelos clásicos
- Definición. Sea t el número de términos índice en
el sistema, y ki un término índice genérico.
Kk1,...,kt es el conjunto de índices. Un peso
wijgt0 se asocia con cada término ki del documento
dj. Para un término que no aparece en el
documento, wij0. Con cada documento dj hay
asociado un vector de índices dj(w1j,w2j,...,wtj)
. Además, definimos una función gi que devuelve
el peso asociado con índice ki en un vector
t-dimensional gi(dj)wij. - Los pesos de los términos son mutuamente
independientes, esto es, sabiendo el peso wij, no
podemos saber nada a priori del peso wi1j. Esto
es una simplificación válida para nuestro
problema.
17Modelo Booleano
- Modelo clásico basado en la teoría de conjuntos y
el álgebra de Boole. - Es el modelo más simple.
- Los documentos se representan por conjuntos de
términos contenidos en ellos. - Las consultas se expresan como expresiones
booleanas con una semántica clara y concreta. - Adoptado por muchos de los SRI tempranos.
18Modelo Booleano
- Presenta algunos problemas
- Decisión binaria, sin escala de relevancia.? wij
? 0,1 - Se basa más en data retrieval que en information
retrieval. - Difícil traducir una NI a una expresión booleana.
- Las consultas son combinaciones de términos
usando operadores and, or y not. Además, hay que
buscar una representación óptima a través de una
FND (Forma Normal Disjunta).
19Modelo Booleano
- Ejemplo de consulta en FND
Consulta genérica q ka ? ( kb ? ?kc )
a
b
Consulta FND q ka ? ( kb ? ?kc ) q (ka ? kb
) ? (ka ? ?kc ) qfnd (ka ? kb ? kc ) ? (ka ?
kb ? ?kc ) ? (ka ? ?kb ? ?kc ) qfnd (1,1,1) ?
(1,1,0) ? (1,0,0)
c
20Modelo Booleano
- Definición. Para el modelo booleano, los pesos de
los términos son binarios (wij ? 0,1). Una
consulta es una expresión booleana convencional.
Si qfnd es la forma normal disjunta de una
consulta, y qcc alguno de los componentes de esta
fnd, la similitud de un documento dj con una
consulta q se define como 1 si ? qcc (qcc ?
qfnd ) ? (?ki, gi(dj) gi(qcc)) sim(dj,q)
0 en otro casoSi sim(dj,q)1, entonces el
documento se predice como relevante. En cualquier
otro caso, el documento no es relevante.
21Modelo Booleano
- Ejemplo
- dj (0,1,0)
- q ka ? ( kb ? ?kc )
- No hay respuesta parcial (1 ó 0)
- Resultado sim(dj,q)0
22Modelo Vectorial
- Asume que el uso de pesos binarios es limitativo
y propone un marco con posibilidad de relevancia
parcial. - Por tanto, se asignan pesos no binarios a los
términos en los documentos - Se pretende computar el grado de similitud entre
documentos y consultas de forma gradual, y no
absoluta. - El resultado será un conjunto de documentos
respuesta a una consulta ordenados en ranking de
relevancia.
23Modelo Vectorial
- Definición. En el modelo vectorial, el peso wij
que se asocia a un par (ki,dj) es positivo y no
binario. De igual modo, los pesos de los términos
en una consulta se someten a los mismos pesos, de
modo que wiq ? 0 es el peso asociado asociado al
par ki,q. El vector q se define como q(w1q,
w2q,..., wtq) siendo t el número total de
términos indexados en el sistema. De igual forma,
el vector documento se representa por
dj(w1j,w2j,...,wtj) - Por tanto, un documento y una consulta se
representan como vectores t-dimensionales
(vectores en un espacio de t dimensiones, siendo
t el número de términos indexados en la colección
de documentos).
24Modelo Vectorial
- La similitud entre documentos y consultas se
evalua a través de la correlación de los vectores
que los representan, q y dj. - La correlación se puede definir a través del
coseno del ángulo entre los vectores
25Modelo Vectorial
- Sobre la fórmula del coseno
- La norma del vector consulta no afecta al ranking
porque es igual para todos los documentos, cosa
que no pasa con la norma del vector documento - La similitud varía entre 0 y 1 puesto que así lo
hacen los pesos de los términos de los vectores
26Modelo Vectorial
- En este modelo, en lugar de predecir si un
documento es o no relevante, se proporciona un
grado de relevancia. - Un documento podría ser recuperado sólo con una
coincidencia parcial. - Se establece un umbral de relevancia para decidir
cuando mostrar un documento como relevante. - El problema para obtener la relevancia consistirá
en la forma de asignar pesos.
27Modelo Vectorial
- Problema de clustering en IR definir que
documentos son relevantes y que documentos no lo
son. Se pueden usar dos medidas para ello - Similitud intra-cluster. Se puede utilizar como
medida la frecuencia de términos (tf). - Diferencia inter-cluster. Se puede utilizar como
medida la frecuencia de documento inversa (idf). - Estas medidas (tf, idf) se pueden aplicar para el
cálculo de los pesos de los términos.
28Modelo Vectorial
- Definición. Sea N el total de documentos de una
colección, y ni los documentos en los que aparece
el término ki. La frecuencia del término ki en el
documento dj la denotamos por freqij. La
frecuencia normalizada del término ki en el
documento dj es f. El máximo se obtiene sobre los
términos del documento. La frecuencia de
documento inversa será idf.El peso del término
en documentos y consultas se calcula con estas
fórmulas empíricas
29Modelo Vectorial
- Las principales ventajas del modelo son
- Se mejora el rendimiento con las fórmulas de
obtención de pesos. - Se pueden recuperar documentos que se aproximen
a la consulta. - La fórmula del coseno proporciona, además, un
ranking sobre la respuesta. - La principal desventaja es que considera los
términos como independientes, lo que puede causar
bajo rendimiento (en teoría).
30Modelo Vectorial
- Como conclusión
- Es muy elástico como estrategia de ranking en
colecciones generales. - Es difícil de mejorar sin expansión de consultas
o relevance feedback. - En comparación con otros modelos, es superior o
igual en rendimiento a las alternativas. - Es simple y rápido.
- Hoy en día, es uno de los más utilizados.
31Modelo Probabilístico
- También se le llama binary independence
retrieval model. - La idea del modelo es dada una consulta, existe
exactamente un conjunto de documentos, y no otro,
que satisface dicha consulta. Este conjunto es el
conjunto ideal. - Por tanto, el problema de la RI será el proceso
de especificar las propiedades del conjunto ideal.
32Modelo Probabilístico
- El problema es que no conocemos exactamente las
propiedades del conjunto ideal. - Deberemos realizar una suposición inicial sobre
estas propiedades para tratar de refinarlas
consulta tras consulta. - Tras cada consulta, el usuario determinará los
documentos que son relevantes, con lo que se
podrá refinar la descripción del conjunto ideal.
33Modelo Probabilístico
- Principio de probabilidad. Dada una consulta q y
un documento dj, el modelo probabilístico trata
de determinar la probabilidad de que el usuario
encuentre el documento relevante. El modelo asume
que esta probabilidad de relevancia depende sólo
de las representaciones del documento y de la
consulta. El modelo también asume que hay un
subconjunto de todos los documentos que el
usuario prefiere como respuesta a su consulta. A
este conjunto se le llama conjunto de respuesta
ideal, y lo denotaremos por R. El conjunto R
debería maximizar la probabilidad global de
relevancia para el usuario. Los documentos que no
pertenezcan al conjunto serán considerados como
no relevantes para el usuario.
34Modelo Probabilístico
- Definición. Para el modelo probabilístico, los
pesos de los términos índice son binarios (wij ?
0,1, wiq ? 0,1). Una consulta q es un
subconjunto de términos índice. Sea R el conjunto
de documentos conocidos (o inicialmente
supuestos) como relevantes. Sea R el complemento
de R. Sea P(Rdj) la probabilidad de que el
documento dj sea relevante a la consulta q y
P(Rdj) la probabilidad de que dj no sea
relevante a q. Entonces, la similitud del
documento con la consulta se define como
35Modelo Probabilístico
- Explicación.
- P(Rdj) es la probabilidad de que dado un
documento seleccionado, ese documento sea
relevante para el usuario. - P(dj R) es la probabilidad de seleccionar
aleatoriamente el documento dj de entre los
relevantes. - P(R) es la probabilidad de que seleccionando
algún documento aleatoriamente de la colección,
sea relevante. - P(dj) es la probabilidad de obtener el documento
dj aleatoriamente seleccionando uno de entre toda
la colección. - P(Rdj), P(dj R), P(R) son los análogos,
aplicados a la no relevancia. - El cociente es ahora fácil de calcular con las
probabilidades de que los términos del documento
estén o no estén en los documentos de los
conjuntos relevantes o no relevantes, según el
caso.
36Modelo Probabilístico
- Para que quede claro, un documento será relevante
siP(Rdj) gt P(Rdj)oP(djR) gt P(djR)
37Modelo Probabilístico
- No podemos calcular exactamente las
probabilidades, y tenemos que hacer estimaciones - La relevancia de cada documento es independiente
de la relevancia de otros
38Modelo Probabilístico
- Ventajas
- Los documentos se presentan en orden decreciente
de probabilidad de relevancia. - Inconvenientes
- Hay que hacer una separación inicial de
documentos en relevantes y no relevantes. - Es binario (no se consideran frecuencias de
aparición de términos en los documentos). - Se asume la independencia de términos.
39Comparación
- El modelo booleano es el más flojo de todos los
clásicos. No permite relevancias parciales y
ofrece problemas de rendimiento. - El modelo vectorial ofrece mejores resultados que
el probabilístico, pero para colecciones
generalistas.
40Modelos avanzados
- Conjuntos difusos
- Booleano extendido
- Espacio Vectorial Generalizado
- Latent Semantic Indexing
- Redes neuronales
- Redes de inferencia (inference network)
- Redes de confianza (belief network)
41Conjuntos difusos
- La representación de un documento a través de
términos implica una representación vaga de la
semántica del documento. - Por tanto, la relevancia de un documento con
respecto a una consulta solo puede ser un valor
aproximado, no exacto.
42Conjuntos difusos
- Se puede definir un conjunto difuso, de modo que
cada documento tendrá un grado de pertenencia
(lt1) a ese conjunto. - La relevancia equivaldrá al grado de pertenencia
al conjunto, y será un valor comprendido entre 0
y 1.
43Conjuntos difusos. Ejemplo.
- Se puede expandir un término de una consulta a
través de un tesauro.es equivalente a - Se puede establecer una correlación entre los
términos relacionados.
44Conjuntos difusos. Ejemplo.
- El factor de correlación podría serni
num. de docs que contienen a kinl num. de docs
que contienen a klnil num. de docs que
contienen a ki y kl
45Conjuntos difusos. Ejemplo.
46Conjuntos difusos. Ejemplo.
- Para cada término ki podemos definir un conjunto
difuso asociado, donde cada documento tendrá un
grado de pertenencia. - El grado de pertenencia se puede calcular como la
suma de los factores de correlación del término i
con los términos que contiene el documento.
47Conjuntos difusos. Ejemplo.
d3(0,4,2,15)
48Conjuntos difusos. Ejemplo.
- El usuario realizará sus consultas de un modo
similar al modelo booleano. - La consulta se transformará en una forma normal
disjunta. - Los operadores AND y OR de la expresión de la
consulta se resuelven a través de - Cálculo del mínimo (and) o máximo (or) grado de
pertenencia. - Operación matemática (sumas, productos) sobre los
coeficientes de correlación de los términos.
49Conjuntos difusos
- En resumen
- Correlación de términos
- Correlación de documentos con los conjuntos
difusos asociados a los términos - Cálculos algebraicos para computar el grado de
pertenencia de un documento a un conjunto difuso
definido para la consulta. - No es un modelo muy extendido entre los
especialistas de RI. - No hay experimentos suficientemente amplios para
comparar el modelo con otros
50Booleano extendido
- El modelo booleno es simple y elegante, pero al
no permitir pesos, no se puede hacer ranking. - El tamaño del conjunto respuesta es demasiado
grande o demasiado pequeño. - Como consecuencia, ya no se usa.
- El uso del modelo booleano con pesos y relevancia
parcial permite evitar alguno de estos problemas
(combinación booleano vectorial).
51Booleano extendido
- Introducido en 1983 por Salton, Fox y Wu.
- Se basa en la idea de que la relevancia de un
documento para una consulta con un único término
dependerá del peso del término en el documento. - Sin embargo, cuando se utilizan expresiones
booleanas en la consulta, es necesario calcular
la relevancia atendiendo a los pesos de distintos
términos.
52Booleano extendido
(1,1)
ky
dj
kx
(0,0)
cálculo basado en la distancia euclídea
53Booleano extendido
(1,1)
ky
dj
kx
(0,0)
cálculo basado en la distancia euclídea
54Booleano extendido
- Los sub-modelos que se pueden aplicar dentro del
booleano extendido son - MMM (Mixed Min and Max)
- Paice
- P-Norm
- Toman la idea de la lógica difusa que
- da?bmin(da,db)
- da?bmax(da,db)
55Booleano extendido
- MMM
- Suaviza los operadores booleanos en el cálculo de
relevancia para una consulta
56Booleano extendido
- Paice
- Muy similar una generalización al MMM. En lugar
de considerar sólo los pesos máximo y mínimo para
cada documento, considera todos los pesos
wij en orden descendente para OR y en orden
ascendente para AND r1 para AND r0.7 para
OR n2 ? al MMM
57Booleano extendido
- P-Norm
- Generaliza el cálculo basado en distancia
euclídea extendiéndola a distancia-p. - Los operadores también tienen pesos, p?1,?
(coeficientes para indicar que son más o menos
estrictos) - p1 indica relajación, pinfinito indica
obligación.
58Booleano extendido
59Booleano extendido
- Comparación de los sub-modelos
- Funcionan mejor cuando AND se interpreta de forma
estricta, y OR se interpreta de forma menos
estricta. - Son más efectivos que el booleano, pero también
son computacionalmente más caros. - Los costes computacionales son MMM lt Paice lt
P-Norm - La eficiencia es MMM lt Paice lt P-Norm
60EV Generalizado
- Se supone que no tiene porque haber independencia
entre términos. - Se descomponen los vectores (documentos) en otros
que son ortogonales (independientes). - Refleja el hecho de que términos co-ocurrentes
están relacionados, y por tanto los vectores
términos no tienen porque ser independientes. - Computacionalmente es más costoso, y no está
demostrada una mejora clara.
61Latent Semantic Indexing
- Plantea el problema de la indexación usando
términos - Documentos relevantes que no contengan términos
no serán recuperados - Documentos que contengan los términos, pero que
no sean relevantes, serán recuperados. - Se presenta la idea de utilizar conceptos en
lugar de términos para representar documentos y
consultas. - Se mapean los vectores d y q en un espacio
dimensional inferior de conceptos.
62Redes Neuronales
- Es una buena técnica aplicada al reconocimiento
de patrones (ejemplo OCR). - Cerebro Conjunto de neuronas.
- Neurona Unidad de procesamiento.
- Neurona tiene señal de entrada y señal de salida.
- Redes de neuronas que interactúan con señales. Se
representan como grafos.
63Redes Neuronales
- Cada nodo del grafo es una neurona, y cada arco
es una conexión sináptica. - Los arcos tienen pesos, y los nodos estados de
activación. - Según el estado de activación, el nodo A puede
enviar una señal al nodo B, con una intensidad
que dependerá del peso del arco que une los nodos.
64Redes Neuronales
Términos
Documentos
Consulta
k1
d1
ka
ka
dj
kb
kb
dj1
kc
kc
dN
kt
65Redes Neuronales
- Los nodos consulta inician el proceso de
inferencia. Envían señales a los nodos término.
Los nodos término envían señales a los nodos
documento. - Los nodos documento pueden generar señales para
los nodos término, los cuales pueden volver a
enviar una señal a otros nodos documento. - El resultado es que se pueden recuperar
documentos que no contengan términos de la
consulta.
66Redes bayesianas
- Redes de inferencia y Redes de confianza.
- Basado en las redes bayesianas, son una extensión
de la aplicación de la teoría de la probabilidad
a la RI. - Las redes de confianza generalizan las redes de
inferencia.
67Modelos estructurados
- Modelos de este tipo son
- Listas no solapadas
- Nodos próximos
- Tratan de combinar la información del contenido
del texto con la estructura del texto. - Se pierde la noción de relevancia, y estamos ante
un data retrieval.
68Modelos estructurados
- Ejemplo
- Un usuario tiene mucha memoria visual. Recuerda
un documento donde aparece holocausto atómico
en cursiva, cerca de una imagen que tiene en la
etiqueta la palabra tierra. - same-page(near(holocausto atómico,
Figure(etiqueta(tierra))) - Se recuperarán aquellos documentos que satisfagan
exactamente la consulta, por tanto no hay orden
de relevancia en los resultados.
69Modelos estructurados
- Aunque no se proporciona escala de relevancia,
este es un tema de investigación hoy en día, y se
pude conseguir una relevancia parcial. - Cuanto más expresivo es el lenguaje de consulta,
más ineficiente resulta. - Los documentos se estructuran en nodos
(secciones), que pueden conocer tanto el autor
como el usuario que busca.
70Listas no solapadas
- Se divide el texto en zonas no solapadas, y se
forma una lista. - Se generan múltiples listas atendiendo a
diferentes criterios de división. - Cada lista se mantiene en una estructura de datos
diferente. - Aunque dentro de una lista no se puedan solapar
regiones, sí que puede existir solapamiento de
regiones en distintas listas.
71Listas no solapadas
L0
Capítulo
L1
Sección
L2
Subsección
L3
Párrafo
72Listas no solapadas
- Para resolver las búsquedas se usa un solo
fichero invertido donde cada componente
estructural es una entrada en el índice. - Con cada índice se asocia una lista de regiones
como ocurrencias. - El índice se puede combinar con el clásico
fichero invertido que contiene las entradas de
términos en los documentos.
73Nodos próximos
- Es una generalización de las listas no solapadas.
- Establece una jerarquía de regiones.
- Las búsquedas sobre las jerarquías se pueden
restringir a nodos próximos si se ha encontrado
alguna coincidencia previa.
74Nodos próximos
L0
Capítulo
L1
Sección
L2
Subsección
L3
Párrafo