Tema 1. Modelos de RI avanzados

About This Presentation

Title:

Tema 1. Modelos de RI avanzados

Description:

Tema 1. Modelos de RI avanzados Sistemas de Gesti n Documental Introducci n IR: representaci n, almacenamiento, organizaci n y acceso a la informaci n Las ... – PowerPoint PPT presentation

Number of Views:86

Avg rating:3.0/5.0

Slides: 75

Provided by: Ramo152

Category:

more less

Transcript and Presenter's Notes

Title: Tema 1. Modelos de RI avanzados

1
Tema 1.Modelos de RI avanzados

Sistemas de Gestión Documental

2
Introducción

IR representación, almacenamiento, organización
y acceso a la información
Las Necesidades de Información
NIC / NIOP
Problema de caracterización
Problema de formulación de consulta

3
Introducción

Ejemplo de consulta
Encontrar las páginas que contengan información
sobre equipos de ajedrez que se enfrentan en
torneos nacionales y tienen alguna subvención de
algún tipo. La página debe contener información
sobre el ranking nacional del equipo en los
últimos 3 años y la dirección de e-mail o el
teléfono del entrenador.
La dificultad está en construir la consulta para
que la entienda el SRI.

4
Introducción

Information retrieval / Data retrieval
NIOP / NIC
Lenguaje Natural / Lenguaje de consulta
Permite errores / No permite errores
Información / Datos
Inexacto / Exacto

5
Introducción

Data retrieval
No resuelve el problema de la RI. Sólo devuelve
datos sobre un tema. Es estructurado y nada
ambiguo en cuanto a las consultas.
Information retrieval (RI)
Trata de resolver la NI. Debe interpretar los
contenidos de los documentos y hacer un ranking
de las respuestas. La consulta no es estructurada
(LN) y es ambigua. La relevancia es el principal
punto de interés.

6
Introducción

RI tema específico de bibliotecarios y
especialistas ???
Puntos originales de interés indexación y
búsquedas
Investigación actual modelización,
clasificación, arquitectura de sistemas,
interfaces de usuario, visualización de datos,
filtraje, lenguajes, etc.
Desde los años 1990 explota el interés debido al
nacimiento del World Wide Web.

7
Introducción

Respecto al Web
Es la BD Documental más grande del mundo
Presenta problemas
Nadie se hace responsable de los contenidos
No es fácil buscar ni indexar
No hay herramientas de soporte perfectas
No se usa un lenguaje útil para las máquinas
...

8
Modelos de RI

La RI se basa en la utilización de términos
índice para indexar y recuperar documentos.
Indexar un documento puede consistir en sustituir
su contenido por un conjunto de términos índices
que lo representan.
Recuperar puede consistir en especificar un
conjunto de términos que deben hallarse entre los
índices de un documento, estableciendo un ranking
de relevancia.

9
Modelos de RI

El problema de la RI será, pues, la manera de
predecir la relevancia de los documentos y su
grado de relevancia (ranking).
Las distintas premisas utilizadas en el cálculo
de la relevancia darán lugar a distintos
modelos de trabajo o de RI.

10
Modelos de RI

Un modelo de RI se define como
Es una cuádrupla D,Q,F,R(qi,dj), con
D es un conjunto de representaciones de
documentos
Q es un conjunto de representaciones de
necesidades de información de los usuarios
F es un marco de modelado de documentos,
consultas y sus relaciones
R(qi,dj) es una función de ranking que asocia un
número real con una consulta y un documento. El
ranking define el orden en el que el documento
satisface la consulta.

11
Modelos de RI

Para construir un modelo
Analizar las representaciones de documentos y
consultas
Concebir el marco en el que pueden ser
representados
Construcción de función de ranking
Ejemplo modelo de espacios vectoriales

12
Modelos de RI

Algunos modelos clásicos
Booleano (set theoretic)
Vectorial (algebraico)
Probabilístico (teoría de la probabilidad)
Listas no solapadas
Nodos próximos

Contenido
Estructura
13
Modelos de RI
Taxonomía de los modelos de RI
TEORIA DE CONJUNTOS Conjuntos difusos
Booleano extendido
MODELOS CLASICOS Booleano Espacios
Vectoriales Probabilístico
ALGEBRAICO Vector generalizado Latent
Semantic Indexing Redes Neuronales
Recuperación Búsqueda retrospectiva DSI
ACCIONES DEL USUARIO
MODELOS ESTRUCTURADOS Listas no solapadas
Nodos próximos
PROBABILISTICO Redes de inferencia Redes
de confianza
Navegación
NAVEGACION Plana Guía estructurada
Hipertexto
14
Modelos clásicos

Los documentos se describen a través de un
conjunto de términos representativos llamados
índices o términos índice.
Los índices son principalmente nombres, y se usan
en menor medida verbos, adjetivos, adverbios, ...
Sin embargo, se pueden considerar todos los
términos como importantes en una aproximación
llamada full text.

15
Modelos clásicos

No todos los términos son igualmente importantes.
Ej. Un término que aparece en todos los
documentos de una colección será menos importante
que otro que aparezca sólo en unos pocos, puesto
que ayuda a discernir.
El proceso de decidir la importancia de un
término se puede realizar a través de la
asignación de pesos
Para ki (término), dj (documento), wij ? 0 es el
peso asociado al término en el documento.

16
Modelos clásicos

Definición. Sea t el número de términos índice en
el sistema, y ki un término índice genérico.
Kk1,...,kt es el conjunto de índices. Un peso
wijgt0 se asocia con cada término ki del documento
dj. Para un término que no aparece en el
documento, wij0. Con cada documento dj hay
asociado un vector de índices dj(w1j,w2j,...,wtj)
. Además, definimos una función gi que devuelve
el peso asociado con índice ki en un vector
t-dimensional gi(dj)wij.
Los pesos de los términos son mutuamente
independientes, esto es, sabiendo el peso wij, no
podemos saber nada a priori del peso wi1j. Esto
es una simplificación válida para nuestro
problema.

17
Modelo Booleano

Modelo clásico basado en la teoría de conjuntos y
el álgebra de Boole.
Es el modelo más simple.
Los documentos se representan por conjuntos de
términos contenidos en ellos.
Las consultas se expresan como expresiones
booleanas con una semántica clara y concreta.
Adoptado por muchos de los SRI tempranos.

18
Modelo Booleano

Presenta algunos problemas
Decisión binaria, sin escala de relevancia.? wij
? 0,1
Se basa más en data retrieval que en information
retrieval.
Difícil traducir una NI a una expresión booleana.
Las consultas son combinaciones de términos
usando operadores and, or y not. Además, hay que
buscar una representación óptima a través de una
FND (Forma Normal Disjunta).

19
Modelo Booleano

Ejemplo de consulta en FND

Consulta genérica q ka ? ( kb ? ?kc )
a
b
Consulta FND q ka ? ( kb ? ?kc ) q (ka ? kb
) ? (ka ? ?kc ) qfnd (ka ? kb ? kc ) ? (ka ?
kb ? ?kc ) ? (ka ? ?kb ? ?kc ) qfnd (1,1,1) ?
(1,1,0) ? (1,0,0)
c
20
Modelo Booleano

Definición. Para el modelo booleano, los pesos de
los términos son binarios (wij ? 0,1). Una
consulta es una expresión booleana convencional.
Si qfnd es la forma normal disjunta de una
consulta, y qcc alguno de los componentes de esta
fnd, la similitud de un documento dj con una
consulta q se define como 1 si ? qcc (qcc ?
qfnd ) ? (?ki, gi(dj) gi(qcc)) sim(dj,q)
0 en otro casoSi sim(dj,q)1, entonces el
documento se predice como relevante. En cualquier
otro caso, el documento no es relevante.

21
Modelo Booleano

Ejemplo
dj (0,1,0)
q ka ? ( kb ? ?kc )
No hay respuesta parcial (1 ó 0)
Resultado sim(dj,q)0

22
Modelo Vectorial

Asume que el uso de pesos binarios es limitativo
y propone un marco con posibilidad de relevancia
parcial.
Por tanto, se asignan pesos no binarios a los
términos en los documentos
Se pretende computar el grado de similitud entre
documentos y consultas de forma gradual, y no
absoluta.
El resultado será un conjunto de documentos
respuesta a una consulta ordenados en ranking de
relevancia.

23
Modelo Vectorial

Definición. En el modelo vectorial, el peso wij
que se asocia a un par (ki,dj) es positivo y no
binario. De igual modo, los pesos de los términos
en una consulta se someten a los mismos pesos, de
modo que wiq ? 0 es el peso asociado asociado al
par ki,q. El vector q se define como q(w1q,
w2q,..., wtq) siendo t el número total de
términos indexados en el sistema. De igual forma,
el vector documento se representa por
dj(w1j,w2j,...,wtj)
Por tanto, un documento y una consulta se
representan como vectores t-dimensionales
(vectores en un espacio de t dimensiones, siendo
t el número de términos indexados en la colección
de documentos).

24
Modelo Vectorial

La similitud entre documentos y consultas se
evalua a través de la correlación de los vectores
que los representan, q y dj.
La correlación se puede definir a través del
coseno del ángulo entre los vectores

25
Modelo Vectorial

Sobre la fórmula del coseno
La norma del vector consulta no afecta al ranking
porque es igual para todos los documentos, cosa
que no pasa con la norma del vector documento
La similitud varía entre 0 y 1 puesto que así lo
hacen los pesos de los términos de los vectores

26
Modelo Vectorial

En este modelo, en lugar de predecir si un
documento es o no relevante, se proporciona un
grado de relevancia.
Un documento podría ser recuperado sólo con una
coincidencia parcial.
Se establece un umbral de relevancia para decidir
cuando mostrar un documento como relevante.
El problema para obtener la relevancia consistirá
en la forma de asignar pesos.

27
Modelo Vectorial

Problema de clustering en IR definir que
documentos son relevantes y que documentos no lo
son. Se pueden usar dos medidas para ello
Similitud intra-cluster. Se puede utilizar como
medida la frecuencia de términos (tf).
Diferencia inter-cluster. Se puede utilizar como
medida la frecuencia de documento inversa (idf).
Estas medidas (tf, idf) se pueden aplicar para el
cálculo de los pesos de los términos.

28
Modelo Vectorial

Definición. Sea N el total de documentos de una
colección, y ni los documentos en los que aparece
el término ki. La frecuencia del término ki en el
documento dj la denotamos por freqij. La
frecuencia normalizada del término ki en el
documento dj es f. El máximo se obtiene sobre los
términos del documento. La frecuencia de
documento inversa será idf.El peso del término
en documentos y consultas se calcula con estas
fórmulas empíricas

29
Modelo Vectorial

Las principales ventajas del modelo son
Se mejora el rendimiento con las fórmulas de
obtención de pesos.
Se pueden recuperar documentos que se aproximen
a la consulta.
La fórmula del coseno proporciona, además, un
ranking sobre la respuesta.
La principal desventaja es que considera los
términos como independientes, lo que puede causar
bajo rendimiento (en teoría).

30
Modelo Vectorial

Como conclusión
Es muy elástico como estrategia de ranking en
colecciones generales.
Es difícil de mejorar sin expansión de consultas
o relevance feedback.
En comparación con otros modelos, es superior o
igual en rendimiento a las alternativas.
Es simple y rápido.
Hoy en día, es uno de los más utilizados.

31
Modelo Probabilístico

También se le llama binary independence
retrieval model.
La idea del modelo es dada una consulta, existe
exactamente un conjunto de documentos, y no otro,
que satisface dicha consulta. Este conjunto es el
conjunto ideal.
Por tanto, el problema de la RI será el proceso
de especificar las propiedades del conjunto ideal.

32
Modelo Probabilístico

El problema es que no conocemos exactamente las
propiedades del conjunto ideal.
Deberemos realizar una suposición inicial sobre
estas propiedades para tratar de refinarlas
consulta tras consulta.
Tras cada consulta, el usuario determinará los
documentos que son relevantes, con lo que se
podrá refinar la descripción del conjunto ideal.

33
Modelo Probabilístico

Principio de probabilidad. Dada una consulta q y
un documento dj, el modelo probabilístico trata
de determinar la probabilidad de que el usuario
encuentre el documento relevante. El modelo asume
que esta probabilidad de relevancia depende sólo
de las representaciones del documento y de la
consulta. El modelo también asume que hay un
subconjunto de todos los documentos que el
usuario prefiere como respuesta a su consulta. A
este conjunto se le llama conjunto de respuesta
ideal, y lo denotaremos por R. El conjunto R
debería maximizar la probabilidad global de
relevancia para el usuario. Los documentos que no
pertenezcan al conjunto serán considerados como
no relevantes para el usuario.

34
Modelo Probabilístico

Definición. Para el modelo probabilístico, los
pesos de los términos índice son binarios (wij ?
0,1, wiq ? 0,1). Una consulta q es un
subconjunto de términos índice. Sea R el conjunto
de documentos conocidos (o inicialmente
supuestos) como relevantes. Sea R el complemento
de R. Sea P(Rdj) la probabilidad de que el
documento dj sea relevante a la consulta q y
P(Rdj) la probabilidad de que dj no sea
relevante a q. Entonces, la similitud del
documento con la consulta se define como

35
Modelo Probabilístico

Explicación.
P(Rdj) es la probabilidad de que dado un
documento seleccionado, ese documento sea
relevante para el usuario.
P(dj R) es la probabilidad de seleccionar
aleatoriamente el documento dj de entre los
relevantes.
P(R) es la probabilidad de que seleccionando
algún documento aleatoriamente de la colección,
sea relevante.
P(dj) es la probabilidad de obtener el documento
dj aleatoriamente seleccionando uno de entre toda
la colección.
P(Rdj), P(dj R), P(R) son los análogos,
aplicados a la no relevancia.
El cociente es ahora fácil de calcular con las
probabilidades de que los términos del documento
estén o no estén en los documentos de los
conjuntos relevantes o no relevantes, según el
caso.

36
Modelo Probabilístico

Para que quede claro, un documento será relevante
siP(Rdj) gt P(Rdj)oP(djR) gt P(djR)

37
Modelo Probabilístico

No podemos calcular exactamente las
probabilidades, y tenemos que hacer estimaciones
La relevancia de cada documento es independiente
de la relevancia de otros

38
Modelo Probabilístico

Ventajas
Los documentos se presentan en orden decreciente
de probabilidad de relevancia.
Inconvenientes
Hay que hacer una separación inicial de
documentos en relevantes y no relevantes.
Es binario (no se consideran frecuencias de
aparición de términos en los documentos).
Se asume la independencia de términos.

39
Comparación

El modelo booleano es el más flojo de todos los
clásicos. No permite relevancias parciales y
ofrece problemas de rendimiento.
El modelo vectorial ofrece mejores resultados que
el probabilístico, pero para colecciones
generalistas.

40
Modelos avanzados

Conjuntos difusos
Booleano extendido
Espacio Vectorial Generalizado
Latent Semantic Indexing
Redes neuronales
Redes de inferencia (inference network)
Redes de confianza (belief network)

41
Conjuntos difusos

La representación de un documento a través de
términos implica una representación vaga de la
semántica del documento.
Por tanto, la relevancia de un documento con
respecto a una consulta solo puede ser un valor
aproximado, no exacto.

42
Conjuntos difusos

Se puede definir un conjunto difuso, de modo que
cada documento tendrá un grado de pertenencia
(lt1) a ese conjunto.
La relevancia equivaldrá al grado de pertenencia
al conjunto, y será un valor comprendido entre 0
y 1.

43
Conjuntos difusos. Ejemplo.

Se puede expandir un término de una consulta a
través de un tesauro.es equivalente a
Se puede establecer una correlación entre los
términos relacionados.

44
Conjuntos difusos. Ejemplo.

El factor de correlación podría serni
num. de docs que contienen a kinl num. de docs
que contienen a klnil num. de docs que
contienen a ki y kl

45
Conjuntos difusos. Ejemplo.
46
Conjuntos difusos. Ejemplo.

Para cada término ki podemos definir un conjunto
difuso asociado, donde cada documento tendrá un
grado de pertenencia.
El grado de pertenencia se puede calcular como la
suma de los factores de correlación del término i
con los términos que contiene el documento.

47
Conjuntos difusos. Ejemplo.
d3(0,4,2,15)
48
Conjuntos difusos. Ejemplo.

El usuario realizará sus consultas de un modo
similar al modelo booleano.
La consulta se transformará en una forma normal
disjunta.
Los operadores AND y OR de la expresión de la
consulta se resuelven a través de
Cálculo del mínimo (and) o máximo (or) grado de
pertenencia.
Operación matemática (sumas, productos) sobre los
coeficientes de correlación de los términos.

49
Conjuntos difusos

En resumen
Correlación de términos
Correlación de documentos con los conjuntos
difusos asociados a los términos
Cálculos algebraicos para computar el grado de
pertenencia de un documento a un conjunto difuso
definido para la consulta.
No es un modelo muy extendido entre los
especialistas de RI.
No hay experimentos suficientemente amplios para
comparar el modelo con otros

50
Booleano extendido

El modelo booleno es simple y elegante, pero al
no permitir pesos, no se puede hacer ranking.
El tamaño del conjunto respuesta es demasiado
grande o demasiado pequeño.
Como consecuencia, ya no se usa.
El uso del modelo booleano con pesos y relevancia
parcial permite evitar alguno de estos problemas
(combinación booleano vectorial).

51
Booleano extendido

Introducido en 1983 por Salton, Fox y Wu.
Se basa en la idea de que la relevancia de un
documento para una consulta con un único término
dependerá del peso del término en el documento.
Sin embargo, cuando se utilizan expresiones
booleanas en la consulta, es necesario calcular
la relevancia atendiendo a los pesos de distintos
términos.

52
Booleano extendido
(1,1)
ky
dj
kx
(0,0)
cálculo basado en la distancia euclídea
53
Booleano extendido
(1,1)
ky
dj
kx
(0,0)
cálculo basado en la distancia euclídea
54
Booleano extendido

Los sub-modelos que se pueden aplicar dentro del
booleano extendido son
MMM (Mixed Min and Max)
Paice
P-Norm
Toman la idea de la lógica difusa que
da?bmin(da,db)
da?bmax(da,db)

55
Booleano extendido

MMM
Suaviza los operadores booleanos en el cálculo de
relevancia para una consulta

56
Booleano extendido

Paice
Muy similar una generalización al MMM. En lugar
de considerar sólo los pesos máximo y mínimo para
cada documento, considera todos los pesos

wij en orden descendente para OR y en orden
ascendente para AND r1 para AND r0.7 para
OR n2 ? al MMM
57
Booleano extendido

P-Norm
Generaliza el cálculo basado en distancia
euclídea extendiéndola a distancia-p.
Los operadores también tienen pesos, p?1,?
(coeficientes para indicar que son más o menos
estrictos)
p1 indica relajación, pinfinito indica
obligación.

58
Booleano extendido
59
Booleano extendido

Comparación de los sub-modelos
Funcionan mejor cuando AND se interpreta de forma
estricta, y OR se interpreta de forma menos
estricta.
Son más efectivos que el booleano, pero también
son computacionalmente más caros.
Los costes computacionales son MMM lt Paice lt
P-Norm
La eficiencia es MMM lt Paice lt P-Norm

60
EV Generalizado

Se supone que no tiene porque haber independencia
entre términos.
Se descomponen los vectores (documentos) en otros
que son ortogonales (independientes).
Refleja el hecho de que términos co-ocurrentes
están relacionados, y por tanto los vectores
términos no tienen porque ser independientes.
Computacionalmente es más costoso, y no está
demostrada una mejora clara.

61
Latent Semantic Indexing

Plantea el problema de la indexación usando
términos
Documentos relevantes que no contengan términos
no serán recuperados
Documentos que contengan los términos, pero que
no sean relevantes, serán recuperados.
Se presenta la idea de utilizar conceptos en
lugar de términos para representar documentos y
consultas.
Se mapean los vectores d y q en un espacio
dimensional inferior de conceptos.

62
Redes Neuronales

Es una buena técnica aplicada al reconocimiento
de patrones (ejemplo OCR).
Cerebro Conjunto de neuronas.
Neurona Unidad de procesamiento.
Neurona tiene señal de entrada y señal de salida.
Redes de neuronas que interactúan con señales. Se
representan como grafos.

63
Redes Neuronales

Cada nodo del grafo es una neurona, y cada arco
es una conexión sináptica.
Los arcos tienen pesos, y los nodos estados de
activación.
Según el estado de activación, el nodo A puede
enviar una señal al nodo B, con una intensidad
que dependerá del peso del arco que une los nodos.

64
Redes Neuronales

Ejemplo

Términos
Documentos
Consulta
k1
d1
ka
ka
dj
kb
kb
dj1
kc
kc
dN
kt
65
Redes Neuronales

Los nodos consulta inician el proceso de
inferencia. Envían señales a los nodos término.
Los nodos término envían señales a los nodos
documento.
Los nodos documento pueden generar señales para
los nodos término, los cuales pueden volver a
enviar una señal a otros nodos documento.
El resultado es que se pueden recuperar
documentos que no contengan términos de la
consulta.

66
Redes bayesianas

Redes de inferencia y Redes de confianza.
Basado en las redes bayesianas, son una extensión
de la aplicación de la teoría de la probabilidad
a la RI.
Las redes de confianza generalizan las redes de
inferencia.

67
Modelos estructurados

Modelos de este tipo son
Listas no solapadas
Nodos próximos
Tratan de combinar la información del contenido
del texto con la estructura del texto.
Se pierde la noción de relevancia, y estamos ante
un data retrieval.

68
Modelos estructurados

Ejemplo
Un usuario tiene mucha memoria visual. Recuerda
un documento donde aparece holocausto atómico
en cursiva, cerca de una imagen que tiene en la
etiqueta la palabra tierra.
same-page(near(holocausto atómico,
Figure(etiqueta(tierra)))
Se recuperarán aquellos documentos que satisfagan
exactamente la consulta, por tanto no hay orden
de relevancia en los resultados.

69
Modelos estructurados

Aunque no se proporciona escala de relevancia,
este es un tema de investigación hoy en día, y se
pude conseguir una relevancia parcial.
Cuanto más expresivo es el lenguaje de consulta,
más ineficiente resulta.
Los documentos se estructuran en nodos
(secciones), que pueden conocer tanto el autor
como el usuario que busca.

70
Listas no solapadas

Se divide el texto en zonas no solapadas, y se
forma una lista.
Se generan múltiples listas atendiendo a
diferentes criterios de división.
Cada lista se mantiene en una estructura de datos
diferente.
Aunque dentro de una lista no se puedan solapar
regiones, sí que puede existir solapamiento de
regiones en distintas listas.

71
Listas no solapadas
L0
Capítulo
L1
Sección
L2
Subsección
L3
Párrafo
72
Listas no solapadas

Para resolver las búsquedas se usa un solo
fichero invertido donde cada componente
estructural es una entrada en el índice.
Con cada índice se asocia una lista de regiones
como ocurrencias.
El índice se puede combinar con el clásico
fichero invertido que contiene las entradas de
términos en los documentos.

73
Nodos próximos

Es una generalización de las listas no solapadas.
Establece una jerarquía de regiones.
Las búsquedas sobre las jerarquías se pueden
restringir a nodos próximos si se ha encontrado
alguna coincidencia previa.

74
Nodos próximos
L0
Capítulo
L1
Sección
L2
Subsección
L3
Párrafo

Write a Comment

User Comments (0)