Title: Sistemas de Recuperaci
1Sistemas de Recuperación de Información
- Sistemas de Procesamientos de Archivos.
2Introducción Sistemas IR
- La Recuperación de datos se ocupa de la
representación, alamacenamiento, organización y
acceso de la información. - La representación y organización de la
información deben proveer al usuario un fácil
acceso a sus interes personales. - Dado un query, la meta de una llave es recuperar
la información relevante para el usuario.
3Información Vs. Recuperación de Datos
- La recuperación de datos consiste en determinar
que documentos contienen las llaves del query en
el documento. - La recuperación de datos, no resuelve el problema
de recuperar información acerca de un tema.
4Información Vs. Recuperación de Datos
- Los sistemas IR, deben interpretar de alguna
manera el contenido de la información de los
documentos y ponerlos en orden de relevancia de
acuerdo al query de usuario.
5Recuperación de información en el centro del etapa
- El Web se está convirtiendo como un depósito
universal de conocimiento humano y de cultura, el
cual permite intercambios de ideas e información
en una escala nunca antes vista. - El Web ha introducido frecuentes problemas.
Encontrar información útil se ha convertido en
una tarea tediosa. - Web Links.
6Tarea del usuario
- EL usuario tiene que traducir la información
necesaria en un query proporcionado en el
lenguaje del sistema. - Son dos tipos de tareas distintas para el
usuario Recuperación de datos o información y
browsing.(pulling actions) - Los sistemas IR se encargan de filtrar
información relevante para el usuario.
7Distintas tareas del usuario en un sistema de
recuperación
8Visión lógica de los documentos
- La visión lógica es la representación de
documentos y páginas Web adoptadas por un
sistema. La forma más común de representar un
documento de texto es por un sistema de términos
indexados o palabras llaves. - En una gran colección estas computadoras deben
reducir el sistema representativo de llaves.
9Visión lógica de los documentos
- Esto se puede realizar a través de la eliminación
de los stopwords (como artículos), el uso de
stemming (reducir palabras de su raíz
gramatical) y la eliminación de grupos de
sustantivos (los cuales eliminan adjetivos,
adverbios, y verbos).
10Visión lógica de los documentos
11Problemas del IR
- Son dos los diferentes tipos de problemas
- La visión computadora - centrada
- La visión humano - centrado
12Problemas del IR
- La visión computadora - centrada, consiste en
construir un índice eficiente, procesar los
querys del usuario con un alto rendimiento y
algoritmos que mejoren la calidad de respuesta
del sistema. - La visión humano centrado consiste
principalmente en estudiar las necesidades del
usuario, saber como afecta a la organización y
operación del sistema de recuperación.
13Recuperación de información en Bibliotecas
- Las bibliotecas fueron las primaras en adoptar
los sistemas IR, posteriormente pasaron a
instituciones académicas y a vendedores
comerciales.
14Recuperación de información en Bibliotecas
- En la primera generación, solo se permitian
búsquedas por título y autor. - En la segunda generación se permitió buscar por
tema, palabras claves y algunos querys más
complejos. - En la tercera generación, se introdujo la
interfaz gráfica, hipertextos y formas
electrónicas.
15El Web y las bibliotecas digitales
- El bajo costo, buenos accesos, y la libertad de
publicar permiten que las personas usen el Web (y
las bibliotecas digitales) como un gran medio
interactivo. - Sin embargo, esto ha introducido nuevos
problemas, encontrar información valiosa en el
Web se ha convertido en una tarea de forma
tediosa y difícil.
16Proceso de recuperación de información
- Antes de que el proceso de recuperación, sea
inicializado es necesario definir la base de
datos del texto, esto es hecho por el
administrador de la base de datos. - El administrador de la base de datos construye
el índice del texto (fila invertida) - El usuario especifica lo que necesita , el cual
es parseado y procesado para obtener la
recuperación de los documentos. - Antes de que la información sea enviada al
usuario, esta es ordenada en orden de relevancia.
17MODELOS DE RECUPERACION DE INFORMACIÓN
- Los tres modelos clásicos en la recuperación de
información son - En el modelo Boleano, se presentan documentos y
preguntas como los conjutnos de condiciones del
índice, también se le conoce como conjunto
teórico. - En el modelo de Vectorial, se representan
documentos y preguntas como los vectores en un
espacio t-dimensional, también se conoce que este
modelo es un modelo algebraico. - En el modelo Probabilístico, su grupo de trabajo
para el documento modelado y la representación de
la pregunta, se basan en la teoría de
probabilidad, esta es la razón por la cual este
modelo recibe el nombre de probabilístico.
18CONCEPTOS BÁSICOS
Los modelos clásicos en la recuperación de
información (IR) consideran que cada documento se
describe por un conjunto de palabras claves
representativas llamado condiciones del
índice. El termino del índice simplemente es una
(campo) palabra cuya semántica ayuda a recordar
los temas principales del documento. Generalmente
, las condiciones del índice son principalmente
los nombres, esto es por que los nombres tiene un
solo significado y así, su semántica es mas fácil
de identificar.
19MODELO BOLEANO
El modelo Boleano, es un modelo de recuperación
simple basado en la teoría fija y álgebra de
Boolean, este modelo proporciona un grupo de
trabajo que es fácil de usar por un usuario común
de un sistema de IR. Además, las llamadas se
especifican como expresiones de Boolean que
tienen la semántica precisa. Dado su simplicidad
inherente y formalismo, el modelo de Boolean
recibió la gran atención y se adopto por muchos
de los sistemas bibliográficos comerciales.
20MODELO BOLEANO
- De este modelo se pueden destacar los
siguientes puntos - La relevancia es binaria un documento es
relevante o no lo es. - Consultas de una palabra un documento es
relevante si contiene la palabra. - Consultas AND Los documentos deben contener
todas las palabras. - Consultas OR Los documentos deben contener
alguna palabra. - Consultas A BUTNOT B Los documentos los
documentos deben ser relevantes para A
pero no para B. - Ejemplo lo mejor de Maradona
- Maradona AND Mundial
- AND (( México 86 OR Italia 90) BUTNOT
U.S.A. 94) - Es el modelo mas primitivo, sin embargo es el
mas popular.
21MODELO BOLEANO
Por qué es malo? No discrimina entre documentos
más y menos relevantes. Da lo mismo que un
documento contenga una o cien veces las palabras
de consulta. Da lo mismo que cumpla una o
todas las cláusulas de un OR. No permite ordenar
los resultados. La mayoría de los usuarios les
es difícil de entender. Ej. Necesito
investigar sobre los Aztecas y los Incas
Aztecas AND Incas (grave error, se perderán
excelentes documentos que traten una sola de
las culturas en profundidad, debió ser
Aztecas OR Incas).
22MODELO BOLEANO
Por qué es popular? Es una de los primeros
modelos que se implemento y muchos de los
primeros sistemas de IR se basaron en él La idea
suele ser común entre los usuarios que la están
usando. Es la opción favorita para insertar
texto en un RDBMS. Es simple de formalizar y
eficiente de implementar. En algunos caso
(usuarios expertos) puede ser adecuado. Puede
ser útil en combinación con otro modelo ej. Para
excluir documentos. Puede ser útil con buenas
interfaces.
23MODELO PROBABILÍSTICO
Este modelo fue introducido en 1976 por Roberston
y Spark Jones y después se conoció como el modelo
de la recuperación de independencia binario. La
idea fundamental es, dada una pregunta del
usuario, se encuentra un conjunto de documentos
que contienen los datos pertinentes que necesita
el usuario, a este conjunto se le conoce como
conjunto de la respuesta ideal. El modelo solo
asume que esta probabilidad de relevancia
depende de la pregunta y las representaciones del
documento, que en este caso el usuario haga.
24MODELO PROBABILÍSTICO
La ventaja principal del modelo probabilístico,
en teoría, es que se alinean los documentos en
orden decreciente de su probabilidad de ser
pertinentes (referenciados). Las desventajas
incluyen La necesidad de suponer la separación
inicial de documentos en los conjuntos
pertinentes y no pertinentes. El echo que el
método no tiene en cuenta la frecuencia con que
un termino del índice ocurre dentro de un
documento ( todo los pesos son binarios). Que
adopta la independencia para las condiciones del
índice.
25MODELO PROBABILÍSTICO
Concluyendo Se presupone que existe
exactamente un subconjunto de documentos que son
relevantes para una consulta dada. Para cada
documento, se intenta evaluar la probabilidad de
que el usuario lo considere relevante. La
relevancia de un documento se calcula como
P (d relevante para q)/ P(d no relevante para
q) Donde q es una pregunta del
usuario y q los campos de cada
documentos. Luego de una iteración se recuperan
V documentos sea vr el numero de documentos
recuperados que contiene el termino tr. El
modelo propabilístico, en teoría, recupera los
documentos que con mayor probabilidad son
relevantes. Sin embargo, es poco popular.
26MODELO PROBABILÍSTICO
Por qué es poco popular? Se debe comenzar
adivinando y luego refinar esa apuesta
iterativamente. El modelo ve cada documento
como un conjunto de términos. Necesita
presuponer que los términos son independientes.
Existen estudios que muestra que es inferior
al modelo vectorial y casi todos los científicos
lo consideran inferior. Sin embargo, tiene una
base teórica distinta a la del modelo vectorial y
permite extensiones que sí son populares.
27 Modelo - Vectorial Redes Neuronales LSI
Latent Semantic indexing
28Modelo Vector
- Se selecciona un conjunto de palabras útiles
para discriminar (términos o keywords). - Se
Puede enriquecer esto con un proceso de
lematisazion (o steamming), etiquetado, e
identificación de frases. - En los sistemas
modernos, toda palabra del texto es un t?rmino,
excepto posiblemente las stopwords o palabras
vacías. - Si un termino aparece mucho en un
documento, se supone que es importante en ese
documento(t f crece). - Pero si aparece un
muchos documentos, entonces no es útil para
distinguir ningún documento de los otros (i df
decrece). - Además normalizamos los módulos de
los vectores para no favorecer documentos más
largos. - Lo que se intenta medir es cúanto
ayuda ese t?rmino a distinguir ese documento de
los demás.
29(No Transcript)
30(No Transcript)
31- La similaridad es un valor entre cero y uno. -
Notar que dos documentos iguales tienen
similaridad 1, y ortogonal (si no comparten
terminos) tienen similaridad cero. - En
particular, una consulta se puede ver como un
documento (formado por esas palabras) y por lo
tanto como un vector.
El modelo es más general, y permite cosas
como - Que la consulta sea un documento. -
Hacer clustering de documentos similares. -
Relevance feedback ("more like this"). Este
modelo no es el mas pópular de RI hoy en día.
32LSI Latent Semantic Indexing
- La idea es mapear el espacio de vectores a uno
de menor dimensión conservando lo mejor posible
las distancias entre los vectores. Existen
m?todos matemaáticos bien conocidos como
heurísticas para hacer esto. - Lo que ocurre es
que se selecciona un conjunto de vectores
relativamente independientes, y los dependientes
se colapsan en una sola coordenada. - La idea
es que los vectores del espacio reducido
representan conceptos mas que t?rminos, y esto
reducirá el "ruido" de las palabras
individuales. -Por ejemplo, si "auto" y
"vehículo" tienden a aparecer en los mismos
documentos, los dos vectores serán relativamente
dependientes y colapsarán. Luego al preguntar
por uno de ellos se recuperará el otro también .
33Redes Neuronales
- La idea general es tratar de expandir los
t?rminos de la consulta por interación. - Es un
grafo dirigido cuyos nodos son los t?rmino de los
documentos en sí. Las flechas representan "
activación". - Los t?rmino de las consultas
activan los mismos t?rminos de los documentos. -
Los t?rminos de documentos activan los documentos
donde aparecen. - Estos documentos activan los
t?rminos que contienen. - Esto iteran con
intensidades decrecientes hasta converger. - El
nivel alcanzado por cada documento es su
relevancia. - Esto permite que se activen
documentos en forma indirecta, cuando contiene
un t?rmino que en los documentos de la
colección aparece frecuentemente junto a uno de
la consulta.
34(No Transcript)
35(No Transcript)
36Modelo de Redes de Inferencia
- Las dos escuelas más tradicionales del
pensamiento en probabilidad se basan en la visión
Frecuentista y en la visión Epistemológica. - Los Frecuentistas se refieren a la probabilidad
como la noción estadística relacionada a las
leyes del cambio. - La Epistemología interpreta a la probabilidad
como el grado de creencia cuya especificación
puede ser debida a la experimentación
estadística.
37El modelo de redes de inferencia toma una visión
Epistemológica de el problema de recuperación de
información. El modelo de redes asocia
variables aleatorias con los términos indices,
los documentos y las consultas de los usuarios.
Una variable aleatoria asociada con un
documento Dj representa el evento de observar ese
documento (el modelo asume que los documentos
están siendo observados en la búsqueda de
documentos relevantes.)
38- El termino Indice y las variables del documento
son representadas como nodos en la red. - Las aristas son dirigidas de un nodo de un
documento hacia los nodos termino para indicar
que la observación de un documento produce la
creencia de mejorar sus nodos termino. - Las variables aleatorias asociadas con los
modelos de consulta de los usuarios el Evento de
solicitar la información especificada por la
consulta ha sido conocido. - Esta variable aleatoria es representada por un
nodo en la red.
39De ahí que, las aristas son dirigidas desde los
nodos del termino indice hacia los nodos de
consulta. La figura 2.9 que se muestra a
continuación ilustra un modelo de re redes de
inferencia de recuperación de información.
40Antecedentes de probabilidad para redes de
inferencia.
Este antecedente de probabilidad refleja la
probabilidad asociada al evento de observar un
documento determinado Dj. Puesto que no tenemos
antecedentes para ningún documento en particular,
generalmente se adopta un antecedente de
probabilidad distribuido uniforme. La
probabilidad de observar un documento Dj, se
establece como 1/N en donde N es el número total
de documentos en el sistema. P(Dj) 1/N P(Dj)
1 - 1/N
41Modelo de Redes de Creencia
El Modelo de Redes de Creencia fue introducido en
1996 por Ribeiro - Neto y Muntz. Se basa en la
interpretación Epistemológica de las
probabilidades. Sin embargo, este modelo comienza
como el Modelo de Redes de Inferencia al adoptar
un espacio muestral. Como resultado produce
una pequeña diferencia en las redes de topología,
las cuales muestran una separación entre el
documento y las consultas en la red.
42El espacio de probabilidad
Todos los documentos en una colección son
indexados por sus términos indices y el universo
es el conjunto K de todos los términos índices.
Cada elemento indice es visto como un concepto
elementario y K como el espacio. El concepto u es
un subconjunto de K y representa un documento en
la colección o la consulta del usuario. En un
modelo de creencia el conjunto de relaciones son
especificadas variables aleatorias.
43Modelos basados en estructuras de texto
- Problema
- Encontrar los documentos que contengan la cadena
holocausto atómico con letra cursiva, y que se
encuentre cerca de una figura cuya etiqueta dice
tierra. - Solución
- Un modelo que permita la siguiente consulta
- misma-pagina( cerca_de( holocausto atómico,
figura( etiqueta( tierra)))) - Definición
- un modelo de RI que combina la información del
contenido del texto con la información sobre la
estructura del documento - Desventajano tiene una manera de clasificar los
resultados en base a su importancia (ranking).
44Terminos y conceptos importantes
- match point (punto de coincidencia)una posición
del texto en la que hay una secuencia de palabras
que satisface una consulta. - regionuna porción contigua del texto.
- node (nodo)un componente estructural del
documento (capítulo, sección, etc.).
45Modelos basados en listas no sobrepuestas
(non-overlapping)
- Ideadividir el texto de cada documento en
regiones que no están sobrepuestas y juntarlos en
una lista. - Implementaciónse crea un archivo invertido en el
que cada componente estructural es una entrada en
el índice. Asociado con cada una de estas
entradas, hay una lista de regiones de texto como
una lista de ocurrencias. - Ejemplos de consultas
- a) seleccionar una región que contenga una
palabra dada - b) seleccionar la región A que no contenga una
región B.
46Modelos basados en nodos proximales
- Idea definir estructuras de indexamiento
jerárquicas e independientes sobre un mismo
documento. - Implementación primero buscar los componentes
que coinciden con la cadena especificada en la
consulta y, subsecuentemente, evaluando cúal de
estos componentes satisface la parte estructural
de la consulta. - Ejemplos de consultas(section) with
(holocaust)
47Modelos para hojear (browsing)
- Puede darse el caso de que un usuario no quiera
hacer una consulta sino que se toma el tiempo
para hojear por el documento buscando palabras o
referencias de interés. - Browsing plano (flat) el usuario explora los
documentos sin seguir una secuencia determinada. - Browsing guiado por estructura el documento esta
organizado en una estructura de tipo directorio y
por lo tanto tiene una jerarquía de contenido. - Hipertexto el usuario navega a través del
documento mediante ligas (como en Internet).
48Modelos de hipertexto
- Un concepto fundamental relacionado con la tarea
de escribir texto es la secuencia que le damos
para que el lector capte nuestro mensaje. - Definición es una estructura interactiva de
navegación de alto nivel que permite ver texto de
una manera no secuencial en un monitor de
computadora. - Idea un hipertexto consiste en nodos que se unen
mediante ligas dirigidas dentro de un grafo. A
cada nodo se le asocia una región de texto, la
cual puede ser un capítulo, una sección, un
artículo o una página Web. - Implementación un hipertexto tiene ligas dentro
del texto en forma de palabras marcadas de manera
especial. Al hacer clic en una liga nos lleva a
otra parte del documento. - Desventaja cuando el hipertexto es grande, el
usuario puede perderse en su estructura. - Solución contar con un mapa del hipertexto que
indique al usuario su posición actual dentro de
la estructura.
49Temas de investigación
- 1) En sistemas de bibliotecas
- Hay interés en entender los criterios que el
usuario usa para juzgar la importancia de los
documentos que busca. - se esta investigando la manera en que otros
modelos diferentes al modelo Booleano (el cual
sigue siendo utilizado por los grandes sistemas
de bibliotecas comerciales) afectan al usuario de
una biblioteca. - 2) En sistemas especializados
- la investigación se centra en el problema de
poder recuperar el mayor número de documentos
relevantes minimizando el número de documentos
que no tienen importancia. - 3) En el Web
- un usuario muchas veces no sabe lo que quiere
buscar o le cuesta trabajo formular una consulta
apropiada. Sería productivo investigar en el tema
de crear interfaces avanzadas para los usuarios. - motores de meta-búsquedas (motores que trabajan
utilizando las clasificaciones generadas por
otros motores).