Tema 3. Operaciones sobre el texto - PowerPoint PPT Presentation

About This Presentation
Title:

Tema 3. Operaciones sobre el texto

Description:

Tema 3. Operaciones sobre el texto Sistemas de Gesti n Documental Introducci n No todas las palabras son igualmente importantes en un texto para representar su ... – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 33
Provided by: RamonVte
Category:

less

Transcript and Presenter's Notes

Title: Tema 3. Operaciones sobre el texto


1
Tema 3.Operaciones sobre el texto
  • Sistemas de Gestión Documental

2
Introducción
  • No todas las palabras son igualmente importantes
    en un texto para representar su significado.
  • Es necesario considerar un preprocesamiento del
    texto antes de indexarlo.
  • El preprocesamiento debe determinar los términos
    que deben ser índices.
  • Durante el preprocesamiento, se realizarán
    algunas operaciones sobre el texto de forma
    adicional, para mejorar la indexación.

3
Introducción
  • Las operaciones principales que podemos encontrar
    son
  • Análisis léxico
  • Eliminación de palabras vacías
  • Stemming
  • Selección de términos índice
  • Construcción de estructuras de categorización de
    términos (tesauros, ...)

4
Introducción
  • No obstante, el preprocesamiento puede acarrear
    situaciones no deseadas
  • Buscamos el patrón la casa de Pedro. ? Si no
    hemos indexado palabras vacías, no podremos
    recuperar textos con este patrón.
  • La recuperación puede ser más difícil de entender
    para el usuario si se aplica preprocesamiento.
  • Algunos sistemas (buscadores web) no realizan
    preprocesamiento, sacrificando rendimiento por
    velocidad y simplicidad en las tareas de
    búsquedas.

5
Preprocesamiento
6
Análisis léxico
  • Consiste en convertir una secuencia de caracteres
    en una secuencia de palabras.
  • Las palabras serán los candidatos a índices.
  • La separación de palabras vendrá dada por
  • Espacios en blanco
  • Dígitos
  • Guiones
  • Signos de puntuación
  • Distinción de mayúsculas y minúsculas

7
Análisis léxico
  • Los números (dígitos) no son buenos candidatos a
    índices son muy vagos en significado.
  • Sin embargo, hay casos en los que pueden ser
    importantes
  • Los dígitos pueden aparecer combinados con
    caracteres, por ejemplo, 256 a.c. Las fechas
    pueden ser importantes.
  • Los números de una tarjeta de crédito pueden ser
    importantes
  • ...
  • La solución puede ser no considerar secuencias de
    dígitos, a no ser que sigan expresiones regulares.

8
Análisis léxico
  • La consideración de guiones presenta también
    problemas
  • Se puede separar una palabra que contenga guiones
    en palabras componentes (state-of-the-art state
    of the art).
  • Pero hay palabras en las que los guiones son
    relevantes (B-49).
  • Existe la posibilidad de que un guión enlace dos
    partes de una misma palabra (fin de línea).
  • La solución puede ser aplicar una regla general,
    y considerar las excepciones.

9
Análisis léxico
  • Los signos de puntuación se suelen eliminar del
    texto.
  • Existen casos en los que los signos de puntuación
    forman parte de la palabra (236 a.c.)
  • La eliminación de los signos, en estos casos, no
    presenta excesivos problemas en el rendimiento de
    la consulta.
  • Aún así, hay casos en los que la eliminación de
    los signos de puntuación puede llevar a
    confusiones.

10
Análisis léxico
  • La distinción de mayúsculas y minúsculas no
    debería afectar al rendimiento de la consulta.
  • Lo habitual es convertir todo el texto a
    mayúsculas o minúsculas.
  • A pesar de ello, existen escenarios en los que
    conviene distinguir entre ambas.

11
Análisis léxico
  • La implementación de estas operaciones sobre el
    texto no son difíciles de realizar.
  • No obstante, habrá que tener cuidado en la tarea,
    puesto que pueden afectar a la recuperación y al
    tiempo empleado.
  • Se pueden obviar estas tareas, si bien no está
    comprobado que la no utilización de las mismas
    sea producente o contraproducente.

12
Palabras vacías
  • Las palabras que son muy frecuentes en los
    documentos no ayudan a discriminar.
  • Dentro de este conjunto se hallan palabras que
    carecen de significado por ellas mismas, como
    artículos, preposiciones, conjunciones, etc.
  • La eliminación de estas palabras reducirá el
    tamaño de la estructura del índice empleado (por
    ejemplo 40).

13
Palabras vacías
  • Algunos verbos, adverbios y adjetivos pueden
    estar incluidos en las listas de palabras vacías,
    aunque tengan significado.
  • La eliminación de este tipo de palabras puede
    llevar a, por ejemplo, no poder encontrar ser o
    no ser, esa es la cuestión.

14
él ésta éstas éste éstos última últimas último últ
imos aañadió aún actualmente adelante además afir
mó agregó ahíahora al algún algo alguna algunas a
lguno algunos alrededorambos ante anterior antes
apenas aproximadamente aquí asíaseguró aunque aye
r bajo bien buen buena buenas bueno buenoscómo ca
da casi cerca cierto cinco comentó como con conoce
rconsideró considera contra cosas creo cual cuale
s cualquiercuando cuanto cuatro cuenta da dado da
n dar de debedeben debido decir dejó del demás de
ntro desde después dicedicen dicho dieron diferen
te diferentes dijeron dijo diodonde dos durante e
ejemplo el ella ellas ello ellosembargo en encue
ntra entonces entre era eran esesa esas ese eso e
sos está están esta estaba estabanestamos estar e
stará estas este esto estos estoy estuvo exexiste
existen explicó expresó fin fue fuera fueron gran
grandesha había habían haber habrá hace hacen ha
cer hacerlo haciahaciendo han hasta hay haya he h
echo hemos hicieronhizo hoy hubo igual incluso in
dicó informó junto la ladolas le les llegó lleva
llevar lo los luego lugarmás manera manifestó may
or me mediante mejor mencionómenos mi mientras mi
sma mismas mismo mismos momento muchamuchas mucho
muchos muy nada nadie ni ningún ninguna ningunas
ninguno ningunos no nos nosotras nosotros nuestra
nuestras nuestro nuestros nueva nuevas nuevo nuevo
s nuncao ocho otra otras otro otros para parece p
arte partirpasada pasado pero pesar poca pocas po
co pocos podemos podrápodrán podría podrían poner
por porque posible próximo próximosprimer primer
a primero primeros principalmente propia propias p
ropiopropios pudo pueda puede pueden pues qué que
quedó queremosquién quien quienes quiere realizó
realizado realizar respectosí sólo se señaló sea
sean según segunda segundo seisser será serán se
ría si sido siempre siendo siete siguesiguiente s
in sino sobre sola solamente solas solosolos son
su sus tal también tampoco tan tanto teníatendrá
tendrán tenemos tener tenga tengo tenido tercera t
iene tienentoda todas todavía todo todos total tr
as trata través trestuvo un una unas uno unos ust
ed va vamos vanvarias varios veces ver vez y ya y
o
15
Analizador léxico y stopwords
  • Implementación
  • Utilizar un generador de analizadores léxicos
    (lex en unix)
  • Crear un analizador léxico a mano y ad hoc
  • Crear un analizador léxico a mano como un
    autómata de estados finitos
  • El mejor es el primero, para casos complicados.
    El tercero sería el siguiente, si el analizador
    es simple. El segundo sería muy costoso.

16
Analizador léxico y stopwords
  • La implementación del tratamiento de las
    stopwords se puede realizar de dos maneras
  • Examinar la salida del analizador léxico y
    eliminar las palabras de la lista de stopwords
    (problema de búsqueda).
  • Eliminar las stopwords como parte del proceso del
    analizador léxico.
  • La segunda aproximación es más eficiente, y se
    puede implementar de forma sencilla con
    generadores de analizadores léxicos.

17
Stemming
  • Variaciones sintácticas de una palabra
  • En la consulta aparece una palabra, pero en los
    documentos aparecen variantes sintácticas de la
    palabra.
  • Solución obtener la raíz de la palabra y
    sustituirla por las palabras.
  • Se consigue obtener un concepto común desde las
    variantes de una palabra ? se mejora el
    rendimiento (exhaustividad).
  • Además se reduce el tamaño de los índices.

18
Stemming
  • Existe controversia sobre la verdadera utilidad
    del stemming. Los experimentos no ayudan a ver
    una clara conclusión.
  • El problema de aplicar stemming es que se pierde
    información sobre la palabra completa, o se
    necesita espacio adicional para almacenar esa
    información.
  • Algunos sistemas web desechan esta posibilidad de
    stemming.
  • Existen varias posibilidades para aplicar
    stemming eliminación de afijos (prefijos y
    sufijos), tablas de búsqueda, variedad de
    sucesores y n-gramas.

19
Stemming
  • Criterios para evaluar los stemers
  • Corrección, efectividad de la recuperación,
    compresión
  • Aplicable en la indexación de documentos o en
    tiempo de consulta.
  • Hasta donde llegar
  • Overstemming ? se elimina gran parte de la
    palabra las búsquedas pueden dar resultados
    indeseados.
  • Understemming ? se elimina poca porción de la
    palabra se pueden perder en una búsqueda
    documentos relevantes.

20
Stemming
  • Eliminación de afijos
  • Es intuitivo, simple, y de fácil implementación.
  • Es más importante la eliminación de sufijos que
    la de prefijos.
  • Existen varios algoritmos para su implementación.
    El más famoso para lengua inglesa es el de
    Porter.
  • Básicamente, se trata de aplicar reglas siguiendo
    un cierto orden, para sustituir sufijos por otras
    subcadenas o cadenas vacías.

21
Stemming
  • Tablas de búsqueda
  • Se busca la raíz de una palabra en una tabla.
  • Depende de los datos que se tengan de la raíz
    para el idioma.
  • Puede no resultar práctico debido a la falta de
    información sobre las raíces de los términos y el
    espacio de almacenamiento que necesita.
  • No se puede aplicar para palabras específicas o
    que no estén en el idioma para el que se tiene la
    tabla.

22
Stemming
  • Variedad de sucesores
  • Se basa en la determinación de las fronteras de
    los morfemas.
  • Utiliza cierto conocimiento de la lingüística
    estructural.
  • Es más complejo que la eliminación de prefijos y
    sufijos.
  • La variedad de sucesores de una cadena es el
    número de caracteres diferentes que la siguen en
    las palabras de un texto.

23
Stemming
  • Ejemplo de variedad de sucesores

Texto
able, axle, accident, ape, about
Palabra
apple
Variedad desucesores
a ? 4 (b, x, c, p)ap ? 1 (e)app ? 0appl ?
0apple ? 0
24
Stemming
  • Cuando el texto es lo suficientemente largo
    (gt2000 palabras), se produce que
  • Tomando una subcadena, a medida que se añaden
    caracteres, disminuye la variedad de sucesores.
  • Llegado a un punto determinado (cantidad de
    caracteres de la subcadena), la variedad de
    sucesores comienza a aumentar.
  • Este es el punto que marca cual es la raíz de la
    palabra.

25
Stemming
  • Metodos de corte para la variedad de sucesores
  • Cutoff. Seleccionar un valor de corte fijo.
  • Peak and plateau. El corte se produce en el
    carácter para el que la variedad de sucesores
    excede la inmediatamente anterior y a la
    inmediatamente siguiente.
  • Complete word. El corte se produce en el segmento
    que coincide con una palabra en el texto.
  • Entropy. Considera la distribución de variedades
    de sucesores. Es un cálculo matemático.

26
Stemming
  • Se debe elegir el segmento que es la raíz
  • Si el primer segmento aparece en menos de 12
    palabras, es probable que sea la raíz.
  • En caso contrario, es posible que el primer
    segmento sea un prefijo, con lo que se debe
    seleccionar el segundo segmento como raíz de la
    palabra.
  • Ninguno de los métodos es perfecto.

27
Stemming
  • Ejemplo de variedad de sucesores

Texto
able, ape, beatable, fixable, read,
readable,reading, reads, red, rope, ripe
Palabra
readable
PREFIJO VARIEDAD DE SUCESORES LETRASR 3 E,
I, ORE 2 A, DREA 1 DREAD 3 A, I,
SREADA 1 BREADAB 1 LREADABL 1 EREAD
ABLE 1 BLANCO
28
Stemming
  • N-gramas
  • Se basa en la identificación de digramas y
    trigramas.
  • Es más un procedimiento de clustering de términos
    que de stemming (no se produce corte de
    palabras).
  • Puesto que se pueden usar digramas, trigramas,
    etc., se la ha llamado método de los n-gramas.

29
Stemming
  • Ejemplo n-gramas

dirigir ? di ir ri ig gi irdireccion
? di ir re ec cc ci io ondirector
? di ir re ec ct to orescena ? es
sc ce en naescenario ? es sc ce en
na ar ri iocenar ? ce en na ar
A Número de digramas únicos en la primera
palabraB Número de digramas únicos en la
segunda palabraC Número de digramas únicos
compartidos por la primera y segunda palabras
30
Stemming
  • Ejemplo n-gramas

Dirigir Dirección Director Escena Escenario Cenar
Dirigir -
Dirección -
Director -
Escena -
Escenario -
Cenar -
31
Stemming
  • Ejemplo n-gramas

Dirigir Dirección Director Escena Escenario Cenar
Dirigir -
Dirección 0.30 -
Director 0.30 0.53 -
Escena 0 0 0 -
Escenario 0.15 0.13 0 0.77 -
Cenar 0 0 0 0.67 0.67 -
32
Ejercicios
1. Dado el texto con las siguiente
palabras armario, armas, armazón, vencer,
derrota, valentía, venerado, destrozar,
descubrir, desestimar, descolgar, construir,
derribar, derrocar, desarme, armada,
vencimiento Aplicar el método de peak and
plateau y el complete word para obtener la raíz
de las palabras desarmar, armamento, vencido
(Nota tomar como límite de prefijos el valor
4) 2. Utilizando el método de los n-gramas
(usando digramas), calcular las similitudes para
las palabras colocar, colocación, coloso,
vocación, evocación, gesto.
Write a Comment
User Comments (0)
About PowerShow.com