Title: http:stel'ub'edu
1 - Servei de Tecnologia Lingüística
- http//stel.ub.edu
- 29 de septiembre de 2008
2Algunos conceptos previos
- Las Tecnologías de la Lengua constituyen un área
de conocimento interdisciplinar donde confluyen
distintas materias - Lingüística teórica
- Lingüística aplicada
- Informática
- Inteligencia artificial
- La tecnología aplicada al procesamiento del
lenguaje tiene como objetivo el desarrollo de
sistemas informáticos de diversa complejidad - correctores ortográficos
- simuladores del lenguaje (oral y escrito)
- recuperación y clasificación de la información
- traducción automática
3Algunos conceptos previos
- En el desarrollo de cualquier aplicación
intervienen dos elementos - recursos lingüísticos básicos
- lexicones
- gramáticas
- diccionarios morfológicos
- programas para el procesamiento de los textos
- analizadores
- desambiguadores y lematizadores
- programas de cálculo estadístico
4Algunos conceptos previos
- Forma (type) Equivalente a palabra cualquier
palabra que aparece en un corpus. - Ocurrencia (token) Cada aparición de una forma
en un corpus. El número de ocurrencias de una
forma constituye su FRECUENCIA. - Lema El estándar léxico de una forma es decir,
una forma tal y como la encontramos en el
diccionario (en catalán o español, el infinitivo
para los verbos, el masculino singular para los
adjetivos, el singular para los sustantivos,).
5Proceso de trabajo (I)
- Diseño del estudio
- Selección del corpus textual
- Contenido
- Tamaño del corpus
- Clasificación
- Introducción del corpus en soporte magnético
- Manual (desde el teclado)
- Escáner OCR
- CD-ROM
- Internet
6Proceso de trabajo (II)
- Marcaje o etiquetaje del corpus textual
- Referenciación de las partes
- Introducción de información paratextual
- Modificaciones sobre el texto
- Anotaciones morfológicas, sintácticas, etc.
- Aplicación del programa(s) informático(s) de
análisis de textos - Obtención de resultados
7El corpus textual
- Definición de corpus textual
- En principio, denominamos corpus textual a
cualquier conjunto de textos en soporte
informático, agrupados y clasificados según
determinados criterios y objetivos. - Un corpus constituye una fuente de información
para - El desarrollo de recursos lingüísticos básicos
(léxicos, gramáticas) - La investigación filológica y lingüística
- La lexicografía
- También es un banco de pruebas para la
investigación en Lingüística Teórica y
Computacional. - Los distinguimos según su tamaño, contenido, tipo
de ordenación,...
8El corpus textual
- Ventajas de la utilización de un corpus textual
- Manejo de gran volumen de información de muestras
reales de la lengua. - Facilidad de clasificación de los ejemplos.
- Capacidad de utilización como banco de pruebas
para refrendar teorías o intuiciones. - Posibilidad de utilizar métodos estadísticos para
su tratamiento. - Combinación de métodos estadísticos con métodos
basados en el conocimiento gramatical.
9Tipos de corpus
- Corpus general de referencia representativo de
una lengua, útil para realizar observaciones
generales sobre ella. Contiene material oral y
escrito, y una representación de diferentes tipos
de textos. - Corpus para objetivos específicos se fija en un
aspecto particular del lenguaje (variedad de
lengua, género literario, temática,...). - Oral/de lengua hablada/de lengua escrita.
- Monolingüe/multilingüe (comparable/paralelo).
- Sincrónico/diacrónico.
- Abierto (corpus monitor)/cerrado
10Tipos de corpus
- Corpus puros (formato ASCII) se utilizan para
elaborar estudios cuantitativos (listas de
formas, frecuencias, colocaciones,). - Corpus procesados permiten obtener información
sobre el uso de la lengua (análisis lingüístico,
estudios de léxico, traducción automática,) - Corpus etiquetados (tagged) morfosintácticamente
- Corpus analizados sintácticamente
- análisis superficial (skeleton parsing o
chunking) - análisis profundo (full parsing)
11Corpus etiquetados
12Etiquetarios (POS taggers)
13Corpus analizado sintácticamente
14El corpus de ejemplo
- El corpus está constituido por textos
periodísticos (editoriales, artículos de opinión
y noticias) en referencia a la muerte de Augusto
Pinochet. - Los textos han sido obtenidos a partir de las
ediciones digitales de diferentes periódicos de
los días 11, 12 y 13 de diciembre de 2006. - Los periódicos han sido divididos en tres partes,
según su ubicación geográfica - Español peninsular
- Español insular (Canarias)
- Latinoamérica
15El corpus de ejemplo
- Español peninsular
- EL Mundo
- El País
- El Periódico (edición Cataluña)
- ABC
- Español insular
- Canarias 7
- Latinoamérica
- Clarín (Argentina)
- El Mercurio (Chile)
- Hoy (Ecuador)
- La Jornada (México)
- La República (Perú)
- La Nación (Costa Rica)
16Marcaje del texto
- Referenciación de las partes
- Introducción de información paratextual
- Anotaciones morfológicas, sintácticas, etc.
- Formatos
- SGML (Standard Generalized Markup Language)
- XML
- Formato ltmarcagtlt/marcagt
17Etiquetaje del texto procesado
- Lematización
- Tagging etiquetaje PoS (part of speech)
- Parsing etiquetaje sintáctico
18Referenciación de las partes
19Modificaciones del texto
20Las entidades nombradas
- Las entidades nombradas o entidades con
nombre (traducción del inglés Named Entities,
NE) son aquellos grupos de palabras que contienen
un nombre propio e identifican a un individuo o
entidad. - Pueden ser
- Fuertes (strong) Bill Gates, USA, Kilimanjaro,
30 , 21/01/1950, - Débiles (weak) el teorema de Pitágoras, el
ministro de Defensa, Las nieves del
Kilimanjaro, - Desde un punto de vista semántico, las NE
pertenecen a seis categorías - Persona Zapatero, el presidente de Colombia, el
presidente español - Organización el Ayuntamiento de Madrid, la
Generalitat, IBM - Lugar el Masnou, la carretera entre Badalona y
Mataró - Fecha 1918, 11 de septiembre de 1973
- Número (incluye monedas, porcentajes y
magnitudes) 20 metros cuadrados, 20 euros, el
50 de la población - Otros (títulos de obras artísticas o personajes
de ficción)
21Programas utilizados
- Hyperbase
- (http//www.unice.fr/bcl/)
- WordSmith
- (http//www.lexically.met/wordsmith/index.html)
- FreeLing
- (http//garraf.epsevg.upc.es/freeling/index)
22Programas utilizados
23Programas utilizados
24Análisis frecuencial del vocabulario
- La aproximación más directa al trabajo con datos
textuales consiste simplemente en contar las
frecuencias de formas, ocurrencias u otras
clasificaciones (por ejemplo, frecuencias por
categorías gramaticales). - Los recuentos de frecuencias en datos absolutos
no permiten la comparación entre corpus o partes
de corpus, en especial si son de distinto tamaño.
Deben utilizarse porcentajes de aparición
respecto al tamaño del corpus.
25Análisis frecuencial del vocabulario
- La función básica de un programa de análisis de
textos es la generación de una lista de
frecuencias de formas, que nos proporciona el
número de ocurrencias (apariciones) de cada
palabra. - Dicha lista puede tener dos tipos de ordenación
- orden alfabético (lexicográfico)
- recto
- inverso
- a tergo
- orden frecuencial
- creciente
- decreciente (lexicométrico)
26Análisis frecuencial del vocabulario
Índice frecuencial decreciente (lexicométrico)
27Análisis frecuencial del vocabulario
- Creación de un índice frecuencial con indicación
de frecuencia mínima
28Análisis frecuencial del vocabulario
Gráfico de comparación de una forma entre las
diferentes partes del corpus
29Análisis frecuencial del vocabulario
Lista de formas con una frecuencia determinada
(hápax)
30Análisis frecuencial del vocabulario
Índice alfabético de formas representativas
(vocabulario específico
31Análisis frecuencial del vocabulario
- Índice de segmentos repetidos
32Análisis frecuencial del vocabulario
Índice alfabético de nombres propios
33Análisis frecuencial del vocabulario
Índice alfabético de nombres propios con
indicación de subfrecuencia
34Concordancias
- En origen, una concordancia contenía todas las
palabras de un texto o en las obras de un autor
(exceptuando, generalmente, las formas
gramaticales más comunes), junto con una lista de
los contextos de aparición de cada palabra (una
línea completa, una referencia breve, o ambas
cosas a la vez). - Las concordancias se han utilizado desde la Edad
Media, especialmente en el campo de los estudios
bíblicos. Normalmente, se asocian a textos
estudiados intensiva y repetidamente (la Biblia,
las obras de Shakespeare). Ello se debe a que el
trabajo de elaboración manual de una concordancia
completa era tan colosal que sólo se emprendía si
se esperaba que su utilidad fuera duradera. - Con los ordenadores, dado un texto en formato
electrónico, un programa informático adecuado
puede realizar todas las tareas necesarias para
elaborar una concordancia con mucha rapidez. - Actualmente, no suelen elaborarse concordancias
exhaustivas de un texto completo, sino que se
tiende a producir listas de formas concretas en
el momento en que se necesitan. Sin embargo, los
programas de elaboración de concordancias también
se utilizan en algunos casos para analizar corpus
de millones de palabras.
35Concordancias
- La concordancia es una reorganización de las
formas y ocurrencias del texto, de manera que las
ocurrencias de una misma forma se reagrupan
acompañadas de un fragmento de su contexto
inmediato, cuya longitud varía según las
necesidades del análisis. - La palabra clave es aquella cuyos contextos se
reagrupan. - Las concordancias ofrecen una perspectiva global
de las diferentes maneras de utilizar una forma,
algo difícil de obtener mediante una lectura
secuencial. - Tipos de concordancias
- Tradicionales (naturales)
- Informatizadas
- Concordancia de tipo KWIC (keyword in context)
- Concordancia de contexto variable
- Contextos
36Concordancias
Concordancia KWIC en orden cronológico de
aparición
37Concordancias
Concordancia KWIC en orden alfabético de
aparición de la forma siguiente a la forma clave
38Concordancias
Concordancia KWIC de un segmento
39Concordancias
Concordancia de tipo contexto
40Concordancias
Concordancia de tipo contexto de una
coocurrencia
41Concordancias
Reagrupación temática del vocabulario a partir de
una concordancia de tipo contexto
42Concordancias recursos en Internet
- Biblioteca Virtual Miguel de Cervantes
(Herramientas lingüística Concordancias) - http//www.cervantesvirtual.com/concordancias/inde
x.shtml - SOL (Spanish on line). Concordancias españolas en
la web - http//spraakbanken.gu.se/lb/konk/rom2
- Concordancias, a propósito de la autoría de El
Lazarillo de Tormes - http//www.elazarillo.net/concordancias.html
-
43Bibliografía
- Blecua, J.M. et al., eds. (1999). Filología e
informática. Nuevas tecnologías en los estudios
filológicos. Barcelona Milenio-Universitat
Autònoma de Barcelona. - Civit, M. (2003). Criterios de etiquetación y
desambiguación morfosintáctica de corpus en
español. Tesis doctoral. Universitat de
Barcelona, Departament de Lingüística. - Gómez, J., A.M. Lorenzo, eds. (1996).
Lingüística e informática. Santiago de
Compostela Tórculo Edicións. - Grishman, R. (1991). Introducción a la
Lingüística Computacional. Madrid Visor. - Hockey, S. (2000). Electronic texts in the
Humanities. Oxford University Press. - Marcos Marín, F. (1994). Informática y
Humanidades. Madrid Gredos. - Marcos Marín, F. (1996). El comentario
filológico con apoyo informático. Madrid
Síntesis. - Martí, M.A., coord. (2001). Les tecnologies del
llenguatge. Barcelona Edicions de la Universitat
Oberta de Catalunya. - Martí, M.A., I. Castellón (2001). Lingüística
Computacional. Barcelona Edicions Universitat de
Barcelona (Textos Docents 218). - Pérez Guerra, J. (1998). Análisis computarizado
de textos. Una introducción a TACT. Servicio de
Publicacións, Universidade de Vigo.