Title: http:www'ub'edusteles_suport'htm
1 - Servei de Tecnologia Lingüística
- http//www.ub.edu/stel/es_suport.htm
- 25 de mayo de 2007
2Índice
- Introducción a la Lingüística Computacional
- La Lingüística Computacional y sus relaciones con
otras disciplinas - Breve visión histórica
- Aplicaciones de la Lingüística Computacional
- Marcaje de textos XML
- XML visión general
- Ejemplos
- Procesamiento de textos anotados lingüísticamente
- Anotación morfológica
- Desambiguación
- Análisis sintáctico
- Ejemplos de anotación de corpus
- Anotación morfológica
- Sintaxis chunking, treebanks
3Lingüística Computacional Relaciones con otras
disciplinas
Informática
Telecomunicaciones
Tecnologías de la Lengua
Inteligencia Artificial
Tecnologías de la Información
Industrias de la Lengua
PLN
Ciencia Cognitiva
Psicología
Lingüística Computacional
Fonética Fonología
Pragmática
Semántica
Morfosintaxis
Lexicografía
Lingüística
4Definición de Lingüística Computacional
- La Lingüística Computacional es la aplicación del
paradigma - computacional al estudio científico del lenguaje
humano. - Desarrollo de modelos computacionales del
lenguaje. - Sistemas informáticos que permitan procesarlo de
manera adecuada. - Formalismos gramaticales
- Representación del conocimiento
5Lingüística Computacional yProcesamiento del
Lenguaje Natural (PLN)
- El Procesamiento del Lenguaje Natural es un área
de investigación vinculada a la Ingeniería
Lingüística o a las Tecnologías de la Lengua, y
explora el tratamiento automatizado del lenguaje. - Su objetivo es el desarrollo de sistema
informáticos que simulen el comportamiento humano
en el proceso de comunicación verbal. - Sistemas relacionados con la lengua escrita
- procesamiento de textos
- traducción automática
- recuperación y extracción de información
- interfaces hombre-máquina
- Sistemas relacionados con el habla.
6Lingüística Computacional y Lingüística
Informática
- La Lingüística Informática se encarga de
confeccionar los programas orientados a dar
soporte a los estudios filológicos,
lexicográficos, lingüísticos, humanísticos, etc. - No contienen conocimiento lingüístico.
- Consideran los textos como secuencias de
caracteres independientemente de la lengua a
tratar. - Su objetivo es la extracción de información
superficial de los textos según un determinado
criterio, normalmente de tipo cuantitativo o
basado en el reconocimiento de secuencias en el
texto frecuencias, colocaciones, concordancias, - El uso de estos programas no requiere una
preparación especial en formalismos del lenguaje.
7Lingüística Computacional yTecnologías de la
Lengua o Ingeniería Lingüística
- La Ingeniería Lingüística o la Tecnología de la
Lengua es la aplicación de los conocimientos
sobre la lengua al desarrollo de sistemas
informáticos para que puedan reconocer,
comprender, interpretar y generar el lenguaje
humano en todas sus formas. - Los objetivos más aplicados son
- Investigación básica en PLN y Lingüística
Computacional. - Desarrollo tecnológico (software y hardware)
- Telecomunicaciones
- Internet
8Lingüística Computacional eIndustrias de la
Lengua
- Las Industrias de la Lengua son los recursos
informáticos y lingüísticos de que dispone una
lengua determinada para satisfacer la creciente
necesidad de servicios y productos comerciales en
los que es necesario el tratamiento del lenguaje
por parte de personas, de máquinas o de la
combinación de unas y otras. - Incluye una vertiente productiva y económica que
no tienen el PLN o la Lingüística Computacional
la voluntad de obtener producvtes finales y
servicios para su comercialización.
9Lingüística Computacional eIndustrias de la
Lengua
- El análisis computacional requiere recursos
lingüísticos - Repertorios léxicos y terminológicos
- Corpus textuales y orales (monolingües y
multilingües) - Analizadores morfológicos y sintácticos
- Gramáticas que permitan categorizar y analizar
sintáctica y semánticamente la lengua - Es decir, se necesitan herramientas de tecnología
lingüística complejas.
10LC Breve vision históricaLos inicios (1949-1966)
- Aparición de los primeros ordenadores
- II Guerra Mundial ENIAC ? Calcular tables
balísticas - Nacimiento de la Informàtica manipulación
automática de la información - Traducción Automàtica (TA)
- 1949 Warren Weaver
- 1952 1º Congreso sobre TA
- 1954 Universidad de Georgetown Demostración de
un sistema de TA (IBM) - 1956 Mechanical Translation
- Sistemas de TA no basados en ningún modelo
lingüístico teórico - Basados en diccionarios bilingües y traducción
palabra a palabra. - Resultados de escasa calidad postedición
11LC Breve visión históricaLos inicios (1949-1966)
- 1964-1966 Informe ALPAC (Automatic Language
Processing Advisory Commitee) - Factores causa del fracaso
- La falta de una teoría lingüística.
- La concepción demasiado simplista del lenguaje.
- La creencia en la posibilidad de un procesamiento
del lenguaje sin ninguna restricción. - Syntactic Structures (N. Chomsky, 1957)
- Aspects of one Theory of Syntax (N. Chomsky,
1965)
12LC Breve visión históricaFundamentos y
consolidación (1966-1980)
- En los años setenta aparecen los ordenadores
personales. - Al final de los años ochenta se lleva a cabo la
conjunción del ordenador y las telecomunicaciones
los ordenadores se comunican entre ellos a gran
distancia por medio de señales analógicas que se
transmiten por líneas telefónicas. - La década de los noventa cierra este ciclo con la
conexión digital la red de comunicación de
ordenadores se globaliza con Internet.
13LC Breve visión históricaFundamentos y
consolidación (1966-1980)
- Lenguaje de programación de alto nivel Lisp y
Prolog. - Interés hacia nuevas áreas de aplicación
sistemas de diálogo hombre-máquina (consulta a
bases de datos, sistemas de aprendizaje,...) - Consecución de una cierta comprensión del texto
que se procesa para obtener una representación (o
generación) de su contenido en términos de un
metalenguaje lógico o semántico. -
14LC Breve visión históricaLos modelos
lingüísticos (1980-1990)
- Introducción de las teorías lingüísticas en el
ámbito de la
computación. - Superación de las limitaciones impuestas a
partir del concepto de sublenguaje. - Sistemas independientes de la aplicación
sistemas transportables. - Recursos básicos a gran escala, en especial
gramáticas, lexicones y corpus analizados, para
el máximo de lenguas posibles. - Investigación básica y desarrollo de recursos
lingüísticos a gran escala para todas las lenguas
oficiales
15LC Breve visión históricaLos modelos
lingüísticos (1980-1990)
- Teorías lingüísticas LFG (Bresnan Kaplan,
1982), GPSG (Gazdar et al., 1985), HPSG (Pollard
Sag, 1987), GC (Kay, 1985) - Formalismos gramaticales (GFU, PATR-II).
- Se retoma la TA EUROTRA (European Translator)
(1982-1992). - ATLAS-I y ATLAS-II (Fujitsu)
- METAL (Siemens)
- Sistemas de extracción de información Sistema
de Sager (American Medical Association). - MUC (Message Understanding Conferences, 1987)
16LC Breve visión históricaLa Sociedad de la
Información (1990-)
- Internet, la red de redes, permite poner en
contacto de forma rápida y barata a muchos
usuarios, pasando por encima de obstáculos
geográficos y políticos. - La información se convierte en la gran
protagonista, y saber distinguir y seleccionar la
información correcta es la clave del éxito. - 1992 Informe Danzin (Directiva General XIII de
la UE) líneas de trabajo y prioridades en el
desarrollo de las Industrias de la Lengua en
Europa. - Prioriza el desarrollo de aplicaciones en la
investigación básica y pone especial énfasis en
la necesidad de reutilizar los recursos
existentes se debe rentabilizar la inversión
básica realizada durante la década anterior. - Se favorece el desarrollo de aplicaciones con un
claro interés práctico. - La adquisición y recuperación de información toma
un claro protagonismo.
17LC Breve visión históricaLa Sociedad de la
Información (1990-)
- Procesamiento no restringido de textos
- Completar los recursos ya existentes Recursos
de amplio alcance y que den cuenta del uso real
de la lengua. - Desarrollo de sistemas de adquisición de
conocimiento (semi)automáticos que permitan la
construcción de gramáticas y lexicones. - Definición de estándares TEI (Text Encoding
Initiative) y EAGLES (European Advisory Group for
Language Engineering Standards). - Lingüística de Corpus Métodos para el análisis
de corpus lingüísticos.
18Aplicaciones de la Lingüística Computacional
- Aplicaciones que usan programas que procesan
superficialmente los textos y que no utilizan
ningún tipo de conocimiento lingüístico. - Aplicaciones basades en el uso de programas
complejos de ingeniería del software (o
informática), que requieren estructuras de datos
complejas, como gramáticas y lexicones, que
reflejan la estructura interna de la lengua. - Aplicaciones relacionades con la lengua escrita.
- Aplicaciones relacionades con el habla.
19Aplicaciones relacionadas con la lengua escrita
- Procesadores de textos
- Verificadores ortográficos, gramaticales y de
estilo - Tesauros
- Traducción Automàtica (TA)/Traducción Automática
Asistida (TAA) - Diccionarios de memorias
- Bases de datos terminológicas
- Bancos de memorias de traducción
- Herramientas para tratar el formato y la edición
de los textos - Interfaces hombre-máquina
- Interfaz de consulta a una BDL
- Interfaces para el aprendizaje de lenguas
- Sistemas de recuperación y extracción de
información - Sistemas de gestión de la información
- Buscadores
- Clasificadores de documentos
- Sistemas de producción de resúmenes
20Aplicaciones relacionadas con el habla
- Síntesis del habla
- El ordenador sintetiza el habla
- Debe disponer de una representación acústica
(codificación) de la voz - Reconocimiento de la voz
- El ordenador reconoce las diferentes palabras del
mensaje oral - Interpreta los contenidos sintácticos y, a veces,
también pragmáticos - Rapidez en la comunicación
- Facilidad de las relaciones hombre-máquina
- Movilidad del operador
- Aplicaciones
- Sistemas de información de compañías aéreas, de
telecomunicaciones,... - Máquinas lectoras para ciegos, terminales
hablantes,...
21Aplicaciones de la Lingüística Computacional
22Marcaje de textos XML
http//www.tei-c.org/P4X/SG.html XML eXtended
Markup Language Markup explicitación de la
información implícita Markup Language conjunto
de convenciones de marcaje utilizadas para la
codificación de un texto
23Marcaje de textos XML
- Qué se marca / qué no se marca
- Qué marcas son obligatorias
- Cómo se separa el marcaje del texto propiamente
dicho - Qué significan las marcas
- XML define los tres primeros elementos.
- El significado de las marcas es arbitrario.
- TEI (Text Encoding Initiative)
- http//www.tei-c.org/pizza.html
24Componentes XML
DTD Marcas XML Document Type
Definition Textos marcado con
XML Consultas Extracción de información
25Componentes XML
DTD http//www.w3schools.com/dtd/default.asp El
objetivo de la DTD es definir la estructura de un
documento XML junto con la lista de los elementos
legales.
26Ejemplo de DTD
DTD para un artículo de periódico
27El texto anotado
Inicio de etiqueta ltgt Final de etiqueta lt/gt
28Aplicaciones
- Todos los artículos redactados por el mismo
autor - Todos los artículos que contengan en el
titular/cuerpo de la noticia/ la palabra XX -
29Aplicaciones en el STeL
- Profesora Núria Alturo (Filología Catalana)
- Documentos en formato MSWord redacciones de
alumnos de catalán durante los años 2001, 2003 y
2005. - Objeto del estudio
- estudiar los errores
- observar la evolución de los alumnos a lo largo
de los distintos años
30Pasos a seguir
- Definir qué elementos se quieren marcar qué
información se quiere obtener de los textos. - Definir la DTD cómo se marcarán dichos textos.
- Marcar los textos
31Pasos a seguir
- 4 grandes tipos de errores
- de adecuación
- tipografía
- morfología y léxico
- oración
- discurso
- de corrección
- de discurso
- de coherencia
- Cada tipo se subdivide en subtipos.
- Número total de tipos de errores 138.
32Corpus
33Corpus anotado
34Significado de las etiquetas
35Corpus anotado
36Posibles aplicaciones
- Número total de errores ltc(onstrucción)gt
- Número total de errores de apóstrofe (ltcgapgt)
- Para un mismo alumno
- tipología de errores
- evolución de los errores
37Procesamiento de textos
- Para textos sin marcaje
- Para textos con información lingüística
- anotación morfológica
- desambiguación
38Anotación morfológica
Dada una palabra, todas las posibles
interpretaciones que tiene.
39Anotación morfológica aplicaciones
- Dado un corpus así anotado
- cuántas palabras son ambiguas?
- cuántas clases de ambigüedad hay?
- cuál es la clase de ambigüedad más frecuente?
- qué palabras reconoce el sistema y cuáles no?
- errores ortográficos?
- neologismos?
-
40Desambiguación
Dada una palabra, cuál es su interpretación en
su contexto?
41Desambiguación aplicaciones
- Lematización
- extracción de frecuencias
- consultas del corpus por palabras
- Etiquetación
- extracción de colocaciones
- consultas del corpus por secuencias
- verbo-preposición-nombre
- verbo-en-nombre
- Combinada
- confiscar-preposición-nombre
- verbo-en-ncfs00
42Análisis sintáctico
- Si el texto tiene información sintáctica, es
posible extraer patrones del tipo - oraciones donde el sujeto contenga el nombre X y
el predicado el verbo Y - todas las oraciones que contengan un verbo
inmediatamente seguido de un sintagma
preposicional con la preposición de - los patrones sintácticos de un verbo determinado
43Ejemplos de anotación
Herramientas
Análisis morfológico
MACO
Desambiguación morfológica
RELAX
MORFOLOGÍA
Cadena de procesos
Análisis sintáctico parcial
TACAT
SINTAXI
Análisis sintáctico
???
44Ejemplos de anotación morfológica
Me gusta la cultura del pelotazo porque sacrif
ica la búsqueda de lo útil en favor del cultivo de
lo admirable .
p010s000 pp1cs000 vmip3s0 vmm02s0 pp3fsa00 da0f
s0 ncfs000 ncfs000 vmip3s0 vmm02s0 spcms ncms000
cs vmip3s0 vmm02s0 pp3fsa00 da0fs0 ncfs000 ncfs0
00 sps00 ncms000 pp3msa00 da0ns0 pp3cna000 aq0cs0
ncms000 sps00 ncms000 spcms vmip1s0 ncms000 sps
00 ncms000 pp3msa00 da0ns0 pp3cna000 aq0cs0 fp
45Ejemplos de anotación morfológicaLematización
me yo P010S000 yo PP1CS000 gusta gustar VMIP3S0
gustar VMM02S0 la el DA0FS0 la NCMS000 él
PP3FSA00 cultura cultura NCFS000 culturar VMIP3S0
culturar VMM02S0 del del SPCMS pelotazo pelotazo
NCMS000 porque porque CS sacrifica sacrificar
VMIP3S0 sacrificar VMM02S0 la el DA0FS0 la
NCMS000 él PP3FSA00 búsqueda búsqueda NCFS000 de
de NCFS000 de SPS00 lo el DA0NS0 lo NCMS000 él
PP3CNA00 él PP3MSA00 útil útil AQ0CS0 útil
NCMS000 en en SPS00 favor favor NCMS000 del del
SPCMS cultivo cultivar VMIP1S0 cultivo NCMS000 de
de NCFS000 de SPS00 lo el DA0NS0 lo NCMS000 él
PP3CNA00 él PP3MSA00
46Ejemplos de anotación sintáctica
sn_ espec-ms_ un_dn0ms0 grup-nom-ms_
diccionari_ncms000 sp_
prep_ de_sps00 sn_
espec-fs_ la_da0fs0
grup-nom-fs_ negociació_ncfs000
s-a-fs_ collectiva_aq0fs0
47Ejemplos de anotación sintáctica
sn_ espec-fs_ la_da0fs0
grup-nom-fs_ redacció_ncfs000
sp_ prep_ dels_spcmp
grup-nom-mp_ convenis_ncmp000
coord_ i_cc
acords_ncmp000
s-a-mp_ presents_aq0cp0
48Ejemplos de anotación sintáctica
49Ejemplos de anotación sintáctica
50Bibliografía
- Blecua, J.M. et al., eds. (1999). Filología e
informática. Nuevas tecnologías en los estudios
filológicos. Barcelona Milenio-Universitat
Autònoma de Barcelona. - Civit, M. (2003). Criterios de etiquetación y
desambiguación morfosintáctica de corpus en
español. Tesis doctoral. Universitat de
Barcelona, Departament de Lingüística. - Gómez, J., A.M. Lorenzo, eds. (1996).
Lingüística e informática. Santiago de
Compostela Tórculo Edicións. - Grishman, R. (1991). Introducción a la
Lingüística Computacional. Madrid Visor. - Marcos, F. A. (1994). Informática y Humanidades.
Madrid Gredos. - Martí, M.A., coord. (2001). Les tecnologies del
llenguatge. Barcelona Edicions de la Universitat
Oberta de Catalunya. - Martí, M.A., I. Castellón (2001). Lingüística
Computacional. Barcelona Edicions Universitat de
Barcelona (Textos Docents 218). - Martí, M.A., A. Fernández, G. Vázquez (2003).
Lexicografía computacional y semántica.
Barcelona Edicions Universitat de Barcelona. - Moreno, A. (1998). Lingüística computacional
introducción a los modelos simbólicos,
estadísticos y biológicos. Madrid Síntesis. - Rodríguez, H., M.A. Martí, I. Castellón (1995).
Formalismes per al tractament del llenguatge
natural. Barcelona Edicions UPC.