http:www'ub'edusteles_suport'htm - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

http:www'ub'edusteles_suport'htm

Description:

La Ling stica Computacional es la aplicaci n del paradigma ... Desarrollo tecnol gico (software y hardware): Telecomunicaciones. Internet ... – PowerPoint PPT presentation

Number of Views:81
Avg rating:3.0/5.0
Slides: 51
Provided by: mon7154
Category:

less

Transcript and Presenter's Notes

Title: http:www'ub'edusteles_suport'htm


1
  • Servei de Tecnologia Lingüística
  • http//www.ub.edu/stel/es_suport.htm
  • 25 de mayo de 2007

2
Índice
  • Introducción a la Lingüística Computacional
  • La Lingüística Computacional y sus relaciones con
    otras disciplinas
  • Breve visión histórica
  • Aplicaciones de la Lingüística Computacional
  • Marcaje de textos XML
  • XML visión general
  • Ejemplos
  • Procesamiento de textos anotados lingüísticamente
  • Anotación morfológica
  • Desambiguación
  • Análisis sintáctico
  • Ejemplos de anotación de corpus
  • Anotación morfológica
  • Sintaxis chunking, treebanks

3
Lingüística Computacional Relaciones con otras
disciplinas
Informática
Telecomunicaciones
Tecnologías de la Lengua
Inteligencia Artificial
Tecnologías de la Información
Industrias de la Lengua
PLN
Ciencia Cognitiva
Psicología
Lingüística Computacional
Fonética Fonología
Pragmática
Semántica
Morfosintaxis
Lexicografía
Lingüística
4
Definición de Lingüística Computacional
  • La Lingüística Computacional es la aplicación del
    paradigma
  • computacional al estudio científico del lenguaje
    humano.
  • Desarrollo de modelos computacionales del
    lenguaje.
  • Sistemas informáticos que permitan procesarlo de
    manera adecuada.
  • Formalismos gramaticales
  • Representación del conocimiento

5
Lingüística Computacional yProcesamiento del
Lenguaje Natural (PLN)
  • El Procesamiento del Lenguaje Natural es un área
    de investigación vinculada a la Ingeniería
    Lingüística o a las Tecnologías de la Lengua, y
    explora el tratamiento automatizado del lenguaje.
  • Su objetivo es el desarrollo de sistema
    informáticos que simulen el comportamiento humano
    en el proceso de comunicación verbal.
  • Sistemas relacionados con la lengua escrita
  • procesamiento de textos
  • traducción automática
  • recuperación y extracción de información
  • interfaces hombre-máquina
  • Sistemas relacionados con el habla.

6
Lingüística Computacional y Lingüística
Informática
  • La Lingüística Informática se encarga de
    confeccionar los programas orientados a dar
    soporte a los estudios filológicos,
    lexicográficos, lingüísticos, humanísticos, etc.
  • No contienen conocimiento lingüístico.
  • Consideran los textos como secuencias de
    caracteres independientemente de la lengua a
    tratar.
  • Su objetivo es la extracción de información
    superficial de los textos según un determinado
    criterio, normalmente de tipo cuantitativo o
    basado en el reconocimiento de secuencias en el
    texto frecuencias, colocaciones, concordancias,
  • El uso de estos programas no requiere una
    preparación especial en formalismos del lenguaje.

7
Lingüística Computacional yTecnologías de la
Lengua o Ingeniería Lingüística
  • La Ingeniería Lingüística o la Tecnología de la
    Lengua es la aplicación de los conocimientos
    sobre la lengua al desarrollo de sistemas
    informáticos para que puedan reconocer,
    comprender, interpretar y generar el lenguaje
    humano en todas sus formas.
  • Los objetivos más aplicados son
  • Investigación básica en PLN y Lingüística
    Computacional.
  • Desarrollo tecnológico (software y hardware)
  • Telecomunicaciones
  • Internet

8
Lingüística Computacional eIndustrias de la
Lengua
  • Las Industrias de la Lengua son los recursos
    informáticos y lingüísticos de que dispone una
    lengua determinada para satisfacer la creciente
    necesidad de servicios y productos comerciales en
    los que es necesario el tratamiento del lenguaje
    por parte de personas, de máquinas o de la
    combinación de unas y otras.
  • Incluye una vertiente productiva y económica que
    no tienen el PLN o la Lingüística Computacional
    la voluntad de obtener producvtes finales y
    servicios para su comercialización.

9
Lingüística Computacional eIndustrias de la
Lengua
  • El análisis computacional requiere recursos
    lingüísticos
  • Repertorios léxicos y terminológicos
  • Corpus textuales y orales (monolingües y
    multilingües)
  • Analizadores morfológicos y sintácticos
  • Gramáticas que permitan categorizar y analizar
    sintáctica y semánticamente la lengua
  • Es decir, se necesitan herramientas de tecnología
    lingüística complejas.

10
LC Breve vision históricaLos inicios (1949-1966)
  • Aparición de los primeros ordenadores
  • II Guerra Mundial ENIAC ? Calcular tables
    balísticas
  • Nacimiento de la Informàtica manipulación
    automática de la información
  • Traducción Automàtica (TA)
  • 1949 Warren Weaver
  • 1952 1º Congreso sobre TA
  • 1954 Universidad de Georgetown Demostración de
    un sistema de TA (IBM)
  • 1956 Mechanical Translation
  • Sistemas de TA no basados en ningún modelo
    lingüístico teórico
  • Basados en diccionarios bilingües y traducción
    palabra a palabra.
  • Resultados de escasa calidad postedición

11
LC Breve visión históricaLos inicios (1949-1966)
  • 1964-1966 Informe ALPAC (Automatic Language
    Processing Advisory Commitee)
  • Factores causa del fracaso
  • La falta de una teoría lingüística.
  • La concepción demasiado simplista del lenguaje.
  • La creencia en la posibilidad de un procesamiento
    del lenguaje sin ninguna restricción.
  • Syntactic Structures (N. Chomsky, 1957)
  • Aspects of one Theory of Syntax (N. Chomsky,
    1965)

12
LC Breve visión históricaFundamentos y
consolidación (1966-1980)
  • En los años setenta aparecen los ordenadores
    personales.
  • Al final de los años ochenta se lleva a cabo la
    conjunción del ordenador y las telecomunicaciones
    los ordenadores se comunican entre ellos a gran
    distancia por medio de señales analógicas que se
    transmiten por líneas telefónicas.
  • La década de los noventa cierra este ciclo con la
    conexión digital la red de comunicación de
    ordenadores se globaliza con Internet.

13
LC Breve visión históricaFundamentos y
consolidación (1966-1980)
  • Lenguaje de programación de alto nivel Lisp y
    Prolog.
  • Interés hacia nuevas áreas de aplicación
    sistemas de diálogo hombre-máquina (consulta a
    bases de datos, sistemas de aprendizaje,...)
  • Consecución de una cierta comprensión del texto
    que se procesa para obtener una representación (o
    generación) de su contenido en términos de un
    metalenguaje lógico o semántico.

14
LC Breve visión históricaLos modelos
lingüísticos (1980-1990)
  • Introducción de las teorías lingüísticas en el
    ámbito de la
    computación.
  • Superación de las limitaciones impuestas a
    partir del concepto de sublenguaje.
  • Sistemas independientes de la aplicación
    sistemas transportables.
  • Recursos básicos a gran escala, en especial
    gramáticas, lexicones y corpus analizados, para
    el máximo de lenguas posibles.
  • Investigación básica y desarrollo de recursos
    lingüísticos a gran escala para todas las lenguas
    oficiales

15
LC Breve visión históricaLos modelos
lingüísticos (1980-1990)
  • Teorías lingüísticas LFG (Bresnan Kaplan,
    1982), GPSG (Gazdar et al., 1985), HPSG (Pollard
    Sag, 1987), GC (Kay, 1985)
  • Formalismos gramaticales (GFU, PATR-II).
  • Se retoma la TA EUROTRA (European Translator)
    (1982-1992).
  • ATLAS-I y ATLAS-II (Fujitsu)
  • METAL (Siemens)
  • Sistemas de extracción de información Sistema
    de Sager (American Medical Association).
  • MUC (Message Understanding Conferences, 1987)

16
LC Breve visión históricaLa Sociedad de la
Información (1990-)
  • Internet, la red de redes, permite poner en
    contacto de forma rápida y barata a muchos
    usuarios, pasando por encima de obstáculos
    geográficos y políticos.
  • La información se convierte en la gran
    protagonista, y saber distinguir y seleccionar la
    información correcta es la clave del éxito.
  • 1992 Informe Danzin (Directiva General XIII de
    la UE) líneas de trabajo y prioridades en el
    desarrollo de las Industrias de la Lengua en
    Europa.
  • Prioriza el desarrollo de aplicaciones en la
    investigación básica y pone especial énfasis en
    la necesidad de reutilizar los recursos
    existentes se debe rentabilizar la inversión
    básica realizada durante la década anterior.
  • Se favorece el desarrollo de aplicaciones con un
    claro interés práctico.
  • La adquisición y recuperación de información toma
    un claro protagonismo.

17
LC Breve visión históricaLa Sociedad de la
Información (1990-)
  • Procesamiento no restringido de textos
  • Completar los recursos ya existentes Recursos
    de amplio alcance y que den cuenta del uso real
    de la lengua.
  • Desarrollo de sistemas de adquisición de
    conocimiento (semi)automáticos que permitan la
    construcción de gramáticas y lexicones.
  • Definición de estándares TEI (Text Encoding
    Initiative) y EAGLES (European Advisory Group for
    Language Engineering Standards).
  • Lingüística de Corpus Métodos para el análisis
    de corpus lingüísticos.

18
Aplicaciones de la Lingüística Computacional
  • Aplicaciones que usan programas que procesan
    superficialmente los textos y que no utilizan
    ningún tipo de conocimiento lingüístico.
  • Aplicaciones basades en el uso de programas
    complejos de ingeniería del software (o
    informática), que requieren estructuras de datos
    complejas, como gramáticas y lexicones, que
    reflejan la estructura interna de la lengua.
  • Aplicaciones relacionades con la lengua escrita.
  • Aplicaciones relacionades con el habla.

19
Aplicaciones relacionadas con la lengua escrita
  • Procesadores de textos
  • Verificadores ortográficos, gramaticales y de
    estilo
  • Tesauros
  • Traducción Automàtica (TA)/Traducción Automática
    Asistida (TAA)
  • Diccionarios de memorias
  • Bases de datos terminológicas
  • Bancos de memorias de traducción
  • Herramientas para tratar el formato y la edición
    de los textos
  • Interfaces hombre-máquina
  • Interfaz de consulta a una BDL
  • Interfaces para el aprendizaje de lenguas
  • Sistemas de recuperación y extracción de
    información
  • Sistemas de gestión de la información
  • Buscadores
  • Clasificadores de documentos
  • Sistemas de producción de resúmenes

20
Aplicaciones relacionadas con el habla
  • Síntesis del habla
  • El ordenador sintetiza el habla
  • Debe disponer de una representación acústica
    (codificación) de la voz
  • Reconocimiento de la voz
  • El ordenador reconoce las diferentes palabras del
    mensaje oral
  • Interpreta los contenidos sintácticos y, a veces,
    también pragmáticos
  • Rapidez en la comunicación
  • Facilidad de las relaciones hombre-máquina
  • Movilidad del operador
  • Aplicaciones
  • Sistemas de información de compañías aéreas, de
    telecomunicaciones,...
  • Máquinas lectoras para ciegos, terminales
    hablantes,...

21
Aplicaciones de la Lingüística Computacional
22
Marcaje de textos XML
http//www.tei-c.org/P4X/SG.html XML eXtended
Markup Language Markup explicitación de la
información implícita Markup Language conjunto
de convenciones de marcaje utilizadas para la
codificación de un texto
23
Marcaje de textos XML
  • Qué se marca / qué no se marca
  • Qué marcas son obligatorias
  • Cómo se separa el marcaje del texto propiamente
    dicho
  • Qué significan las marcas
  • XML define los tres primeros elementos.
  • El significado de las marcas es arbitrario.
  • TEI (Text Encoding Initiative)
  • http//www.tei-c.org/pizza.html

24
Componentes XML
DTD Marcas XML Document Type
Definition Textos marcado con
XML Consultas Extracción de información
25
Componentes XML
DTD http//www.w3schools.com/dtd/default.asp El
objetivo de la DTD es definir la estructura de un
documento XML junto con la lista de los elementos
legales.
26
Ejemplo de DTD
DTD para un artículo de periódico
27
El texto anotado
Inicio de etiqueta ltgt Final de etiqueta lt/gt
28
Aplicaciones
  • Todos los artículos redactados por el mismo
    autor
  • Todos los artículos que contengan en el
    titular/cuerpo de la noticia/ la palabra XX

29
Aplicaciones en el STeL
  • Profesora Núria Alturo (Filología Catalana)
  • Documentos en formato MSWord redacciones de
    alumnos de catalán durante los años 2001, 2003 y
    2005.
  • Objeto del estudio
  • estudiar los errores
  • observar la evolución de los alumnos a lo largo
    de los distintos años

30
Pasos a seguir
  • Definir qué elementos se quieren marcar qué
    información se quiere obtener de los textos.
  • Definir la DTD cómo se marcarán dichos textos.
  • Marcar los textos

31
Pasos a seguir
  • 4 grandes tipos de errores
  • de adecuación
  • tipografía
  • morfología y léxico
  • oración
  • discurso
  • de corrección
  • de discurso
  • de coherencia
  • Cada tipo se subdivide en subtipos.
  • Número total de tipos de errores 138.

32
Corpus
33
Corpus anotado
34
Significado de las etiquetas
35
Corpus anotado
36
Posibles aplicaciones
  • Número total de errores ltc(onstrucción)gt
  • Número total de errores de apóstrofe (ltcgapgt)
  • Para un mismo alumno
  • tipología de errores
  • evolución de los errores

37
Procesamiento de textos
  • Para textos sin marcaje
  • Para textos con información lingüística
  • anotación morfológica
  • desambiguación

38
Anotación morfológica
Dada una palabra, todas las posibles
interpretaciones que tiene.
39
Anotación morfológica aplicaciones
  • Dado un corpus así anotado
  • cuántas palabras son ambiguas?
  • cuántas clases de ambigüedad hay?
  • cuál es la clase de ambigüedad más frecuente?
  • qué palabras reconoce el sistema y cuáles no?
  • errores ortográficos?
  • neologismos?

40
Desambiguación
Dada una palabra, cuál es su interpretación en
su contexto?
41
Desambiguación aplicaciones
  • Lematización
  • extracción de frecuencias
  • consultas del corpus por palabras
  • Etiquetación
  • extracción de colocaciones
  • consultas del corpus por secuencias
  • verbo-preposición-nombre
  • verbo-en-nombre
  • Combinada
  • confiscar-preposición-nombre
  • verbo-en-ncfs00

42
Análisis sintáctico
  • Si el texto tiene información sintáctica, es
    posible extraer patrones del tipo
  • oraciones donde el sujeto contenga el nombre X y
    el predicado el verbo Y
  • todas las oraciones que contengan un verbo
    inmediatamente seguido de un sintagma
    preposicional con la preposición de
  • los patrones sintácticos de un verbo determinado

43
Ejemplos de anotación
Herramientas
Análisis morfológico
MACO
Desambiguación morfológica
RELAX
MORFOLOGÍA
Cadena de procesos
Análisis sintáctico parcial
TACAT
SINTAXI
Análisis sintáctico
???
44
Ejemplos de anotación morfológica
Me gusta la cultura del pelotazo porque sacrif
ica la búsqueda de lo útil en favor del cultivo de
lo admirable .
p010s000 pp1cs000 vmip3s0 vmm02s0 pp3fsa00 da0f
s0 ncfs000 ncfs000 vmip3s0 vmm02s0 spcms ncms000
cs vmip3s0 vmm02s0 pp3fsa00 da0fs0 ncfs000 ncfs0
00 sps00 ncms000 pp3msa00 da0ns0 pp3cna000 aq0cs0
ncms000 sps00 ncms000 spcms vmip1s0 ncms000 sps
00 ncms000 pp3msa00 da0ns0 pp3cna000 aq0cs0 fp
45
Ejemplos de anotación morfológicaLematización
me yo P010S000 yo PP1CS000 gusta gustar VMIP3S0
gustar VMM02S0 la el DA0FS0 la NCMS000 él
PP3FSA00 cultura cultura NCFS000 culturar VMIP3S0
culturar VMM02S0 del del SPCMS pelotazo pelotazo
NCMS000 porque porque CS sacrifica sacrificar
VMIP3S0 sacrificar VMM02S0 la el DA0FS0 la
NCMS000 él PP3FSA00 búsqueda búsqueda NCFS000 de
de NCFS000 de SPS00 lo el DA0NS0 lo NCMS000 él
PP3CNA00 él PP3MSA00 útil útil AQ0CS0 útil
NCMS000 en en SPS00 favor favor NCMS000 del del
SPCMS cultivo cultivar VMIP1S0 cultivo NCMS000 de
de NCFS000 de SPS00 lo el DA0NS0 lo NCMS000 él
PP3CNA00 él PP3MSA00
46
Ejemplos de anotación sintáctica
sn_ espec-ms_ un_dn0ms0 grup-nom-ms_
diccionari_ncms000 sp_
prep_ de_sps00 sn_
espec-fs_ la_da0fs0
grup-nom-fs_ negociació_ncfs000
s-a-fs_ collectiva_aq0fs0


47
Ejemplos de anotación sintáctica
sn_ espec-fs_ la_da0fs0
grup-nom-fs_ redacció_ncfs000
sp_ prep_ dels_spcmp
grup-nom-mp_ convenis_ncmp000
coord_ i_cc

acords_ncmp000
s-a-mp_ presents_aq0cp0

48
Ejemplos de anotación sintáctica
49
Ejemplos de anotación sintáctica
50
Bibliografía
  • Blecua, J.M. et al., eds. (1999). Filología e
    informática. Nuevas tecnologías en los estudios
    filológicos. Barcelona Milenio-Universitat
    Autònoma de Barcelona.
  • Civit, M. (2003). Criterios de etiquetación y
    desambiguación morfosintáctica de corpus en
    español. Tesis doctoral. Universitat de
    Barcelona, Departament de Lingüística.
  • Gómez, J., A.M. Lorenzo, eds. (1996).
    Lingüística e informática. Santiago de
    Compostela Tórculo Edicións.
  • Grishman, R. (1991). Introducción a la
    Lingüística Computacional. Madrid Visor.
  • Marcos, F. A. (1994). Informática y Humanidades.
    Madrid Gredos.
  • Martí, M.A., coord. (2001). Les tecnologies del
    llenguatge. Barcelona Edicions de la Universitat
    Oberta de Catalunya.
  • Martí, M.A., I. Castellón (2001). Lingüística
    Computacional. Barcelona Edicions Universitat de
    Barcelona (Textos Docents 218).
  • Martí, M.A., A. Fernández, G. Vázquez (2003).
    Lexicografía computacional y semántica.
    Barcelona Edicions Universitat de Barcelona.
  • Moreno, A. (1998). Lingüística computacional
    introducción a los modelos simbólicos,
    estadísticos y biológicos. Madrid Síntesis.
  • Rodríguez, H., M.A. Martí, I. Castellón (1995).
    Formalismes per al tractament del llenguatge
    natural. Barcelona Edicions UPC.
Write a Comment
User Comments (0)
About PowerShow.com