Servei deTecnologia Lingstica - PowerPoint PPT Presentation

1 / 33
About This Presentation
Title:

Servei deTecnologia Lingstica

Description:

FORMA (type): Equivalente a palabra; cualquier palabra que aparece en un corpus. ... El n mero de ocurrencias de una forma constituye su FRECUENCIA. ... Collocates ... – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 34
Provided by: mon7154
Category:

less

Transcript and Presenter's Notes

Title: Servei deTecnologia Lingstica


1
Servei deTecnologia Lingüística
  • Facultad de Filología
  • Edificio Josep Carner, 5º pis0
  • Persona de contacto Montserrat Nofre
  • Tel 934035694
  • stel_at_ub.edu/montsenofre_at_ub.edu
  • http//stel.ub.edu

2
Algunos conceptos previos
  • FORMA (type) Equivalente a palabra cualquier
    palabra que aparece en un corpus.
  • OCURRENCIA (token) Cada aparición de una forma
    en un corpus. El número de ocurrencias de una
    forma constituye su FRECUENCIA.
  • LEMA El estándar léxico de una forma es decir,
    una forma tal y como la encontramos en el
    diccionario (en catalán o español, el infinitivo
    para los verbos, el masculino singular para los
    adjetivos, el singular para los sustantivos,).

3
Proceso de trabajo
  • Diseño del estudio
  • Selección del corpus textual (contenido, tamaño,
    clasificación)
  • Introducción del corpus en soporte magnético
    (manual, escáner OCR, Internet...)
  • Marcaje/etiquetaje/anotación del corpus textual
    (modificaciones, partes/estructura, información
    paratextual, anotaciones morfosintácticas...)
  • Aplicación del programa(s) informático(s) de
    análisis de textos
  • Obtención de resultados

4
Definición de corpus textual
  • En principio, denominamos corpus textual a
    cualquier conjunto de textos en soporte
    informático, agrupados y clasificados según
    determinados criterios y objetivos.
  • Un corpus constituye una fuente de información
    para
  • el desarrollo de recursos lingüísticos básicos
    (léxicos, gramáticas)
  • la investigación filológica y lingüística
  • la lexicografía
  • También es un banco de pruebas para la
    investigación en Lingüística Teórica y
    Computacional
  • Los distinguimos según su tamaño, contenido, tipo
    de ordenación,...

5
Tipos de corpus
  • Corpus general de referencia representativo de
    una lengua, útil para realizar observaciones
    generales sobre ella. Contiene material oral y
    escrito, y una representación de diferentes tipos
    de textos (procedencia, nivel, contenido).
  • Corpus para objetivos específicos se fija en un
    aspecto particular del lenguaje (variedad de
    lengua, género literario, temática,...).
  • Oral/de lengua hablada/de lengua escrita
  • Monolingüe/multilingüe (comparable/paralelo)
  • Sincrónico/diacrónico
  • Abierto (corpus monitor)/cerrado

6
Tipos de corpus (2)
  • Corpus puros (formato ASCII) se utilizan para
    elaborar estudios cuantitativos (listas de
    formas, frecuencias, colocaciones,)
  • Corpus procesados permiten obtener información
    sobre el uso de la lengua (análisis lingüístico,
    traducción automática,)
  • Corpus etiquetados (tagged) morfosintácticamente
  • Corpus analizados sintácticamente (análisis
    superficial skeleton parsing o chunking
    análisis profundo full parsing)

7
Texto con información morfológica
8
Etiquetarios (PoS taggers)
9
Texto con información sintáctica
10
Qué podemos marcar/etiquetar/anotar?
  • Aspectos bibliográficos del texto (autor, título,
    año de publicación, tema, género)
  • Información sobre la constitución del corpus
    (fecha, datos de transcripción, formato)
  • Estructura del corpus (divisiones textuales,
    párrafos, citas, títulos)
  • Caracterización de las unidades léxicas (léxico
    general, extranjerismos, nombres propios,
    abreviaturas)
  • Morfología y sintaxis.
  • Rasgos fonéticos.
  • Caracterización semántica (desambiguación,
    caracterización de usos polisémicos)
  • Anáfora y coreferencia
  • Cuestiones de pragmática

11
Tipos de marcaje
  • Para los corpus puros
  • Formato ltmarcagtlt/marcagt SGML , HTML, XML
  • Marcas ad hoc

12
El marcaje XML
  • XML eXtended Markup Language

DTD Document Type Definition
Marcas XML
Consultas Extracción de información
13
Tipos de marcaje
DTD
Texto marcado
14
Tipos de marcaje (2)
  • Para los corpus procesados
  • Tagging anotaciones PoS (part of speech)
  • Parsing naotaciones sintácticas
  • Desambiguación y lematización
  • ...

15
Ejemplos de marcaje
  • Lematización
  • Tagging etiquetaje PoS (part of speech)
  • Parsing etiquetaje sintáctico

16
Análisis cuantitativo
  • La aproximación más directa al trabajo con datos
    textuales consiste simplemente en contar las
    frecuencias de formas, ocurrencias u otras
    clasificaciones (por ejemplo, frecuencias por
    categorías gramaticales).
  • Los recuentos de frecuencias en datos absolutos
    no permiten la comparación entre corpus o partes
    de corpus, en especial si son de distinto tamaño.
    Deben utilizarse porcentajes de aparición
    respecto al tamaño del corpus.

17
Análisis cuantitativo
  • La función básica de un programa de análisis de
    textos es la generación de una lista de
    frecuencias de formas, que nos proporciona el
    número de ocurrencias (apariciones) de cada
    palabra.
  • Dicha lista puede tener dos tipos de ordenación
  • orden alfabético (lexicográfico)
  • recto
  • inverso
  • a tergo
  • orden frecuencial
  • creciente
  • decreciente (lexicométrico)

18
Procesamiento de corpus AntConc
  • Programa gratuito para la elaboración de índices
    y concordancias para entornos Windows, Macintosh
    y Linux.
  • http//www.antlab.sci.waseda.ac.jp/software.html

19
Conceptos previos
  • Tokens número total de palabras de un corpus
  • Types número total de palabras distintas

20
Tipos de índices
  • Listados de palabras
  • alfabéticos

21
Típos de índices
  • Listados de palabras
  • alfabéticos por
  • final de palabra

22
Tipos de índices
  • Listados de palabras
  • frecuenciales
  • Permiten comparar el uso del léxico entre
  • diferents corpus
  • formas gramaticales
  • formes lèxiques
  • (vocabulario representativo)
  • densidad léxica por categorías

23
Comparación de frecuencias
24
Comparación de frecuencias
  • El País Clarín
  • palabra posición posición
  • Pinochet 10 11
  • Chile 22 30
  • dictador 23 21
  • --
  • verbos
  • afirmó 162 murió 63
  • dijo 70
  • pidió 155

25
Uso de comodines (wildcards)
  • Ejemplos
  • dict palabras que empiezan por dict (dictador,
    dictadura, dictatorial)
  • hijo hijo o hijo seguido de (sólo) un carácter
    (hijos)
  • hij? hij seguido de cualquier carácter (sólo
    uno) (hijo, hija)
  • la_at_muerte sintagma en el cual puede haber o no
    una palabra intercalada (la muerte, la súbita
    muerte)
  • lade Pinochet sintagma en el cual se puede
    intercalar culaquier palabra (la muerte de
    Pinochet, la dictadura de Pinochet, la familia de
    Pinochet)
  • dictadorsenador buscamos las apariciones de
    cualquiera de las dos palabras (NO de ambas a la
    vez)

26
Concordancias
  • Una concordancia permite ver la palabra o
    secuencia buscada dentro de su contexto (una
    línea de pantalla de ordenador o el número de
    caracteres definido por el usuario).
  • Los resultados pueden ordenarse según distintos
    criterios
  • orden de aparición en el corpus
  • por las palabras anteriores a la palabra clave
  • por las palabras posteriores a la palabra clave
  • gráficos de distribución de la palabra clave a lo
    largo del texto

27
Ejemplo de concordancia
28
Ejemplo de concordancia (2)
29
Clusters
  • Esta función nos permite buscar series de
    palabras de una extensión establecida por el
    usuario que se repitan n veces.
  • La búsqueda puede realizarse según dos criterios
  • a partir de una palabra
  • por el número de palabras que deba contener la
    secuencia (n-gramas)

30
Ejemplo de cluster
31
Ejemplo de cluster (2)
32
Ejemplo de n-grama
33
Collocates
  • Nos permite buscar las palabras relacionadas con
    una palabra determinada dentro del contexto de
    distancia entre ellas que se establezca.
Write a Comment
User Comments (0)
About PowerShow.com