How to Keep up with Language Dynamics? - PowerPoint PPT Presentation

About This Presentation
Title:

How to Keep up with Language Dynamics?

Description:

... more creative wave in IE research: ... are not recognised by morphological analysers since they cannot be generated from other names (Jos , TAP, ... – PowerPoint PPT presentation

Number of Views:61
Avg rating:3.0/5.0
Slides: 20
Provided by: Cristi187
Category:

less

Transcript and Presenter's Notes

Title: How to Keep up with Language Dynamics?


1
How to Keep up with Language Dynamics?
  • A case study on Named Entity Recognition

Plano de Tese 6 de Maio 2005
Cristina Mota Instituto Superior Técnico L2F
Inesc-ID New York University
Supervisors Ralph Grishman, New York
University Nuno Mamede, L2F Inesc-ID/IST
2
Objectivos
Estudar a influência da evolução da língua no
desempenho dos sistemas de Processamento de
Língua Natural (PLN)
Objecto de estudo Textos jornalísticos
portugueses Actividade de PLN Reconhecimento de
Entidades Mencionadas (REM)
1 Avaliar de que forma varia o desempenho de um
sistema face a textos com referenciais temporais
diferentes 2 Propor métodos robustos que não
só evitem a degradação no desempenho de um
sistema, mas também o melhorem
3
Objectivos
  • Estudar como é que as entidades mencionadas
    variam ao longo do tempo, bem como o contexto
    (sintáctico) em que estão inseridas
  • Identificar factores que localizem um texto
    temporalmente e que permitam comparar
    temporalmente dois textos
  • Identificar e caracterizar os módulos que o
    sistema deve ter, e a forma como devem estar
    organizados
  • ? Conceber uma arquitectura genérica
  • Propor mecanismos que permitam melhorar e
    configurar de forma automática o sistema e
    recursos associados
  • ? Encontrar métricas que permitam guiar a
    selecção de recursos apropriados à análise de um
    determinado texto (por exemplo, maior distância
    temporal que deve existir entre dois textos)
  • Construir um sistema tendo em conta estes
    factores

4
Objectivos
  • Responder a questões como
  • De que forma varia o desempenho face a alterações
    temporais dos textos?
  • Serão os corpora de um período de tempo adequados
    para aquisição de conhecimento (lexical,
    sintáctico, etc.) que será usado por sistemas que
    irão analisar textos de outro período de tempo?
  • Qual deverá ser a proximidade temporal entre os
    corpora de treino/desenvolvimento/teste e os
    textos a analisar?
  • Existirão elementos no texto (e.g., datas,
    eventos, advérbios) que ajudem a caracterizar a
    referência temporal de um texto?
  • Será possível o sistema auto-adaptar-se a
    variações no tempo?

5
Motivação Génese
There were important differences in the makeup
of these individual corpora that affected this
analysis. The French corpus, for example,
contained a wide range of articles from a single
issue of Le Monde, so the topics of the articles
ranged from world politics to the Paris fashion
scene. The articles in the English and Spanish
corpora were specifically selected (by the MUC-6
and MET evaluation organizers) because they
contained references to press conferences. While
the content was more homogeneous in the English
corpus, the articles were nevertheless drawn from
a range of several months of the Wall Street
Journal, so the specific topics (and constituent
Named Entities) were very diverse. The Chinese
Xinhua corpus was, in contrast, extremely
homogeneous. These differences demonstrate a
number of difficulties presented by corpora in
different languages. (PalmerDay, 1997)
What such lexicons lack is a dymanic view of
language they are inevitably fossilised
intuitions. To use a well known example
dictionaries od English normally tell you that
the first, or main, sende of television is a
technology or a TV set, although it is mainly
used now to mean the medium itself. It is this
kind of evidence that shows that, for tasks like
IE, lexicons must be adapted or tuned to the
texts being analysed which can led to a new, more
creative wave in IE research the need not just
to use large textual and lexical resources, but
to adapt them as automatically as possible, to
enable them to adapt to new domains and corpora,
which will mean dealing with obsolescence and
with the specialised vocabulary of a domain not
encountered before. (GaizauskasWilks, 1997)
6
Motivação Porquê REM?
O que é uma Entidade Mencionada?
PeTA contra J. Lo Activistas da PeTA (uma
associação de defesa dos direitos dos animais)
protestam contra Jennifer Lopez em frente aos
estúdios da MTV, na Times Square, em Nova Iorque.
A PeTA está contra a utilização de peles nas
colecções de moda da cantora. (Edição Online do
Público, 3 de Maio de 2005)
O que é Reconhecimento de Entidades Mencionadas?
PeTA contra J. Lo Activistas da PeTA (uma
associação de defesa dos direitos dos animais)
protestam contra Jennifer Lopez em frente aos
estúdios da MTV, na Times Square, em Nova Iorque.
A PeTA está contra a utilização de peles nas
colecções de moda da cantora. (Edição Online do
Público, 3 de Maio de 2005)
Identificação
Classificação
Co-referência
7
Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista linguístico, apesar de serem
objectos linguísticos muito diversificados, estão
pouco estudadas, não havendo critérios que as
permitam identificar nem classificar
  • Gramática (Mateus et al., 2003)
  • Define apenas antropónimos e topónimos

Entidade colectivas? Obras? Monumentos? ...
  • Quanto a propriedades linguísticas refere, por
    exemplo, que os topónimos podem ser precedidos
    por artigo definido (o Brasil, os Himalaias),
    embora haja muitas excepções para os nomes de
    países (a Angola, o Portugal), e nomes de
    cidades (a Lisboa, o Setúbal), os quais só
    aceitam se tiverem origem em nomes comuns (o
    Porto, a Figueira da Foz)

a Vila Real as Chaves, o Castelo Branco ?
o Estoril, a Nazaré ?
8
Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista computacional, o processamento
destas unidades levanta problemas diversos
  • Apenas os diminutivos dos antropónimos podem ser
    reconhecidos por analisadores morfológicos
  • Mesmo os que são reconhecidos recebem informações
    incorrectas (Celeste/ADJ, Ovar/V, Chaves/Nfp)
  • São muitas vezes unidades lexicais multi-palavra
    (Mariana Rey Colaço, Vila Real de Santo António,
    Banco de Portugal)
  • - Muitos nomes estrangeiros aparecem em textos
    portugueses (Aix en Provence, Greenwich Village,
    Juan Carlos, Charles de Gaulle, Sun Microsystems,
    Credit Lyonnais)
  • - Podem incluir números e outros caracteres
    não-alfabéticos (Banco Totta Açores, Boeing
    747, Cine 222, PPD/PSD)

9
Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista diacrónico, as EMs que ocorrem
num texto dependem não só da altura em que foi
escrito, mas também do período de tempo a que diz
respeito
República Federal Alemã (RFA)
Alemanha vs.
República Democrática Alemã (RDA)
Bush
George Bush ?
George W. Bush ?
Durão Barroso
José Manuel Barroso
10
Motivação Pequena experiência
Parte01 do CETEMPublico (RochaSantos, 2000)
11
Motivação Aplicações
Sistemas de PerguntaResposta ?
GreenwoodGaizauskas (2003) melhoraram o
desempenho de um sistema por terem integrado um
módulo de REM
Sumarização ? Numa avaliação conjunta, Nobata et
al. (2003) obtiveram os melhores resultados em
termos de organização e coesão do texto
12
Expectativas
Contribuir para o desenvolvimento de sistemas de
PLN mais robustos Mostrando que o tempo também é
um factor a considerar no desenho de sistemas e
na concepção de recursos Estabelecendo princípios
de organização de sistemas e recursos que tenham
em conta esse factor
Contribuir para um maior conhecimento linguístico
sobre as EMs Estabelecendo classes, definindo
critérios de identificação e classificação
Desenvolver um sistema de REM (para o Português)
com base nesses princípios
Produzir recursos linguísticos temporalmente
organizados (almanaques, corpora anotados,
léxicos subcategorizados) que possam ser
integrados noutras aplicações de PLN
13
Plano
  • Definição e caracterização das classes de EMs a
    tratar

Classificação Quantidade Moeda
Individual GrupoInd Cargo CargoInd Membro MembroI
nd
VALOR
PESSOA
OBRA
ORGANIZACAO
LOCAL
Administração Empresa Instituição Sub
TEMPO
COISA
ABSTRACCAO
Correio Administrativo Geográfico Virtual Alargad
o
Hora Período Cíclico Data
Morfologia
14
Plano
  • Reutilização de um sistema de REM, integrando as
    novas definições

Módulo baseado em gramáticas que descrevem
evidências internas e externas de acordo com a
definição de (McDonald, 1996). Não usa
almanaques, nem informações linguísticas.
Desenvolvido no (e aplicado pelo) sistema INTEX
(Silberztein, 1993).
STENCIL
Gramáticas que descrevem evidências internas e
externas Léxicos sub-categorizados Ontologia? Dese
nvolvido no (e aplicado pelo) sistema NooJ
(Silberztein, 2003)
15
Plano
  • Construção e anotação de um corpus de trabalho
  • Estudo das entidades mencionadas ao longo do
    tempo e identificação de conhecimento
    independente do tempo
  • Integração do novo conhecimento no classificador
  • Avaliação

16
Discussão
Qual a arquitectura de base? Fará sentido
condicionar à partida a arquitectura do
sistema? Com base em que critérios? Será melhor
observar e comparar o desempenho de outros
sistemas? Talvez pudesse usar os sistemas
participantes no Harem... Que etiquetas usar?
Trabalhar num sub-conjunto das etiquetas do
Harem? Definir em função dos corpora que tiver
disponíveis? Que corpora escolher? Como
organizá-los? O CETEMPublico vai de 1992 a 1998.
Precisarei de um período mais alargado? Apenas
sobre a componente do tempo, ou também em relação
ao domínio, sub-tópico, autor, ...? Obter textos
de outros jornais nacionais relativos ao mesmo
período de tempo?
17
Discussão
Como obter corpora anotados suficientemante
alargados no tempo para que os resultados tenham
significado? Devia ter um corpus anotado
independentemente? Talvez o sistema vencedor do
Harem pudesse anotar os meus corpora, de modo a
que eu pudesse avaliar os resultados. Como
garantir, nesse caso, que o sistema não vai ficar
"biased" com esse sistema? Que métodos aplicar?
O sistema deverá ser adaptativo, possuindo, por
exemplo, mecanimos de auto-configuração que
seleccionem os recursos adequados a um
determinado texto. Ou não deverá depender de
recursos? Será possível criar um sistema de
aprendizagem não supervisionado? De modo a poder
confirmar a minha hipótese, penso que tenho de
comparar diferentes tipos de aprendizagem. Como
fazer a avaliação? Avaliação em relação a um
corpus de referência, nomeadamente a
CD? Avaliação comparativa com outros sistemas?
18
Critérios de Sucesso
Verificação da hipótese! Integração do sistema
em aplicações mais complexas Sistema de
Legendagem de Notícias Reutilização dos recursos
por outros sistemas
19
Bibliografia
  • Gaizauskas, R. and Y. Wilks, 1997. Information
    Extraction Beyond Document Retrieval. Technical
    report CS-97-10, Department of Computer Science,
    University of Sheffield.
  • Greenwood, M. and R. Gaizauskas, 2003. "Using a
    Named Entity Tagger to Generalise Surface
    Matching Text Patterns for Question Answering",
    in Proceedings of the Natural Language Processing
    for Question Answering Workshop, EACL 03,
    Budapest.
  • Mateus, M. Helena, Ana Brito, Inês Duarte e
    Isabel Hub Faria (eds.), 2003. Gramática da
    Língua Portuguesa, 5ª Edição, Editorial Caminho,
    Lisboa.
  • McDonald, David D. "Internal and External
    Evidence in the Identification and Semantic
    Categorization of Proper Names", in Boguraev,
    Branimir James Pustejowsky. Corpus Processing
    for Lexical Acquisition, 1996, The MIT Press,
    Cambridge, MA London, England, pp. 21-39.
  • Nobata, Chikashi, Satoshi Sekine, Hitoshi Isahara
    Ralph Grishman. (2002). "Summarization System
    Integrated with Named Entity Tagging and IE
    pattern Discovery", in Proceedings of the LREC
    2002 Conference, (Las Palmas, 2002), pp.
    1742-1745.
  • Palmer, David D. David S. Day (1997). "A
    Statistical Profile of the Named Entity Task", in
    Proceedings of the Fifth ACL Conference for
    Applied Natural Language Processing (ANLP-97),
    (Washington D.C., 1997), pp. 190-193.
  • Paulo Rocha and Diana Santos. "CETEMPúblico Um
    corpus de grandes dimensões de linguagem
    jornalística portuguesa", in Maria das Graças
    Volpe Nunes (ed.), Actas do V Encontro para o
    processamento computacional da língua portuguesa
    escrita e falada (PROPOR'2000) (Atibaia, São
    Paulo, Brasil, 19 a 22 de Novembro de 2000), pp.
    131-140.
  • Shinyama, Y. nd S. Sekine (2004). Named Entity
    Discovery Using Comparable News Articles,
    Published in the Proceedings of the 20th
    International Conference on Computational
    Linguistics (COLING-04) 2004, Geneva,
    Switzerland.
  • Silberztein, M., 1993. Dictionnaires
    électroniques et analyse lexicale du français. Le
    système INTEX, Paris, Masson.
  • Wilks, Y., R. Catizone, 1999. Can We Make
    Information Extraction More Adaptive? In M.
    Pazienza (ed.) Proceedings of the SCIE99
    Workshop. Springer-Verlag, Berlin. Rome.
Write a Comment
User Comments (0)
About PowerShow.com