How to Keep up with Language Dynamics? - PowerPoint PPT Presentation

About This Presentation

Title:

How to Keep up with Language Dynamics?

Description:

... more creative wave in IE research: ... are not recognised by morphological analysers since they cannot be generated from other names (Jos , TAP, ... – PowerPoint PPT presentation

Number of Views:64

Avg rating:3.0/5.0

Slides: 20

Provided by: Cristi187

Category:

more less

Transcript and Presenter's Notes

Title: How to Keep up with Language Dynamics?

1
How to Keep up with Language Dynamics?

A case study on Named Entity Recognition

Plano de Tese 6 de Maio 2005
Cristina Mota Instituto Superior Técnico L2F
Inesc-ID New York University
Supervisors Ralph Grishman, New York
University Nuno Mamede, L2F Inesc-ID/IST
2
Objectivos
Estudar a influência da evolução da língua no
desempenho dos sistemas de Processamento de
Língua Natural (PLN)
Objecto de estudo Textos jornalísticos
portugueses Actividade de PLN Reconhecimento de
Entidades Mencionadas (REM)
1 Avaliar de que forma varia o desempenho de um
sistema face a textos com referenciais temporais
diferentes 2 Propor métodos robustos que não
só evitem a degradação no desempenho de um
sistema, mas também o melhorem
3
Objectivos

Estudar como é que as entidades mencionadas
variam ao longo do tempo, bem como o contexto
(sintáctico) em que estão inseridas
Identificar factores que localizem um texto
temporalmente e que permitam comparar
temporalmente dois textos

Identificar e caracterizar os módulos que o
sistema deve ter, e a forma como devem estar
organizados
? Conceber uma arquitectura genérica
Propor mecanismos que permitam melhorar e
configurar de forma automática o sistema e
recursos associados
? Encontrar métricas que permitam guiar a
selecção de recursos apropriados à análise de um
determinado texto (por exemplo, maior distância
temporal que deve existir entre dois textos)
Construir um sistema tendo em conta estes
factores

4
Objectivos

Responder a questões como
De que forma varia o desempenho face a alterações
temporais dos textos?
Serão os corpora de um período de tempo adequados
para aquisição de conhecimento (lexical,
sintáctico, etc.) que será usado por sistemas que
irão analisar textos de outro período de tempo?
Qual deverá ser a proximidade temporal entre os
corpora de treino/desenvolvimento/teste e os
textos a analisar?
Existirão elementos no texto (e.g., datas,
eventos, advérbios) que ajudem a caracterizar a
referência temporal de um texto?
Será possível o sistema auto-adaptar-se a
variações no tempo?

5
Motivação Génese
There were important differences in the makeup
of these individual corpora that affected this
analysis. The French corpus, for example,
contained a wide range of articles from a single
issue of Le Monde, so the topics of the articles
ranged from world politics to the Paris fashion
scene. The articles in the English and Spanish
corpora were specifically selected (by the MUC-6
and MET evaluation organizers) because they
contained references to press conferences. While
the content was more homogeneous in the English
corpus, the articles were nevertheless drawn from
a range of several months of the Wall Street
Journal, so the specific topics (and constituent
Named Entities) were very diverse. The Chinese
Xinhua corpus was, in contrast, extremely
homogeneous. These differences demonstrate a
number of difficulties presented by corpora in
different languages. (PalmerDay, 1997)
What such lexicons lack is a dymanic view of
language they are inevitably fossilised
intuitions. To use a well known example
dictionaries od English normally tell you that
the first, or main, sende of television is a
technology or a TV set, although it is mainly
used now to mean the medium itself. It is this
kind of evidence that shows that, for tasks like
IE, lexicons must be adapted or tuned to the
texts being analysed which can led to a new, more
creative wave in IE research the need not just
to use large textual and lexical resources, but
to adapt them as automatically as possible, to
enable them to adapt to new domains and corpora,
which will mean dealing with obsolescence and
with the specialised vocabulary of a domain not
encountered before. (GaizauskasWilks, 1997)
6
Motivação Porquê REM?
O que é uma Entidade Mencionada?
PeTA contra J. Lo Activistas da PeTA (uma
associação de defesa dos direitos dos animais)
protestam contra Jennifer Lopez em frente aos
estúdios da MTV, na Times Square, em Nova Iorque.
A PeTA está contra a utilização de peles nas
colecções de moda da cantora. (Edição Online do
Público, 3 de Maio de 2005)
O que é Reconhecimento de Entidades Mencionadas?
PeTA contra J. Lo Activistas da PeTA (uma
associação de defesa dos direitos dos animais)
protestam contra Jennifer Lopez em frente aos
estúdios da MTV, na Times Square, em Nova Iorque.
A PeTA está contra a utilização de peles nas
colecções de moda da cantora. (Edição Online do
Público, 3 de Maio de 2005)
Identificação
Classificação
Co-referência
7
Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista linguístico, apesar de serem
objectos linguísticos muito diversificados, estão
pouco estudadas, não havendo critérios que as
permitam identificar nem classificar

Gramática (Mateus et al., 2003)
Define apenas antropónimos e topónimos

Entidade colectivas? Obras? Monumentos? ...

Quanto a propriedades linguísticas refere, por
exemplo, que os topónimos podem ser precedidos
por artigo definido (o Brasil, os Himalaias),
embora haja muitas excepções para os nomes de
países (a Angola, o Portugal), e nomes de
cidades (a Lisboa, o Setúbal), os quais só
aceitam se tiverem origem em nomes comuns (o
Porto, a Figueira da Foz)

a Vila Real as Chaves, o Castelo Branco ?
o Estoril, a Nazaré ?
8
Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista computacional, o processamento
destas unidades levanta problemas diversos

Apenas os diminutivos dos antropónimos podem ser
reconhecidos por analisadores morfológicos
Mesmo os que são reconhecidos recebem informações
incorrectas (Celeste/ADJ, Ovar/V, Chaves/Nfp)
São muitas vezes unidades lexicais multi-palavra
(Mariana Rey Colaço, Vila Real de Santo António,
Banco de Portugal)
- Muitos nomes estrangeiros aparecem em textos
portugueses (Aix en Provence, Greenwich Village,
Juan Carlos, Charles de Gaulle, Sun Microsystems,
Credit Lyonnais)
- Podem incluir números e outros caracteres
não-alfabéticos (Banco Totta Açores, Boeing
747, Cine 222, PPD/PSD)

9
Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista diacrónico, as EMs que ocorrem
num texto dependem não só da altura em que foi
escrito, mas também do período de tempo a que diz
respeito
República Federal Alemã (RFA)
Alemanha vs.
República Democrática Alemã (RDA)
Bush
George Bush ?
George W. Bush ?
Durão Barroso
José Manuel Barroso
10
Motivação Pequena experiência
Parte01 do CETEMPublico (RochaSantos, 2000)
11
Motivação Aplicações
Sistemas de PerguntaResposta ?
GreenwoodGaizauskas (2003) melhoraram o
desempenho de um sistema por terem integrado um
módulo de REM
Sumarização ? Numa avaliação conjunta, Nobata et
al. (2003) obtiveram os melhores resultados em
termos de organização e coesão do texto
12
Expectativas
Contribuir para o desenvolvimento de sistemas de
PLN mais robustos Mostrando que o tempo também é
um factor a considerar no desenho de sistemas e
na concepção de recursos Estabelecendo princípios
de organização de sistemas e recursos que tenham
em conta esse factor
Contribuir para um maior conhecimento linguístico
sobre as EMs Estabelecendo classes, definindo
critérios de identificação e classificação
Desenvolver um sistema de REM (para o Português)
com base nesses princípios
Produzir recursos linguísticos temporalmente
organizados (almanaques, corpora anotados,
léxicos subcategorizados) que possam ser
integrados noutras aplicações de PLN
13
Plano

Definição e caracterização das classes de EMs a
tratar

Classificação Quantidade Moeda
Individual GrupoInd Cargo CargoInd Membro MembroI
nd
VALOR
PESSOA
OBRA
ORGANIZACAO
LOCAL
Administração Empresa Instituição Sub
TEMPO
COISA
ABSTRACCAO
Correio Administrativo Geográfico Virtual Alargad
o
Hora Período Cíclico Data
Morfologia
14
Plano

Reutilização de um sistema de REM, integrando as
novas definições

Módulo baseado em gramáticas que descrevem
evidências internas e externas de acordo com a
definição de (McDonald, 1996). Não usa
almanaques, nem informações linguísticas.
Desenvolvido no (e aplicado pelo) sistema INTEX
(Silberztein, 1993).
STENCIL
Gramáticas que descrevem evidências internas e
externas Léxicos sub-categorizados Ontologia? Dese
nvolvido no (e aplicado pelo) sistema NooJ
(Silberztein, 2003)
15
Plano

Construção e anotação de um corpus de trabalho
Estudo das entidades mencionadas ao longo do
tempo e identificação de conhecimento
independente do tempo
Integração do novo conhecimento no classificador
Avaliação

16
Discussão
Qual a arquitectura de base? Fará sentido
condicionar à partida a arquitectura do
sistema? Com base em que critérios? Será melhor
observar e comparar o desempenho de outros
sistemas? Talvez pudesse usar os sistemas
participantes no Harem... Que etiquetas usar?
Trabalhar num sub-conjunto das etiquetas do
Harem? Definir em função dos corpora que tiver
disponíveis? Que corpora escolher? Como
organizá-los? O CETEMPublico vai de 1992 a 1998.
Precisarei de um período mais alargado? Apenas
sobre a componente do tempo, ou também em relação
ao domínio, sub-tópico, autor, ...? Obter textos
de outros jornais nacionais relativos ao mesmo
período de tempo?
17
Discussão
Como obter corpora anotados suficientemante
alargados no tempo para que os resultados tenham
significado? Devia ter um corpus anotado
independentemente? Talvez o sistema vencedor do
Harem pudesse anotar os meus corpora, de modo a
que eu pudesse avaliar os resultados. Como
garantir, nesse caso, que o sistema não vai ficar
"biased" com esse sistema? Que métodos aplicar?
O sistema deverá ser adaptativo, possuindo, por
exemplo, mecanimos de auto-configuração que
seleccionem os recursos adequados a um
determinado texto. Ou não deverá depender de
recursos? Será possível criar um sistema de
aprendizagem não supervisionado? De modo a poder
confirmar a minha hipótese, penso que tenho de
comparar diferentes tipos de aprendizagem. Como
fazer a avaliação? Avaliação em relação a um
corpus de referência, nomeadamente a
CD? Avaliação comparativa com outros sistemas?
18
Critérios de Sucesso
Verificação da hipótese! Integração do sistema
em aplicações mais complexas Sistema de
Legendagem de Notícias Reutilização dos recursos
por outros sistemas
19
Bibliografia

Gaizauskas, R. and Y. Wilks, 1997. Information
Extraction Beyond Document Retrieval. Technical
report CS-97-10, Department of Computer Science,
University of Sheffield.
Greenwood, M. and R. Gaizauskas, 2003. "Using a
Named Entity Tagger to Generalise Surface
Matching Text Patterns for Question Answering",
in Proceedings of the Natural Language Processing
for Question Answering Workshop, EACL 03,
Budapest.
Mateus, M. Helena, Ana Brito, Inês Duarte e
Isabel Hub Faria (eds.), 2003. Gramática da
Língua Portuguesa, 5ª Edição, Editorial Caminho,
Lisboa.
McDonald, David D. "Internal and External
Evidence in the Identification and Semantic
Categorization of Proper Names", in Boguraev,
Branimir James Pustejowsky. Corpus Processing
for Lexical Acquisition, 1996, The MIT Press,
Cambridge, MA London, England, pp. 21-39.
Nobata, Chikashi, Satoshi Sekine, Hitoshi Isahara
Ralph Grishman. (2002). "Summarization System
Integrated with Named Entity Tagging and IE
pattern Discovery", in Proceedings of the LREC
2002 Conference, (Las Palmas, 2002), pp.
1742-1745.
Palmer, David D. David S. Day (1997). "A
Statistical Profile of the Named Entity Task", in
Proceedings of the Fifth ACL Conference for
Applied Natural Language Processing (ANLP-97),
(Washington D.C., 1997), pp. 190-193.
Paulo Rocha and Diana Santos. "CETEMPúblico Um
corpus de grandes dimensões de linguagem
jornalística portuguesa", in Maria das Graças
Volpe Nunes (ed.), Actas do V Encontro para o
processamento computacional da língua portuguesa
escrita e falada (PROPOR'2000) (Atibaia, São
Paulo, Brasil, 19 a 22 de Novembro de 2000), pp.
131-140.
Shinyama, Y. nd S. Sekine (2004). Named Entity
Discovery Using Comparable News Articles,
Published in the Proceedings of the 20th
International Conference on Computational
Linguistics (COLING-04) 2004, Geneva,
Switzerland.
Silberztein, M., 1993. Dictionnaires
électroniques et analyse lexicale du français. Le
système INTEX, Paris, Masson.
Wilks, Y., R. Catizone, 1999. Can We Make
Information Extraction More Adaptive? In M.
Pazienza (ed.) Proceedings of the SCIE99
Workshop. Springer-Verlag, Berlin. Rome.