Title: How to Keep up with Language Dynamics?
1How to Keep up with Language Dynamics?
- A case study on Named Entity Recognition
Plano de Tese 6 de Maio 2005
Cristina Mota Instituto Superior Técnico L2F
Inesc-ID New York University
Supervisors Ralph Grishman, New York
University Nuno Mamede, L2F Inesc-ID/IST
2Objectivos
Estudar a influência da evolução da língua no
desempenho dos sistemas de Processamento de
Língua Natural (PLN)
Objecto de estudo Textos jornalísticos
portugueses Actividade de PLN Reconhecimento de
Entidades Mencionadas (REM)
1 Avaliar de que forma varia o desempenho de um
sistema face a textos com referenciais temporais
diferentes 2 Propor métodos robustos que não
só evitem a degradação no desempenho de um
sistema, mas também o melhorem
3Objectivos
- Estudar como é que as entidades mencionadas
variam ao longo do tempo, bem como o contexto
(sintáctico) em que estão inseridas - Identificar factores que localizem um texto
temporalmente e que permitam comparar
temporalmente dois textos
- Identificar e caracterizar os módulos que o
sistema deve ter, e a forma como devem estar
organizados - ? Conceber uma arquitectura genérica
- Propor mecanismos que permitam melhorar e
configurar de forma automática o sistema e
recursos associados - ? Encontrar métricas que permitam guiar a
selecção de recursos apropriados à análise de um
determinado texto (por exemplo, maior distância
temporal que deve existir entre dois textos) - Construir um sistema tendo em conta estes
factores
4Objectivos
- Responder a questões como
- De que forma varia o desempenho face a alterações
temporais dos textos? - Serão os corpora de um período de tempo adequados
para aquisição de conhecimento (lexical,
sintáctico, etc.) que será usado por sistemas que
irão analisar textos de outro período de tempo? - Qual deverá ser a proximidade temporal entre os
corpora de treino/desenvolvimento/teste e os
textos a analisar? - Existirão elementos no texto (e.g., datas,
eventos, advérbios) que ajudem a caracterizar a
referência temporal de um texto? - Será possível o sistema auto-adaptar-se a
variações no tempo?
5Motivação Génese
There were important differences in the makeup
of these individual corpora that affected this
analysis. The French corpus, for example,
contained a wide range of articles from a single
issue of Le Monde, so the topics of the articles
ranged from world politics to the Paris fashion
scene. The articles in the English and Spanish
corpora were specifically selected (by the MUC-6
and MET evaluation organizers) because they
contained references to press conferences. While
the content was more homogeneous in the English
corpus, the articles were nevertheless drawn from
a range of several months of the Wall Street
Journal, so the specific topics (and constituent
Named Entities) were very diverse. The Chinese
Xinhua corpus was, in contrast, extremely
homogeneous. These differences demonstrate a
number of difficulties presented by corpora in
different languages. (PalmerDay, 1997)
What such lexicons lack is a dymanic view of
language they are inevitably fossilised
intuitions. To use a well known example
dictionaries od English normally tell you that
the first, or main, sende of television is a
technology or a TV set, although it is mainly
used now to mean the medium itself. It is this
kind of evidence that shows that, for tasks like
IE, lexicons must be adapted or tuned to the
texts being analysed which can led to a new, more
creative wave in IE research the need not just
to use large textual and lexical resources, but
to adapt them as automatically as possible, to
enable them to adapt to new domains and corpora,
which will mean dealing with obsolescence and
with the specialised vocabulary of a domain not
encountered before. (GaizauskasWilks, 1997)
6Motivação Porquê REM?
O que é uma Entidade Mencionada?
PeTA contra J. Lo Activistas da PeTA (uma
associação de defesa dos direitos dos animais)
protestam contra Jennifer Lopez em frente aos
estúdios da MTV, na Times Square, em Nova Iorque.
A PeTA está contra a utilização de peles nas
colecções de moda da cantora. (Edição Online do
Público, 3 de Maio de 2005)
O que é Reconhecimento de Entidades Mencionadas?
PeTA contra J. Lo Activistas da PeTA (uma
associação de defesa dos direitos dos animais)
protestam contra Jennifer Lopez em frente aos
estúdios da MTV, na Times Square, em Nova Iorque.
A PeTA está contra a utilização de peles nas
colecções de moda da cantora. (Edição Online do
Público, 3 de Maio de 2005)
Identificação
Classificação
Co-referência
7Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista linguístico, apesar de serem
objectos linguísticos muito diversificados, estão
pouco estudadas, não havendo critérios que as
permitam identificar nem classificar
- Gramática (Mateus et al., 2003)
- Define apenas antropónimos e topónimos
Entidade colectivas? Obras? Monumentos? ...
- Quanto a propriedades linguísticas refere, por
exemplo, que os topónimos podem ser precedidos
por artigo definido (o Brasil, os Himalaias),
embora haja muitas excepções para os nomes de
países (a Angola, o Portugal), e nomes de
cidades (a Lisboa, o Setúbal), os quais só
aceitam se tiverem origem em nomes comuns (o
Porto, a Figueira da Foz)
a Vila Real as Chaves, o Castelo Branco ?
o Estoril, a Nazaré ?
8Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista computacional, o processamento
destas unidades levanta problemas diversos
- Apenas os diminutivos dos antropónimos podem ser
reconhecidos por analisadores morfológicos - Mesmo os que são reconhecidos recebem informações
incorrectas (Celeste/ADJ, Ovar/V, Chaves/Nfp)
- São muitas vezes unidades lexicais multi-palavra
(Mariana Rey Colaço, Vila Real de Santo António,
Banco de Portugal) - - Muitos nomes estrangeiros aparecem em textos
portugueses (Aix en Provence, Greenwich Village,
Juan Carlos, Charles de Gaulle, Sun Microsystems,
Credit Lyonnais) - - Podem incluir números e outros caracteres
não-alfabéticos (Banco Totta Açores, Boeing
747, Cine 222, PPD/PSD)
9Motivação Porquê REM?
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista diacrónico, as EMs que ocorrem
num texto dependem não só da altura em que foi
escrito, mas também do período de tempo a que diz
respeito
República Federal Alemã (RFA)
Alemanha vs.
República Democrática Alemã (RDA)
Bush
George Bush ?
George W. Bush ?
Durão Barroso
José Manuel Barroso
10Motivação Pequena experiência
Parte01 do CETEMPublico (RochaSantos, 2000)
11Motivação Aplicações
Sistemas de PerguntaResposta ?
GreenwoodGaizauskas (2003) melhoraram o
desempenho de um sistema por terem integrado um
módulo de REM
Sumarização ? Numa avaliação conjunta, Nobata et
al. (2003) obtiveram os melhores resultados em
termos de organização e coesão do texto
12Expectativas
Contribuir para o desenvolvimento de sistemas de
PLN mais robustos Mostrando que o tempo também é
um factor a considerar no desenho de sistemas e
na concepção de recursos Estabelecendo princípios
de organização de sistemas e recursos que tenham
em conta esse factor
Contribuir para um maior conhecimento linguístico
sobre as EMs Estabelecendo classes, definindo
critérios de identificação e classificação
Desenvolver um sistema de REM (para o Português)
com base nesses princípios
Produzir recursos linguísticos temporalmente
organizados (almanaques, corpora anotados,
léxicos subcategorizados) que possam ser
integrados noutras aplicações de PLN
13Plano
- Definição e caracterização das classes de EMs a
tratar
Classificação Quantidade Moeda
Individual GrupoInd Cargo CargoInd Membro MembroI
nd
VALOR
PESSOA
OBRA
ORGANIZACAO
LOCAL
Administração Empresa Instituição Sub
TEMPO
COISA
ABSTRACCAO
Correio Administrativo Geográfico Virtual Alargad
o
Hora Período Cíclico Data
Morfologia
14Plano
- Reutilização de um sistema de REM, integrando as
novas definições
Módulo baseado em gramáticas que descrevem
evidências internas e externas de acordo com a
definição de (McDonald, 1996). Não usa
almanaques, nem informações linguísticas.
Desenvolvido no (e aplicado pelo) sistema INTEX
(Silberztein, 1993).
STENCIL
Gramáticas que descrevem evidências internas e
externas Léxicos sub-categorizados Ontologia? Dese
nvolvido no (e aplicado pelo) sistema NooJ
(Silberztein, 2003)
15Plano
- Construção e anotação de um corpus de trabalho
- Estudo das entidades mencionadas ao longo do
tempo e identificação de conhecimento
independente do tempo - Integração do novo conhecimento no classificador
- Avaliação
16Discussão
Qual a arquitectura de base? Fará sentido
condicionar à partida a arquitectura do
sistema? Com base em que critérios? Será melhor
observar e comparar o desempenho de outros
sistemas? Talvez pudesse usar os sistemas
participantes no Harem... Que etiquetas usar?
Trabalhar num sub-conjunto das etiquetas do
Harem? Definir em função dos corpora que tiver
disponíveis? Que corpora escolher? Como
organizá-los? O CETEMPublico vai de 1992 a 1998.
Precisarei de um período mais alargado? Apenas
sobre a componente do tempo, ou também em relação
ao domínio, sub-tópico, autor, ...? Obter textos
de outros jornais nacionais relativos ao mesmo
período de tempo?
17Discussão
Como obter corpora anotados suficientemante
alargados no tempo para que os resultados tenham
significado? Devia ter um corpus anotado
independentemente? Talvez o sistema vencedor do
Harem pudesse anotar os meus corpora, de modo a
que eu pudesse avaliar os resultados. Como
garantir, nesse caso, que o sistema não vai ficar
"biased" com esse sistema? Que métodos aplicar?
O sistema deverá ser adaptativo, possuindo, por
exemplo, mecanimos de auto-configuração que
seleccionem os recursos adequados a um
determinado texto. Ou não deverá depender de
recursos? Será possível criar um sistema de
aprendizagem não supervisionado? De modo a poder
confirmar a minha hipótese, penso que tenho de
comparar diferentes tipos de aprendizagem. Como
fazer a avaliação? Avaliação em relação a um
corpus de referência, nomeadamente a
CD? Avaliação comparativa com outros sistemas?
18Critérios de Sucesso
Verificação da hipótese! Integração do sistema
em aplicações mais complexas Sistema de
Legendagem de Notícias Reutilização dos recursos
por outros sistemas
19Bibliografia
- Gaizauskas, R. and Y. Wilks, 1997. Information
Extraction Beyond Document Retrieval. Technical
report CS-97-10, Department of Computer Science,
University of Sheffield. - Greenwood, M. and R. Gaizauskas, 2003. "Using a
Named Entity Tagger to Generalise Surface
Matching Text Patterns for Question Answering",
in Proceedings of the Natural Language Processing
for Question Answering Workshop, EACL 03,
Budapest. - Mateus, M. Helena, Ana Brito, Inês Duarte e
Isabel Hub Faria (eds.), 2003. Gramática da
Língua Portuguesa, 5ª Edição, Editorial Caminho,
Lisboa. - McDonald, David D. "Internal and External
Evidence in the Identification and Semantic
Categorization of Proper Names", in Boguraev,
Branimir James Pustejowsky. Corpus Processing
for Lexical Acquisition, 1996, The MIT Press,
Cambridge, MA London, England, pp. 21-39. - Nobata, Chikashi, Satoshi Sekine, Hitoshi Isahara
Ralph Grishman. (2002). "Summarization System
Integrated with Named Entity Tagging and IE
pattern Discovery", in Proceedings of the LREC
2002 Conference, (Las Palmas, 2002), pp.
1742-1745. - Palmer, David D. David S. Day (1997). "A
Statistical Profile of the Named Entity Task", in
Proceedings of the Fifth ACL Conference for
Applied Natural Language Processing (ANLP-97),
(Washington D.C., 1997), pp. 190-193. - Paulo Rocha and Diana Santos. "CETEMPúblico Um
corpus de grandes dimensões de linguagem
jornalística portuguesa", in Maria das Graças
Volpe Nunes (ed.), Actas do V Encontro para o
processamento computacional da língua portuguesa
escrita e falada (PROPOR'2000) (Atibaia, São
Paulo, Brasil, 19 a 22 de Novembro de 2000), pp.
131-140. - Shinyama, Y. nd S. Sekine (2004). Named Entity
Discovery Using Comparable News Articles,
Published in the Proceedings of the 20th
International Conference on Computational
Linguistics (COLING-04) 2004, Geneva,
Switzerland. - Silberztein, M., 1993. Dictionnaires
électroniques et analyse lexicale du français. Le
système INTEX, Paris, Masson. - Wilks, Y., R. Catizone, 1999. Can We Make
Information Extraction More Adaptive? In M.
Pazienza (ed.) Proceedings of the SCIE99
Workshop. Springer-Verlag, Berlin. Rome.