Corpus Annotation I - PowerPoint PPT Presentation

1 / 36
About This Presentation
Title:

Corpus Annotation I

Description:

Strategy: learn apply forget. Start with a list of 16'000 person first names ... Program 'forgets' the last name after 15 sentences. ... – PowerPoint PPT presentation

Number of Views:70
Avg rating:3.0/5.0
Slides: 37
Provided by: marti85
Category:

less

Transcript and Presenter's Notes

Title: Corpus Annotation I


1
Corpus Annotation I
  • Martin Volk
  • Stockholm University

2
Corpus Linguistics
  • Investigating raw corpora
  • Get word form frequencies
  • Find collocations ( word form cooccurrences)
  • Investigating annotated corpora
  • Find collocations ( word cooccurrences)
  • Find PoS sequences
  • Find names
  • Compare distributions across text types, time
    periods, dialects,

3
Corpus Linguistics and Ontologies
  • Linguistic analysis is needed for
  • enriching ontologies (cf. OntoLT)
  • linking documents and ontologies (Which concept
    in a text corresponds to which class or instance
    of an ontology?)

4
Overview of corpus annotation
  • Clean-Up and Text Structure Recognition
  • Sentence Boundary Recognition
  • Proper Name Recognition and Classification
  • Part-of-Speech Tagging
  • Tagging Correction
  • Lemmatisation and Lemma Filtering
  • NP/PP Chunk Recognition
  • Recognition of local and temporal PPs
  • Clause Boundary Recognition

5
Starting Point
  • Raw text no explicit markup (e.g.
    ComputerZeitung)
  • Text with XML markup for text structure (e.g. NZZ
    and TagesAnzeiger)

6
Clean-Up
  • remove hyphenation
  • remove line breaks
  • remove blanks in internet addresses
  • http//www. abc.de/path ? http//www.abc.de/path
  • remove blanks in numbers
  • 10 000 ? 10'000
  • coding of special characters (ä, ö, ß, é, lt, )

7
Text Structure Recognition
  • mark document boundaries
  • mark document identifiers
  • distinguish headers ( titles) from text
  • mark list items
  • mark specific text elements
  • Examples from the ComputerZeitung
  • reference city
  • author name and author abbreviation

8
Sentence Boundary Recognition
  • Sentences end
  • at full stops (dots), at exclamation marks, at
    question marks, at semicolons ??, at colons??
  • at the end of a header or list item or paragraph
  • Problem
  • the sentence-final dot is ambiguous with the
    abbreviation dot and the ordinal number dot
  • (e.g. The 3. Int. Conference)

9
Sentence Boundary Recognition
  • Solution
  • use a language-specific list of abbreviations for
    disambiguation
  • De klipper helt gradfritt samtliga skärbara
    plåtar som t.ex. stål och järn, rostfritt stål
  • (från Manuella saxar http//www.adamant.se/gerve
    r/gerver1.shtml )
  • still the problem with a number or an
    abbreviation in sentence-final position persists.
  • Registret är en databas över alla inställningar i
    Windows 95. Den består av
  • De klipper helt gradfritt samtliga skärbara
    plåtar som t.ex. stål och järn, rostfritt stål,
    , plast, ebonit, etc. Den enkla och säkra
    driften sker
  • ? correction after PoS-tagging

10
Verticalization of the text
  • one word ( token) per line (punctuation marks
    and tags are also tokens)
  • Reason
  • facilitates annotation (adding information per
    word as columns in the line)
  • facilitates processing (accessing, counting,
    sorting)

11
Proper Name Recognition and Classification
  • Reasons
  • Solve unknown word problem with names
  • Solve multi-token problem with names
  • Enable clustering

12
Example Text 1
  • Auferstanden aus Ruinen
  • "Getrennt marschieren und sich zusammenschlagen",
    könnte eine knappe Bestandsaufnahme der
    Unix-Szene lauten. Dabei wurde und wird der Ruf
    nach einem einheitlichen Unix immer wieder laut.
  • Novell-Chef Ray Noorda hat ihn mit seinem "Unify
    Unix!" hübsch marktschreierisch vorgetragen ...
    (1) Zuerst glaubte Noorda, das mit der Übernahme
    der Unix Systems Laboratories (USL) ... (2) Doch
    mußte er ... (3) Dann kam der pfiffige
    Netzwerker auf die Idee, ... (4) Die dritte Stufe
    der Novell-Rakete ... (5) Ursprünglich wollte
    Noorda nämlich hier, ...

13
Example Text 2
  • Noorda will durch neuen Merger Microsoft Paroli
    bieten
  • Novell kauft Mehrheit an Unix-Schmiede
  • San Francisco/München/Stuttgart. Novell-Boß
    Raymond J. Noorda will dem Softwaregiganten
    Microsoft das Fürchten lehren Die
    Netzspezialisten aus Utah kaufen ATTs
    Unix-Schmiede USL. Bis Ende März 1993 soll der
    Deal unter Dach und Fach sein. Noorda bemüht sich
    schon seit längerem, sein Imperium zu erweitern.

14
Dagens Nyheter, 20. Sept. 2004
  • Mijailovic vårdas på sjukhus
  • Anna Lindhs mördare Mijailo Mijailovic är så sjuk
    att han förts till sjukhus.
  • Sedan i lördags vårdas han vid rättspsykiatriska
    kliniken på Karolinska universitetssjukhuset i
    Huddinge. Dit fördes han sedan en läkare vid
    Kronobergshäktet i Stockholm konstaterat att han
    det fanns risk att han skulle försöka ta livet av
    sig i häktet. Det skriver Aftonbladet och
    Expressen.
  • Mijailovic, som väntar på rättegången i Högsta
    domstolen efter att ha dömts till sluten
    psykiatrisk vård och inte till fängelse, ska
    enligt tidningarna ha slutat ta sina tabletter
    och blivit starkt förvirrad. Enligt
    Kriminalvårdsstyrelsens bestämmelser ska i sådana
    fall en fånge föras till sjukhus.
  • Kronobergshäktets chef Lars-Åke Pettersson
    tillbakavisar för nyhetsbyrån TT uppgifterna om
    att Mijailovic skulle ha vägrat ta sina
    mediciner.
  • - Han flyttades i lördags med hjälp av ett
    vårdintyg. När våra medicinska resurser inte
    räcker till kallar vi på läkare som skriver ut
    ett vårdintyg. Det är vad som skett i det här
    fallet. Det är absolut inget anmärkningsvärt som
    hänt som ligger bakom förflyttningen, säger
    Pettersson.
  • Vid kliniken i Huddinge övervakas nu Mijailovic
    ständigt av två vårdare.

15
Example Text 3
  • Als Mitverfasser des "objektorientierten
    Struktur-Designs" ist Anthony I. Wassermann nicht
    nur Universitäts-Insidern bekannt ... Dabei hat
    Wassermann wesentlich dazu beigetragen, daß die
    IDE-Entwicklungsumgebung sowohl von namhaften
    Forschungseinrichtungen, beispielsweise dem
    deutschen Fraunhofer-Institut, aber auch von
    Unternehmen wie eingesetzt werden.
    Wassermanns jüngste Entwicklung, ...

16
Examples
  • Einer der Väter der heutigen Computer, John von
    Neumann warnte schon 1948
  • sowie von Fuzzy-Spezialist Professor Dr.
    Hans-Jürgen Zimmermann von der Technischen
    Universität Aachen.
  • Im Juli werden die ersten Ergebnisse des
    San-Francisco-Projekts ausgeliefert,
    veranschaulicht Julius Peter. ... ergänzt Lawsons
    Cheftechnologe Peter Patton.
  • Am Anfang war die Zukunftsvision von einem
    künftigen Operationssaals, die der Neurochirurg
    Volker Urban von der Dr.-Horst-Schmidt-Klinik
    ... räumt Urban Akzeptanzprobleme ein.

17
Named Entity Recognition
  • is complicated in German since all nouns are
    capitalized.
  • Named entity classification into
  • person names
  • geographical names (mostly cities and countries)
  • company names
  • (product names)

18
Recognition of person names
  • Strategy learn apply forget
  • Start with a list of 16'000 person first names
  • Learn person last name, if a capitalized word
    follows first name
  • Beim ersten Internet-Chat-in von
    EU-Kulturkommissar Marcelino Oreja mußten die
    Griechen ...
  • Apply learned last name, if it occurs standing
    alone.
  • Oreja, ..., beantwortete unter Zuhilfenahme von
    elf Übersetzern ...

19
Recognition of person names
  • Leads to two problems
  • Program learns incorrect last name
  • weil Martin Software entwickelt
  • Last name interferes with company name
  • Axel Springer Verlag
  • ? Program forgets the last name after 15
    sentences. If the last name is used in this
    range, it is primed for additional 5 sentences.

20
Results for German person names
  • Recall 93 for full names, 74 for stand-alone
    last names
  • Precision 92
  • evaluated over 990 sentences with
  • 73 full names
  • 43 stand-alone last names
  • Open issue gender assignment needed!!

21
Recognition of geographical names
  • Strategy list learn apply
  • Start with a list from the WWW
  • 1000 city names
  • 250 country names
  • Learn additional city names from article location
  • Bonn (pg) Bundesregierung und SPD kamen sich
    ...
  • Apply all names to the corpus

22
Dagens Nyheter, 20. Sept. 2004
  • Mijailovic vårdas på sjukhus
  • Anna Lindhs mördare Mijailo Mijailovic är så sjuk
    att han förts till sjukhus.
  • Sedan i lördags vårdas han vid rättspsykiatriska
    kliniken på Karolinska universitetssjukhuset i
    Huddinge. Dit fördes han sedan en läkare vid
    Kronobergshäktet i Stockholm konstaterat att han
    det fanns risk att han skulle försöka ta livet av
    sig i häktet. Det skriver Aftonbladet och
    Expressen.
  • Mijailovic, som väntar på rättegången i Högsta
    domstolen efter att ha dömts till sluten
    psykiatrisk vård och inte till fängelse, ska
    enligt tidningarna ha slutat ta sina tabletter
    och blivit starkt förvirrad. Enligt
    Kriminalvårdsstyrelsens bestämmelser ska i sådana
    fall en fånge föras till sjukhus.
  • Kronobergshäktets chef Lars-Åke Pettersson
    tillbakavisar för nyhetsbyrån TT uppgifterna om
    att Mijailovic skulle ha vägrat ta sina
    mediciner.
  • - Han flyttades i lördags med hjälp av ett
    vårdintyg. När våra medicinska resurser inte
    räcker till kallar vi på läkare som skriver ut
    ett vårdintyg. Det är vad som skett i det här
    fallet. Det är absolut inget anmärkningsvärt som
    hänt som ligger bakom förflyttningen, säger
    Pettersson.
  • Vid kliniken i Huddinge övervakas nu Mijailovic
    ständigt av två vårdare.

23
Recognition of geographical names
  • Problems
  • must include genitive forms
  • Hamburg ? Hamburgs
  • New York ? New Yorks
  • in German it must include adjectival forms in two
    variants
  • cities (uninflected upper case adjective)
  • London ? Londoner
  • München ? Münchner
  • countries (inflected lower case adjective)
  • England ? englische
  • Spanien ? spanische

24
Results for geographical names in German
  • 990 test sentences
  • ? 166 geographical names
  • Recall 91 (151 names)
  • Precision 81

25
Recognition of company names
  • Strategy learn filter apply
  • Learn company name as sequence of capitalized
    words
  • following a keyword (Firma)
  • die Firma Electronic Book Technologies
  • preceding a keyword (GmbH, Ltd., Co.)
  • von J.D. Edwards Co.

26
Recognition of company names
  • Learn company name as sequence of capitalized
    words (- cont. -)
  • as initial part of hyphenated compound
  • die Zukunft der France-Télécom-Tochter ist ...
  • after fem. determiner geographical adjective
    (specific pattern for ComputerZeitung!!)
  • ... hat die Münchner Ornetix einen Server
    entwickelt
  • Learn company name acronyms from complex names
  • die CCS Chipcard Communications GmbH ? CCS

27
Dagens Nyheter, 20. Sept. 2004
  • Mijailovic vårdas på sjukhus
  • Anna Lindhs mördare Mijailo Mijailovic är så sjuk
    att han förts till sjukhus.
  • Sedan i lördags vårdas han vid rättspsykiatriska
    kliniken på Karolinska universitetssjukhuset i
    Huddinge. Dit fördes han sedan en läkare vid
    Kronobergshäktet i Stockholm konstaterat att han
    det fanns risk att han skulle försöka ta livet av
    sig i häktet. Det skriver Aftonbladet och
    Expressen.
  • Mijailovic, som väntar på rättegången i Högsta
    domstolen efter att ha dömts till sluten
    psykiatrisk vård och inte till fängelse, ska
    enligt tidningarna ha slutat ta sina tabletter
    och blivit starkt förvirrad. Enligt
    Kriminalvårdsstyrelsens bestämmelser ska i sådana
    fall en fånge föras till sjukhus.
  • Kronobergshäktets chef Lars-Åke Pettersson
    tillbakavisar för nyhetsbyrån TT uppgifterna om
    att Mijailovic skulle ha vägrat ta sina
    mediciner.
  • - Han flyttades i lördags med hjälp av ett
    vårdintyg. När våra medicinska resurser inte
    räcker till kallar vi på läkare som skriver ut
    ett vårdintyg. Det är vad som skett i det här
    fallet. Det är absolut inget anmärkningsvärt som
    hänt som ligger bakom förflyttningen, säger
    Pettersson.
  • Vid kliniken i Huddinge övervakas nu Mijailovic
    ständigt av två vårdare.

28
Recognition of company names
  • Problems
  • determination of correct front or end boundary
  • incorrectly learned (simple) names
  • Solution
  • filter learned simple names against the German
    morphology system Gertwol (or Swetwol for Swedish)

29
Filter of company names
  • Accept as company name all words
  • that are unknown to Gertwol (Acotec, Belgacom)
  • that are known to Gertwol as proper names
    (Alcatel, Apple)
  • that are recognized by Gertwol as abbreviations
    (AMD, ATT, IBM)
  • that are not in an English general dictionary

30
Results for company names
  • 990 test sentences ? 348 company names
  • Completely recognized
  • Recall 81 (283 names)
  • Precision 76
  • First token correctly recognized
  • Recall 86
  • Precision 80

31
Overview of the Results
32
Recognition of Product Names (A project by
Jeannette Roth)
  • Proper names refer to unique objects.
  • Product names are different.
  • A product name may refer to many 'similar'
    objects.
  • Mercedes, MS Word, hohes C, dentalux
  • Recognition of product names is important because
    they are constantly introduced into the language.

33
Product Names
  • Method Learn, Filter, Apply
  • but with coordination pattern
  • Product (undsowieoder) Product
  • Product, Product (undsowieoder) Product
  • Result
  • Precision gt 90
  • Recall 20-30

34
Corpora in Named Entity Recognition
Corpora
learning
annotation
Persons Locations Companies
trigger words
35
Influence on PoS-Tagging
  • The distinction between a regular noun (NN) and a
    proper name (PM) is a frequent tagging error.
  • Proper name recognition eliminates most of these
    errors.
  • Proper name classification is a sort of shallow
    semantic analysis.

36
Conclusion
  • Interaction between recognition modules needs to
    be improved.
  • Coordinated constituents need be exploited
  • die Firmen IBM und XYZ
  • Other name types need be included
  • product names
  • organization names (administrative units)
  • event names (exhibitions, conferences)
Write a Comment
User Comments (0)
About PowerShow.com