Metodi per il trattamento avanzato di documenti - PowerPoint PPT Presentation

About This Presentation
Title:

Metodi per il trattamento avanzato di documenti

Description:

... la similarit fra un nuovo documento e i modelli delle classi la cosine similarity gi ... for a word processor? Logic ... linguistic ontology such as ... – PowerPoint PPT presentation

Number of Views:86
Avg rating:3.0/5.0
Slides: 31
Provided by: Vel121
Category:

less

Transcript and Presenter's Notes

Title: Metodi per il trattamento avanzato di documenti


1
Metodi per il trattamento avanzato di documenti
2
Quanta analisi del testo nei sistemi di accesso a
documenti?
  • Motori di ricerca, sistemi di IR classici (parole
    chiave)
  • Query un elenco di parole
  • Risposta un elenco di documenti contenenti le
    parole
  • Sistemi di Document Classification Retrieval
  • Query un elenco di parole con operatori booleani
  • Rispostaun elenco di documenti pertinenti
  • Sistemi di Information Extraction
  • Query una specifica formale del tipo di
    informazioni di interesse
  • Rispostauna base di dati strutturata
  • Sistemi di Open-Domain Question Answering
  • Query una domanda qualsiasi in linguaggio
    naturale
  • Rispostauna risposta in linguaggio naturale

AI
3
Influenza delle metodologie di AI nei sistemi di
reperimento di informazioni
4
Metodi di Classificazione di Documenti (1)
  • Obiettivo
  • A partire da
  • Un insieme di categorie C C1,..Cn(es articoli
    di sport, finanza, medicina..) eventualmente
    strutturate in una tassonomia
  • Un insieme di documenti appartenenti a ciascuna
    classe Di1.. Din.(learning set)
  • Apprendi un modello formale hi di ciascuna classe
    tale che hi(Dik) Ci(Dik)

5
Metodi di Classificazione di Documenti (2)
  • Metodo
  • Rappresenta ogni D mediante un vettore di
    caratteristiche f(D)(ltw1,p1gtltwm,pmgt)
  • Le caratteristiche sono coppie parola/peso
  • Vari metodi (statisticiNLP) per selezionare le
    parole rilevanti e determinare i pesi
  • Per ogni classe Ci e set di documenti Dik genera
    insieme di esempi S x ltf(Djk), Ci(Djk)gt
    doveCi(Djk)1 se Djk ? Ci

6
Esempio
  • Documento (Reuters collection) Colombia opened
    coffee export registrations for April and May
    with the National Coffee Growers' Federation
    setting no limit, Gilberto Arango, president of
    the private exporters' association, said.
  • Vettore delle caratteristiche (Colombia, open,
    coffee, export, registr, April/date, May/date,
    National_Coffee_Growers_Federation/org,
    president_Gilberto_Arango/pers,
    exporter_association)
  • (in realtà il vettore contiene V attributi binari
    ai, dove V è la taglia del vocabolario, ai1 se
    la parola i-esima di V è presente, inoltre gli
    attributi possono essere pesati, come abbiamo
    visto nei modelli IR classici)

7
Metodi di Classificazione di Documenti (3)
  • Per ogni classe Ci ed ogni set di esempi D si
    apprende un modello della classe h(Ci)
  • Metodi di apprendimento/ classificazione
  • Modello bag of words o vector space model h
    (Ci) è un cluster di vettori, centr(Ci) è il
    centroide del cluster
  • Le parole sono pesate con tf-idf, la similarità
    fra un nuovo documento e i modelli delle classi
    è la cosine similarity già vista per IR

8
Metodi di Classificazione di Documenti (4)
  • Metodi di apprendimento/ classificazione (contd)
  • Funzioni lineari
  • Alberi di decisione

pijltvalk
pingtvaln
Ci
9
Metodi di Classificazione di Documenti (5)
  • Utilizzo di tecniche di NLP per migliorare la
    classificazione
  • Rimpiazzare i termini con la radice
    (categorizzare, categorizziamo, categorizzazione)
  • Disambiguazione morfologica (es piano/agg o
    piano/nome)
  • Identificare termini complessi nomi propri
    (president Bill Clinton) terminologia ( real
    estate) espressioni regolari (date, numeri,
    espressioni monetarie)
  • Espansione semantica rimpiazzare (alcuni)
    termini con liste di sinonimi o categorie
    semantiche (es money ?(money,currency,monetary
    system))

10
Estrazione di Informazioni (1)
  • Obiettivo creazione di una rappresentazione
    strutturata (template) da informazioni
    selezionate estratte da archivi di testi
  • Es Sam Swartz retired as executive vice
    president of the famous hot dog manifacturer,
    Hupplewhite Inc.
  • He will be succeeded by Harry Himmelfarb.
  • EVENT leave job
  • PERSON Sam Swartz
  • POSITION Executive vice president
  • COMPANY Hupplewhite Inc
  • EVENT start job
  • PERSON Harry Himmelfarb
  • POSITION Executive vice president
  • COMPANY Hupplewhite Inc

11
(No Transcript)
12
Analisi del testo nei sistemi di IE (1)
  • Identificazione dei costituenti il testo viene
    segmentato in costrituenti sintattici semplici
    (vp e np) cui possono eventualmente essere
    aggiunte informazioni morfo-sintattiche
  • ?np e1 Sam Swartz ? ?vp retired ? as ?np
    e2executive vice president ? of ?np e3 the
    famous hot-dog manifacturer ? ?np e4
    Hupplewhite Inc.?. ?np e5He? ?vp will be
    succeeded? by ?np e6 Harry Himmelfab ?

13
Analisi del testo nei sistemi di IE (2)
  • Classificazione dei segmenti
  • e1 type person name "Sam Schartz"
  • e2 type human role "executive vice
    president"
  • e3 type human org "manifacturer"
  • e4 type company name "Hupplewhite Inc."
  • e5 type person "He"
  • e6 type person name "Harry Himmelfarb"

14
Analisi del testo nei sistemi di IE (3)
  • Pattern matching L'obiettivo di questa fase è di
    identificare segmenti di frase che siano istanze
    di segmenti generalizzati, o patterns.
  • person retires as position
  • person is succeded by person
  • .
  • I patterns possono essere definiti mediante
    espressioni regolari, equivalenti ad automi a
    stati finiti.

15
Analisi del testo nei sistemi di IE (4)
  • Coreference resolution L'obiettivo di questa fase
    è identificare istanze dello stesso concetto,
    espresse con forme superficiali diverse nel
    testo.
  • Ad esempio, nella frase di esempio fin qui
    analizzata, i gruppi nominali e1 (Sam Swartz) e
    e5 (He) si riferiscono alla stessa entità.
  • I modelli di risoluzione di co-referenze fanno
    uso di informazioni sintattiche (ad esempio, "He"
    deve corrispondere ad una persona maschile
    singolare) e semantiche.

16
KR reasoning nei sistemi di IE (1)
  • Inferenze e riempimento dei templates L'obiettivo
    di questa fase è di riempire i templates con
    porzioni di testo rilevanti.
  • Perché ciò sia possibile, è necessario effettuare
    alcune inferenze il cui obiettivo è stabilire un
    collegamento -altrimenti non evidente - fra
    patterns e "slot-fillers" dei templates (o valori
    degli attributi, se si vuol vedere un template
    come un vettore di attributi)

17
KR reasoning nei sistemi di IE (2)
  • Ad esempio se il template è
  • IN
  • EVENT leave job
  • PERSON leave-job person
  • POSITION leave-job position
  • COMPANY leave-job company
  • OUT
  • EVENT start job
  • PERSON start-job person
  • POSITION start-job position
  • COMPANY start-job company
  • e se i patterns catturati sono
  • ?Sam Schwartzperson retires as ?executive vice
    presidentposition
  • ?Harry Himmelfarbperson succeeds ?Sam
    Schwartzperson
  • una necessaria regola di inferenza è
  • leave_job(X-person,Y-position)?succeed(Z-person,X-
    person) ? start-job(Z-person, Y-position)
  • e simmetricamente
  • start_job(X-person,Y-position)?succeed(X-person,Z-
    person) ? leave-job(Z-person, Y-position)

18
Valutazione dei Sistemi di IE
  • Uno dei vantaggi dei sistemi di IE consiste
    nell'esistenza di procedure consolidate di
    valutazione, rappresentate dalle Message
    Understanding Conferences (MUC)
  • http//www.muc.saic.com/proceedings/muc_7_toc.html
  • Queste conferenze sono in realtà "gare" di
    prestazione di sistemi di IE, in cui le
    prestazioni vengono valutate sulla base di
  • Test set comuni
  • Indici di prestazione pre-stabiliti dagli
    organizzatori
  • Procedure di valutazione comuni, preventivamente
    predisposte

19
Sistemi di Open-Domain Question Answering
  • Obiettivo rispondere in LN a domande in LN di
    argomento qualsiasi
  • Es (le prime due da TREC-9 http//trec.nist.gov/pu
    bs.html)
  • What tourist attractions are there in Reims?
  • When was the Brandeburg gate in Berlin built?
  • I would like to know if ACE has in its DB
    candidates in the financial area, with 10 years
    of experience and fluency in English?
  • La tecnologia dei sistemi di QA è ancora in fase
    di definizione/assestamento

20
Architettura del miglior sistema FALCON,
della SMU (1)
21
Fase 1 analisi e trasformazione della domanda
22
Alcuni metodi utilizzati in questa fase in FALCON
  • Identificare riformulazioni di domande simili e
    mantenere una cache di risposte (es What are
    tourist attractions in Reims? What can one see in
    Reims?)
  • Dettagliata tassonomia delle Domande( e tipi di
    Risposta) (es. di top classes DATE, TIME,
    REASON, MANNER), collegata con una tassonomia
    generale (WordNet)
  • Stabilire collegamenti fra i termini nella
    domanda e tassonomia (es What is the wingspan of
    a condor?(wingspan ? QUANTITY)
  • Rappresentazione semantica e logica della domanda
  • QUANTITY
  • wingspan(x)?condor(y) ?QUANTITY(x)

23
Esempio
  • Question why did David Koresh ask the FBI for a
    word processor?
  • Logic representation
  • REASON(x)David(y)Koresh(y)ask(e,x,y,z,p)FBI(z
    )processor(p)word(p)
  • Semantic expansion
  • ask ? ask, enquire, request,make a request
  • word processor ? word processor , word processing
    system

24
Fase 2 Estrazione di porzioni rilevanti dai
documenti
25
Metodi utilizzati in questa fase in FALCON
  • Espansione della query
  • Espansioni morfologiche invent
    inventORinventorOR invent
  • Espansioni lessicali e semantiche (killer
    assassinORkiller, like likeORprefer)

26
Fase 3 generazione della risposta
27
Metodi usati in questa fase in FALCON
  • Generazione di una forma semantica per il testo
    della risposta
  • Dapprima tenta di unificare domanda e risposta
  • IF fail, applica espansioni lessicali finché
    lunificazione non ha successo
  • Infine, genera una prova abduttiva dalla risposta
    alla domanda, eventualmente applicando ulteriori
    espansioni semantiche.

28
Esempio
  • Testo estratto Over the week-end Mr Koresh sent
    a request for a word processor to enable him to
    record his revelations
  • Forma logica ottenuta
  • Mr(71)Koresh(71)word(72)processor(72)revelati
    ons(74)record(73 74 75)enable(75 73
    76)request(76)sent(77 76 78 71)weekend(78)_PER
    SON(71)DATE(78)
  • Esempio di dimostrazione ( e assiomi utilizzati)
  • ?ProvingDavid(1)Koresh(1)word(2)processor(2)F
    BI(4)ask(34215)_REASON(5)_PERSON(1)ORG(4)
  • unifying axioms David(1)Mr(1)..
  • ask(12345)sent(1674)request(6)
    _ORG(1)FBI(1)..
  • Se la dimostrazione fallisce, alcune regole di
    abduzione consentono di unificare costanti che
    sono differenti ma che sono argomenti dello
    stesso predicato

29
Performance di FALCON a TREC-9
  • 79 risposte corrette
  • Il secondo miglior sistema intorno al 55
  • I moduli di abduzione e espansione semantica
    hanno avuto un ruolo determinante nel 25 dei
    casi
  • I progettisti di FALCON sostengono che il ruolo
    di una open-domain linguistic ontology such as
    WordNet è stato determinante

30
Per concludere (sulle tecniche di elaborazione
dei testi)
  • Luso di tecniche di AI-intensive è fortemente
    crescente nei sistemi di accesso a informazioni
    testuali
  • Comunità Europea e DARPA spingono progetti
    orientati al reperimento, manipolazione,
    presentazione di contenuti sulla rete (e-content,
    Semantic web., Open-domain question answering..)
  • La disponibilità di open-domain Ontologies e
    linguaggi di formattazione intermedia di
    documenti (XML etc.) potrà avere un forte
    impatto sulle prestazioni dei sistemi di DC/IE/QA
Write a Comment
User Comments (0)
About PowerShow.com