Extraction d - PowerPoint PPT Presentation

About This Presentation
Title:

Extraction d

Description:

Extraction d Informations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli_at_tsi.enst.fr ENST/TSI et CNRS-LTCI – PowerPoint PPT presentation

Number of Views:82
Avg rating:3.0/5.0
Slides: 27
Provided by: chol160
Category:

less

Transcript and Presenter's Notes

Title: Extraction d


1
Extraction dInformations Spatiales et
Linguistiques dans les Documents
  • Laurence Likforman, Pascal Vaillant, G. Chollet
  • lauli_at_tsi.enst.frENST/TSI et CNRS-LTCI46 rue
    Barrault75634 PARIS cedex 13

2
Plan
  • Majordome / Assistant Multimodal Intelligent
  • Traitement des Télécopies
  • Extraction dinformations spatiales
  • Traitements Linguistiques bas niveaux
  • Perspectives

3
Accès, Communication
  • Désir daccéder à linformation
  • à travers le téléphone
  • sur INTERNET
  • Besoin de communiquer
  • messagerie

4
EDF
Holistique
MAJORDOME messagerie unifiée
intelligente Projet Eureka no 2340
G. Chollet, K. Hallouli , J. Kharroubi, D.
Kofman, L. Likforman, D. Petrovska, M. Sigelle,
P. Vaillant, F. Yvon
5
Quest-ce quun Majordome ?
vocal
mèl
télécopies
messages entrants
serveur
traitement des messages
authentification, dialogue, routage,
résumés, mises a jour, agenda
accès aux messages
pager
téléphone
terminal
PDA
6
Le Majordome individuel
7
Adaptation à lutilisateur
  • Serveur multi-utilisateurs diriger les messages
    vers le bon utilisateur
  • Capacité didentifier le destinataire des
    messages, quand différents messages arrivent à un
    numéro unique (tel. ou fax.)
  • Capacité dauthentifier lutilisateur lors de
    laccès à sa messagerie
  • Fournir à lutilisateur des paramètres personnels
    (carnet dadresses, agenda )

8
Adaptation au canal daccès
  • Accès par le web
  • le contenu de la boîte aux lettres  unifiée 
    peut être affiché de manière synthétique
  • possibilités étendues de navigation
  • les documents visuels sont présentés dans leur
    mode naturel
  • Accès par téléphone
  • nécessité de condenser linformation, même lors
    de la lecture de la liste des messages
  • nécessité de résumer les messages importants

9
Adaptation à la modalité des messages
  • Mode de présentation natif au téléphone pour
    les messages vocaux, sur écran pour les méls ou
    les fax
  • Transformations nécessaires dans les autres cas
  • Messages vocaux transmis sous forme de fichiers
  • Méls ou fax  lus  (synthèse TTS) au téléphone
  • Pour la détection des infos essentielles
    (expéditeur, date, sujet, mots-clés)
  • En-têtes normalisés (ex. RFC-822) pour les méls
  • Fax, voix aiguille dans une botte de foin

10
Traitements
11
Traitement des Télécopies
P. Vaillant, L. Likforman
  • Recherche dinformations ciblées consultation
    du message adaptée au medium de communication
  • Objectif routage, transmission
    dinformations-clés
  • Recherche du nom de lexpéditeur
  • Analyse spatiale
  • Analyse linguistique
  • Combinaison des 2 critères

12
Télécopies
Expéditeur
Destinataire
Mots clés
13
Analyse spatiale
  • Repérage de la zone NOM EXPEDITEUR
  • Extraction tolérante de mots clés par classe
  • Nom NOM/NAME/
  • Expéditeur FROM/EXPEDITEUR/DE
  • Destinataire TO/A/

14
Analyse spatiale critères perceptifs
15
Traitement Linguistique
  • Objet traiter des données de nature
    linguistique
  • Limites la partie purement OCR (resp.
    phonétique) relève de la reconnaissance de
    lécrit (resp. de la parole)
  • Applications
  • extraction automatique dinformations-clés
  • (expéditeur, destinataire, date, objet,
    mots-clés)
  • résumé automatique
  • catégorisation filtrage et routage des messages

16
Techniques danalyse linguistique
  • Objectif de Majordome traiter les messages en
    temps réel
  • Pas dutilisation extensive des techniques
    coûteuses du domaine T.A.L. (parsing )
  • Techniques  bas niveau , rapides et efficaces
  • repérage de formes
  • grammaires locales
  • outils statistiques

17
Repérage de composants-clés
  • Repérage des noms propres (1)
  • Indices internes
  • majuscule au début, ou tout en capitales
  • présence dans un dictionnaire de noms propres
  • absence dans un dictionnaire de mots communs
  • caractéristiques mophologiques internes plus
    fréquentes parmi les noms propres (noms de
    famille) que parmi les noms communs ex.
    composés avec préfixes  Le- ou  Du- ,
    suffixes  -eur ou -ault

18
Repérage de composants-clés
  • Repérage des noms propres (2)
  • Indices externes
  • présence, dans le contexte local du mot, de
    marqueurs didentité ( M. ,  Mme ,  Dr.  )
  • présence, dans le contexte de la phrase,
    dindices grammaticaux, comme lapposition du GN
    ( le député RPR Thierry Mariani  )
  • présence, dans le meilleur des cas, de marqueurs
    de fonction par rapport au message
    ( Expéditeur ,  Destinataire , )

19
Repérage de composants-clés
  • Repérage de mots-clés
  • mots apparaissant dans le contexte dune ligne
     Objet  ou  Titre 
  • mots de fréquence relative élevée
  • (fréquence relative fréquence dans le document
    analysé / fréquence dans un corpus général de la
    langue)

20
Résumé automatique
  • Mesure pour chaque phrase dun  score  de
    représentativité ( de mots-clés)
  • Extraction des phrases ayant leur score au-dessus
    dun seuil donné
  • Concaténation des phrases choisies
  • Résultat texte parfois peu esthétique, mais
    généralement lisible et compréhensible
  • (étude réalisée par Aude Acoulon)

21
Catégorisation de textes
  • Les genres se manifestent souvent par des
    caractéristiques globales (présence excessive de
    ponctuations  !  ou  ?  dans les messages
    publicitaires, nombre moyen de lettres par mot
    plus élevée dans les textes scientifiques, etc.)
  • Méthode
  • mesure dun certain nombre de ces
    caractéristiques dans des corpus dapprentissage
  • max. variance régression linéaire
  • discriminateurs

22
Techniques utilisées (1)
  • Techniques de représentation de lexiques à accès
    rapide
  • Arbres binaires de recherche équilibrés, un mot
    par nœud, ordre alphabétique
  • stockage dun lexique avec infos sur les entrées
  • temps daccès réduit (log 2, taille du lexique)
  • Tries (graphes acycliques directs), une lettre
    par arc
  • temps daccès minimal (linéaire, taille des mots)
  • recherche floue (calcul de distance pendant le
    parcours)

23
Techniques utilisées (2)
  • Techniques statistiques calcul de fréquences
    doccurrences
  • de caractères
  • de digrammes (séquences de 2 caractères)
  • de trigrammes (séquences de 3 caractères)
  • de mots
  • de séquences de 2 mots
  • Calcul de fréquences de co-occurrences
  • Ex. fréquence doccurrence de 2 mots dans une
    fenêtre contextuelle de n mots

24
Techniques utilisées (3)
  • Application de règles de grammaires locales
  • Contexte très réduit
  • Ex. séquence  Mme  Chaîne1 Chaîne2
  • Chaîne1 appartient à un dictionnaire de prénoms
  • Chaîne2 est en capitales
  • Chaîne2 est un nom de famille

25
Fusion données spatiales et textuelles
  • Création dun tableau de paires (mot, zone)
  • N.B. Certaines zones (smears) nont pas de mot
    (ex. logos, signatures, zones manuscrites )
  • Pour chaque entrée, stockage dinformations
    obtenues par des traitements sur limage (ex.
    zone expéditeur) et dinformations obtenues par
    des traitements sur le texte (ex. mot en
    capitales, prénom, mot de grande fréquence
    relative)
  • pondération
  • indice de confiance pour la détection

26
Résultats
Write a Comment
User Comments (0)
About PowerShow.com