Title: Extraction d
1 Extraction dInformations Spatiales et
Linguistiques dans les Documents
- Laurence Likforman, Pascal Vaillant, G. Chollet
- lauli_at_tsi.enst.frENST/TSI et CNRS-LTCI46 rue
Barrault75634 PARIS cedex 13
2 Plan
- Majordome / Assistant Multimodal Intelligent
- Traitement des Télécopies
- Extraction dinformations spatiales
- Traitements Linguistiques bas niveaux
- Perspectives
3Accès, Communication
- Désir daccéder à linformation
- à travers le téléphone
- sur INTERNET
- Besoin de communiquer
- messagerie
4EDF
Holistique
MAJORDOME messagerie unifiée
intelligente Projet Eureka no 2340
G. Chollet, K. Hallouli , J. Kharroubi, D.
Kofman, L. Likforman, D. Petrovska, M. Sigelle,
P. Vaillant, F. Yvon
5Quest-ce quun Majordome ?
vocal
mèl
télécopies
messages entrants
serveur
traitement des messages
authentification, dialogue, routage,
résumés, mises a jour, agenda
accès aux messages
pager
téléphone
terminal
PDA
6Le Majordome individuel
7Adaptation à lutilisateur
- Serveur multi-utilisateurs diriger les messages
vers le bon utilisateur - Capacité didentifier le destinataire des
messages, quand différents messages arrivent à un
numéro unique (tel. ou fax.) - Capacité dauthentifier lutilisateur lors de
laccès à sa messagerie - Fournir à lutilisateur des paramètres personnels
(carnet dadresses, agenda )
8Adaptation au canal daccès
- Accès par le web
- le contenu de la boîte aux lettres unifiée
peut être affiché de manière synthétique - possibilités étendues de navigation
- les documents visuels sont présentés dans leur
mode naturel - Accès par téléphone
- nécessité de condenser linformation, même lors
de la lecture de la liste des messages - nécessité de résumer les messages importants
9Adaptation à la modalité des messages
- Mode de présentation natif au téléphone pour
les messages vocaux, sur écran pour les méls ou
les fax - Transformations nécessaires dans les autres cas
- Messages vocaux transmis sous forme de fichiers
- Méls ou fax lus (synthèse TTS) au téléphone
- Pour la détection des infos essentielles
(expéditeur, date, sujet, mots-clés) - En-têtes normalisés (ex. RFC-822) pour les méls
- Fax, voix aiguille dans une botte de foin
10Traitements
11Traitement des Télécopies
P. Vaillant, L. Likforman
- Recherche dinformations ciblées consultation
du message adaptée au medium de communication - Objectif routage, transmission
dinformations-clés - Recherche du nom de lexpéditeur
- Analyse spatiale
- Analyse linguistique
- Combinaison des 2 critères
12Télécopies
Expéditeur
Destinataire
Mots clés
13Analyse spatiale
- Repérage de la zone NOM EXPEDITEUR
- Extraction tolérante de mots clés par classe
- Nom NOM/NAME/
- Expéditeur FROM/EXPEDITEUR/DE
- Destinataire TO/A/
14Analyse spatiale critères perceptifs
15Traitement Linguistique
- Objet traiter des données de nature
linguistique - Limites la partie purement OCR (resp.
phonétique) relève de la reconnaissance de
lécrit (resp. de la parole) - Applications
- extraction automatique dinformations-clés
- (expéditeur, destinataire, date, objet,
mots-clés) - résumé automatique
- catégorisation filtrage et routage des messages
16Techniques danalyse linguistique
- Objectif de Majordome traiter les messages en
temps réel - Pas dutilisation extensive des techniques
coûteuses du domaine T.A.L. (parsing ) - Techniques bas niveau , rapides et efficaces
- repérage de formes
- grammaires locales
- outils statistiques
17Repérage de composants-clés
- Repérage des noms propres (1)
- Indices internes
- majuscule au début, ou tout en capitales
- présence dans un dictionnaire de noms propres
- absence dans un dictionnaire de mots communs
- caractéristiques mophologiques internes plus
fréquentes parmi les noms propres (noms de
famille) que parmi les noms communs ex.
composés avec préfixes Le- ou Du- ,
suffixes -eur ou -ault
18Repérage de composants-clés
- Repérage des noms propres (2)
- Indices externes
- présence, dans le contexte local du mot, de
marqueurs didentité ( M. , Mme , Dr. ) - présence, dans le contexte de la phrase,
dindices grammaticaux, comme lapposition du GN
( le député RPR Thierry Mariani ) - présence, dans le meilleur des cas, de marqueurs
de fonction par rapport au message
( Expéditeur , Destinataire , )
19Repérage de composants-clés
- Repérage de mots-clés
- mots apparaissant dans le contexte dune ligne
Objet ou Titre - mots de fréquence relative élevée
- (fréquence relative fréquence dans le document
analysé / fréquence dans un corpus général de la
langue)
20Résumé automatique
- Mesure pour chaque phrase dun score de
représentativité ( de mots-clés) - Extraction des phrases ayant leur score au-dessus
dun seuil donné - Concaténation des phrases choisies
- Résultat texte parfois peu esthétique, mais
généralement lisible et compréhensible - (étude réalisée par Aude Acoulon)
21Catégorisation de textes
- Les genres se manifestent souvent par des
caractéristiques globales (présence excessive de
ponctuations ! ou ? dans les messages
publicitaires, nombre moyen de lettres par mot
plus élevée dans les textes scientifiques, etc.) - Méthode
- mesure dun certain nombre de ces
caractéristiques dans des corpus dapprentissage - max. variance régression linéaire
- discriminateurs
22Techniques utilisées (1)
- Techniques de représentation de lexiques à accès
rapide - Arbres binaires de recherche équilibrés, un mot
par nœud, ordre alphabétique - stockage dun lexique avec infos sur les entrées
- temps daccès réduit (log 2, taille du lexique)
- Tries (graphes acycliques directs), une lettre
par arc - temps daccès minimal (linéaire, taille des mots)
- recherche floue (calcul de distance pendant le
parcours)
23Techniques utilisées (2)
- Techniques statistiques calcul de fréquences
doccurrences - de caractères
- de digrammes (séquences de 2 caractères)
- de trigrammes (séquences de 3 caractères)
- de mots
- de séquences de 2 mots
- Calcul de fréquences de co-occurrences
- Ex. fréquence doccurrence de 2 mots dans une
fenêtre contextuelle de n mots
24Techniques utilisées (3)
- Application de règles de grammaires locales
- Contexte très réduit
- Ex. séquence Mme Chaîne1 Chaîne2
- Chaîne1 appartient à un dictionnaire de prénoms
- Chaîne2 est en capitales
- Chaîne2 est un nom de famille
25Fusion données spatiales et textuelles
- Création dun tableau de paires (mot, zone)
- N.B. Certaines zones (smears) nont pas de mot
(ex. logos, signatures, zones manuscrites ) - Pour chaque entrée, stockage dinformations
obtenues par des traitements sur limage (ex.
zone expéditeur) et dinformations obtenues par
des traitements sur le texte (ex. mot en
capitales, prénom, mot de grande fréquence
relative) - pondération
- indice de confiance pour la détection
26Résultats