Title: Nouvelles m
1Nouvelles méthodes d accès assisté à
linformation recherche / extraction /
restitution
2II. Nouvelles tendances en RI
- Des analyses (limitées) du contenu
- Méthodes sémantiques d Indexation (expansion de
requêtes) - Combinaison EI-RI - (RI structurée)
- Systèmes de Question/Réponse
- Résumé, Navigation inter/intradocumentaire
- Documents multimédia texte / audio / vidéo
31. Méthodes sémantiques d Indexation Indexer
les documents dans un espace sémantique
plutôt que de termes (mots-formes)Approche
1. Exploiter les relations lexicales
- B Synonyme de A Sens équivalent
- B Hyperonyme (Hyponyme)de A Désigne une
sur-classe (une sous-classe) - B Méronyme de A Désigne une partie de A
- Navire Bateau hyper/hyponyme
- voile hélice gouvernail voilier cargo paquebot
méronyme -
- dériveur 3 mats
4- Expansion de requête
- Etendre la requête à des mots sémantiquement
proches - De la forme matérielle (mot) au concept
- Problème limiter le bruit. Où s arrêter dans
les similitudes entre mots ?
navire
voilier
xxx yyy zzz ttt
comparaison
bateau
ttt xxx uuu
cargo
Porte cochère
5- Ressources lexicales
- Généralistes
- Wordnet http//www.cogsci.princeton.edu/wn/,
- Eurowordnet http//www.illc.uva.nl/EuroWordNet/,
- Balkanet http//www.ceid.upatras.gr/Balkanet/
- Sémiographe (Mémodata) http//www.memodata.com
- Spécialisées expansions de ces ressources
généralistes pour un domaine technique - Dictionnaires de terminologie
- Dictionnaires de synonymes
- Dictionnaires de langue
6 Approche 2 Espace sémantique concepts,
entités, thèmes
- Exemple Moteur de recherche Intuition Sté
Sinequa - http//www.sinequa.com
- (cf aussi Sté Lingway http//www.lingway.com)
- Combinaison de plusieurs méthodes
- Stemming (racinication), lemmatisation
- Dictionnaire thématique
- Entités nommées
- Concepts ( terminologie )
- Classification multiple des documents
7 - Dictionnaire thématique
- Lidée consiste à répartir lunivers des mots
sur un espace avec un nombre de dimensions fixe
environ 800 dimensions (1 dimension un
ensemble de mots). - Un mot peut appartenir à plusieurs dimensions à
la fois. - Par exemple, le mot avocat appartiendra à la
dimension justice/juridique, mais également à la
dimension fruit/aliment. - Chaque document est converti en un vecteur
sémantique à 800 composantes. Le poids attribué à
chaque dimension dépend principalement du nombre
de termes trouvés dans le document. - Une désambiguïsation locale est effectuée pour
renforcer le poids attribué à une dimension
lorsquun mot appartient à plusieurs dentre
elles.
8 - Requête 1 Requête 2 Requête 3
- avocat avocat à la Cour récolte des
avocats - Désambiguisation locale
justice
justice
justice
fruit
fruit
fruit
9 - Entités nommées
- Reconnaissance par automates (transducteurs) Noms
de personnes (Jacques Chirac, George W. Bush,
Messier) - Différents types
- Sociétés/Organisations (Canal , ONU, Dupont
Corp), - Lieux (Paris, Allemagne, Rhône-Alpes),
- Temporel (12 décembre 99, samedi soir, 1997),
- Chiffres (12 , 30 K, 30 milliards de
dollars). - Normalisation Blair, Tony Blair, T. Blair
- Visualisation
Laffaire de larsenal irakien déstabilise Bush
et Blair Aux Etats-Unis et en Grande-Bretagne, la
polémique sur les armes de destruction massive
(ADM) irakiennes prend un tour de plus en plus
embarrassant pour le président américain, George
W. Bush, et pour le premier ministre britannique,
Tony Blair
10 11 - Concepts
- Extraction de termes-concepts groupes
nominaux minimaux (1-3 mots) (automates) - Liens entre concepts obtenus par cooccurrence
dans un corpus large gt réseau de concepts - Indexation d un document par ces termes-concepts
- Le moteur retourne, en plus des documents
eux-mêmes, les concepts les plus pertinents - Calcul de pertinence termes de fréquence
(pondérée type tf.idf) maximale dans
l échantillon retourné.
12(No Transcript)
13 - Concepts
- licenciement économique
- procédures de licenciement
- plans de licenciements
- plans sociaux
- contrats de travail
- prud'hommes
- motif économique
- indemnités de licenciement
- CDD
- lettre de licenciement
- Exemple Concepts liés à la requête licenciement
14 - Résultat indexation multiple (plusieurs
espaces sémantiques ) - Dimensions de la langue
- Entités nommées
- Concepts
-
- Pour une requête donnée
- pondération de différents critère d adéquation
entre document et requête - Dispositifs de visualisation de documents
retournés ( enrichis ) entités nommées,
concepts associés
152. Recherche dinformation structurée Un
croisement RD-EI
- Objectif
- - Analyser la structure de la requête, identifier
l information (concept) cherché - - Trouver dans le texte cette information (et non
seulement des mots de la requête ) analyse
locale, matching de structures
informationnelle - - Retourner les passages concerné (1) Donnez
moi les textes concernant les transaction en
Europe d'un montant supérieur à 1 Meuro
16- Exemple 1 "FACILE Classifying Texts
Integrating Pattern Matching and Information
Extraction", IJCAI 99 - F. Ciravegna et al.
(Trente, Vienne, Milan, Manchester) - Exemple de requête Donnez moi les textes
concernant les transaction en Europe d'un montant
supérieur à 1 Meuro - Documents articles et dépêches économiques
- Méthode
- RD pour une première sélection de documents
trouver des passages homogènes - EI pour un matching fin des requêtes sur le
texte. - On cherche à instancier une Micro fiche .
Exemple - un EVT de type TRANSACTION associé à une ENTITE
LIEU de valeur 'Europe' et une ENTITE MONTANT de
valeur supérieure à la valeur donnée de 1 Meuro.
17- Exemple 2
- (GéoSem GREYC, ERSS, EPFL)
- Trouver les passages qui parlent de la sécurité
maritime dans la Manche - Trouver les passages qui parlent des
difficultés scolaires dans l Ouest dans les
années 1980 - Retour
- - passages textuels indexés par Thème Temps
Espace - ( cartes)
- - Espace et Temps analyse syntagmatique
- - Thème Indexation par des termes-concepts (cf.
Lingway, Sinéqua)
183. Questions/Réponses (Question Answering /
Answer Extraction)Une tâche ambitieuse
- Exemples de Requêtes
- (1) Qui est lauteur du Dernier tango à
Paris , Quels autres films a-t-il réalisé
récemment ? - (2) Comment fait-on pour changer les droits
daccès (man. Unix) ? que fait la commande
tar - Corpus
- Documents sur le Web / Manuels techniques (ou
autre docs spécialisés) - Résultat de l analyse
- - La réponse (question answering) B.
Bertollucci Little Budha, Besieged, The
Dreamers - - ou Des phrases ou passages contenant la
réponse (answer extraction)
19- Différents types de requêtes
- Simples QUI/OU/QUAND
- Où est le Taj Mahal ?
- Quelle est la population actuelle de Tucson ?
- Qui était le premier secrétaire d'Etat de Nixon ?
- Listes
- Nommer 30 personnes ayant participé au cabinet de
R. Reagan. - Quels sont les acteurs du film Z ?
- Nommer 4 pays producteurs de diamants.
20- Ouvertes
- Biographie résumée de Colin Powell (personnage
public) ? - nom, surnoms, adresse, date de naissance,
formation - Que savons nous de la société Y ?
- structures organisationnelle, lignes de produits,
dirigeants - Comment fait-on pour changer les droits daccès
(man. Unix) ? - que fait la commande tar
- Contexte
- Quelle cépage est utilisé dans le Château Petrus
? - combien coûte le cru 1999 ? où le propriétaire
a-t-il fait ses études ? - quel domaine possède-t-il en Califormie ?
- Combien existe-t-il d'espèces d'araignées ?
combien - sont venimeuses ? quel pourcentage de piqûres
sont fatales ?
21- Méthodes
- Deux types ( combinées éventuellement)
- - type EI compréhension assez complète de la
question et analyse linguistique du texte - - type RD appariement basé sur de cooccurrence
de mots
22- Exemple 1 Méthodes de RD analyse simple de la
question - A question answering System Supported by
Information Extraction , R. Srihari, W. Li - Who won the 1998 Peace Nobel Prize
- Pattern
- Asking point PERSON
- Key words won, 1998, Peace,Nobel Prize
- Repérage dans le texte dun entité PERSON dans un
contexte contenant les mots-clés.
23- Exemple 2 Analyse plus structurelle de la
question et du texte - Reconnaissance de motifs - QUALC (B. Grau, LIMSI)
Qui a réalisé le Dernier Tango à Paris ?
Entité Personne
Connecteur réaliser
Dernier Tango à Paris
Motif à reconnaître dans le texte
24- Exemple 3 Méthodes proches de la compréhension
automatique - Extrans, an answer extraction system , TAL,
41-2, 2000. - Auteurs D. Molla, R. Schwittler,
M. Hess, R. Fournier (Université de Zurich) - - Manuels techniques. P. ex. Man Unix
- Comment fait-on pour changer les droits
daccès? que fait la commande cp - - Analyse sémantique du texte
- cp copies files
- holds(e1) object(cp, x1) evt(copy,e1,x1,x2)
object(file, x2) - - Appariement logique avec la question
- Does cp coies files ?
- ?- evt(copy,e1,X,Y) object(cp,X)
object(file,Y)
254. Résumé et navigation dans des bases de
données documentaires
- I. Résumé Une autre manière d extraire/restitue
r de l information - Méthodes
- 1) Par extraction (Type RD )
- Repérage de segments représentatifs de
l ensemble dun document. Retour de ces segments
comme résumé. - Critères de type lexical/statistique présence
concentrée des termes les plus fréquents
(tf.idf) - indices linguistiques en résumé , en
conclusion , dans cet article nous (Tous
textes) - Vocabulaire spécifique (Domaine ciblé, profil
utilisateur)
26Termes représentatifs truc, bidule, machin,
chose
27- 2) Par compréhension (type EI)
- Repérage de segments pertinents (cf méthode 1)
- Analyse linguistique produisant une
représentation sémantique ou conceptuelle - Génération multilingue
- Problème analyse sémantique
- Textes techniques ciblés
- Exemple projet MUSI (brevets)
28-
- 2. Navigation inter-intra-documentaire
- Analyse orientée par une requête de
l utilisateur - Sélection de passages dans le (les) document(s)
- Visualisation / navigation dans le corpus par des
dispositifs de visualisation - Exemple projet Régal (ou Géosem)
- Peut être couplé avec du résume même type de
techniques, présentation différente ou
complémentaire
29(No Transcript)
30Conclusions / Discussion Accès assisté à
lInformation
- Des tâches ambitieuses, impliquant une analyse
fine , du contenu des documents - Bien au delà de la recherche documentaire
classique. - Grande variété de tâches possibles (et
combinables) - Faisabilité
- Une idée reçue Seuls les traitements numériques
et de surface peuvent être suffisamment
efficaces - Pas sur le corpus-web (probablement)
- Pour des fonds documentaires spécialisés (ou
après filtrage) - Formes et connaissances spécifiques fortes
exploitables - Utilisateurs avertis et exigeants
31II. Lexemple du document géographique
- Pourquoi ?
- Usage social (collectivités, grandes
entreprises) - Etudes locales (Collab. Informatique-Géographie)
- Des caractéristiques fortes
- Macro structuration de linformation
- Documents (souvent) longs
- Composite texte cartes (et autres graphiques)
- Projet GéoSem
- Programme pluridiscip. Société de
lInformation - GREYC(Info), ESO (Géo.), ERSS(Ling.), EPFL (Doc.)
- Etape d un projet à long terme Sémantique/TALN
32Structuration de lInformation Géographique
- Associe
- Un phénomène (P) Quoi ?
- Un espace (E) Où ?
- (souvent) Un temps (T) Quand ?
- Se repère immédiatement sur des documents
33La féminisation du corps enseignant du premier
degré est très variable selon les départements
un instituteur pour deux institutrices dans le
Pas-de-Calais, en Ariège et en Lozère, mais un
pour quatre, voire pour cinq, dans les
départements parisiens. En règle assez générale,
la féminisation du premier degré est d'autant
plus grande que l'urbanisation est importante,
les vieilles régions industrielles et le
Languedoc faisant exception.
34 Jusquau milieu des années 1980, les taux de
retard scolaire ont fortement varié selon les
configurations géographiques Ainsi dans
l Aveyron, à Paris ou dans les
Pyrénées-Atlantiques, seulement un enfant de 6
sur trois est en retard scolaire
35Objectifs du projet
- Interrogation multidimensionnelle
- Retard scolaire dans l Ouest dans les années
1950 - Politiques de sécurité maritime dans la Manche
- Evolution du vote FN dans lOuest entre 97 et
2002 - Contrastes/similarités électorales entre
Normandie et Bretagne - Retour segments du document
- Passages de texte
- Cartes
- Problématique de document long et composite
36(No Transcript)
37Facettes de lanalyse
- 1. Sémantique locale Expressions spatiales et
temporelles - 2. Sémantique textuelle Segmentation discursive
- 3. Extraction de connaissance Structuration du
domaine - 4. Sémiologie des cartes et liens avec le texte
381. Expressions spatiales et temporelles
- Syntagmes nominaux et prépositionnels complexes
- Jusquau milieu des années 1980
- Dans les départements ouvriers du nord de la
France - Méthodes de surface (suites de mots)
impraticables ! - Analyse
- Grammaires syntagmatiques locales
- En Prolog (DCG)
- Sémantique compositionnelle
- Produit des structures de traits
interprétables en contexte.
39Exemple Au milieu des années 1980
Sémantique abstraite en terme d
opérateurs Calcul de la référence
Type complexe
temporel
Opérateur milieu
Opérande
Référence 1982,1987
40Expressions spatiales
En Bretagne Au Nord d une ligne
Bordeaux-Genève Dans les départements les plus
urbanisé de lOuest
Mêmes méthodes - Plus complexe - Diffcultés
sémantique spatiale pour le requêtage (en
cours). Faut-il matcher Nord de
Paris avec Le 18ème ? Le 93 ? Lille ? Dans le
Calvados avec Caen ? En Normandie Quel degré
de pertinence ?
412. Segmentation discursive (1) Lien P-S-T
- Problème faire le lien entre le Quoi, le Où et
le Quand - Méthode
- Compléments circonstanciels approché par
cooccurrence dans un phrase. - Exploitation de lien syntaxiques et de la théorie
des cadres de discours (Charolles) - Résultat Indexation Multi-thème de segments
documentaires
42 Jusquau milieu des années 1980, les taux de
retard scolaire ont fortement varié selon les
configurations géographiques Ainsi dans
l Aveyron, à Paris ou dans les
Pyrénées-Atlantiques, seulement un enfant de 6
sur trois est en retard scolaire...
432. Segmentation discursive (2) Analyse
rhétorique
- Modèles de structuration du raisonnement
géographique détectables (?) - - Loi/Observation générale
- - Instanciation comparative dans l espace, le
temps - - Synthèse
- Modèle textuel
- - Structure énumérative
- - Amorce / conclusion
- Applications
- - Interrogation sur contrastes/similarités
comparaison des situations électorales entre
Normandie et Bretagne - Similaire à EI, mais au niveau textuel
- - Résumé exploitation des amorces/synthèses
44(No Transcript)
453. Structuration du domaine (P)
- Détection automatique d axes structurants
- Domaine scolaire Ecole élémentaire, Collège,
Lycée, Université / Privé, Public / Filière
technique, générale - Politique Ext.G., Gauche, Centre / Elections
municipales, régionales, législatives - Méthodes
- Apprentissage sur corpus vaste et homogène
- Extraction de composantes potentielles (SN
complexes) - Collecte d indices contextuels Titres /
Introducteurs de cadres / Positions thématique
(préverbal) / - Hypothèse les termes structurants ont plus
de chance de se trouver dans ces positions
remarquables
46(No Transcript)
474. Cartes
- Repérage des titres et légendes et analyse
linguistique - ? Indexation et interrogation en composantes
P-S-T (même format que le texte) - Analyse d image regroupements perceptifs
- ? contrastes et similarité, requêtes
relationnelles - Modèle de la carte représentation, sémiologie,
interprétation
48(No Transcript)
49(No Transcript)