Nouvelles m - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

Nouvelles m

Description:

Indexer les documents dans un ' espace s mantique ' plut t que ' de termes ' ... Une t che ambitieuse. Exemples de Requ tes (1) ' Qui est l'auteur du ... – PowerPoint PPT presentation

Number of Views:56
Avg rating:3.0/5.0
Slides: 50
Provided by: Enjal
Category:

less

Transcript and Presenter's Notes

Title: Nouvelles m


1
Nouvelles méthodes d accès assisté à
linformation recherche / extraction /
restitution
2
II. Nouvelles tendances en RI
  • Des analyses (limitées) du  contenu 
  • Méthodes sémantiques d Indexation (expansion de
    requêtes)
  • Combinaison EI-RI - (RI structurée)
  • Systèmes de Question/Réponse
  • Résumé, Navigation inter/intradocumentaire
  • Documents multimédia texte / audio / vidéo

3
1. Méthodes sémantiques d Indexation Indexer
les documents dans un  espace sémantique 
plutôt que  de termes  (mots-formes)Approche
1. Exploiter les relations lexicales
  • B Synonyme de A Sens équivalent
  • B Hyperonyme (Hyponyme)de A Désigne une
    sur-classe (une sous-classe)
  • B Méronyme de A Désigne une partie de A
  • Navire Bateau hyper/hyponyme
  • voile hélice gouvernail voilier cargo paquebot
    méronyme
  • dériveur 3 mats

4
  • Expansion de requête
  • Etendre la requête à des mots sémantiquement
    proches
  • De la forme  matérielle  (mot) au concept
  • Problème limiter le bruit. Où s arrêter dans
    les similitudes entre mots ?

navire
voilier
xxx yyy zzz ttt
comparaison
bateau
ttt xxx uuu
cargo
Porte cochère
5
  • Ressources lexicales
  • Généralistes
  • Wordnet http//www.cogsci.princeton.edu/wn/,
  • Eurowordnet http//www.illc.uva.nl/EuroWordNet/,
  • Balkanet http//www.ceid.upatras.gr/Balkanet/
  • Sémiographe (Mémodata) http//www.memodata.com
  • Spécialisées expansions de ces ressources
    généralistes pour un domaine technique
  • Dictionnaires de terminologie
  • Dictionnaires de synonymes
  • Dictionnaires de langue

6
Approche 2  Espace sémantique  concepts,
entités, thèmes
  • Exemple Moteur de recherche Intuition Sté
    Sinequa
  • http//www.sinequa.com
  • (cf aussi Sté Lingway http//www.lingway.com)
  • Combinaison de plusieurs méthodes
  • Stemming (racinication), lemmatisation
  • Dictionnaire  thématique 
  • Entités nommées
  • Concepts ( terminologie )
  • Classification multiple des documents

7
  • Dictionnaire  thématique 
  • Lidée consiste à répartir lunivers des mots
    sur un espace avec un nombre de dimensions fixe
    environ 800 dimensions (1 dimension un
    ensemble de mots).
  • Un mot peut appartenir à plusieurs dimensions à
    la fois.
  • Par exemple, le mot avocat appartiendra à la
    dimension justice/juridique, mais également à la
    dimension fruit/aliment.
  • Chaque document est converti en un vecteur
    sémantique à 800 composantes. Le poids attribué à
    chaque dimension dépend principalement du nombre
    de termes trouvés dans le document.
  • Une désambiguïsation locale est effectuée pour
    renforcer le poids attribué à une dimension
    lorsquun mot appartient à plusieurs dentre
    elles.

8
  • Requête 1 Requête 2 Requête 3
  • avocat avocat à la Cour récolte des
    avocats
  • Désambiguisation locale

justice
justice
justice
fruit
fruit
fruit
9
  • Entités nommées
  • Reconnaissance par automates (transducteurs) Noms
    de personnes (Jacques Chirac, George W. Bush,
    Messier)
  • Différents types
  • Sociétés/Organisations (Canal , ONU, Dupont
    Corp),
  • Lieux (Paris, Allemagne, Rhône-Alpes),
  • Temporel (12 décembre 99, samedi soir, 1997),
  • Chiffres (12 , 30 K, 30 milliards de
    dollars).
  • Normalisation Blair, Tony Blair, T. Blair
  • Visualisation

Laffaire de larsenal irakien déstabilise Bush
et Blair Aux Etats-Unis et en Grande-Bretagne, la
polémique sur les armes de destruction massive
(ADM) irakiennes prend un tour de plus en plus
embarrassant pour le président américain, George
W. Bush, et pour le premier ministre britannique,
Tony Blair
10

11
  •  Concepts 
  • Extraction de  termes-concepts  groupes
    nominaux minimaux (1-3 mots) (automates)
  • Liens entre  concepts  obtenus par cooccurrence
    dans un corpus large gt réseau de concepts
  • Indexation d un document par ces termes-concepts
  • Le moteur retourne, en plus des documents
    eux-mêmes, les concepts les plus pertinents
  • Calcul de pertinence termes de fréquence
    (pondérée type tf.idf) maximale dans
    l échantillon retourné.

12
(No Transcript)
13
  • Concepts
  • licenciement économique
  • procédures de licenciement
  • plans de licenciements
  • plans sociaux
  • contrats de travail
  • prud'hommes
  • motif économique
  • indemnités de licenciement
  • CDD
  • lettre de licenciement
  • Exemple Concepts liés à la requête licenciement

14
  • Résultat indexation multiple (plusieurs
     espaces sémantiques )
  •  Dimensions  de la langue
  • Entités nommées
  • Concepts
  • Pour une requête donnée
  • pondération de différents critère d adéquation
    entre document et requête
  • Dispositifs de visualisation de documents
    retournés ( enrichis ) entités nommées,
    concepts associés

15
2. Recherche dinformation  structurée Un
croisement RD-EI
  • Objectif
  • - Analyser la structure de la requête, identifier
     l information  (concept) cherché
  • - Trouver dans le texte cette information (et non
    seulement  des mots de la requête ) analyse
    locale, matching de  structures
    informationnelle 
  • - Retourner les passages concerné (1)  Donnez
    moi les textes concernant les transaction en
    Europe d'un montant supérieur à 1 Meuro 

16
  • Exemple 1 "FACILE Classifying Texts
    Integrating Pattern Matching and Information
    Extraction", IJCAI 99 - F. Ciravegna et al.
    (Trente, Vienne, Milan, Manchester)
  • Exemple de requête  Donnez moi les textes
    concernant les transaction en Europe d'un montant
    supérieur à 1 Meuro 
  • Documents articles et dépêches économiques
  • Méthode
  • RD pour une première sélection de documents
    trouver des passages  homogènes 
  • EI pour un matching  fin  des requêtes sur le
    texte.
  • On cherche à instancier une  Micro fiche .
    Exemple
  • un EVT de type TRANSACTION associé à une ENTITE
    LIEU de valeur 'Europe' et une ENTITE MONTANT de
    valeur supérieure à la valeur donnée de 1 Meuro.

17
  • Exemple 2
  • (GéoSem GREYC, ERSS, EPFL)
  •  Trouver les passages qui parlent de la sécurité
    maritime dans la Manche 
  •   Trouver les passages qui parlent des
    difficultés scolaires dans l Ouest dans les
    années 1980 
  • Retour
  • - passages textuels indexés par Thème Temps
    Espace
  • ( cartes)
  • - Espace et Temps analyse syntagmatique
  • - Thème Indexation par des termes-concepts (cf.
    Lingway, Sinéqua)

18
3. Questions/Réponses (Question Answering /
Answer Extraction)Une tâche ambitieuse
  • Exemples de Requêtes
  • (1)  Qui est lauteur du  Dernier tango à
    Paris , Quels autres films a-t-il réalisé
    récemment ? 
  • (2)  Comment fait-on pour changer les droits
    daccès (man. Unix) ? que fait la commande
    tar 
  • Corpus
  • Documents sur le Web / Manuels techniques (ou
    autre docs spécialisés)
  • Résultat de l analyse
  • - La  réponse  (question answering) B.
    Bertollucci Little Budha, Besieged, The
    Dreamers
  • - ou Des phrases ou passages contenant la
    réponse (answer extraction)

19
  • Différents types de requêtes
  • Simples QUI/OU/QUAND
  • Où est le Taj Mahal ?
  • Quelle est la population actuelle de Tucson ?
  • Qui était le premier secrétaire d'Etat de Nixon ?
  • Listes
  • Nommer 30 personnes ayant participé au cabinet de
    R. Reagan.
  • Quels sont les acteurs du film Z ?
  • Nommer 4 pays producteurs de diamants.

20
  • Ouvertes
  • Biographie résumée de Colin Powell (personnage
    public) ?
  • nom, surnoms, adresse, date de naissance,
    formation
  • Que savons nous de la société Y ?
  • structures organisationnelle, lignes de produits,
    dirigeants
  • Comment fait-on pour changer les droits daccès
    (man. Unix) ?
  • que fait la commande tar
  •  Contexte 
  • Quelle cépage est utilisé dans le Château Petrus
    ?
  • combien coûte le cru 1999 ? où le propriétaire
    a-t-il fait ses études ?
  • quel domaine possède-t-il en Califormie ?
  • Combien existe-t-il d'espèces d'araignées ?
    combien
  • sont venimeuses ? quel pourcentage de piqûres
    sont fatales ?

21
  • Méthodes
  • Deux types ( combinées éventuellement)
  • - type EI compréhension assez complète de la
    question et analyse linguistique du texte
  • - type RD appariement basé sur de cooccurrence
    de mots

22
  • Exemple 1 Méthodes de RD analyse simple de la
    question
  •  A question answering System Supported by
    Information Extraction , R. Srihari, W. Li
  •  Who won the 1998 Peace Nobel Prize 
  • Pattern
  • Asking point PERSON
  • Key words won, 1998, Peace,Nobel Prize
  • Repérage dans le texte dun entité PERSON dans un
    contexte contenant les mots-clés.

23
  • Exemple 2 Analyse plus structurelle de la
    question et du texte - Reconnaissance de motifs
  • QUALC (B. Grau, LIMSI)

Qui a réalisé le Dernier Tango à Paris ?
Entité Personne
Connecteur  réaliser 
 Dernier Tango à Paris 
Motif à reconnaître dans le texte
24
  • Exemple 3 Méthodes proches de la compréhension
    automatique
  •   Extrans, an answer extraction system , TAL,
    41-2, 2000. - Auteurs D. Molla, R. Schwittler,
    M. Hess, R. Fournier (Université de Zurich)
  • - Manuels techniques. P. ex. Man Unix
  •  Comment fait-on pour changer les droits
    daccès? que fait la commande cp 
  • - Analyse sémantique du texte
  • cp copies files
  • holds(e1) object(cp, x1) evt(copy,e1,x1,x2)
    object(file, x2)
  • - Appariement  logique  avec la question
  • Does cp coies files ?
  • ?- evt(copy,e1,X,Y) object(cp,X)
    object(file,Y)

25
4. Résumé et navigation dans des bases de
données documentaires
  • I. Résumé Une autre manière d extraire/restitue
    r de l information
  • Méthodes
  • 1) Par  extraction  (Type RD )
  • Repérage de segments représentatifs de
    l ensemble dun document. Retour de ces segments
    comme résumé.
  • Critères de type lexical/statistique présence
     concentrée  des termes les plus fréquents
    (tf.idf)
  • indices linguistiques  en résumé ,  en
    conclusion ,  dans cet article nous   (Tous
    textes)
  • Vocabulaire spécifique (Domaine ciblé, profil
    utilisateur)

26
Termes représentatifs truc, bidule, machin,
chose
27
  • 2) Par  compréhension  (type EI)
  • Repérage de segments pertinents (cf méthode 1)
  • Analyse linguistique produisant une
    représentation sémantique ou  conceptuelle 
  • Génération multilingue
  • Problème analyse sémantique
  • Textes techniques ciblés
  • Exemple projet MUSI (brevets)

28
  • 2. Navigation inter-intra-documentaire
  • Analyse orientée par une requête de
    l utilisateur
  • Sélection de passages dans le (les) document(s)
  • Visualisation / navigation dans le corpus par des
    dispositifs de visualisation
  • Exemple projet Régal (ou Géosem)
  • Peut être couplé avec du résume même type de
    techniques, présentation différente ou
    complémentaire

29
(No Transcript)
30
Conclusions / Discussion Accès assisté à
lInformation
  • Des tâches ambitieuses, impliquant une analyse
    fine , du  contenu  des documents
  • Bien au delà de la  recherche documentaire 
    classique.
  • Grande variété de tâches possibles (et
    combinables)
  • Faisabilité
  • Une idée reçue  Seuls les traitements numériques
    et de surface peuvent être suffisamment
    efficaces 
  • Pas sur le  corpus-web  (probablement)
  • Pour des fonds documentaires spécialisés (ou
    après filtrage)
  • Formes et connaissances spécifiques  fortes 
    exploitables
  • Utilisateurs avertis et exigeants

31
II. Lexemple du document géographique
  • Pourquoi ?
  • Usage social (collectivités, grandes
    entreprises)
  • Etudes locales (Collab. Informatique-Géographie)
  • Des caractéristiques fortes
  • Macro structuration de linformation
  • Documents (souvent) longs
  • Composite texte cartes (et autres graphiques)
  • Projet GéoSem
  • Programme pluridiscip.  Société de
    lInformation 
  • GREYC(Info), ESO (Géo.), ERSS(Ling.), EPFL (Doc.)
  • Etape d un projet à long terme Sémantique/TALN

32
Structuration de lInformation Géographique
  • Associe
  • Un phénomène (P) Quoi ?
  • Un espace (E) Où ?
  • (souvent) Un temps (T) Quand ?
  • Se repère immédiatement sur des documents

33
La féminisation du corps enseignant du premier
degré est très variable selon les départements
un instituteur pour deux institutrices dans le
Pas-de-Calais, en Ariège et en Lozère, mais un
pour quatre, voire pour cinq, dans les
départements parisiens. En règle assez générale,
la féminisation du premier degré est d'autant
plus grande que l'urbanisation est importante,
les vieilles régions industrielles et le
Languedoc faisant exception.
34
Jusquau milieu des années 1980, les taux de
retard scolaire ont fortement varié selon les
configurations géographiques Ainsi dans
l Aveyron, à Paris ou dans les
Pyrénées-Atlantiques, seulement un enfant de 6
sur trois est en retard scolaire
35
Objectifs du projet
  • Interrogation multidimensionnelle
  • Retard scolaire dans l Ouest dans les années
    1950
  • Politiques de sécurité maritime dans la Manche
  • Evolution du vote FN dans lOuest entre 97 et
    2002
  • Contrastes/similarités électorales entre
    Normandie et Bretagne
  • Retour segments du document
  • Passages de texte
  • Cartes
  • Problématique de document long et composite

36
(No Transcript)
37
Facettes de lanalyse
  • 1. Sémantique locale Expressions spatiales et
    temporelles
  • 2. Sémantique textuelle Segmentation discursive
  • 3. Extraction de connaissance Structuration du
    domaine
  • 4. Sémiologie des cartes et liens avec le texte

38
1. Expressions spatiales et temporelles
  • Syntagmes nominaux et prépositionnels complexes
  • Jusquau milieu des années 1980
  • Dans les départements ouvriers du nord de la
    France
  • Méthodes  de surface  (suites de mots)
    impraticables !
  • Analyse
  • Grammaires syntagmatiques  locales 
  • En Prolog (DCG)
  • Sémantique compositionnelle
  • Produit des  structures de traits 
    interprétables en contexte.

39
Exemple  Au milieu des années 1980 
Sémantique abstraite en terme d 
 opérateurs   Calcul de la référence
Type complexe
temporel
Opérateur milieu
Opérande
Référence 1982,1987
40
Expressions spatiales
En Bretagne Au Nord d une ligne
Bordeaux-Genève Dans les départements les plus
urbanisé de lOuest
Mêmes méthodes - Plus complexe - Diffcultés
sémantique spatiale pour le requêtage (en
cours). Faut-il  matcher  Nord de
Paris avec Le 18ème ? Le 93 ? Lille ? Dans le
Calvados avec Caen ? En Normandie Quel degré
de pertinence ?
41
2. Segmentation discursive (1) Lien P-S-T
  • Problème faire le lien entre le Quoi, le Où et
    le Quand
  • Méthode
  • Compléments circonstanciels approché par
    cooccurrence dans un phrase.
  • Exploitation de lien syntaxiques et de la théorie
    des  cadres de discours  (Charolles)
  • Résultat Indexation  Multi-thème  de segments
    documentaires

42
Jusquau milieu des années 1980, les taux de
retard scolaire ont fortement varié selon les
configurations géographiques Ainsi dans
l Aveyron, à Paris ou dans les
Pyrénées-Atlantiques, seulement un enfant de 6
sur trois est en retard scolaire...
43
2. Segmentation discursive (2) Analyse
rhétorique
  • Modèles de structuration du  raisonnement
    géographique  détectables (?)
  • - Loi/Observation générale
  • - Instanciation comparative dans l espace, le
    temps
  • - Synthèse
  • Modèle textuel
  • - Structure énumérative
  • - Amorce / conclusion
  • Applications
  • - Interrogation sur contrastes/similarités
     comparaison des situations électorales entre
    Normandie et Bretagne 
  • Similaire à EI, mais au niveau textuel 
  • - Résumé exploitation des amorces/synthèses

44
(No Transcript)
45
3. Structuration du domaine (P)
  • Détection automatique d axes  structurants 
  • Domaine scolaire Ecole élémentaire, Collège,
    Lycée, Université / Privé, Public / Filière
    technique, générale
  • Politique Ext.G., Gauche, Centre / Elections
    municipales, régionales, législatives
  • Méthodes
  • Apprentissage sur corpus vaste et homogène
  • Extraction de composantes potentielles (SN
    complexes)
  • Collecte d indices contextuels Titres /
    Introducteurs de cadres / Positions thématique
    (préverbal) /
  • Hypothèse les termes  structurants  ont plus
    de chance de se trouver dans ces positions
    remarquables

46
(No Transcript)
47
4. Cartes
  • Repérage des titres et légendes et analyse
    linguistique
  • ? Indexation et interrogation en composantes
    P-S-T (même format que le texte)
  • Analyse d image regroupements perceptifs
  • ? contrastes et similarité, requêtes
    relationnelles
  • Modèle de la carte représentation, sémiologie,
    interprétation

48
(No Transcript)
49
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com