Une Prsentation de la LSA - PowerPoint PPT Presentation

1 / 57
About This Presentation
Title:

Une Prsentation de la LSA

Description:

Un outil qui permet de d terminer les similarit s (au niveau du sens) entre des mots ou des segments de texte ... Pour aider pr dire dans quel segment ils apparaissent ... – PowerPoint PPT presentation

Number of Views:106
Avg rating:3.0/5.0
Slides: 58
Provided by: ERSS7
Category:

less

Transcript and Presenter's Notes

Title: Une Prsentation de la LSA


1
Une Présentation de la LSA
  • C. Pimm

2
LSA ?
  • LSA Latent Semantic Analysis (Analyse
    Sémantique Latente)
  • Développée par des psychologues au début des
    années 1990
  • Pour faire de l'extraction d'information
  • résoudre les problèmes de polysémie et de
    synonymie
  • Aujourd'hui la LSA est
  • Un outil qui permet de déterminer les similarités
    (au niveau du sens) entre des mots ou des
    segments de texte
  • Une théorie expliquant l'acquisition et la
    représentation du savoir

3
LSA ? (2)
  • A l'aide de l'analyse d'un très large corpus
  • Idée de base
  • Un segment de texte est une équation linéaire
  • Son sens est (plus ou moins) la somme des sens
    des mots qui le composent
  • s(seg) s(mot1)s(mot2)s(motn)
  • Le sens d'un mot est la moyenne des sens des
    segments dans lesquels il apparaît

4
LSA ? (3)
  • La LSA n'est pas basée sur le repérage de
    co-occurrences de n-grammes (bigrammes,
    trigrammes)
  • Plus de 99 des termes que la LSA juge similaires
    n'apparaissent jamais côte à côte dans un
    paragraphe

5
Ne sont pas utilisés par la LSA
  • Des dictionnaires
  • Des bases de connaissances
  • Des réseaux sémantiques
  • Des grammaires
  • Des étiquettes morpho-syntaxiques
  • La LSA ne tient pas compte de l'ordre des mots et
    des variantes morphologiques

6
Les espaces sémantiques (1)
  • Représentation mathématique dun ensemble
    important de textes
  • Lieu de la comparaison entre segments et/ou
    termes
  • Chaque mot un vecteur
  • Chaque segment un vecteur somme des vecteurs
    des mots le composant

7
Les espaces sémantiques (2)
  • Distance sémantique entre 2 mots ou 2 segments
  • Cosinus de langle entre leurs vecteurs
  • Cosinus proche de 1 distance sémantique faible
    mots ou segments proches
  • Cosinus éloigné de 1 distance sémantique
    importante mots ou segments nont pas un sens
    semblable

8
Exemples despaces sémantiques (1)
  • Utilisés par les applications de base sur le site
    de la LSA
  • Espaces anglophones
  • Literature littérature anglaise et américaine
    du 18ème et 19ème siècles ( de 57 millions de
    mots)
  • Encyclopedia de 30 articles encyclopédiques
    dont seuls les titres sont utilisés
  • Smallheart à partir d articles sur le cur
    contient une phrase de chaque article

9
Exemples despaces sémantiques (2)
  • Espaces francophones
  • Français-Production-Total textes écrits par des
    enfants (7-12 ans) à l école primaire.Origine
    France Belgique
  • Français-Livres 1, 2 3 livres publiés avant
    1920 (1 2) ou récents (2 3)
  • Français-Contes-Total contes trouvés sur le Web
  • Français-Monde 2 espaces 2 x 6 mois
    darticles du monde (1993)

10
Création des espaces sémantiques
  • Etapes
  • 1 - Création dune matrice de base mots/segment
  • 2 - Opérations sur les cellules de la matrice
  • 3 - Décomposition en valeurs singulières
  • 4 - Reconstruction dune matrice mot/segment
    après réduction de dimensions

11
En entrée
  • Du texte brut
  • Ce texte est segmenté en mots
  • 1 mot une séquence de caractères unique
  • Mots regroupés en segments jugés (sémantiquement)
    pertinents phrases et paragraphes

12
Un exemple (1)
  • En entrée 9 titres de mémos techniques
  • 5 traitant de l'interaction homme-machine
  • 4 traitant de la théorie des graphes
  • (exemple repris plusieurs fois dans les papiers
    sur la LSA)

13
Etape 1 première matrice
  • Le texte brut est d'abord entré dans une matrice
  • Chaque ligne un mot
  • Chaque colonne contexte (ex passage)
  • Exemple
  • Dans l'exemple, les auteurs ont choisi de faire
    figurer en ligne les mots figurant au moins 2
    fois dans l'ensemble des titres

14
Un exemple (2)Matrice A
15
Etape 2 préparation de la matrice
  • Les fréquences dans les cellules subissent 2
    transformations
  • Calcul du log de chaque fréquence 1
  • Puis, calcul de l'entropie de chaque ligne (mot)
    et division de chaque cellule de la ligne par
    cette entropie
  • Pourquoi ? Permet de pondérer les mots
  • Par rapport à leur importance dans les segments
  • Pour aider à prédire dans quel segment ils
    apparaissent

Entropie Notion utilisée en théorie de
l'information. Qualifie l'état de désordre d'une
source d'information. Plus elle est élevée, plus
il est difficile de prévoir l'information générée
par cette source.
16
Etape 3 SVD
  • SVD Singular Value Decompositionou
    Décomposition en valeurs Singulières
  • La matrice de départ est décomposée en 3 matrices
  • Une matrice orthogonale issue des lignes
  • Une matrice orthogonale issue des colonnes
  • Une dernière (matrice diagonale) contenant les
    valeurs singulières
  • Soit A la matrice de départ et M, S C les trois
    matrices dérivées par SVD
  • On a A MSCT

17
Un exemple (3)SVD Matrice M
18
Un exemple (4)SVD Matrice S
19
Un exemple (5)SVD Matrice C
20
Etape 4 Dernière matrice
  • A partir des 3 matrices de l'étape précédente
  • Réduction des dimensions à ce niveau
  • Suppression de valeurs dans la matrice diagonale
    avant le produit des 3 matrices
  • En commençant par la valeur la plus faible
  • Produit des trois matrices
  • On obtient une nouvelle matrice qui constitue un
    espace sémantique

21
Un exemple (6)Réduction de dimensions
Les auteurs choisissent de garder pour l'exemple
2 dimensions. On garde les plus élevées. Cela
revient à remplacer toutes les valeurs en vert
par zéro.
22
Un exemple (7)Matrice M x S x C
23
Applications LSA (1)
  • Disponibles sur le site
  • 5 applications de base
  • Near Neighbors (voisins)
  • Matrix Comparison (comparaison dans une matrice)
  • Sentence Comparison (comparaison de phrases)
  • One-To-Many Comparison (un comparé à plusieurs)
  • Pairwise Comparison (comparaison deux à deux)

24
Applications LSA (2)
  • Commun aux 5 applications
  • Le choix du Topic Space choix de lespace
    sémantique dans lequel le(s) texte(s) soumis
    va(vont) être analysés
  • Number of factors to use le nombre de facteurs
    (dimensions) qui vont être utilisés pour
    lanalyse.Par défaut la totalité des facteurs
    de lespace sémantique choisi sont conservés
  • En entrée toujours du texte brut

25
Near Neighbors
  • En entrée terme ou texte court
  • Paramètres supplémentaires
  • Nombre de termes à renvoyer
  • Fréquence minimum des termes à renvoyer dans le
    corpus
  • Pondération ou non du texte d'entrée
  • En sortie liste de termes proches dans l'espace
    sémantique choisi du texte soumis avec le score
    LSA correspondant

26
Near NeighborsUn exemple (1)
  • Texte soumis "arbre"
  • Sans limite minimum de fréquence (f 0)
  • Nombre de termes à renvoyer 5
  • Espaces sémantiques (avec max factors)
  • Français-Contes-Total (300 facteurs)
  • Français-Livres1and2 (300 facteurs)
  • Français-Psychology (300 facteurs)

27
Near NeighborsUn exemple (2)
28
Matrix Comparison
  • En entrée n termes ou textes à comparer,
    séparés par des lignes vides
  • Le type de comparaison
  • Terme à terme ou document à document
  • En sortie Une matrice de dimension n x n
  • Chaque cellule contient le score de similarité
    entre deux textes le cosinus de l'angle entre
    ces deux textes dans l'espace sémantique choisi
  • Donc
  • Avec score éloigné de 1 textes peu similaires
  • Avec score proche de 1 textes très similaires

29
Matrix ComparisonUn exemple (1)
  • Pour essayer de mesurer la cohérence de la
    titraille d'un texte
  • Titres du chapitre Entité/Association (P. Rigaux,
    corpus du projet VISU)
  • Utilisation de l'application Matrix Comparison
  • Chaque titre va être comparé à tous les autres
  • Entrée
  • Textes titres séparés par des lignes vides
  • Espace sémantique Français-Total (300 facteurs)
    (faute de mieux)

30
  • Comparaison "document to document"
  • T1 Principes généraux T2 Bons et mauvais
    schémas
  • T3 Anomalies lors d'une insertion T4
    Anomalies lors d'une modification
  • T5 Anomalies lors d'une destruction T6 La
    bonne méthode
  • T7 Le modèle E/A Présentation informelle T8
    Le modèle
  • T9 Entités, attributs et identifiants T10
    Attributs
  • T11 Types d'entités T12 Associations
    binaires
  • T13 Entités faibles T14 Associations
    généralisées
  • T15 Avantage et inconvénients du modèle E/A T16
    Pour en savoir plus

31
  • Comparaison "term to term"
  • T1 Principes généraux T2 Bons et mauvais
    schémas
  • T3 Anomalies lors d'une insertion T4
    Anomalies lors d'une modification
  • T5 Anomalies lors d'une destruction T6 La
    bonne méthode
  • T7 Le modèle E/A Présentation informelle T8
    Le modèle
  • T9 Entités, attributs et identifiants T10
    Attributs
  • T11 Types d'entités T12 Associations
    binaires
  • T13 Entités faibles T14 Associations
    généralisées
  • T15 Avantage et inconvénients du modèle E/A T16
    Pour en savoir plus

32
Sentence Comparison(1)
  • Pour mesurer la cohérence entre deux phrases
    successives
  • En entrée un texte composé d'au moins 2 phrases
  • Segmentation des phrases en fonction de la
    ponctuation
  • Délimiteurs de fin de phrase . ? !

33
Sentence Comparison(2)
  • En sortie pour n phrases
  • n-1 scores (appelés cohérence phrase à phrase)
    1 pour chaque couple de phrases qui se suivent
  • Score cosinus de l'angle entre les phrases dans
    l'espace sémantique choisi (donc
    )
  • Données de sortie supplémentaires
  • Moyenne des cohérences phrase à phrase
  • Ecart Type (dispersion des valeurs par rapport à
    la moyenne)

34
Sentence ComparisonUn exemple (1)
  • Phrases
  • To compute the similarity of multiple sentences,
    enter your text in the input box below.
  • Use normal punctuation to separate each sentence.
  • Then press the 'Submit Texts' button.
  • The system will compute a similarity score
    between -1 and 1 for each submitted sentence
    compared to next submitted sentence.
  • Espace sémantique encyclopedia (371 facteurs)

35
Sentence ComparisonUn exemple (2)
  • Résultat Sentence to Sentence Coherence
    Comparison Results
  • The submitted texts' sentence to sentence
    coherence

36
Sentence ComparisonUn exemple (3)
  • Mean of the Sentence to Sentence Coherence is
    0.09
  • Moyenne des scores 0.09
  • Standard deviation of the Sentence to Sentence
    is 0.04
  • Écart Type 0.04

37
One-To-ManyComparison
  • En entrée un texte principal et une série
    d'autres textes à comparer avec ce texte
  • Autres paramètres
  • Type de comparaison terme à terme, document à
    document, terme à document ou document à terme
  • Possibilité d'afficher la longueur des vecteurs
    pour chaque texte
  • En sortie matrice contenant le score de
    similarité entre le texte principal et les autres
    textes dans l'espace sémantique choisi

38
One-To-Many ComparisonUn exemple (1)
  • Textes d'entrée
  • One le titre "Attributs" du chapitre Entité/
    Association
  • Many deux "textes" le premier paragraphe et
    le reste du segment titré par "Attributs"
  • Espace sémantique Français-Total
  • Type de comparaison document to document
  • Question le premier paragraphe est-il plus lié
    au titre que le reste du segment titré ?

39
  • Extrait utilisé
  • Attributs
  • Les entités sont caractérisées par des
    propriétés  le titre (du film), le nom (de
    l'acteur), sa date de naissance, l'adresse, etc.
    Ces propriétés sont dénotées attributs dans la
    terminologie du modèle E/A. Le choix des
    attributs relève de la même démarche
    d'abstraction qui a dicté la sélection des
    entités  il n'est pas question de donner
    exhaustivement toutes les propriétés d'une
    entité. On ne garde que celles utiles pour
    l'application.
  • Un attribut est désigné par un nom et prend ses
    valeurs dans un domaine énumérable comme les
    entiers, les chaînes de caractères, les dates,
    etc. On peut considérer un nom d'attribut A comme
    une fonction définie sur un ensemble d'entités E
    et prenant ses valeurs dans un domaine D. On note
    alors A(e) la valeur de l'attribut A pour une
    entité e E.
  • Considérons par exemple un ensemble de films \f1,
    f2, ... fn\ et les attributs titre et année. Si
    f1 est le film Impitoyable, tourné par Clint
    Eastwood en 1992, on aura 
  • titre (f1) Impitoyable  année (f1) 1992
  • Il est très important de noter que selon cette
    définition un attribut prend une valeur et une
    seule. On dit que les attributs sont atomiques.
    Il s'agit d'une restriction importante puisqu'on
    ne sait pas, par exemple, définir un attribut
    téléphones d'une entité Personne, prenant pour
    valeur les numéros de téléphone d'une personne.
    Certaines méthodes admettent (plus ou moins
    clairement) l'introduction de constructions plus
    complexes 
  • les attributs multivalués sont constitués d'un
    ensemble de valeurs prises dans un même domaine 
    une telle construction permet de résoudre le
    problème des numéros de téléphones multiples 
  • les attributs composés sont constitués par
    agrégation d'autres attributs  un attribut
    adresse peut par exemple être décrit comme
    l'agrégation d'un code postal, d'un numéro de
    rue, d'un nom de rue et d'un nom de ville.
  • Nous nous en tiendrons pour l'instant aux
    attributs atomiques qui, au moins dans le
    contexte d'une modélisation orientée vers un SGBD
    relationnel, sont suffisants.

40
One-To-Many ComparisonUn exemple (3)
  • Résultat
  • One-To-Many Comparison ResultsThe submitted
    texts' similarity matrix (in document to document
    space)
  • Le score de similarité est plus important entre
    le titre et le premier paragraphe ils sont plus
    proches que le titre et le reste du segment titré

41
Pairwise Comparison
  • En entrée un nombre pair de textes
  • Paramètre supplémentaire
  • Type de comparaison terme à terme, document à
    document, terme à document ou document à terme
  • En sortie
  • Les textes de chaque paire(1er 2ème, 3ème
    4ème, etc.) sont comparés
  • Pour chaque paire un score de similarité est
    donné (cosinus)

42
Pairwise ComparisonUn exemple (1)
  • Liste de termes à comparer
  • travail vacances politique sucette
  • Espace sémantique choisi
  • Français-Monde-Extended (300 facteurs)
  • Type de comparaison terme à terme
  • Résultats


43
Applications utilisant la LSA
  • Educational Text Selection
  • Essay Scoring
  • Summary Scoring Revision
  • Cross Language Retrieval
  • (permet de soumettre un texte dans une langue et
    d'obtenir un texte équivalent dans une autre
    langue)

44
Educational TextSelection
  • Permet de sélectionner automatiquement des textes
    permettant d'accroître les connaissances de
    l'utilisateur.
  • Etape 1 l'utilisateur entre un texte écrit par
    lui montrant ses connaissances dans le domaine
    correspondant à l'espace sémantique choisi
  • Etape 2 le système analyse ce texte et renvoie
    le texte le mieux approprié à l'utilisateur pour
  • Que l'utilisateur comprenne le texte proposé
  • Apprendre de nouvelles choses sur le domaine

45
Essay Scoring
  • Application phare de la LSA
  • Permet de noter la qualité d'une rédaction
    d'étudiant
  • Exemple The Intelligent Essay Assessor
  • Etapes de la notation par le IEA
  • Sélection de l'espace sémantique
  • Entrée de la rédaction (environ 250 mots)
  • Analyse par le système et renvoi des notes

46
IEA un exemple
47
Summary Scoring Revision
  • Système développé Summary Street
  • 2 buts
  • Apprendre à l'utilisateur à faire un résumé
  • Évaluer le résumé
  • Principe calcul du score de similarité (cos)
    entre le résumé et le texte original
  • Comparaisons (aussi)
  • Entre chaque phrase et chaque section du texte
  • Entre toutes les phrases 2 à 2 identifier la
    redondance et les répétitions

48
Un exemple
49
Facteurs Dimensions (1)
  • Quel est le nombre de dimensions à conserver ? La
    question n'est pas réglée et encore débattue.
  • Souvent, garder toutes les dimensions d'un espace
    (environ 300) est optimal
  • Moins de 50 dimensions mauvais résultat
  • Exemple Espace "encyclopedia"
  • Possède 371 dimensions
  • Des études montrent que le nombre optimal se
    situe entre 275 et 350

50
Facteurs Dimensions (2)
  • Comment déterminer le nombre de dimensions
    optimal pour un espace sémantique ?
  • En expérimentant.
  • Un exemple le test du meilleur synonyme
  • Evaluation de la LSA sur le test du TOEFL (Test
    Of English as a Foreign Language)
  • Pour un terme donné, choisir dans une liste le
    meilleur synonyme

51
Facteurs Dimensions (3)
52
Facteurs Dimensions (4)
  • Avec un nombre de dimensions optimal, le taux de
    réussite au test de sélection de synonyme du
    TOEFL par la LSA
  • 65
  • Score identique à une majorité d'étudiant qui ont
    passé ce test.

53
Points faibles de la LSA (1)
  • Les espaces sémantiques peuvent ne pas convenir
  • Le texte soumis peut n'appartenir à aucun domaine
    représenté
  • Lequel choisir dans ce cas ? L'analyse
    sera-t-elle pertinente ?
  • Certains termes ne figurent pas dans les espaces
    sémantiques et ne sont pas pris en compte dans
    l'analyse

54
Points faibles de la LSA (2)
  • Possibles problèmes de segmentation ou de codage
  • Exemple
  • WARNING the words l 'acteur l 'adresse
    dxeexnotxeexes e a d 'abstraction a n 'est d
    'une l 'application do not exist in the corpus
    you selected.results can be seriously flawed.
  • La LSA n'utilise aucune notion de syntaxe
  • Elle ne tient pas compte de l'ordre des mots
  • Exemple pour la LSA, "John est le père de
    Julie" "Julie est le père de John"

55
Points faibles de la LSA (3)
  • La LSA ne gère pas d'autres phénomènes
  • La négation
  • Les anaphores
  • etc.
  • La LSA ne gère pas les variantes morphologiques
  • Exemple arbre ? arbres
  • La LSA ne peut pas générer du texte même si le
    sens qu'on veut exprimer est représenté dans
    l'espace sémantique

56
Dérivés
  • LSI Latent Semantic Indexing
  • LPSA Latent Problem Solving Analysis
  • Etc.

57
Le mot de la fin
  • La LSA possède un certain nombre de défauts.
    Mais
  • "If you are going to apply LSA, try to use it for
    what it is good for." (Tom Landauer)
Write a Comment
User Comments (0)
About PowerShow.com