Title: Quelques%20op
1Quelques opérations texte--gtsens et
texte--gtsens--gttexteutilisant une sémantique
universaliste apriorique Dominique
DUTOITUniversité de Caen
2Une sémantique linguistique
- La Sémantique Générale a le mérite de distinguer
sens et signification. - Nous étudions les rapports entre signification et
texte.
Sens des Significations
Signification des textes(commentaire
à propos des signes)
Avec lidée quon saura associer des sens à des
invariants de signification (sens dans la théorie
sens--gttexte).
3Rapports signe/signification/sens
4Les domaines
Nos calculs concernent les mots et les
textes. --gt Pas de domaine terminologiqueCes
calculs ont des effets - linguistiques -
cybernétiques - réels. --gt Pas de
domaine applicatifLuniversalisme et
lapriorisme caractérisent notre sémantique
linguistique.
5Universalisme et apriorisme
- universalisme les significations sont déclarées
ainsi que leurs expressions. - apriorisme les effets potentiels des
significations sont déclarés.
6Des opérations linguistiques
- Opération texte--gtsens la désambiguïsation
lexico-sémantique - Plusieurs Opérations texte--gtsens--gttexte
- Par exemple,
- Dictionnaire à lenvers (réduction lexicale)
- Résumé lexical, thématique
- Paraphrases dénoncés courts
- filtrage dinformation, ajout de co-texte,
signature sémantique - ...
7La démarche de présentation
- Les données le Dictionnaire Intégral
- Les traitements sémantiques Le Sémiographe
8Les données
- Le Dictionnaire Intégral (DI)
9Le Dictionnaire Intégral
- Description qualitative
- TST, Sémantique componentielle et CYC
- Cohérence des trois théories
- Lexemple de riche adj.
- Conclusion
- Description quantitative
- Par rapport à WordNet
- Par rapport aux trois théories
10la TST
Description qualitative
- Produire toutes les paraphrases dun sens.
- sens ou Représentation Sémantique profonde
graphe formel construit à partir des entrées
numérotées du Dictionnaire Explicatif et
Combinatoire (DEC). - Un même sens pourra produire
- La lune éclipse le soleil ET léclipse du soleil
par la lune - Le DEC est fait de fonctions lexico-sémantiques
- S0(éclipser) éclipse (nominalisation),
S1(éclipser) corps céleste -
11La sémantique componentielle
Description qualitative
- La sémantique componentielle décompose les
significations en traits plus élémentaires
(sèmes) et espère, depuis cette décomposition,
découvrir des lois de composition. - TraitSém(éclipse) abstrait cacher action
fait
12CYC
Description qualitative
- CYC a pour ambition de décrire les connaissances
courantes dun écolier - Il arrive que la lune passe devant le soleil et
le cache à nos yeux pendant quelques minutesil
fait alors nuit durant le jour
13Intégrationle syntagme et le paradigme
Description qualitative
- Problèmes posés
- A) Pourquoi ne lit-on jamais le mangeur mange?
- B) Pourquoi le gourmand mange peut se
rencontrer? - C) Pourquoi lavocat mange nest pas ambigu pour
nous? - D) Quest ce qui distingue ces trois énoncés?
14Description qualitative
- Réponses
- A) Parce quon ne parle pas pour ne rien dire
sauf dans le dictionnaire où lon parle de la
langue elle-même (DEC). - B) Parce que la redondance est incomplète
(sémantique componentielle). - C) Parce que les gens mangent et que les fruits
ne mangent pas (CYC). - D) Un point de vue sur la langue.
- Notre sémantique tente de regrouper ces points de
vue différents cest le Dictionnaire Intégral.
15Les relations
Description qualitative
- TST
- X (mot-sens ou sens) ltFLgt Y (mot-sens ou sens)
- mangeur ltFLgt manger
- Sémantique componentielle
-
- \X (trait de sens, concept) ////
\Y (concept) - gourmandSpec mangeur ////
\nourriture, manger - CYC
- \X (concept actanciel) ////
\Y (concept actanciel) - avocat
//// \verbes vie animale
isotopies
Relation actancielle SV
16Graphique complet
Description qualitative
Relation actancielle SV
V des animaux
avocat
Isotopies nourriture, vivant...
mangeur ltFL S1gt
manger ltGengt gourmand
Le mangeur mange vert, rouge et bleule
gourmand mange rouge et bleulavocat mange
bleu
17Les 3 théories et les textes
Description qualitative
Le mangeur mange vert, rouge et bleu Vert (TST)
est absent du syntagme le gourmand mange rouge
et bleu Rouge (Sém. Comp.) peut se rechercher en
et hors syntagme lavocat mange bleu Bleu
est absent hors syntagme
18Un exemple riche adj.
Description qualitative
Que dit-on dans les emplois Une riche récolte,
Un style riche Une rime riche Une mine riche en
or Un sol riche Une personne riche Un appartement
riche Un vêtement riche
19Description qualitative
- Les emplois attestent lusage par définition
- Les emplois correspondent à des compréhensions
- Compréhension représentation sémantique, sens
(dont paraphrase) ? modèle de mémoire
Comme il y a autant de compréhensions que de
sens, combien de sens pour riche ?
20Pour riche adj.,il y a 4 sens principauxet des
emplois à propriétés particulières.
Description qualitative
21- Pour Une riche récolte
- Pour Un style, une rime riche
- Pour Une mine riche en or
- Pour Un sol riche
- Pour Une personne riche
22Description qualitative
Riche sens 1 (récolte)
Relation actancielle SA
indénombrables
Adj des indénombables?
Isotopies bcp en masse, fav., chose
indénombrable...
Emploisrécolte, production...
riche ltFL S1gt
enrichir, pauvre, ... abondant
23Riche dans Lexidiom
Description qualitative
1e _riche adj. seul
\qui est en grande
qté d'une façon favorable FC ADJ/FC Gen
\récolte FD ADJjugement/FDJN, Jugement
2e_riche adj. seul
\qui
(s')est développé en grande diversité (fav.) FC
ADJ/FC Gen \riche (style) FD
ADJjugement/FDJN, Jugement
\bon (pour un discours) FD
ADJjugement/FDJN, Jugement
\qui est garni, décoré d'ornements FC
ADJ/FDJN, Jugement \rime FD
ADJdescript./FDJN, Jugement
\langue et langage FD
ADJdescript./FDJN, Jugement
\qualificatif de la voix FD
ADJdescript./FDJN, Jugement 3e
_riche adj. seul
_ \J en comp
Cons0/-gtConsLar
\J de comp Cons0/-gtConsLar
\qui contient qqch en
abondance riche en (fav.) FC ADJ/FC Gen
\qualificatif favorable d'un sol agricole
FD ADJjugement/FDJN, Jugement \substance
minérale FD ADJdescript./FDJN, Jugement
24Description qualitative
4e _riche adj. seul
\qui par sa
richesse permet un grand dévelop.(fav. FC
ADJ/FC Gen _ \qui a la propriété de
nourrir bcp FC ADJ/FC SpecEnc
\qualificatif favorable d'un sol agricole
FD ADJjugement/FDJN, Jugement
\qualificatif de qualité du caractère FD
ADJjugement/FDJN, Jugement 5E _riche adj.
seul
\qui est riche de biens ou d'argent
FC ADJ/FC Gen 6E _riche
Nom M.S., flex F
\personne riche FC N/FC Gen
_riche adj. seul/personne J
7e _riche adj. seul
\fastueux et cher FC ADJ/FC Spec
\appartement FD ADJjugement/FDJN, Jugement
Collocations
gosse de riche Nom M.S., flex F
nouveau riche Nom
M.S. ...
25Conclusion
Description qualitative
- Le Dictionnaire Intégral comporte trois
niveaux de description complémentaires à
rôle précisLe découpage en sens du Dictionnaire
Integral est conditionné par le modèle de
compréhension.
26Comparaison avec WordNet les mots
Description quantitative
27Comparaison avec WordNet les relations
Description quantitative
WordNet DI Fonctions lexicales TST 0 sauf
synonymie Oui si accord Concepts isotopiques 0
hors Spec Oui Connaissance CYC 0 Oui si générale
28Utilisation actuelle dans les algorithmes
Description quantitative
Le Sémiographe Fonctions lexicales
TST Non Concepts isotopiques Oui Connaissance
CYC Non Pour la désambiguïsation sémantique
lactuel Sémiographe nutilise que le Rouge des
isotopies.
29Les traitements
30Le Sémiographe
- Des traitements de base
- La désambiguïsation lexico-sémantique
- La réduction lexicale
- Des traitements plus applicatifs
- Le résumé lexical de textes, la thématique
- La paraphrase dénoncés courts
- Le filtrage dinformations, lajout de co-texte...
31Les traitements de base
- La désambiguïsation lexico-sémantique
32 La WSD
- Problème posé
- information sur le sens dun énoncé
- probabilité P de résolution 1/80 lt P lt 1/36)
- Laviateur, abattu en plein vol, réussit à
rejoindre ses lignes en manœuvrant un parachute - probabilité P de résolution 1/30982 lt P lt
1/900)
33Moyen utilisé
La WSD
- Les isotopies uniquementgt pas de connaissances
courantes ni de TSTgt pas de différence de
traitement syntagme/espace hors syntagmegt des
énoncés non solutionnables comme - lavocat mange un avocat
34Deux algorithmes
La WSD
- Lactivation unification par les meilleurs
isotopes partagés - Activation (poissonE, filet) ? Activation
(bateauE, filet) ? Activation (merE, filet) ?
Activation (pêcheur, filet) ? Activation
(pêcher, filet)
35 La WSD
- La proximité sémantique unification sur tous
les isotopes et prise en compte des différences - Prox(poissonE, filet) ? Activation (poissonE,
filet) Racine du vivant - La proximité sémantique est asymétrique
- Prox(vendeur,fleuriste) ? Activation (vendeur,
fleuriste) - Prox(fleuriste,vendeur) ? Activation (fleuriste,
vendeur) Racine des plantes
36Les résultats
La WSD
- Pour 35 mots étudiés dans le manuscrit, 172 sens
au total (5 sens par mot en moy.), - 115 sens incorrects sont éliminés et 1 seul bon
sens est éliminé. - La probabilité datteindre aléatoirement un
résultat aussi bon ou meilleur est 0,5. - gt Le système est statistiquement efficace hors
domaine en utilisant les seuls moyens de
lisotopie! -
37Les traitements de base
38La réduction lexicale
- Réduction lexicale, dictionnaire à lenvers,
forme en N différents noms pour un même
principe. - Passer dune expression comportant plusieurs mots
à une expression comportant moins de mots. - Monnaie du Japon yen
- Monnaie de Tokyo yen
- Monnaie de Hiro Hito yen
39Fonctionnement
La réduction lexicale
- La réduction lexicale est une opération
- Texte--gtsens--gttexte le texte généré reflète
les significations calculées du texte de départ. - Dans les cas simples, elle dessine une forme en N
monnaie
Isotope Japon
Gen de
Japon
yen
40Fonctionnement
La réduction lexicale
- Dans des cas plus compliqués, elle dessine une
forme en usine - Seuls ceux qui voient lavenir dans les sources
prédisent convenablement le futur. - P(ceux) 1/10000
qui
41La réduction lexicale
- Algorithme utilisé
- Proximité sémantique
- Manque
- Les définitions
- Résultats
- Souvent bons, produit des listes analogiques au
texte de départ
42Les traitements applicatifs
43Le résumé lexical dun texte
Traitements TST applicatifs
- Principe un texte traitant dun sujet active
abondamment tous les isotopes de ce sujet - billard billard thème jouer thème adresse
thème gagner thème salle thème - Algorithme activation disotopes, proximité
- Usage indexation et filtrage
- Résultats apporte un plus, très bons
44Le routage, nomenclature...
Traitements TST applicatifs
- Principe un texte doit dirigé automatiquement
vers une boîte à lettres comme - guerre du kosovo guerrekosovo
- Algorithme activation ou proximité
- Résultats peu de silence, peuvent être très bon
pour les sujets référentiels
45Signature sémantique
Traitements TST applicatifs
- Principe un texte doit être surchargé de
lexiques désambiguïsant ses principaux mots. - Billard (jeu), Billard (chirurgie), ...
Algorithme Sens--gttexte - Résultats utile pour la recherche, ralenti
lindexation.
46Signature sémantique
Traitements TST applicatifs
- Principe un texte doit être surchargé de
lexiques désambiguïsant ses principaux mots. - Billard (jeu), Billard (chirurgie), ...
Algorithme Sens--gttexte - Résultats utile pour la recherche, ralenti
lindexation.
47Conclusion générale
- Au plan scientifique, nous avons
- montré une intégration réaliste de trois
théories actuellement indépendantes - anticipé les conséquences de cette intégration
sur les calculs sémantiques - montré que des mots chargés a priori de sens
génèrent des modèles de données au sens
informatique - montré que ces modèles décident pour une large
part de lhomonymie ou de la polysémie - en définitive, nous avons montré comment
construire un DICTIONNAIRE INTEGRAL -
-
48Conclusion générale
- Au plan des réalisations, nous avons
- décrit lun des plus gros projets au plan
mondial - décrit lune des réalisations les plus avancées
- montré la faisabilité de la réalisation en
avançant - Au plan des techniques, nous avons
- réussi à diviser en sous-projets, pendant 10
ans, le projet général, permettant ainsi son
financement - malgré que nous soyons léquipe la plus petite
au plan mondial, réussi à développer tant les
données que les traitements et la théorie
générale. -
-
49Conclusion générale
- En terme prospectif, nous prévoyons dans les 3
ans à venir - au plan scientifique
- dinstancier en définition les modèles de sens
(tel celui de riche) pour les 2000 mots les plus
courants du français - de lancer une étude portant sur les conséquences
en terme de nature de calcul de ces modèles. - au plan des réalisations
- de plus développer les outils sens--gttexte et
texte--gtsens pour mieux mémoriser les textes,
préparer lextraction de connaissances (lien
syntaxe/mot-sens) - de favoriser la pénétration de nos outils et
méthodes - de développer des relations maintenues vers
dautres langues -
-