Title: De la thorie SensTexte une grammaire d'unification
1De la théorie Sens-Texteà une grammaire
d'unification
- Sylvain Kahane
- Lattice, Université Paris 7
- EHESS, 30 mars 2001
2Préambule
- Modélisation des langues
- Aller de l'objet d'étude (la langue) au modèle
- Etapes de la modélisation
- Qu'est-ce qu'une langue ? théorie
- Comment la décrire ? formalisme
- La formalisation doit permettre de décrire les
choses comme on a envie de les décrire
3Plan
- 1. Postulats de la théorie Sens-Texte
- 2. Niveaux de représentation
- 3. Modules de correspondance
- 4. Passage à une grammaire d'unification
- 5. Modularité et lexicalisation
41. Postulats de la théorie Sens-Texte
5Théorie Sens-Texte
- Fondation Zolkovskij Mel'cuk 1965, 1967
- Références principales
- Mel'cuk, 1988, Dependency Syntax Theory and
Practice, SUNY Press. - Mel'cuk et al. 1984, 1988, 1992, 1999,
Dictionnaire explicatif et combinatoire du
français contemporain, Vol. 1, 2, 3, 4., PUM. - Mel'cuk, 1993-2000, Cours de morphologie
générale, 5 vol., PUM/CNRS. - Mel'cuk, à paraître en 2001, Communicative
Organization in Natural Language, Benjamins.
6Premier postulat
- Postulat 1
- Uen langue naturelle est (considérée comme) une
correspondance multivoque entre des sens et des
textes
sens
textes
langue naturelle
7Correspondance multivoque
sens
textes
8Comparaison avec Chomsky 1957 (1)
- Chomsky 1957 décrire une langue naturelle L
décrire l'ensemble des phrases acceptables de L - Mauvaise interprétation
- Phrase suite de mots
- Langage formel ensemble de suites
- Une langue naturelle ne peut en aucun cas être
modélisée par un langage formel en ce sens
9Comparaison avec Chomsky 1957 (2)
- Meilleure interprétation
- Une phrase est un signe avec un sens (signifié)
et une forme (signifiant) - Correspondance entre sens et textes
- ens. de couples formés d'un sens et d'un
texte correspondant - ensemble de phrases
10Second postulat
- Postulat 2
- La correspondance sens-texte est décrite par un
système formel qui simule l'activité linguistique
d'un locuteur natif
- Un locuteur parle transforme ce qu'il veut dire
(un sens) en ce qu'il dit (un texte) - La correspondance est bidirectionnelle mais la
direction de la synthèse est privilégiée - Règles de la grammaire règles de
correspondance
11Troisième postulat
- Postulat 3
- Des niveaux de représentation intermédiaires
doivent être considérés un niveau syntaxique et
un niveau morphologique (structure des phrases et
structure des mots)
syntaxe
sémantique
morphologie
12Modularité
- La correspondance est complètement modulaire
- La sémantique, la syntaxe et la morphologie sont
trois modules de correspondance
13Modularité
- Pas de primauté de la syntaxe
- Une Rsynt bien formée est seulement caractérisé
par le fait d'être un intermédiai-re possible
entre une Rsem et une RPhon - Ce n'est pas l'objet de la TST de caractériser
les RSynt bien formées
142. Niveaux de représentation
15Géométrie
- RSem graphe de relations prédicat-argument
- RSynt arbre de dépendance
- RMorph suite de mots
- RPhon suite de phonème
- module sémantique hiérarchisation
- ( choix lexicaux)
- module syntaxique linéarisation
16Représentation sémantique
- Le cur de la représentation sémantique est un
graphe orienté dont les nuds sont étiquetés par
des sémantèmes - sémantèmes lexicaux sens de mots ou locutions
- sémantèmes grammaticaux sens de flexions
grammaticales - Arètes relations prédicat-argument
dépendances sémantiques
17Graphes et formules logiques
Pierre veut vendre sa voiture bleue
18Structure communicative
- Partition rhème-thème
- rhème ce qui est dit
- thème ce dont on parle
La maladie de Marie a duré 2 semaines
19Structure communicative
- Partition rhème-thème
- rhème ce qui est dit
- thème ce dont on parle
Marie a été malade pendant 2 semaines
20Structure comm. et relatives
Kahane Mel'cuk 1999
Un type lisait le livre qu'il avait acheté
Un type avait acheté un livre qu'il lisait
Un type qui avait acheté un livre le lisait
21Représentation syntaxique
- Le cur de la représentation syntaxique est un
arbre de dépendance non ordonné - dont les nuds sont étiquetés par des unités
lexicales ( grammèmes) - dont les branches sont étiquetées par des
relations syntaxiques
22Arbre de dépendance vs. arbre syntagmatique
S
VP
NP
PP
N
V
Mary
NP
looks
P
for
Adj
N
D
a blue car
Mary looks for a blue car
23Arbre de dépendance vs. arbre syntagmatique
- Notre arbre de dépendance est non ordonné
24Représentation morphologique
- Le cur de la représentation morphologique est la
suite des représentations morphologiques des mots - Représentation morphologique d'un mot
- lemme suite de grammèmes (y compris
grammèmes d'accord et de régime)
,3,sg
253. Modules de correspondance
26Articulation générale
module morphologique
module syntaxique
module sémantique
morphologisation phonologisation
linéarisation accord prosodie
hiérarchisation lexicalisation pronominalisation
27Module sémantique
- Hiérarchisation choisir la racine de l'arbre
28Module sémantique
29Module sémantique
30Module sémantique synthèse
Marie a été malade pendant 2 semaines
31Module sémantique synthèse
maladie
2 semaines
Marie
Marie a été malade pendant 2 semaines
32Module syntaxique
d(X,Y) -10
33Module syntaxique
d(X,Y) -5
(Adv)
34Module syntaxique
35Module syntaxique synthèse
Peter often eats red beans
36Module syntaxique synthèse
3,sg
Peter often eats red beans
37Module syntaxique synthèse
EAT
BEAN
OFTEN
RED
PETER
(N)pl
(V)
(Adv)
(Adj)
(N)sg
3,sg
Peter often eats red beans
38Module syntaxique analyse
Peter often eats red beans
39Module syntaxique analyse
Peter often eats red beans
404. Passage à une grammaire d'unificationGUST
Grammaire d'Unification Sens-Texte (Kahane, TAL
2000, ?ACL 2001, )
41Générer la correspondance
- Un module TST définit une correspondance entre
deux ensembles - Une correspondance entre A et B est équivalente à
un ensemble de couples (S,S') avec S in A et S'
in B - On peut utiliser les règles pour générer la
correspondance, càd l'ensemble de couples - Attention ...
42Structure produit
tree
map
linearly ordered tree product of a tree and a
linear order
string ( linear order)
43Supercorrespondance
- Un module TST definit une supercorrespondance
entre deux ensembles de structures - Une supercorrespondance est une correspondance
avec pour chaque couple d'éléments en
correspondance une fonction entre des partitions
de ces éléments - Une supercorrespondance est équivalente à un
ensemble de structures produit, càd, de triplets
(S,S',) avec S in A, S' in B et une fonction
entre des partitions de S et S'
44Retour sur le Premier postulat TST
- Postulat 1 (revisé)
- Une langue naturelle est (considérée comme) une
supercorrespondance multivoque entre sens et
textes - Phrase structure produit (HPSG 1994)
- fonction entre des fragments de sens et des
fragments de texte (compositionnalité)
45Les modules TST comme grammaires
génératives
- Un module TST peut être utilisé pour générer la
supercorrespondance, càd l'ensemble de structure
produit - Grammaire de correpondance on prend une
structure et on lui en fait correspondre une
autre - Grammaire générative on génére, à partir de
rien, les deux structures en correspondance - Grammaires de contraintes on filtre parmi les
couples ceux qui se correspondent
46Les règles de correspondance (synt) comme règles
génératives
(V)
(N)
47Dérivation
Générer un ens. de règles
Les combiner par unification
48Les règles de correspondance (sém) comme règles
génératives
49Dérivation
Générer un ens. de règles
Les combiner par unification
50Dérivation
51Structure produit
52Les règles de correspondance (morph) comme règles
génératives
535. Modularité et lexicalisation
54semantic representation
syntactic representation
(V)t,3,n
-5 mod
-10 subj
-5 adv
10 obj
subj
(V)
(N)
(N)
(V)
(N)
(Adj)
(V)
(Adv)
(N)n
morphological representation
EAT (V)ind,present,3,sg graph eats phon /its/
PETER (N)sg graph Peter phon /pite/
BEAN (N)pl graph beans phon /bins/
OFTEN (Adv) graph often phon /ofn/
RED (Adj) graph red phon /red/
graphic/phonological representation
55Stratégies d'analyses
- Deux stratégies principales
- Analyse horizontale (module par module)
tagging, shallow parsing, deep analysis - Analyse verticale (mot par mot) cf. grammaires
lexicalisées
56Analyse horizontale
deep analysis
shallow parsing
tagging
57Analyse verticale
58Lexicalisation
59Lexicalisation
60Quelle lexicalisation ?
- Comment lexicaliser une grammaire modulaire ?
- Comment regrouper les règles de la grammaire
modulaire ? - Qui de deux mots décide de leur positionnement
relatif ? Quel mot décide de la distribution d'un
syntagme ?
61Quelle lexicalisation ?
- Qui de deux mots décide de leur positionnement
relatif ? - Exemple les arguments syntaxiques d'un verbe
doivent-ils être positionnés dans la structure du
verbe ? - Réponse
- Oui pour les arguments canoniques
- Non pour les clitiques, les mots qu-,
62Quelle lexicalisation ?
- Quel mot décide de la distribution d'un syntagme
? - Exemple quel mot contrôle le fait qu'une
relative modifie un nom ? qu'une interrogative
indirecte peut être l'argument d'un verbe
interrogatif ? - la personne à qui tu veux parler
- je me demande à qui tu veux parler
- Réponse le mot qu- (Kahane 2000, TAL)
63Conclusion 1 supercorrespondance
- Comparaison entre grammaires de correspondance et
grammaires génératives - La linguistique a besoin de grammaires qui
définissent des (super)correspondances (par
exemple, en générant des structures produit) - Deux grammaires sont fortement équivalente ssi
elles définissent la même (super)correspondance
64Conclusion 2 lexicalisation
- Obtenir une grammaire lexicalisée à partir d'une
grammaire modulaire (Vijay-Shanker 1992, Kasper
et al. 1995, Candito 1996 ) - Avantage de GUST La grammaire modulaire et la
grammaire lexicalisée sont écrites dans le même
formalisme - Liberté totale dans l'attribution des règles lors
de la lexicalisation (éviter l'explosion
combinatoire) - Grammaires partiellement lexicalisées (stratégies
intermédiaires entre stratégies horiz. et
verticale)
65Règles sémantiques lexicales
La lexicalisation par un verbe exige
l'instanciation des grammèmes de mode, voix,
temps
Cette règle n'est pas utilisable tant que
les grammèmes en question n'ont pas été instanciés
66Règles sémantiques grammaticales
67Verbes à contrôle vs. à montée
ESSAYER (V) m, v, t sem essayer arg1
x arg2 y
COMMENCER (V) m, v, t sem commencer arg1
x
DE (Prép) sem
À (Prép) sem
suj
inf
suj
inf
prép
(N) sem x
(N)
prép
suj
suj
(V)inf sem y
(V)inf sem x
68Locutions
MONTER (V) m, v, t sem la moutarde monter
au nez arg1 x
MOUTARDE (N) sem
(N)cl sem x
suj
iobj
loc
dét
À, (Prép, sem
prép
LA (Dét) sem
NEZ, (N), sem
dét
LE, (Dét), sem
69Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
70Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
71Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
N ,-,1
72Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Adv,-,2
Peter often eats red beans
73Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
74Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
V ,-,3
75Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
V ,-,3
76Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
V ,-,3
77Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
V ,-,3
78Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
Peter often eats red beans
V ,-,3
79Module syntaxique analyse
- Analyse incrémentale (transducteur à pile)
EAT
BEAN
OFTEN
RED
PETER
(N)pl
(V)
(Adv)
(Adj)
(N)sg
3,sg
Peter often eats red beans
V ,-,3
80Transducteur à pile
81Transducteur à pile (Kahane, TALN'2000)
- Quatre types de transition
- Transition de stockage lire un nud, l'empiler
et le produire - Transition de liage produire une dépendance
- Poids négatif (gouverneur à droite) supprimer
la deuxième case de la pile - Poids positif (gouverneur à gauche) indiquer
que le nud de la première case est gouverné - Transition de déstockage supprimer la première
case si le nud est gouverné
82Flux et complexité
- Flux nombre de dépendance liant un mot à gauche
à un mot à droite
0 1 2 1 2 0
- Le flux des phrases d'un langue naturelle est
borné (limitations mémorielles) - Le nombre de cases dans la pile est borné
- Le nombre de contenu de pile est fini
- Equivalence avec un automate fini
- Analyse en temps linéaire