Title: Introduction 7
1Les liens morphologiques multilingues individuali
sation et exploitation
Bruno Cartoni TIM-ISSCO/ETI/Uni. Genève
2Plan
- les liens morphologiques
- les liens morphologiques multilingues
- leur individualisation
- différentes exploitations
3Organisation du module lexical en TALN
- but reconnaître les mots corrects/incorrects et
donner des informations sur les mots - approche mono-morphique
- énumération de chaque forme
- manger, mangeait, mangent
- approche polymorphique
- liens entre les formes de base et leur
flexion/dérivation - mang -ait -er -ent
- individualiser les liens et exploiter leur
régularité
4Les liens morphologiques multilingues
- postulat
- Deux langues morphologiquement proches
possèdent des régularités morphologiques
exploitables (Polylex)
it libertà, maturità, possibilità fr
fraternité, unité
5Les liens morphologiques multilingues
- La transformation progressive selon des règles
précises du latin vers les langues romanes
actuelles permet denvisager dautres règles de
passage horizontal entre les langues dans leurs
états actuels. - (Geysen, 1990)
6Individualisation
- Deux types de liens morphologiques
- au niveau lexical
- au niveau du processus de construction
morphologique
7Régularités au niveau lexical
- 3 cas possibles
- formes identiques mafiafr / mafiait
- base commune possibilitéfr / possibilitàit
- différences orthographiques x ? ss
- sexefr / sessoit , complexefr / complessoit
8Individualisation des morphèmes multilingues
- paradigme de substitution (Lehmann et al, 1998)
- a) possibilità/possibilité ? possibil-, -ité
et -ità - b) impossibilità/impossibilité ? im-
- c) complessità/complexité ? compless- et
complex-
9La notion de cognat
- La notion de cognat mots morphologiquement
proches - (Kondrak, 2001, Kreif, 2001)
- définition floue
- cognation de forme et de sens
- mafiafr / mafiait , confettifr / confettiit ,
- volerfr / volareit
- cognats parfaits vs semi-cognats
10Les morphèmes cognats
- préfixes cognats (im-) - suffixes
semi-cognats (-ité/-ità, -tion/-zione,
-teur/-tore) - suffixes du pluriel non-cognats
(-s, -i) - formes de base cognates
(possibil-) - formes de base semi-cognates
(complex -ité /compless -ità)
11Régularités sur le plan constructionnel
- régularités de construction
- fr parfaitadj mentSadv ? parfaitementadv
- it perfettoadj menteSadv ? perfettamenteadv
- stratégies de constructions régulières
- Xadj Suffixeadv ? X adv
12Exploitation des régularités
- régularités lexicales
- lexique informatisé
- génération de néologismes (Namer, 2001)
- .
- régularités de construction
- incomplétude lexicale en traduction automatique
(Gdaniec et al, 2001)
13Exploitation des régularités lexicales
- dans un lexique informatisé
- rationalisation des informations
morpho-syntaxiques - uniformisation des informations
morpho-syntaxiques - réduction de la place de stockage
14Les liens morphologiques dans un lexique
informatisé
- ce que lon veut formaliser
im possibil ité/ità
15Exemple lexique dhéritage multilingue
16Évaluation des régularités lexicales
Dans des ressources lexicales existantes
(Multext, 1996)
17Évaluation des régularités lexicales (2)
Données empiriques récoltées sur le Web
(Webaffix, Tanguy et al. 2002)
Nombreux néologismes scientifiques
biodiversitéfr / biodiversitàit , cellularitéfr /
cellularitàit
18Exploitation des régularités de construction
- incomplétude lexicale en traduction automatique
- inférence par le système de la traduction dun
mot construit mais absent de son dictionnaire - parfaitement ?? ? perfettamente
19Transfert lexical en TA (Gdaniec et al, 2001)
Dictionnaire bilingue parfaitfr perfettoit
Stratégie de construction (fr)
Stratégie de construction (it)
Analyse parfaitAdj mentSuff
Génération perfettoAdj menteSuff
Mot inconnu parfaitement
Validation perfettamente
20Exploitation conclusion
- évaluation positive
- grand potentiel
- néologismes
- ajout dautres langues latines
- procédé encourageant pour pallier lincomplétude
lexicale en TA
21Référence
- The PolyLex Web Page (1998) http//www.cogs.susx
.ac.uk/lab/nlp/polylex/polylex.html - Bouillon P. et al. (1998) Traitement automatique
des langues naturelles, Bruxelles, Editions
Duculot. - Ford A. et al. (1997) Pace Panini Towards a
Word-Based Theory of morphology, New York, Peter
Lang Publishing. - Gdaniec C, et al (2001), Derivational Morphology
to the Rescue How it can help Resolve Unfound
Words in MT, MT summit VIII. - Geysen R. (1990) Dictionnaire des formes
analogues en 7 langues avec résumé de grammaire
comparée, Deuxième édition, Paris, Duculot. - Lehmann et al, (1998) Introduction à la
lexicologie Paris, Dunod - Namer F. (2001) Génération automatique de
néologisme bilingues morphologiquement construits
en français et en italien, in TALN 2001, pp.
281-296.
22Référence
- Sproat R. (1992) Morphology and Computation,
Cambridge, The MIT Press. - Russel et al. A Practical Approach to
Multiple Default Inheritance for Unification
Based Lexicons in Computational Linguistics ,
Sept. 1992 18-3 - Tanguy L. et Hathout N. (2002) Webaffix un
outil dacquisition morphologique dérivationnelle
à partir du web, in TALN 2002. pp. 245-254. - Tiberius C. (2002) How to buid a multilingual
inheritance-based lexicon in LREC 2002,
Proceedings, volume II. pp. 701-708. - Walter H. (1997) Laventure des mots français
venus dailleurs, Paris, R. Laffont. -
- Cartoni Bruno, (2003) Vers une exploitation des
liens morphologiques multilingues, mémoire de
DEA, ÉTI, Uni. De Genève, disponible à
http//www.issco.unige.ch/staff/bruno