Utilisation de ressources linguistiques - PowerPoint PPT Presentation

About This Presentation
Title:

Utilisation de ressources linguistiques

Description:

L'IGM est sp cialiste de construction, maintenance et exploitation de ressources ... metteur en sc ne acteur. petit d jeuner d jeuner. point de vue opinion ... – PowerPoint PPT presentation

Number of Views:55
Avg rating:3.0/5.0
Slides: 27
Provided by: lapo4
Category:

less

Transcript and Presenter's Notes

Title: Utilisation de ressources linguistiques


1
Utilisation de ressources linguistiques
Eric LaporteInstitut Gaspard-MongeUniversité de
Marne-la-Vallée, CNRSFrancehttp//www-igm.univ-
mlv.fr/laporte/
2
1. Ressources linguistiques de lIGM contenu,
statutComment les exploiter sans introduire de
la complexité dans les structures de données et
les algorithmes ?2. Lemmatisation améliorée3.
Cascades de transducteurs4. Enrichissement de
lexiques
3
1. Ressources linguistiques de lIGM
LIGM est spécialiste de construction,
maintenance et exploitation de ressources
linguistiques de qualitéLes données
linguistiques et le personnel du LADL ont été
intégrés à lIGM en 2001 et 20021.1. Lexiques
morpho-syntaxiquesLes informations
morpho-syntaxiques ne sont pas prévisibles à
partir de la forme des mots mouvement,
nom brièvement, adverbe tendre, verbe tendre,
adjectifLes lexiques électroniques recensent
les mots et les étiquettes correspondantesUne
entrée lexicale est lassociation dune forme et
des informations lexicales correspondantes
4
Mots composés, termes techniques
Exemples metteur en scène acteur petit
déjeuner déjeuner point de vue opinion base
de données annuaire à peine juste tout à
fait complètement
5
Nombre dentrées dans les dictionnaires DELA90
000 entrées de lemmes simples (680 000 entrées
fléchies simples)Mémoire occupée 21 MoForme
comprimée avec accès rapide adaptée au traitement
direct 1,8 Mo (automate minimal, 100 000 états,
230 000 transitions)270 000 entrées fléchies
composéesMémoire occupée 13 MoForme comprimée
avec consultation rapide 7,2 Mo (automate
minimal, 840 000 états, 1 080 000 transitions)
6
Quantité dinformation lexicale
Nombre de valeurs possibles dun trait donné -
2 (mot grammatical/mot plein) Google- 15
(catégorie grammaticale) corpus classiques-
des dizaines de milliers (lemme) lexiques
inclus dans Unitex, thésaurusLe nombre de
valeurs différentes dun trait mesure la quantité
dinformation quil apporte
7
Jeux détiquettes lexicales
Les corpus classiques nincluent pas le lemme
parmi les informations lexicales Brown (1981)
4 lemmes, 119 étiquettes, presque sans mots
composésPenn (1993) 1 lemme, 36 étiquettes,
presque sans mots composésLes lexiques inclus
dans Unitex sont beaucoup plus informatifs
DELAF (1990) 170 000 lemmes, 950 000
étiquettes, réductibles à1 000 sans perte
dinformation
8
Normes de codage des lexiques
Norme en construction (ISO), XMLProjets
associés plate-forme Outilex, RNIL
NormalangueLe projet de norme concerne
seulement la forme lisible des lexiques, non
adaptée au traitement direct
9
Statut des ressources lexicales
La majeure partie des ressources lexicales est
licenciée LGPL-LRLGPL-LR licence agréée par la
FSF, équivalent de la LGPL pour les ressources
linguistiques- Possibilité dinclure une
ressource dans un produit commercial payant
comportant aussi du logiciel ou des ressources
non libres- En cas de modification de la
ressource en clair (nouvelle version), obligation
de rendre la nouvelle version publiquement
disponible en clair- Obligation de mentionner
lorigine de la ressourceReliquat hors licence
LGPL-LRContrat avec lUMLV, suivant les cas
recherche ou développement, gratuit ou
onéreuxPermet détablir une collaboration avec
les utilisateurs les plus avancés pour orienter
la construction et la maintenance des ressources
10
Consultation dun lexique sur un texte
Les informations lexicales trouvées dans le
lexique sont incluses dans la représentation du
texteEn cas dambiguïtés, toutes les hypothèses
peuvent être représentées Unitex -
pré-traitement- application des ressources
lexicales (par la fenêtre du pré-traitement, ou
par le menu Text)- pour visualiser les entrées
trouvées dans le lexique Word Lists- pour
engendrer les automates des phrases menu Text,
Construct FST-Text
11
Norme de codage de textes
En constructionMot au sens typographique
lttokengtMot au sens linguistique
ltwordFormgtElément ltwordFormgt, attributs "entry"
et "tokens" Les mots composés produisent des
ambiguïtés lexicalesPendant certaines phases des
traitements, les ambiguïtés peuvent ne pas avoir
été levéesLes ambiguïtés lexicales sont
représentées par des automates finis
acycliquesEléments lttokengtElément
ltfsmgtEléments ltstategt, attributs "id" et "type"
Eléments lttransitiongt, attributs "source" et
"target"
12
1.2. Graphes de mots
Représentation densembles de séquences de mots
par des automates finis, par exemple comme profil
de recherche (Glossanet) ou pour produire des
concordancesOrganisation en petits graphes
lisibles chaque graphe a un nom une boîte
peut invoquer un grapheLensemble constitue un
réseau de transitions récursif (RTN)Exemple
noms propres de personnesEn préparation
bibliothèque de graphes (M. Constant, J. Sastre)
13
Représentation des automates dans Unitex
FST-XML format XML déchange de FST2 (J.
Sastre, 2004) GRFGraphe orienté, une boîte
initiale, une boîte finale, séquences dans les
boîtesEquivalence mathématique avec les
automates finis GRF-XML format XML déchange
de GRF (J. Sastre, 2004)Editeur
FSGraphConstruction manuelle de graphes. Exemple
". ltPREgt"Plusieurs lignes dans une boîte
représentent des chemins parallèlesGénération de
FST2 à partir de GRF
14
1.3. Lexique-grammaire

Arguments remplacés par des appels à des
sous-graphesPrédicat si on le remplace par un
autre prédicat, le reste du graphe peut ne plus
être valableN0 recouvrir N1 de N2N0 demander
N1 à N2 N0 placer N1 Loc N2 N0 regarder N1 N0
étudier N1 N0 faire une étude sur N1 N0
maquiller N1 N0 faire le maquillage de N1
15
Lexique-grammaire liens interlexicaux
Les relations sont de nature sémantique et
syntaxiqueDérivation confondre/confusionElles
sont liées aux autres informations lexicales
la dérivation tendre/tension nest valable que
pour tendre verbeRelations purement sémantiques
(thésaurus) manger/repasRelations
sémantico-syntaxiques (lexique-grammaire) N0
confondre N1 (avec et) N2 N0 faire Det
confusion entre N1 et N2
16
Lexicalisation

- On construit à la main des graphes valables
pour plusieurs prédicats (graphes paramétrés)-
On les adapte automatiquement à chaque prédicat
(lexicalisation)Lexicalisation au niveau de
classes de prédicatsLe graphe contient des
paramètres qui prennent une valeur pour chaque
classe - interrompre ou non un chemin- valeur
d'un mot grammaticalUne table donne les valeurs
des paramètres pour chaque classe- lignes les
classes- colonnes les paramètresLexicalisatio
n au niveau des prédicatsLe graphe contient des
paramètres qui prennent une valeur pour chaque
prédicat
17
Traitements sans lexique
2. Lemmatisation améliorée
Lemmatisation sans lexique (stemming)Algorithme
de Martin Porter (1980)Etiquetage par
apprentissage automatiqueCompatible avec des
jeux détiquettes réduits (10 à 100)Résultats
une séquence détiquettes
18
Complexité des résultats dUnitex
  • - étiquettes structurées
  • - ambiguïtés lexicales, représentation du texte
    par un automate acyclique ( treillis  de mots)
  • La levée des ambiguïtés reste un problème ouvert
  • Approximations pour linéariser lautomate
    acyclique du texte
  • Les traitements appelés par Unitex peuvent être
    appelés depuis un script, et combinés avec
    dautres traitements (cf. Info Console ou le
    manuel)
  • Les résultats des traitements sont des fichiers
    intermédiaires dont le format est décrit dans le
    manuel dutilisation

19
Méthodes de simplification
  • Priorités entre analyses dune séquence
  • - une analyse comportant un mot composé est
    presque toujours meilleure quune analyse
    concurrente sans mots composés
  • - les lexiques morpho-syntaxiques comportent un
    marquage de plausibilité demploi des mots
    simples (z1, z2, z3)
  • ex. continuer,.Vz1W
  • impériale,.Nz2fs
  • parsi,.Az3ms
  • Poids même principe, mais on conserve des
    analyses concurrentes avec une pondération des
    analyses ou des étiquettes

20
3. Cascades de transducteurs
  • But reconnaissance et marquage de motifs
  • Exemple entités nommées
  • Applications
  • indexation,
  • classification,
  • classement par pertinence,
  • extraction dinformations,
  • extraction de terminologie,
  • élimination des mots grammaticaux...
  • Ne nécessite pas de lever les ambiguïtés
    lexicales du texte Unitex applique le
    transducteur à lautomate et produit une nouvelle
    version (linéaire) du texte. Composition de
    plusieurs transducteurs possible ( cascade )
  • Unitex fait une application glissante des
    transducteurs (en commençant à tous les mots du
    texte lapplication peut se terminer à
    nimporte quel mot)

21
Transducteurs
Un automate fini contient des séquences qui
peuvent être reconnues dans un texte existant Un
transducteur fini est utilisé pour engendrer une
nouvelle version du texte il contient des
séquences qui seront reconnues (séquences
dentrée) et dautres qui seront insérées
(séquences de sortie)Exemple insérer des
balises ltcampusgt et lt/campusgt avant et après les
séquences désignant le campus de luniversité
(nombreuses variantes)Avec Unitex, les
séquences de sortie sont affichées au-dessous des
boîtes Pour créer un transducteur, insérer une
barre (/) entre la séquence dentrée et la
séquence de sortie correspondantePour appliquer
le transducteur, indiquer si les séquences de
sortie doivent être insérées à gauche des
séquences dentrée correspondantes, ou si elles
doivent les remplacer
22
Informations lexicales et recherche de formes
Une fois les lexiques appliqués à un texte, les
informations incluses dans le texte peuvent être
exploitées pour rechercher des formes
linguistiques dans le texte (Unitex)Masques
lexicauxExpressions qui reconnaissent des mots
en fonction de propriétés lexicales- lemme
ltdroitgt reconnaît droit, droits, droite,
droites- catégorie grammaticale ltVgt reconnaît
nimporte quel verbe (utiliser les conventions
des lexiques consultés)- autres traits présents
dans le lexique ltNsgt reconnaît nimporte quel
substantif singulier- combinaisons de ces
informations ltpouvoir.Ngt reconnaît seulement
pouvoir et pouvoirs- autres masques lexicaux
ltMOTgt, ltPREgt, ltMAJgt... (v. manuel)- les
informations issues du lexique-grammaire sont
utilisables
23
Ambiguïtés des transducteurs
Un transducteur est ambigu lorsque plusieurs
chemins distincts sappliquent à une même
séquence dentréeComme Unitex ne produit quune
sortie linéaire, seul un des chemins sera pris en
compte (choix arbitraire)Pour contrôler le
résultat du traitement, éviter de construire des
transducteurs trop ambigusAmbiguïtés de
recouvrement deux séquences reconnues ont une
partie commune
24
4. Enrichissement de lexiques
  • Unitex offre des fonctions de traitement de
    lexiques (forme en clair/forme comprimée)
  • - compression dun lexique avec accès rapide
  • - flexion automatique
  • Ajouts dinformation possibles
  • - fréquences demploi tirées dun corpus
  • - mesure de la spécificité des mots à un domaine
    spécialisé
  • - interfaçage entre lexique morpho-syntaxique
    (avec formes fléchies) et thésaurus ou ontologies

25
  • Ajouts dentrées
  • - liens avec formes dérivées (face/facial), par
    graphes de dérivation approximatifs
  • - inclusion de collocations spécifiques à un
    domaine,
  • ex. dans les bulletins météo, alternance de
    passages nuageux et déclaircies

26
Conclusion
  • Des ressources linguistiques complexes, élaborées
    à la main par des linguistes (1967-2005)
  • Des outils logiciels adaptés
  • Les méthodes de TALN avec et sans ressources
    lexicales sont restées très cloisonnées, mais
    sont combinables (systèmes hybrides)
Write a Comment
User Comments (0)
About PowerShow.com