Modlisation de la langue crite pour le TAL - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Modlisation de la langue crite pour le TAL

Description:

Le langage naturel est fondamentalement ambigu, ce qui fait sa richesse (jeux de mots, quivoques) mais constitue la principale difficult , en particulier pour l'analyse ... – PowerPoint PPT presentation

Number of Views:74
Avg rating:3.0/5.0
Slides: 21
Provided by: universit127
Category:

less

Transcript and Presenter's Notes

Title: Modlisation de la langue crite pour le TAL


1
Modélisation de la langue écrite pour le TAL
  • Agnès Tutin
  • Maîtrise IDL Orientation TALEP

2
1. Introduction
  • Plan
  • 1.1 Le TAL quest-ce que cest?
  • 1.2 Lobjet du TAL le langage naturel
  • 1.3 Les différents niveaux de traitement en TAL
  • 1.4 Lobjet du cours la modélisation des
    données linguistiques

3
1. Introduction
  • 1.1 Le TAL quest-ce que cest?
  • Domaine qui vise à modéliser et à reproduire à
    laide de machines le langage humain
  • Objectifs
  • Faire des programmes dans le but dapplications
    pratiques (TAO, Recherche dinformation sur le
    Web, etc.)
  • Modéliser pour tester des hypothèses sur le
    langage

4
  • 1.2 Lobjet du TAL le langage naturel
  • Langage naturel par opposition aux langages
    formels
  • Le langage naturel est fondamentalement ambigu,
    ce qui fait sa richesse (jeux de mots,
    équivoques) mais constitue la principale
    difficulté, en particulier pour lanalyse

5
  • Pas de correspondance entre la forme et le sens
  • une forme ? plusieurs sens lambiguïté
  • Ambiguïté (locale) au niveau des mots
  • catégorielle couvent (nom ou verbe), la (nom,
    dét. ou pronom)
  • sémantique
  • polysémie assiette (contenu ou contenant),
    boire (un liquide ou être alcoolique)
  • homonymie avocat (végétal ou personne), voler
    (planer ou dérober).

6
  • Ambiguïté au niveau de la phrase due à la
    combinaison des mots (ambiguïté syntaxique)
  • ambiguïté syntaxique catégorielle la petite
    porte le voile
  • ambiguïté syntaxique structurale il aime
    létudiante de linguistique anglaise
  • ambiguïté syntaxique de structure profonde
    Léo regarde manger les poulets

7
  • Ambiguïté au niveau de la phrase due au sens des
    mots (ambiguïté sémantique)
  • Exemple la portée des quantificateurs
  • Tous les étudiants de linguistique parlent une
    langue

8
  • Ambiguïté au niveau textuel (ambiguïté
    discursive)
  • Exemple la résolution des anaphores
  • Le professeur a mis l'élève à la porte parce
    qu'il l'agaçait.
  • Le professeur a mis l'élève à la porte parce
    qu'il en avait assez.
  • Le professeur a envoyé l'élève chez le directeur
    parce qu'il le demandait.

9
  • Un sens ? plusieurs formes la paraphrase
  • Au niveau des mots la synonymie (ou plutôt
    quasi-synonymie)
  • Lulu a acheté un nouveau vélo/ une nouvelle
    bicyclette
  • Mariette sest spécialisée en TAL/ en
    linguistique informatique

10
  • Au niveau des phrases
  • contenu lexical différent
  • Lulu a acheté un nouveau vélo/ Lulu sest payé
    une nouvelle bicyclette
  • contenu lexical identique (allotaxie)
  • Ce cours de sémantique passionne Lulu/ Lulu est
    passionné par ce cours de sémantique

11
  • Dautres difficultés
  • Les métaphores, les comparaisons
  • Ce cours est une purge.
  • Ce cours est comme une purge.

12
  • 1.3 Les différents niveaux de traitement en TAL
  • Segmentation
  • Analyse morphologique et lexicale
  • Analyse lexicale désambiguïsée (étiquetage
    morpho-syntaxique) lt-- Etape facultative
  • Analyse syntaxique
  • Analyse sémantique
  • Analyse pragmatique
  • Dans le cadre du cours, point de vue de lanalyse
    (de la segmentation vers le sens)
  • Tous les modèles linguistiques ne sont pas aussi
    stratifiés (par exemple, analyse syntaxique et
    analyse sémantique simultanées)

13
  • La segmentation
  • Consiste à segmenter le texte en unités
    lexicales (et y repérer des marques de paragraphe
    ou autres marques indiquant la structure
    logique).
  • Pas complètement trivial - analyse des sigles
    et des abréviations.- élisions.- amalgames

14
Un exemple de segmentationTexte en entrée
Jean-Pierre vient-il aujourd'hui à l'U.F.R.?
Non, il fait de l'U.L.M. au Versoud.
  • Résultat de la segmentation Jean-Pierre vient-
    -il aujourd'hui à l' U.F.R . ? Non, il
    fait de l' U.L.M . au Versoud.

15
  • Lanalyse morphologique et lexicale
  • Prend en entrée les résultats de la segmentation
    (les mots sous leurs formes fléchies) et fournit
    en sortie un lemme accompagné de propriétés
    morphologiques, syntaxiques et sémantiques.
  • brise
  • 1. lemme briser, catégorie verbe, nombre
    singulier, personne première ou troisième,
    temps présent, mode indicatif ou subjonctif.
  • 2. lemme brise, catégorie nom, nombre
    singulier, genre féminin.

16
  • Lanalyse lexicale désambiguïsée (ou étiquetage
    morpho-syntaxique)
  •  L'étiquetage morpho-syntaxique consiste à
    identifier la classe morpho-syntaxique qui est
    associée aux mots dans leur contexte
    d'énonciation.  (Paroubek Rajman 2000 131)

17
  • Lanalyse sémantique
  • Prend en entrée le résultat de lanalyse
    syntaxique et fournit en sortie une
    représentation sémantique (la représentation
    sémantique est plus abstraite que la
    représentation syntaxique par exemple, les
    paraphrases syntaxiques auront le même type de
    représentation les mots grammaticaux comme les
    déterminants ou les auxiliaires napparaîtront
    pas comme entités lexicales).

18
  • Lanalyse syntaxique
  • Prend en entrée le résultat de lanalyse
    lexicale (éventuellement de l'étiquetage
    morpho-syntaxique) et fournit en sortie une
    structure hiérachisée des groupements structurels
    et des relations fonctionnelles qui unissent les
    groupements.

19
  • Lanalyse pragmatique
  • Prend en entrée le résultat de lanalyse
    sémantique et fournit une représentation adaptée
    au contexte énonciatif (repérage de limplicite
    et des présupposés, interprétation des actes de
    langage, etc.)

20
  • 1.4 Lobjet du cours la modélisation des
    données linguistiques
  • Importer les connaissances et les modèles des
    sciences du langage et les modéliser/adapter au
    TAL.
  • Formalisation des données et des modèles
    description explicite et rigoureuse.
  • Utilisation de modèles linguistiques spécifiques
    (mais souvent inspirés des théories
    linguistiques). Lutilisation de vrais modèles
    linguistiques évite les description  ad hoc .
  • Description exhaustive (et donc parfois
    fastidieuse!) par exemple, le lexique doit être
    décrit dans son entier pour la correction
    orthographique.
Write a Comment
User Comments (0)
About PowerShow.com