Matrise de Sciences du Langage mention Industrie de la langue Sorbonne Nouvelle Paris 3 anne 2000200 - PowerPoint PPT Presentation

1 / 48
About This Presentation
Title:

Matrise de Sciences du Langage mention Industrie de la langue Sorbonne Nouvelle Paris 3 anne 2000200

Description:

Sorbonne Nouvelle Paris 3 ann e 2000/2001 MAISONDIEU Aude ... Pour finir, effectuer une analyse morphologique approfondie. Traitements lexicom triques ... – PowerPoint PPT presentation

Number of Views:111
Avg rating:3.0/5.0
Slides: 49
Provided by: audemai
Category:

less

Transcript and Presenter's Notes

Title: Matrise de Sciences du Langage mention Industrie de la langue Sorbonne Nouvelle Paris 3 anne 2000200


1
Maîtrise de Sciences du Langage mention
Industrie de la langue Sorbonne Nouvelle
Paris 3 année 2000/2001 MAISONDIEU Aude
Sous la direction de Serge FLEURY
  • Étude Linguistique des mots étiquetés
    InCoNusdans un corpus Web

2
Sommaire
  • Introduction
  • TyPWeb/Origine du mémoire
  • Définition
  • Constitution du corpus Web
  • Filtrage lexicographique
  • Traitements linguistiques des mots inconnus
  • Conclusion

3
Introduction
  • Problématique
  • Le Web réservoir à corpus dun
  • nouveau genre
  • Hypothèse de départ
  • Nouvelle terminologie
  • Travail envisagé
  • Analyse des mots étiquetés inconnus

4
TyPWeb/Origine du mémoire
  • TyPWeb (Typologie de Pages Web)
  • Le projet TyPWeb propose de fournir
  • un cadre méthodologique et pratique de profilage
    de sites Web
  • une typologie fine de ces sites
  • Origine du mémoire
  • Un Stage au sein de léquipe Typweb un corpus
    Web
  • De Nombreuses questions
  • Les mots inconnus et les outils TAL

5
Définition
  • Définition
  • Nous pouvons définir  un mot inconnu comme
    l'un quelconque des éléments de la liste des mots
    d'un corpus qui n'appartiendrait pas à l'ensemble
    des formes fléchies constitutives du dictionnaire
    de référence .
  • Hypothèse de classification
  • Entités nommées
  • Néologismes
  • Vocabulaires de spécialité et technologique
  • Apocopes
  • Erreurs lexicales ou typographiques

6
Entités nommées
  • Définition
  • Lentité nommée est une appellation générique
    pour les noms propres désignant des personnes,
    des lieux ou des organismes.
  • Les entités nommées et le TAL
  • Nous distinguons trois grands types de
    catégorisation des entités nommées 
  • Catégorisations linguistiques
  • Catégorisations M.U.C.
  • Autres catégorisations
  • En reconnaissance automatique des entités
    nommées, nous distinguons trois méthodes
  • Probabiliste avec corpus dapprentissage 
  • Dictionnaire
  • Diverses méthodes dapprentissage

7
Néologismes
  • Définition
  •  Le néologisme est une unité lexicale (nouveau
    signifiant ou nouveau rapport signifiant-signifié)
    fonctionnant dans un modèle de communication
    déterminé, et qui nétait pas réalisé
  • antérieurement ()  .
  • Les Néologismes et le TAL
  • méthode de recherche de néologismes
  • Documentation
  • Filtrage lexicographique
  • Analyse des résultats
  • Traitement linguistique et terminologique

8
Vocabulaires de spécialité et technologiques
  • Définition
  •  () vocabulaire de spécialité, domaine de la
    terminologie, dont la diversité et le nombre de
    termes saccroissent constamment, en parallèle
    avec le développement des sciences et techniques.
    () .
  • Le Vocabulaire de spécialité et le TAL
  • Différents outils avec différentes méthodes
  • Outils utilisant des méthodes linguistiques 
    Termino, Lexter
  • Outils utilisant des méthodes statistiques  Ana
  • Outils combinant les traitements linguistiques et
    filtres statistiques  Acabit, Xtract
  • Cités dans Bourigault Jacquemin, 2000,.

9
Apocopes
  • Définition
  •  Lapocope est un changement phonétique qui
    consiste en la chute dun ou plusieurs phonèmes
    ou syllabes à la fin dun mot  le latin illinc
    vient de illince par apocope du phonème final 
    les mots français métro et cinéma viennent par
    apocope de métropolitain et cinématographe .
  • Les apocopes et le TAL
  •  Presque tous les traitements qui ont été
    proposés pour ce phénomène se sont penchés sur
    son côté  destructif  .

10
Erreurs orthographiques ou typographiques
  • Définition
  • Deux types
  • Les erreurs lexicales, cest-à-dire productrices
    dun mot qui ne fait pas partie du vocabulaire
  • Les erreurs non lexicales, dont la détection met
    en jeu nécessairement un contexte
  • Les Erreurs et le TAL
  • Les erreurs lexicales facilement détectables avec
    un correcteur orthographique ou un étiqueteur par
    la seule utilisation du dictionnaire
  • Les erreurs non lexicales mettent en jeu un
    dictionnaire et lanalyse du contexte autour de
    la forme pôle

11
Constitution du corpus Web
  •   Quest-ce quun corpus ?
  •  un corpus est une collection de données
    langagières qui sont sélectionnées et organisées
    selon des critères linguistiques et
    extra-linguistiques explicites pour servir
    déchantillon demplois déterminés dune
    langue.  HABERT et al.
  • Choix des sites à aspirer
  • 15000 pages personnelles visitées de différents
  • hébergeurs au moins par deux internautes du
  • panel de NetValue.
  • Aspiration et normalisation du corpus Web suivant
    la chaîne de traitement TyPWeb

12
Aspiration et normalisation du corpus Web
13
Aspiration et normalisation du corpus Web
Extrait du corpus Normalisé
ltSITEgt ltHEBERGEURgtaltern.orglt/HEBERGEURgt ltPAGEgtaha
h/index.htmllt/PAGEgt ltDUMPTEXTgt REFRESH(0sec)
1http//altern.org/_undef_//index.htm
2Click here... lt/DUMPTEXTgt lt/SITEgt
14
Filtrage lexicographique
  • Notre objectif est dextraire les mots inconnus,
    pour cela nous avons à notre disposition deux
    étiqueteurs.
  • étiqueteur du centre linguistique de Lannion
  • Cordial
  • Mais tout dabord quest-ce quun étiqueteur?

15
Quest-ce quun étiqueteur?
  • Un étiqueteur (tagger en anglais) associe des
    informations (étiquettes) à des mots, à des
    phrases. Ce choix d'étiquettes
    morphosyntaxiques, sémantiques, grammaticales,
    etc. varie selon l'objectif recherché.

16
Étiqueteur de Lannion
  • Le principe de codage est confidentiel
  • Létiquetage a été réalisé sur les quatorze
    premières pages personnelles du corpus
  • Deux types de fichierrésultat 
  • Un fichier XML (Fichiers14.xml)
  • Un fichier texte (Motsinc) contenant la liste des
    mots étiquetés inconnus corrigés

17
Étiqueteur de Lannion
  • Observation
  • Cinq catégories de mots restés inconnus
  • mots étrangers 
  • mots appartenant à un domaine de spécialité
  • Abréviations
  • mots spécifiques au web, mots techniques 
  • mot qui nous est inconnu 
  • Conclusion
  • une première classification des mots inconnus
  • le nombre de pages personnelles et la liste des
    mots restés inconnus nest pas assez exhaustive
    pour les analyses

18
Cordial
  • Principe de codage
  • phrase par phrase
  • Création du sous-corpus
  • Extraction des parties textuelles
  • Filtrage déléments structurels du corpus 
  • Étiquetage du sous-corpus
  • Paramètres utilisés
  • Résultats produits et commentaires

19
Cordial Résultats et Commentaires
Corpus de 96234 mots dont 17986 mots étiquetés
inconnus. On observe deux types de mots inconnus
12451 mots inconnus avec erreur orthographique
signalée
5535 mots inconnus sans erreur orthographique
20
Cordial Résultats et Commentaires
  • Deux types grammaticaux ont été attribués aux
    mots étiquetés inconnus
  • NCI nom commun invariant en nombre et en genre
    (744 pour les mots sans erreur, 9568 pour les
    mots avec erreurs)
  • NPI nom propre invariant en nombre et en genre
  • (4793 pour les mots sans erreur, 2883 pour les
    mots avec erreurs)

21
Cordial Résultats et Commentaires
  • Nous distinguons neuf catégories de mots
  • inconnus
  • entités nommées
  • mots appartenant à un lexique étranger
  • mots spécifiques au Web/ mots techniques
  • abréviations
  • noms communs français
  • néologismes ou mots qui nous sont inconnus
  • mots écrits phonétiquement
  • mots avec erreur orthographique ou typographique

22
Cordial Résultats et Commentaires
  • Les possibilités offertes par Cordial pour
    corriger lerreur orthographique nest pas
    toujours pertinente, voire inexistante.
  • Un même mot peut être étiqueté inconnu avec ou
    sans erreur orthographique.
  • Cordial offre deux possibilités de correction
    pour un même mot.
  • Daprès les dictionnaires créés, nous nobservons
    pas la présence de mots composés.

23
Cordial Résultats et Commentaires
  • Conclusion
  • Face au volume du corpus Cordial nest pas adapté
    à lobjectif initial fixé
  • Parmi les mots étiquetés inconnus, les résultats
    et le choix des étiquettes ne sont pas toujours
    rigoureux, nous pouvons nous demander si cela est
    dû au corpus Web

24
Conclusion
  • A partir des résultats des mots étiquetés
    inconnus de Cordial
  • nous examinerons à quels types de mots nous
    sommes confronté par une analyse
  • morphologique
  • Nous étudierons leur contexte et
  • les particularités linguistiques du corpus Web
    constitué.

25
Traitements linguistiques des mots inconnus
  • Formalisation des connaissances morphologiques
    des mots inconnus
  • Traitements lexicométriques

26
Formalisation des connaissances morphologiques
des mots inconnus
  • Deux traitements
  • Séparation des mots dont le préfixe est inconnu
    des mots dont le préfixe est connu et décrire nos
    résultats.
  • Repérage des mots candidats à la néologie.

27
Formalisation des connaissances morphologiques
des mots inconnus -WEBFIX
  • WEBFIX est un programme qui permet de repérer de
    nouvelles formes attestées sur le Web en fonction
    de leur préfixe.

28
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de mots à préfixe
inconnu
2366 formes
1818 formes à préfixe connu
548 formes à préfixe inconnu
29
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de mots à préfixe
inconnu
  • Bilan
  • Dans lensemble nous obtenons les mêmes
    catégories de mots inconnus
  • Cependant la liste des mots à préfixe inconnu
    nous permet de mettre en évidence
  • Les sigles marqués dun point
  • Les extensions de fichier
  • Les mots avec un article élidé

30
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de néologismes
  • Recherche de néologismes suivant la méthode du
    projet WebFix
  • A partir de la liste des mots à préfixe connu
  • Dérivations
  • Nominales -ation ou -tion, -age, -ment, -isme,
    -ie
  • Adjectivales -el, -ique, -if

31
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de néologismes
  • Bilan
  • En générale, nous trouvons trois catégories
    de mots
  • Mots français mal accentués  ou mot anglais
  • Mots anglais
  • Mots qui nous sont inconnus qui pourraient
  • être des néologismes 
  • Ce traitement ne paraît pas propice pour trouver
    des néologismes dans notre corpus

32
Formalisation des connaissances morphologiques
des mots inconnus -Conclusion
  • Pas de résultats probants
  • Hypothèse
  • Effectuer un  post-traitement  manuel des
    résultats de létiquetage
  • Puis séparer
  • les mots étrangers des mots français (mal
    accentués ou non)
  • les noms propres des noms communs
  • Pour finir, effectuer une analyse morphologique
    approfondie

33
Traitements lexicométriques
  • Nous essayerons de voir sil existe des
    particularités linguistiques du corpus Web
    constitué à laide de loutil de statistiques
    textuelles Lexico3
  • Analyse locale autour des mots inconnus
    Repérage de concordances
  • Analyse globale du corpus Traitements
    statistiques
  • Mais préalablement nous devons préparer notre
    corpus pour quil puisse être traité par Lexico3

34
Traitements lexicométriques - Lexico3
  • Lexico3, est un outil de statistiques
    textuelles, qui permet deffectuer une analyse
    globale et locale des textes.

35
Traitements lexicométriques - Préparation du
corpus
  • Choix des éléments du corpus à mettre en
    évidence  formes lexicales (délimiteurs),
    parties du corpus (Clés et section).
  • Délimiteurs
  • délimiteurs par défaut
  • Conservation de la différence entre
    minuscule/majuscule
  • Clés et Sections
  • La clé est la balise ltDUMPTEXTgt
  • La section est la balise ltDUMPTEXTgt

36
Traitements lexicométriques - Repérage de
concordances
  • Mots étrangers dans un contexte français
  • Mots étrangers dans des contextes uniquement
    étranger Présence de mots français en contexte
    français
  • Mots écrits phonétiquement en contexte français
  • Mots inconnus insérés dans des listes
  • Entités nommées    
  • Mots appartenant à un domaine de spécialité
  • Entités nommées insérées dans des phrases
    françaises ou étrangères
  • Mots techniques ou appartenant à un domaine de
    spécialité dans des contextes divers
  • Apocopes ou abréviations insérées dans des
    contextes divers
  • Mots avec une erreur lexicale ou non lexicale
    insérés dans des phrases françaises
  • Présence de mots qui nous sont réellement
    inconnus dans des contextes divers

37
Traitements lexicométriques - Repérage de
concordances
  • Remarques
  • Présence dhomographes
  • 69. des mots inconnus sont des hapax
  • Mots inconnus de fréquence supérieure ou égale à
    deux sont souvent utilisés plusieurs fois dans
    les même pages personnelles, voire les mêmes
    sites.
  • Influence de la majuscule dans létiquetage

38
Traitements lexicométriques - Repérage de
concordances
  • Parmi les concordances autour dun mot inconnu,
    nous dégageons
  • Deux phénomènes qui semblent caractéristiques de
    notre corpus Web  lemprunt, la présence de mots
    écrits phonétiquement
  • Un éventail très large des entités nommées et
    leur caractère éphémère
  • Labsence de norme typographique mélange de
    majuscules, minuscules
  • De nombreux mots qui nous sont inconnus
  • Une majorité dhapax parmi les mots inconnus
  • Un corpus de données hétérogènes  liste de mots,
    mélange de plusieurs langues, présence de mots
    appartenant à divers domaines de spécialité ou
    techniques.

39
Traitements lexicométriques -Traitements
statistiques PCLC
  • Observations
  • Certains mots étiquetés inconnus, font parti des
    PCLC dune ou plusieurs pages personnelles.
  • Le mot Click est récurrent et se trouve toujours
    dans une partie constituée de deux occurrences.
    Ce mot napparaît pas dans nos listes de mots
    inconnus et a été étiqueté par cordial NCMS (nom
    commun masculin singulier), cest ce qui explique
    que here a été étiqueté inconnu avec erreur
    orthographique.
  • FRAME et click sont les PCLC les plus
    redondantes.
  • Nous observons également que les parties ont un
    nombre doccurrences qui varie de 0 à 7142.

Principales caractéristiques lexicométriques
40
Traitements lexicométriques - Traitements
statistiques - PCLC
  • A laide des PCLC et des mots
  • inconnus, nous dégageons que
  • Le corpus peut avoir pour principales
    caractéristiques lexicométriques des mots
    étiquetés inconnus.
  • Lattribution dune mauvaise étiquette syntaxique
    à une forme donnée entraîne un traitement erroné
    de cette forme, mais peut aussi affecter le
    traitement des formes environnantes.
  • Les parties du corpus sont dun volume très
    variable.

41
Traitements lexicométriques - Traitements
statistiques Segments répétés
  • Segments de noms propres
  • Segments avec au moins un mot technique
  • Segments de mots anglais
  • Segments de mots anglais mélangés à du français
  • Segments contenant un mot français avec une
    erreur orthographique
  • Segments que nous ne pouvons classer

42
Traitements lexicométriques - Traitements
statistiques Segments répétés
  • Parmi les segments répétés autour
  • dun mot inconnu, nous dégageons
  • Des noms propres
  • Lemploi de langlais 
  • Le mélange de langues
  • Des segments redondants contenant des erreurs
    orthographiques
  • La présence de mots techniques
  • L hétérogénéité des données

43
Traitements lexicométriques - Traitements
statistiques - A.F.C
Deux points excentrés qui correspondent à des
listes de prénoms français ou étrangers
Regroupement des parties textuelles autour de
laxe du graphe
Les parties sont très éloignées du regroupement
des autres parties textuelles. Nous devons donc
supprimer ces parties du corpus et effectuer une
autre AFC.
44
Traitements lexicométriques - Traitements
statistiques - A.F.C
  • Pour les AFC suivantes nous avons détecté
    dautres points excentrés
  • Parties dont le contenu est click here 
  • Parties dont le contenu est FRAME titre de la
    frame avec une phrase de lauteur de la page
    indiquant que le navigateur ne prend pas en
    compte ce type de frame (fenêtre)
  • Parties dont le contenu est une liste du mot
    octets
  • Parties dont le contenu est vide
  • Donc suppression de ces parties, et réalisation
    dune dernière AFC.
  • Nous observons, globalement, une répartition des
    parties entre le français et langlais.

45
Traitements lexicométriques - Traitements
statistiques - A.F.C
  • Au cours de notre analyse, nous avons distingué
    plusieurs parties textuelles dans notre corpus
  • Pages dont le contenu textuel est limité
  • Pages avec du contenu textuel 
  • Nous ne pouvons établir une typologie certaine
    des parties textuelles pour les raisons
    suivantes 
  •  La taille variable des parties    
  • Les données sont très hétérogènes
  • Nous ne pouvons donc pas conclure si les mots
    inconnus ont une influence sur une éventuelle
    typologie des parties textuelles

46
Traitements lexicométriques - Conclusion
  • Nous avons dégagé
  • Les mots étiquetés inconnus sont nombreux, variés
    et employés dans divers contextes 
  • Un corpus hétérogène car le contenu (langue,
    typographie) et le volume des parties
  • textuelles des pages personnelles sont variables.
  • Cordial influencé par la typographie des mots ne
    semble pas adapté à notre corpus Web
  • Nous ne pas pouvons affirmer si le Web véhicule
    une nouvelle forme de langage

47
Conclusion
  • Bilan
  • Les mots étiquetés inconnus sont nombreux, variés
    et employés dans divers contextes
  • Notre corpus Web contient des données textuelles
    hétérogènes (langue, typographie)
  • Perspectives 
  • Déterminer ce quest un corpus Web représentatif
    avant tout.
  • Élargir la recherche sur un corpus plus
    volumineux
  •  Exploiter les résultats obtenus par létiqueteur
    de Lannion
  • Effectuer une analyse morphologique approfondie
  • Faire une analyse contextuelle, morphologique,
    syntaxique, sémantique des mots inconnus pour
    trouver déventuels néologismes.

48
  • PhIn
Write a Comment
User Comments (0)
About PowerShow.com