Matrise de Sciences du Langage mention Industrie de la langue Sorbonne Nouvelle Paris 3 anne 2000200 - PowerPoint PPT Presentation

1 / 48

About This Presentation

Title:

Matrise de Sciences du Langage mention Industrie de la langue Sorbonne Nouvelle Paris 3 anne 2000200

Description:

Sorbonne Nouvelle Paris 3 ann e 2000/2001 MAISONDIEU Aude ... Pour finir, effectuer une analyse morphologique approfondie. Traitements lexicom triques ... – PowerPoint PPT presentation

Number of Views:111

Avg rating:3.0/5.0

Slides: 49

Provided by: audemai

Category:

more less

Transcript and Presenter's Notes

Title: Matrise de Sciences du Langage mention Industrie de la langue Sorbonne Nouvelle Paris 3 anne 2000200

1
Maîtrise de Sciences du Langage mention
Industrie de la langue Sorbonne Nouvelle
Paris 3 année 2000/2001 MAISONDIEU Aude
Sous la direction de Serge FLEURY

Étude Linguistique des mots étiquetés
InCoNusdans un corpus Web

2
Sommaire

Introduction
TyPWeb/Origine du mémoire
Définition
Constitution du corpus Web
Filtrage lexicographique
Traitements linguistiques des mots inconnus
Conclusion

3
Introduction

Problématique
Le Web réservoir à corpus dun
nouveau genre
Hypothèse de départ
Nouvelle terminologie
Travail envisagé
Analyse des mots étiquetés inconnus

4
TyPWeb/Origine du mémoire

TyPWeb (Typologie de Pages Web)
Le projet TyPWeb propose de fournir
un cadre méthodologique et pratique de profilage
de sites Web
une typologie fine de ces sites
Origine du mémoire
Un Stage au sein de léquipe Typweb un corpus
Web
De Nombreuses questions
Les mots inconnus et les outils TAL

5
Définition

Définition
Nous pouvons définir un mot inconnu comme
l'un quelconque des éléments de la liste des mots
d'un corpus qui n'appartiendrait pas à l'ensemble
des formes fléchies constitutives du dictionnaire
de référence .
Hypothèse de classification
Entités nommées
Néologismes
Vocabulaires de spécialité et technologique
Apocopes
Erreurs lexicales ou typographiques

6
Entités nommées

Définition
Lentité nommée est une appellation générique
pour les noms propres désignant des personnes,
des lieux ou des organismes.
Les entités nommées et le TAL
Nous distinguons trois grands types de
catégorisation des entités nommées
Catégorisations linguistiques
Catégorisations M.U.C.
Autres catégorisations
En reconnaissance automatique des entités
nommées, nous distinguons trois méthodes
Probabiliste avec corpus dapprentissage
Dictionnaire
Diverses méthodes dapprentissage

7
Néologismes

Définition
Le néologisme est une unité lexicale (nouveau
signifiant ou nouveau rapport signifiant-signifié)
fonctionnant dans un modèle de communication
déterminé, et qui nétait pas réalisé
antérieurement () .
Les Néologismes et le TAL
méthode de recherche de néologismes
Documentation
Filtrage lexicographique
Analyse des résultats
Traitement linguistique et terminologique

8
Vocabulaires de spécialité et technologiques

Définition
() vocabulaire de spécialité, domaine de la
terminologie, dont la diversité et le nombre de
termes saccroissent constamment, en parallèle
avec le développement des sciences et techniques.
() .
Le Vocabulaire de spécialité et le TAL
Différents outils avec différentes méthodes
Outils utilisant des méthodes linguistiques
Termino, Lexter
Outils utilisant des méthodes statistiques Ana
Outils combinant les traitements linguistiques et
filtres statistiques Acabit, Xtract
Cités dans Bourigault Jacquemin, 2000,.

9
Apocopes

Définition
Lapocope est un changement phonétique qui
consiste en la chute dun ou plusieurs phonèmes
ou syllabes à la fin dun mot le latin illinc
vient de illince par apocope du phonème final
les mots français métro et cinéma viennent par
apocope de métropolitain et cinématographe .
Les apocopes et le TAL
Presque tous les traitements qui ont été
proposés pour ce phénomène se sont penchés sur
son côté destructif .

10
Erreurs orthographiques ou typographiques

Définition
Deux types
Les erreurs lexicales, cest-à-dire productrices
dun mot qui ne fait pas partie du vocabulaire
Les erreurs non lexicales, dont la détection met
en jeu nécessairement un contexte
Les Erreurs et le TAL
Les erreurs lexicales facilement détectables avec
un correcteur orthographique ou un étiqueteur par
la seule utilisation du dictionnaire
Les erreurs non lexicales mettent en jeu un
dictionnaire et lanalyse du contexte autour de
la forme pôle

11
Constitution du corpus Web

Quest-ce quun corpus ?
un corpus est une collection de données
langagières qui sont sélectionnées et organisées
selon des critères linguistiques et
extra-linguistiques explicites pour servir
déchantillon demplois déterminés dune
langue. HABERT et al.
Choix des sites à aspirer
15000 pages personnelles visitées de différents
hébergeurs au moins par deux internautes du
panel de NetValue.
Aspiration et normalisation du corpus Web suivant
la chaîne de traitement TyPWeb

12
Aspiration et normalisation du corpus Web
13
Aspiration et normalisation du corpus Web
Extrait du corpus Normalisé
ltSITEgt ltHEBERGEURgtaltern.orglt/HEBERGEURgt ltPAGEgtaha
h/index.htmllt/PAGEgt ltDUMPTEXTgt REFRESH(0sec)
1http//altern.org/_undef_//index.htm
2Click here... lt/DUMPTEXTgt lt/SITEgt
14
Filtrage lexicographique

Notre objectif est dextraire les mots inconnus,
pour cela nous avons à notre disposition deux
étiqueteurs.
étiqueteur du centre linguistique de Lannion
Cordial
Mais tout dabord quest-ce quun étiqueteur?

15
Quest-ce quun étiqueteur?

Un étiqueteur (tagger en anglais) associe des
informations (étiquettes) à des mots, à des
phrases. Ce choix d'étiquettes
morphosyntaxiques, sémantiques, grammaticales,
etc. varie selon l'objectif recherché.

16
Étiqueteur de Lannion

Le principe de codage est confidentiel
Létiquetage a été réalisé sur les quatorze
premières pages personnelles du corpus
Deux types de fichierrésultat
Un fichier XML (Fichiers14.xml)
Un fichier texte (Motsinc) contenant la liste des
mots étiquetés inconnus corrigés

17
Étiqueteur de Lannion

Observation
Cinq catégories de mots restés inconnus
mots étrangers
mots appartenant à un domaine de spécialité
Abréviations
mots spécifiques au web, mots techniques
mot qui nous est inconnu
Conclusion
une première classification des mots inconnus
le nombre de pages personnelles et la liste des
mots restés inconnus nest pas assez exhaustive
pour les analyses

18
Cordial

Principe de codage
phrase par phrase
Création du sous-corpus
Extraction des parties textuelles
Filtrage déléments structurels du corpus
Étiquetage du sous-corpus
Paramètres utilisés
Résultats produits et commentaires

19
Cordial Résultats et Commentaires
Corpus de 96234 mots dont 17986 mots étiquetés
inconnus. On observe deux types de mots inconnus
12451 mots inconnus avec erreur orthographique
signalée
5535 mots inconnus sans erreur orthographique
20
Cordial Résultats et Commentaires

Deux types grammaticaux ont été attribués aux
mots étiquetés inconnus
NCI nom commun invariant en nombre et en genre
(744 pour les mots sans erreur, 9568 pour les
mots avec erreurs)
NPI nom propre invariant en nombre et en genre
(4793 pour les mots sans erreur, 2883 pour les
mots avec erreurs)

21
Cordial Résultats et Commentaires

Nous distinguons neuf catégories de mots
inconnus
entités nommées
mots appartenant à un lexique étranger
mots spécifiques au Web/ mots techniques
abréviations
noms communs français
néologismes ou mots qui nous sont inconnus
mots écrits phonétiquement
mots avec erreur orthographique ou typographique

22
Cordial Résultats et Commentaires

Les possibilités offertes par Cordial pour
corriger lerreur orthographique nest pas
toujours pertinente, voire inexistante.
Un même mot peut être étiqueté inconnu avec ou
sans erreur orthographique.
Cordial offre deux possibilités de correction
pour un même mot.
Daprès les dictionnaires créés, nous nobservons
pas la présence de mots composés.

23
Cordial Résultats et Commentaires

Conclusion
Face au volume du corpus Cordial nest pas adapté
à lobjectif initial fixé
Parmi les mots étiquetés inconnus, les résultats
et le choix des étiquettes ne sont pas toujours
rigoureux, nous pouvons nous demander si cela est
dû au corpus Web

24
Conclusion

A partir des résultats des mots étiquetés
inconnus de Cordial
nous examinerons à quels types de mots nous
sommes confronté par une analyse
morphologique
Nous étudierons leur contexte et
les particularités linguistiques du corpus Web
constitué.

25
Traitements linguistiques des mots inconnus

Formalisation des connaissances morphologiques
des mots inconnus
Traitements lexicométriques

26
Formalisation des connaissances morphologiques
des mots inconnus

Deux traitements
Séparation des mots dont le préfixe est inconnu
des mots dont le préfixe est connu et décrire nos
résultats.
Repérage des mots candidats à la néologie.

27
Formalisation des connaissances morphologiques
des mots inconnus -WEBFIX

WEBFIX est un programme qui permet de repérer de
nouvelles formes attestées sur le Web en fonction
de leur préfixe.

28
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de mots à préfixe
inconnu
2366 formes
1818 formes à préfixe connu
548 formes à préfixe inconnu
29
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de mots à préfixe
inconnu

Bilan
Dans lensemble nous obtenons les mêmes
catégories de mots inconnus
Cependant la liste des mots à préfixe inconnu
nous permet de mettre en évidence
Les sigles marqués dun point
Les extensions de fichier
Les mots avec un article élidé

30
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de néologismes

Recherche de néologismes suivant la méthode du
projet WebFix
A partir de la liste des mots à préfixe connu
Dérivations
Nominales -ation ou -tion, -age, -ment, -isme,
-ie
Adjectivales -el, -ique, -if

31
Formalisation des connaissances morphologiques
des mots inconnus -Recherche de néologismes

Bilan
En générale, nous trouvons trois catégories
de mots
Mots français mal accentués ou mot anglais
Mots anglais
Mots qui nous sont inconnus qui pourraient
être des néologismes
Ce traitement ne paraît pas propice pour trouver
des néologismes dans notre corpus

32
Formalisation des connaissances morphologiques
des mots inconnus -Conclusion

Pas de résultats probants
Hypothèse
Effectuer un post-traitement manuel des
résultats de létiquetage
Puis séparer
les mots étrangers des mots français (mal
accentués ou non)
les noms propres des noms communs
Pour finir, effectuer une analyse morphologique
approfondie

33
Traitements lexicométriques

Nous essayerons de voir sil existe des
particularités linguistiques du corpus Web
constitué à laide de loutil de statistiques
textuelles Lexico3
Analyse locale autour des mots inconnus
Repérage de concordances
Analyse globale du corpus Traitements
statistiques
Mais préalablement nous devons préparer notre
corpus pour quil puisse être traité par Lexico3

34
Traitements lexicométriques - Lexico3

Lexico3, est un outil de statistiques
textuelles, qui permet deffectuer une analyse
globale et locale des textes.

35
Traitements lexicométriques - Préparation du
corpus

Choix des éléments du corpus à mettre en
évidence formes lexicales (délimiteurs),
parties du corpus (Clés et section).
Délimiteurs
délimiteurs par défaut
Conservation de la différence entre
minuscule/majuscule
Clés et Sections
La clé est la balise ltDUMPTEXTgt
La section est la balise ltDUMPTEXTgt

36
Traitements lexicométriques - Repérage de
concordances

Mots étrangers dans un contexte français
Mots étrangers dans des contextes uniquement
étranger Présence de mots français en contexte
français
Mots écrits phonétiquement en contexte français
Mots inconnus insérés dans des listes
Entités nommées
Mots appartenant à un domaine de spécialité
Entités nommées insérées dans des phrases
françaises ou étrangères
Mots techniques ou appartenant à un domaine de
spécialité dans des contextes divers
Apocopes ou abréviations insérées dans des
contextes divers
Mots avec une erreur lexicale ou non lexicale
insérés dans des phrases françaises
Présence de mots qui nous sont réellement
inconnus dans des contextes divers

37
Traitements lexicométriques - Repérage de
concordances

Remarques
Présence dhomographes
69. des mots inconnus sont des hapax
Mots inconnus de fréquence supérieure ou égale à
deux sont souvent utilisés plusieurs fois dans
les même pages personnelles, voire les mêmes
sites.
Influence de la majuscule dans létiquetage

38
Traitements lexicométriques - Repérage de
concordances

Parmi les concordances autour dun mot inconnu,
nous dégageons
Deux phénomènes qui semblent caractéristiques de
notre corpus Web lemprunt, la présence de mots
écrits phonétiquement
Un éventail très large des entités nommées et
leur caractère éphémère
Labsence de norme typographique mélange de
majuscules, minuscules
De nombreux mots qui nous sont inconnus
Une majorité dhapax parmi les mots inconnus
Un corpus de données hétérogènes liste de mots,
mélange de plusieurs langues, présence de mots
appartenant à divers domaines de spécialité ou
techniques.

39
Traitements lexicométriques -Traitements
statistiques PCLC

Observations
Certains mots étiquetés inconnus, font parti des
PCLC dune ou plusieurs pages personnelles.
Le mot Click est récurrent et se trouve toujours
dans une partie constituée de deux occurrences.
Ce mot napparaît pas dans nos listes de mots
inconnus et a été étiqueté par cordial NCMS (nom
commun masculin singulier), cest ce qui explique
que here a été étiqueté inconnu avec erreur
orthographique.
FRAME et click sont les PCLC les plus
redondantes.
Nous observons également que les parties ont un
nombre doccurrences qui varie de 0 à 7142.

Principales caractéristiques lexicométriques
40
Traitements lexicométriques - Traitements
statistiques - PCLC

A laide des PCLC et des mots
inconnus, nous dégageons que
Le corpus peut avoir pour principales
caractéristiques lexicométriques des mots
étiquetés inconnus.
Lattribution dune mauvaise étiquette syntaxique
à une forme donnée entraîne un traitement erroné
de cette forme, mais peut aussi affecter le
traitement des formes environnantes.
Les parties du corpus sont dun volume très
variable.

41
Traitements lexicométriques - Traitements
statistiques Segments répétés

Segments de noms propres
Segments avec au moins un mot technique
Segments de mots anglais
Segments de mots anglais mélangés à du français
Segments contenant un mot français avec une
erreur orthographique
Segments que nous ne pouvons classer

42
Traitements lexicométriques - Traitements
statistiques Segments répétés

Parmi les segments répétés autour
dun mot inconnu, nous dégageons
Des noms propres
Lemploi de langlais
Le mélange de langues
Des segments redondants contenant des erreurs
orthographiques
La présence de mots techniques
L hétérogénéité des données

43
Traitements lexicométriques - Traitements
statistiques - A.F.C
Deux points excentrés qui correspondent à des
listes de prénoms français ou étrangers
Regroupement des parties textuelles autour de
laxe du graphe
Les parties sont très éloignées du regroupement
des autres parties textuelles. Nous devons donc
supprimer ces parties du corpus et effectuer une
autre AFC.
44
Traitements lexicométriques - Traitements
statistiques - A.F.C

Pour les AFC suivantes nous avons détecté
dautres points excentrés
Parties dont le contenu est click here
Parties dont le contenu est FRAME titre de la
frame avec une phrase de lauteur de la page
indiquant que le navigateur ne prend pas en
compte ce type de frame (fenêtre)
Parties dont le contenu est une liste du mot
octets
Parties dont le contenu est vide

Donc suppression de ces parties, et réalisation
dune dernière AFC.

Nous observons, globalement, une répartition des
parties entre le français et langlais.

45
Traitements lexicométriques - Traitements
statistiques - A.F.C

Au cours de notre analyse, nous avons distingué
plusieurs parties textuelles dans notre corpus
Pages dont le contenu textuel est limité
Pages avec du contenu textuel
Nous ne pouvons établir une typologie certaine
des parties textuelles pour les raisons
suivantes
La taille variable des parties
Les données sont très hétérogènes
Nous ne pouvons donc pas conclure si les mots
inconnus ont une influence sur une éventuelle
typologie des parties textuelles

46
Traitements lexicométriques - Conclusion

Nous avons dégagé
Les mots étiquetés inconnus sont nombreux, variés
et employés dans divers contextes
Un corpus hétérogène car le contenu (langue,
typographie) et le volume des parties
textuelles des pages personnelles sont variables.
Cordial influencé par la typographie des mots ne
semble pas adapté à notre corpus Web
Nous ne pas pouvons affirmer si le Web véhicule
une nouvelle forme de langage

47
Conclusion

Bilan
Les mots étiquetés inconnus sont nombreux, variés
et employés dans divers contextes
Notre corpus Web contient des données textuelles
hétérogènes (langue, typographie)
Perspectives
Déterminer ce quest un corpus Web représentatif
avant tout.
Élargir la recherche sur un corpus plus
volumineux
Exploiter les résultats obtenus par létiqueteur
de Lannion
Effectuer une analyse morphologique approfondie
Faire une analyse contextuelle, morphologique,
syntaxique, sémantique des mots inconnus pour
trouver déventuels néologismes.