Title: Matrise de Sciences du Langage mention Industrie de la langue Sorbonne Nouvelle Paris 3 anne 2000200
1Maîtrise de Sciences du Langage mention
Industrie de la langue Sorbonne Nouvelle
Paris 3 année 2000/2001 MAISONDIEU Aude
Sous la direction de Serge FLEURY
- Étude Linguistique des mots étiquetés
InCoNusdans un corpus Web
2Sommaire
- Introduction
- TyPWeb/Origine du mémoire
- Définition
- Constitution du corpus Web
- Filtrage lexicographique
- Traitements linguistiques des mots inconnus
- Conclusion
3Introduction
- Problématique
- Le Web réservoir à corpus dun
- nouveau genre
- Hypothèse de départ
- Nouvelle terminologie
- Travail envisagé
- Analyse des mots étiquetés inconnus
4TyPWeb/Origine du mémoire
- TyPWeb (Typologie de Pages Web)
- Le projet TyPWeb propose de fournir
- un cadre méthodologique et pratique de profilage
de sites Web - une typologie fine de ces sites
- Origine du mémoire
- Un Stage au sein de léquipe Typweb un corpus
Web - De Nombreuses questions
- Les mots inconnus et les outils TAL
5Définition
- Définition
- Nous pouvons définir un mot inconnu comme
l'un quelconque des éléments de la liste des mots
d'un corpus qui n'appartiendrait pas à l'ensemble
des formes fléchies constitutives du dictionnaire
de référence . - Hypothèse de classification
- Entités nommées
- Néologismes
- Vocabulaires de spécialité et technologique
- Apocopes
- Erreurs lexicales ou typographiques
6Entités nommées
- Définition
- Lentité nommée est une appellation générique
pour les noms propres désignant des personnes,
des lieux ou des organismes. - Les entités nommées et le TAL
- Nous distinguons trois grands types de
catégorisation des entités nommées - Catégorisations linguistiques
- Catégorisations M.U.C.
- Autres catégorisations
- En reconnaissance automatique des entités
nommées, nous distinguons trois méthodes - Probabiliste avec corpus dapprentissage
- Dictionnaire
- Diverses méthodes dapprentissage
7Néologismes
- Définition
- Le néologisme est une unité lexicale (nouveau
signifiant ou nouveau rapport signifiant-signifié)
fonctionnant dans un modèle de communication
déterminé, et qui nétait pas réalisé - antérieurement () .
- Les Néologismes et le TAL
- méthode de recherche de néologismes
- Documentation
- Filtrage lexicographique
- Analyse des résultats
- Traitement linguistique et terminologique
8Vocabulaires de spécialité et technologiques
- Définition
- () vocabulaire de spécialité, domaine de la
terminologie, dont la diversité et le nombre de
termes saccroissent constamment, en parallèle
avec le développement des sciences et techniques.
() . - Le Vocabulaire de spécialité et le TAL
- Différents outils avec différentes méthodes
- Outils utilisant des méthodes linguistiques
Termino, Lexter - Outils utilisant des méthodes statistiques Ana
- Outils combinant les traitements linguistiques et
filtres statistiques Acabit, Xtract - Cités dans Bourigault Jacquemin, 2000,.
9Apocopes
- Définition
- Lapocope est un changement phonétique qui
consiste en la chute dun ou plusieurs phonèmes
ou syllabes à la fin dun mot le latin illinc
vient de illince par apocope du phonème final
les mots français métro et cinéma viennent par
apocope de métropolitain et cinématographe . - Les apocopes et le TAL
- Presque tous les traitements qui ont été
proposés pour ce phénomène se sont penchés sur
son côté destructif .
10Erreurs orthographiques ou typographiques
- Définition
- Deux types
- Les erreurs lexicales, cest-à-dire productrices
dun mot qui ne fait pas partie du vocabulaire - Les erreurs non lexicales, dont la détection met
en jeu nécessairement un contexte - Les Erreurs et le TAL
-
- Les erreurs lexicales facilement détectables avec
un correcteur orthographique ou un étiqueteur par
la seule utilisation du dictionnaire - Les erreurs non lexicales mettent en jeu un
dictionnaire et lanalyse du contexte autour de
la forme pôle
11Constitution du corpus Web
- Quest-ce quun corpus ?
- un corpus est une collection de données
langagières qui sont sélectionnées et organisées
selon des critères linguistiques et
extra-linguistiques explicites pour servir
déchantillon demplois déterminés dune
langue. HABERT et al. - Choix des sites à aspirer
- 15000 pages personnelles visitées de différents
- hébergeurs au moins par deux internautes du
- panel de NetValue.
- Aspiration et normalisation du corpus Web suivant
la chaîne de traitement TyPWeb
12Aspiration et normalisation du corpus Web
13Aspiration et normalisation du corpus Web
Extrait du corpus Normalisé
ltSITEgt ltHEBERGEURgtaltern.orglt/HEBERGEURgt ltPAGEgtaha
h/index.htmllt/PAGEgt ltDUMPTEXTgt REFRESH(0sec)
1http//altern.org/_undef_//index.htm
2Click here... lt/DUMPTEXTgt lt/SITEgt
14Filtrage lexicographique
- Notre objectif est dextraire les mots inconnus,
pour cela nous avons à notre disposition deux
étiqueteurs. - étiqueteur du centre linguistique de Lannion
- Cordial
- Mais tout dabord quest-ce quun étiqueteur?
15Quest-ce quun étiqueteur?
- Un étiqueteur (tagger en anglais) associe des
informations (étiquettes) à des mots, à des
phrases. Ce choix d'étiquettes
morphosyntaxiques, sémantiques, grammaticales,
etc. varie selon l'objectif recherché.
16Étiqueteur de Lannion
- Le principe de codage est confidentiel
- Létiquetage a été réalisé sur les quatorze
premières pages personnelles du corpus - Deux types de fichierrésultat
- Un fichier XML (Fichiers14.xml)
- Un fichier texte (Motsinc) contenant la liste des
mots étiquetés inconnus corrigés
17Étiqueteur de Lannion
- Observation
- Cinq catégories de mots restés inconnus
- mots étrangers
- mots appartenant à un domaine de spécialité
- Abréviations
- mots spécifiques au web, mots techniques
- mot qui nous est inconnu
- Conclusion
- une première classification des mots inconnus
- le nombre de pages personnelles et la liste des
mots restés inconnus nest pas assez exhaustive
pour les analyses
18Cordial
- Principe de codage
- phrase par phrase
- Création du sous-corpus
- Extraction des parties textuelles
- Filtrage déléments structurels du corpus
- Étiquetage du sous-corpus
- Paramètres utilisés
- Résultats produits et commentaires
19Cordial Résultats et Commentaires
Corpus de 96234 mots dont 17986 mots étiquetés
inconnus. On observe deux types de mots inconnus
12451 mots inconnus avec erreur orthographique
signalée
5535 mots inconnus sans erreur orthographique
20Cordial Résultats et Commentaires
- Deux types grammaticaux ont été attribués aux
mots étiquetés inconnus - NCI nom commun invariant en nombre et en genre
(744 pour les mots sans erreur, 9568 pour les
mots avec erreurs) - NPI nom propre invariant en nombre et en genre
- (4793 pour les mots sans erreur, 2883 pour les
mots avec erreurs)
21Cordial Résultats et Commentaires
- Nous distinguons neuf catégories de mots
- inconnus
- entités nommées
- mots appartenant à un lexique étranger
- mots spécifiques au Web/ mots techniques
- abréviations
- noms communs français
- néologismes ou mots qui nous sont inconnus
- mots écrits phonétiquement
- mots avec erreur orthographique ou typographique
22Cordial Résultats et Commentaires
- Les possibilités offertes par Cordial pour
corriger lerreur orthographique nest pas
toujours pertinente, voire inexistante. - Un même mot peut être étiqueté inconnu avec ou
sans erreur orthographique. - Cordial offre deux possibilités de correction
pour un même mot. - Daprès les dictionnaires créés, nous nobservons
pas la présence de mots composés.
23Cordial Résultats et Commentaires
- Conclusion
- Face au volume du corpus Cordial nest pas adapté
à lobjectif initial fixé - Parmi les mots étiquetés inconnus, les résultats
et le choix des étiquettes ne sont pas toujours
rigoureux, nous pouvons nous demander si cela est
dû au corpus Web
24Conclusion
- A partir des résultats des mots étiquetés
inconnus de Cordial - nous examinerons à quels types de mots nous
sommes confronté par une analyse - morphologique
- Nous étudierons leur contexte et
- les particularités linguistiques du corpus Web
constitué.
25Traitements linguistiques des mots inconnus
- Formalisation des connaissances morphologiques
des mots inconnus - Traitements lexicométriques
26Formalisation des connaissances morphologiques
des mots inconnus
- Deux traitements
- Séparation des mots dont le préfixe est inconnu
des mots dont le préfixe est connu et décrire nos
résultats. - Repérage des mots candidats à la néologie.
27Formalisation des connaissances morphologiques
des mots inconnus -WEBFIX
- WEBFIX est un programme qui permet de repérer de
nouvelles formes attestées sur le Web en fonction
de leur préfixe.
28Formalisation des connaissances morphologiques
des mots inconnus -Recherche de mots à préfixe
inconnu
2366 formes
1818 formes à préfixe connu
548 formes à préfixe inconnu
29Formalisation des connaissances morphologiques
des mots inconnus -Recherche de mots à préfixe
inconnu
- Bilan
- Dans lensemble nous obtenons les mêmes
catégories de mots inconnus - Cependant la liste des mots à préfixe inconnu
nous permet de mettre en évidence - Les sigles marqués dun point
- Les extensions de fichier
- Les mots avec un article élidé
30Formalisation des connaissances morphologiques
des mots inconnus -Recherche de néologismes
- Recherche de néologismes suivant la méthode du
projet WebFix - A partir de la liste des mots à préfixe connu
- Dérivations
- Nominales -ation ou -tion, -age, -ment, -isme,
-ie - Adjectivales -el, -ique, -if
31Formalisation des connaissances morphologiques
des mots inconnus -Recherche de néologismes
- Bilan
- En générale, nous trouvons trois catégories
de mots - Mots français mal accentués ou mot anglais
- Mots anglais
- Mots qui nous sont inconnus qui pourraient
- être des néologismes
- Ce traitement ne paraît pas propice pour trouver
des néologismes dans notre corpus
32Formalisation des connaissances morphologiques
des mots inconnus -Conclusion
- Pas de résultats probants
- Hypothèse
- Effectuer un post-traitement manuel des
résultats de létiquetage - Puis séparer
- les mots étrangers des mots français (mal
accentués ou non) - les noms propres des noms communs
- Pour finir, effectuer une analyse morphologique
approfondie
33Traitements lexicométriques
- Nous essayerons de voir sil existe des
particularités linguistiques du corpus Web
constitué à laide de loutil de statistiques
textuelles Lexico3 -
- Analyse locale autour des mots inconnus
Repérage de concordances - Analyse globale du corpus Traitements
statistiques -
- Mais préalablement nous devons préparer notre
corpus pour quil puisse être traité par Lexico3
34Traitements lexicométriques - Lexico3
- Lexico3, est un outil de statistiques
textuelles, qui permet deffectuer une analyse
globale et locale des textes.
35Traitements lexicométriques - Préparation du
corpus
- Choix des éléments du corpus à mettre en
évidence formes lexicales (délimiteurs),
parties du corpus (Clés et section). - Délimiteurs
- délimiteurs par défaut
- Conservation de la différence entre
minuscule/majuscule - Clés et Sections
- La clé est la balise ltDUMPTEXTgt
- La section est la balise ltDUMPTEXTgt
36Traitements lexicométriques - Repérage de
concordances
- Mots étrangers dans un contexte français
- Mots étrangers dans des contextes uniquement
étranger Présence de mots français en contexte
français - Mots écrits phonétiquement en contexte français
- Mots inconnus insérés dans des listes
- Entités nommées
- Mots appartenant à un domaine de spécialité
- Entités nommées insérées dans des phrases
françaises ou étrangères - Mots techniques ou appartenant à un domaine de
spécialité dans des contextes divers - Apocopes ou abréviations insérées dans des
contextes divers - Mots avec une erreur lexicale ou non lexicale
insérés dans des phrases françaises - Présence de mots qui nous sont réellement
inconnus dans des contextes divers
37Traitements lexicométriques - Repérage de
concordances
- Remarques
- Présence dhomographes
- 69. des mots inconnus sont des hapax
- Mots inconnus de fréquence supérieure ou égale à
deux sont souvent utilisés plusieurs fois dans
les même pages personnelles, voire les mêmes
sites. - Influence de la majuscule dans létiquetage
38Traitements lexicométriques - Repérage de
concordances
- Parmi les concordances autour dun mot inconnu,
nous dégageons - Deux phénomènes qui semblent caractéristiques de
notre corpus Web lemprunt, la présence de mots
écrits phonétiquement - Un éventail très large des entités nommées et
leur caractère éphémère - Labsence de norme typographique mélange de
majuscules, minuscules - De nombreux mots qui nous sont inconnus
- Une majorité dhapax parmi les mots inconnus
- Un corpus de données hétérogènes liste de mots,
mélange de plusieurs langues, présence de mots
appartenant à divers domaines de spécialité ou
techniques.
39Traitements lexicométriques -Traitements
statistiques PCLC
- Observations
- Certains mots étiquetés inconnus, font parti des
PCLC dune ou plusieurs pages personnelles. - Le mot Click est récurrent et se trouve toujours
dans une partie constituée de deux occurrences.
Ce mot napparaît pas dans nos listes de mots
inconnus et a été étiqueté par cordial NCMS (nom
commun masculin singulier), cest ce qui explique
que here a été étiqueté inconnu avec erreur
orthographique. - FRAME et click sont les PCLC les plus
redondantes. - Nous observons également que les parties ont un
nombre doccurrences qui varie de 0 à 7142.
Principales caractéristiques lexicométriques
40Traitements lexicométriques - Traitements
statistiques - PCLC
- A laide des PCLC et des mots
- inconnus, nous dégageons que
- Le corpus peut avoir pour principales
caractéristiques lexicométriques des mots
étiquetés inconnus. - Lattribution dune mauvaise étiquette syntaxique
à une forme donnée entraîne un traitement erroné
de cette forme, mais peut aussi affecter le
traitement des formes environnantes. - Les parties du corpus sont dun volume très
variable.
41Traitements lexicométriques - Traitements
statistiques Segments répétés
- Segments de noms propres
- Segments avec au moins un mot technique
- Segments de mots anglais
- Segments de mots anglais mélangés à du français
- Segments contenant un mot français avec une
erreur orthographique - Segments que nous ne pouvons classer
42Traitements lexicométriques - Traitements
statistiques Segments répétés
- Parmi les segments répétés autour
- dun mot inconnu, nous dégageons
- Des noms propres
- Lemploi de langlais
- Le mélange de langues
- Des segments redondants contenant des erreurs
orthographiques - La présence de mots techniques
- L hétérogénéité des données
43Traitements lexicométriques - Traitements
statistiques - A.F.C
Deux points excentrés qui correspondent à des
listes de prénoms français ou étrangers
Regroupement des parties textuelles autour de
laxe du graphe
Les parties sont très éloignées du regroupement
des autres parties textuelles. Nous devons donc
supprimer ces parties du corpus et effectuer une
autre AFC.
44Traitements lexicométriques - Traitements
statistiques - A.F.C
- Pour les AFC suivantes nous avons détecté
dautres points excentrés - Parties dont le contenu est click here
- Parties dont le contenu est FRAME titre de la
frame avec une phrase de lauteur de la page
indiquant que le navigateur ne prend pas en
compte ce type de frame (fenêtre) - Parties dont le contenu est une liste du mot
octets - Parties dont le contenu est vide
- Donc suppression de ces parties, et réalisation
dune dernière AFC.
- Nous observons, globalement, une répartition des
parties entre le français et langlais.
45Traitements lexicométriques - Traitements
statistiques - A.F.C
- Au cours de notre analyse, nous avons distingué
plusieurs parties textuelles dans notre corpus - Pages dont le contenu textuel est limité
- Pages avec du contenu textuel
- Nous ne pouvons établir une typologie certaine
des parties textuelles pour les raisons
suivantes - La taille variable des parties
- Les données sont très hétérogènes
- Nous ne pouvons donc pas conclure si les mots
inconnus ont une influence sur une éventuelle
typologie des parties textuelles
46Traitements lexicométriques - Conclusion
- Nous avons dégagé
- Les mots étiquetés inconnus sont nombreux, variés
et employés dans divers contextes - Un corpus hétérogène car le contenu (langue,
typographie) et le volume des parties - textuelles des pages personnelles sont variables.
- Cordial influencé par la typographie des mots ne
semble pas adapté à notre corpus Web - Nous ne pas pouvons affirmer si le Web véhicule
une nouvelle forme de langage
47Conclusion
- Bilan
- Les mots étiquetés inconnus sont nombreux, variés
et employés dans divers contextes - Notre corpus Web contient des données textuelles
hétérogènes (langue, typographie) - Perspectives
- Déterminer ce quest un corpus Web représentatif
avant tout. - Élargir la recherche sur un corpus plus
volumineux - Exploiter les résultats obtenus par létiqueteur
de Lannion - Effectuer une analyse morphologique approfondie
- Faire une analyse contextuelle, morphologique,
syntaxique, sémantique des mots inconnus pour
trouver déventuels néologismes.
48