Title: Module Linguistique
1Module Linguistique
- Christophe Pimm - Equipe de Recherche en Syntaxe
et Sémantique - CNRS - Université de Toulouse le Mirail,
cpimm_at_univ-tlse2.fr - 13 septembre linguistique et ergonomie /
notions fondamentales en linguistique / début
d introduction au traitement automatique de
linformation textuelle... - 20 septembre ...suite et fin sur le traitement
automatique de linformation textuelle et début
sur le traitement du texte électronique... - 4 octobre fin du traitement du texte
électronique (segmentation de textes en mots,
étiquetage des textes, acquisition dinformations
linguistiques de niveau grammatical) et exemple
de construction de ressources terminologiques - 11 octobre fin du cours, bilan, questions et
exercices
2Journée du 13 septembre Plan
- A) Linguistique et ergonomie
- B) Notions fondamentales en linguistique
- Deux questions principales
- Quelles unités linguistiques sont porteuses de
sens dans un texte ? - Unités linguistiques mots, morphèmes, groupes
de mots, phrases - Quels liens peut-on établir entre des segments de
texte ? - Organisation du lexique liens sémantiques et
liens morphologiques - C) Début sur le traitement automatique de
linformation textuelle
3A. Linguistique et Ergonomie (1)
- A travers la production et lexploitation de
documents textuels, nous nous intéressons au
traitement automatique des langues - Former des spécialistes de la gestion de
linteractivité entre lhomme et des systèmes
artificiels dans des domaines tels que - systèmes informatifs et/ou interactifs
professionnels et grand public - bases terminologiques et aides documentaires
- outils daide à la formation
- systèmes technologiques en milieu de travail
- Les industriels font volontiers appel à des
ergonomes - psychologues - rarement (mais de
plus en plus) appel à des linguistes - Et pourtantils sont confrontés à des problèmes
daccès intelligent à la documentation,
doptimisation de la production - Où le rôle de la linguistique est prépondérant
- ? Notion d ergonomie linguistique
4Linguistique et Ergonomie (2)
- Lergonomie s intéresse à
- la compréhension des besoins humains et cognitifs
dans lutilisation des systèmes informatiques - et à leur prise en compte dans le développement
de systèmes - Parallèlement, la linguistique informatique
sintéresse - aux interactions entre homme et machine ???
interfaces homme-machine - à travers lintégration dans les systèmes
informatiques de connaissances linguistiques
variées - Des besoins en entreprise existent extraction
terminologique par exemple, dans le cadre de la
production de documents ou de l accès à des
documents - Accès au contenu textuel (dégager des mots-clés,
établir des liens entre des parties de texte) - Traitement de textes spécialisés
5Linguistique et ergonomie (3)
- Une compréhension croissante de la nature
linguistique dune partie des problèmes - De plus en plus dorientations vers des
questions liées - - aux langues de spécialité
- - à la terminologie
- - à la représentation des connaissances et leur
extraction à partir de documents techniques - Une explosion documentaire facilitée par les
outils informatiques pour la production, le
stockage et la diffusion des textes - Prise de conscience
- de la valeur et des enjeux de la documentation
- de la nécessité d optimiser sa gestion et son
exploitation - L exploitation de bases de données textuelles
implique notamment des procédures de recherche et
d indexation adaptées aux besoins diversifiées
des utilisateurs
6Linguistique et ergonomie (4)
- Les étudiants sont amenés à
- se situer en utilisateurs potentiels doutils
issus du traitement automatique des langues pour
lexploitation de documents plutôt que - comme contributeurs potentiels à
lélaboration de ces systèmes - Sensibiliser les étudiants à
- - ce qui devrait être mis en uvre comme
connaissances linguistiques pour améliorer les
performances des logiciels - - la nature et la complexité des problèmes posés
par tout traitement automatique des textes (et
révélés par les défaillances des logiciels)
7Représenter et extraire linformation -
illustration
texte annonce sur le site internet de
lUTM Colloque international Faïence fine et
porcelaine en France Oubliée par la recherche
institutionnelle, comme le reste de la
céramologie, délaissée par les érudits locaux et
les amateurs d'art qui lui préféraient les
céramiques aux couleurs chatoyantes, la faïence
fine connaît aujourd'hui un regain d'intérêt et
prend sa place dans les collections. Ceci,
gagnant aussi la recherche, fournit l'occasion
d'une réflexion scientifique portant sur les
interrogations nouvelles suscitées par le
développement d'une recherche récente portant sur
ces objets à la fois d'art et d'histoire dont le
grand intérêt réside aussi bien dans le souci
d'une meilleure connaissance des arts décoratifs
que dans l'étude des processus d'industrialisation
de la France entre la fin du XVIIIe siècle et la
fin du XIXe siècle.
Choix possible dindex céramologie céramique fa
ïence fine porcelaine objets dart arts
décoratifs XIXè siècle industrialisation France
8B. Notions fondamentales en linguistiqueIntrodu
ction générale à la linguistique
- Quelques définitions
- - La linguistique est une science qui a
pour objet la langue envisagée en elle-même et
pour elle-même (Petit Robert, citant Saussure) - - Le linguiste est celui qui interroge
le langage avec la même curiosité que l'enfant.
Cette langue que nous utilisons tous les jours
sans même chercher à savoir comment elle
fonctionne, le linguiste, lui, s'efforce d'en
démonter les rouages, d'en comprendre les
subtilités, d'en appréhender les limites, d'en
découvrir les règles (I. Choi-Jonin et C.
Delhay. (1998). Introduction à la méthodologie en
linguistique. Presses Universitaires de
Strasbourg). - - la science du langage éclaire cette
pratique que nous savons exercer sans la
connaître le langage, dont lhomme a depuis
toujours maîtrisé la pratique est isolé et
comme mis à distance pour être saisi en tant
quobjet de connaissance particulier. (J.
Kristeva. Le langage, cet inconnu). -
9Comprendre un texte, cest difficile ...
(Extrait de texte) Faïence fine et porcelaine en
France Oubliée par la recherche
institutionnelle, comme le reste de la
céramologie, délaissée par les érudits locaux et
les amateurs d'art qui lui préféraient les
céramiques aux couleurs chatoyantes, la faïence
fine connaît aujourd'hui un regain d'intérêt et
prend sa place dans les collections. Ceci,
gagnant aussi la recherche, fournit l'occasion
d'une réflexion scientifique portant sur les
interrogations nouvelles suscitées par le
développement d'une recherche récente portant sur
ces objets à la fois d'art et d'histoire dont le
grand intérêt réside aussi bien dans le souci
d'une meilleure connaissance des arts décoratifs
que dans l'étude des processus d'industrialisation
de la France entre la fin du XVIIIe siècle et la
fin du XIXe siècle.
10Les différents niveaux de l analyse linguistique
Phonétique ? son, prononciation Phonologie
Morphologie ? construction des mots, flexion,
suffixation
Syntaxe ? fonction des mots, groupes de mots,
construction de la phrase
Sémantique ? sens des mots, sens des phrases
Pragmatique ? utilisation du langage,
communication, implicite
11Les différents niveaux danalyse - illustration
Faïence fine et porcelaine en France Oubliée par
la recherche institutionnelle, comme le reste de
la céramologie, délaissée par les érudits locaux
et les amateurs d'art qui lui préféraient les
céramiques aux couleurs chatoyantes, la faïence
fine connaît aujourd'hui un regain d'intérêt et
prend sa place dans les collections. Ceci,
gagnant aussi la recherche, fournit l'occasion
d'une réflexion scientifique portant sur les
interrogations nouvelles suscitées par le
développement d'une recherche récente portant sur
ces objets à la fois d'art et d'histoire dont le
grand intérêt réside aussi bien dans le souci
d'une meilleure connaissance des arts décoratifs
que dans l'étude des processus d'industrialisation
de la France entre la fin du XVIIIe siècle et la
fin du XIXe siècle.
12Aborder le contenu dun texte notions de
base1) Les unités linguistiques
- Le mot
- - Ce quon trouve dans les dictionnaires ?
- - Suite de signes séparée par un blanc ?
- - chacun des sons ou groupes de sons
correspondant à un sens (PR) ? - - forme douée de sens qui entre dans la
construction de la phrase (PR) ? - Chacune de ces définitions pose problème.
-
13Les modes de formation des mots
- 1) dénomination simple (1 seul morphème)
cloche, pelle, couteau - 2) dérivation dirigeable, imprimante /
parfumerie, voleter - 3) formation savante anémomètre, oscillographe,
hydrophile - 4) composition coffre-fort, tire-bouchons,
passe-montagne - machine à écrire, vague à lâme, pomme de
terre - 5) emprunt scanner, gadget, parking, week-end
- 6) siglaison CD, HLM
- 7) autres troncation (vélo, télé), mot-valise
(informatique ? informa(tion) (automa)tique,
automobile ? auto(mobile) (omni)bus), abréviation
(cm, kg)
14Quest-ce quun mot ? Illustration
Le recensement des sans-domicile-fixe est un vrai
casse-tête pour l'Insee. Pour aboutir quand même
à quelque chose, tous les lieux fréquentés par
les sans-abri ont été passés en revue les CHRS
(centre d'hébergement et de réinsertion sociale),
les foyers d'urgence, les accueils de jour où les
SDF se font domicilier pour recevoir leur
courrier... sans oublier les services sociaux des
mairies. Ancien préparateur en pharmacie,
Nicolas, 30 ans, tient à l'anonymat "Avec la
foule de renseignements qu'ils demandent, moi, je
ne sais pas où ça va, tout ça... Alors, j'ai pas
donné mon nom", explique-t-il, un tantinet
circonspect. Les plus méfiants, au nombre d'une
vingtaine, ont carrément boycotté l'enquête et
n'ont pas rendu le formulaire. "Certains
s'imaginent qu'on va les mettre en carte. Mais
c'est déjà fait, puisqu'on a presque tous le
RMI", note un résident, réaliste. Avant d'ajouter
"D'autres ne veulent pas parce qu'ils n'ont pas
les cuisses très propres. Ils préfèrent se faire
oublier." Par qui ? "Par les banques." De fait,
beaucoup de SDF ont basculé à la rue en laissant
derrière eux des crédits à la consommation, la
taxe d'habitation ou les impôts de l'époque où
ils avaient encore un travail et un domicile.
Certains doivent des pensions alimentaires.
Nombre de résidents ont fait le deuil de leur vie
antérieure et redoutent d'être rattrapés par leur
passé au travers d'un recensement.
15Fiche didentité dun mot
- Mode de formation
- Autres critères
- catégorie grammaticale
- Verbe, Nom, Adjectif, Adverbe, Préposition,
Déterminant, Conjonction, Pronom - propriétés morphologiques
- Verbe temps, mode, personne
- Nom, Adjectif genre, nombre
- mot plein (ou mot lexical) / mot outil (ou mot
grammatical) - Verbe, Nom, Adjectif, Adverbe
- Préposition, Déterminant, Conjonction, Pronom
16Le niveau syntaxique
- Le mot au sein des groupes de mots
- groupe nominal, groupe verbal, groupe
prépositionnel ... - La fonction des mots dans la phrase
- complément circonstanciel, complément de nom,
sujet, objet, épithète, attribut - Niveau essentiel pour la compréhension des textes
- Comparons
- A Rennes, des universitaires ont conçu un
logiciel du breton - A Jean, il a envoyé un message de Londres
17Et au-delà de la phrase
- Les connecteurs éléments de liaison entre des
propositions - Les anaphores reprises déléments antérieurs
- Exemple
- Hier matin, c'était pénurie d'images sur
LCI. Alors, la chaîne pioche dans un stock venu
de l'agence d'images américaine APTN. Quelques
heures plus tard, soulagement les EVN proposent
des scènes de réfugiés. Présentateur du Grand
Journal de 18h à 19h, David Pujadas réfléchit à
l'angle de son JT peut-être autour de la
psychologie de Milosevic ? Mais il dit se méfier
de l'agence yougoslave Tanjug, "à l'origine du
faux charnier de Timisoara". Ainsi, un reportage
issu de la télé serbe montrant des gens alités
dans un hôpital a été commenté la veille au soir
avec force réserves.
18Synthèse Indexer - 1ère étape repérer les
unités
- L'accueil et l'information
- La division de la vie étudiante (DIVE)
accueille les étudiants et met à leur disposition
toute l'information nécessaire à une meilleure
connaissance de l'université (plans, catalogues
des cours, brochures diverses). Un dispositif
renforcé d'accueil est mis en place à la rentrée. - La DIVE joue un rôle d'interface entre
l'étudiant et les services ou organismes,
concernés par la vie étudiante dans toutes ses
dimensions sur le campus et à l'extérieur. - Accueil général et information de tous les
étudiants - - Orientation vers leur lieu
d'inscription, diffusion de plans et de documents
d'information, - - Publication de CEVUINFOS (journal
d'informations de la vie étudiante paraissant
périodiquement pendant l'année universitaire). - Accueil des sportifs de haut niveau, artistes, et
ceux qui nécessitent une attention particulière
et des aménagements d'horaires et de cursus
prévus par la réglementation en vigueur.
19- Lexique du texte
- mots outils les plus fréquents
- de 125 la 80
- et 75 les 59
- des 58 d 51
- mots pleins les plus fréquents
- étudiants 39 étudiant 16
- vie 16 étudiante 14
- université 14 bourse 12
- service 12 est 12
- universitaire 11 cycle 10
- inscription 10 sociale 10
- accueil 9 santé 9
- social 9 aide 8
- associations 8 CROUS 8
- élus 8 étudiantes 8
- sont 8 voir 7
- demande 7 sécurité 7
- SIMPPS 7 universitaires 7
20- Lexique du texte
- séries de mots les plus fréquentes
- 2 mots pleins 3 mots pleins et
- la vie étudiante service du 3è cycle
- logement en cité sécurité sociale
étudiante - la maison des étudiants centre régional
des uvres universitaires - les associations étudiantes dossier social
étudiant - les bourses et les aides 1er et 2è cycle
- les étudiants handicapés division de
la vie étudiante - les mutuelles étudiantes
- étudiants élus
- service interuniversitaire
- bourse à taux
- bourse sur critères
- demande de bourse
- centre de sécurité
- artistique et sportive
- ticket abonnement
212) Les liens entre les unitésa) Liens de forme
- Homonymie
- Une seule forme, des mots de sens strictement
différents - ex baie (fruit), baie (vitre), baie (golfe) /
avocat (fruit), avocat (pers. juridique) - Flexion
- Un même mot peut se décliner selon plusieurs
formes, en fonction - du nombre arbre, arbres
- du genre gentil, gentille
- du temps fait, faisions etc.
- Lemme forme canonique à laquelle se rapporte
toute la famille de formes - Dérivation
- Plusieurs mots peuvent être liés par la même base
- ex coiffeur, coiffer, coiffant, coiffure,
coiffage ...
22b) Liens de sens
- Lexique sorganise selon des liens de sens
- ex un article de dictionnaire
- coiffer v.tr.
- I. couvrir la tête de (qqn). V. chapeauter
casquer encapuchonner - II. Arranger les cheveux de (qqn). V. peigner.
- ANT. DECOIFFER, DECOUVRIR.
- Trois relations fondamentales
- hyperonymie
- synonymie
- ANTONYMIE
- hyperonymie/hyponymie relations hiérarchiques
- ex une revue est une publicationune voiture
est un véhiculeun fauteuil est un siège - fabuliste auteur qui compose des fables
233) Le sens des unités
- Polysémie
- Un mot peut souvent avoir plusieurs sens. Il est
dit polysémique - Ex gagner est un verbe polysémique
- gagner le match, gagner sa vie, du temps, ce
livre gagne à être lu, gagner l'amitié, - gagner la région du coeur
- Un problème linguistique complexe la
désambiguïsation - ? Ambiguïté lexicale
- ex le secrétaire est sur le bureau
-
- ? Ambiguïté syntaxique
- ex le magistrat juge les enfants coupables
- je vois lhomme avec un camescope
-
24C. Le traitement automatique de linformation
textuelle1) Principales applications
- 1) Applications traditionnelles du TAL
traduction automatique, génération de textes - 2) De nouveaux besoins liés à la multiplication
des textes sous forme électronique - - Correction automatique (orthographique,
grammaticale) - - Interrogation facilitée de textes regroupés
en bases de données - - Classement de l'information
- - Résumé automatique
- - Veille stratégique et technologique
- - Construction de ressources terminologiques
- - Moteur de recherche ? indexation de sites
internet
252) Difficultés du traitement automatique du
langage
- Le langage possède certaines propriétés qui le
rendent par nature rebelle au traitement
informatique - La paraphrase
- Capacité à dire la même chose de diverses façons
- ex faire des recherches ? do research, carry
out research, conduct research, undertake
research, conduct studies ... - L'ambiguïté
- Capacité à signifier plusieurs choses distinctes
à laide dune même formulation - ambiguïté syntaxique, ambiguïté sémantique
- La productivité
- Capacité à créer de nouveaux mots
- L implicite
- Capacité à communiquer des éléments non présents
dans le discours
26Exemple la traduction
- Une somme considérable de connaissances
linguistiques à maîtriser - ex 1 The fastest growing Web directory in the
world ? le répertoire de Web croissant le plus
rapide dans le monde - ? problème de découpage syntaxique
- ex 2 The success or failure of a company can
depend on its ability to find the right facts at
the right time ? Le succès ou la panne d'une
compagnie peut dépendre de sa capacité de trouver
les bons faits au bon temps - ? polysémie, expression figée, construction
syntaxique
273) Illustrationsa) La correction automatique
- Correction orthographique erreurs de type
lexical (fautes de frappe, dorthographe) - ? dictionnaire de référence (des centaines de
milliers de formes) - Correction grammaticale erreurs de type
syntaxique (fautes daccord) - ? analyse syntaxique du texteune tâche ardue
- les 10 de CanalSatellite que serait sur le
point de vendre Time Warner le feraient saliver
28b) Le résumé automatique
- Faciliter laccès au contenu dun document
- Techniques
- Repérage de portions de texte importantes
- Titres, phrases d introduction et de conclusion,
etc. - Phrases contenant des termes fréquents dans le
texte - Phrases contenant certains indices linguistiques
(il est significatif que , nous allons montrer
) - Reformulation du texte de départ
29c) Lextraction dinformations
- But identifier dans les textes des éléments
dinformation particuliers (dates, événements,
personnes, etc.) - Applications envisagées
- - Analyse de rapports médicaux pour assister le
diagnostic (symptômes, traitements) - - Analyse de dépêches financières pour le suivi
dune opération boursière (organismes, montants) - Exemple à partir du texte suivant
- "Les marchés du logiciel et de l'Internet sont
en train de fusionner", assure Jennifer Smith,
analyste informatique à la banque d'affaires Dain
Rauscher Wessels. - Remplir le formulaire suivant
- ltPERSON-1gt
- PERS_NAME Jennifer Smith
- ltORGANIZATION-1gt
- ORG_NAME Dain Rauscher Wessels
- ORG_DESCRIPTOR banque d'affaires
ltEMPLOYEE_OFgt PERSON PERSON-1
ORGANIZATION ORGANIZATION-1
POSITION analyste informatique
30Principale difficulté
- Prévoir toutes les formulations possibles pour un
objet donné - Exemple la profession
- 1) la députée socialiste Catherine Gélisson
- 2) Cette tendance diminue, souligne Béatrice
Majnoni d'Intignano, professeur d'économie. - 3) A Toulouse, la crèche associative affiche
complet. Même constat à La Madeleine, chez - 4) Câlins 24h/24. Anna Thorez, la directrice ...
- 5) Administrateur puis vice-président, J-M Laxalt
a été élu président de la MGEN, succédant à A.
Chauvet.
31d) La recherche dinformations
- But localiser les documents pertinents dans
une base de données textuelles répondant à une
requête exprimée en langage naturel
______________ ______________ ______________ _____
_________
requête
indexation
indexation
appariement
index'1 p'1 index'2p'2 ... index'mp'm
base de textes
32Précision / Rappel
- Mesurer ladéquation dune réponse à une requête
- La précision calcule la proportion de bonnes
réponses dans lensemble des réponses proposées. - Le rappel calcule la proportion de réponses
identifiées. - Des solutions linguistiques
- Augmenter la précision limiter lambiguïté
- ex formation permanente ? salons de coiffure
- Augmenter le rappel traiter la paraphrase
- ex magasins de disques ? vente de disques
- vente de CD
- disquaires
33Phase dindexation
- Quelques pistes
- - Privilégier les bons descripteurs de contenu
- Eliminer mots outils, mots trop fréquents
- Regrouper les mots présentant des liens de
forme ou de sens - Indexer à laide de mots complexes
- revue revue scientifique
- revue de presse
- revue darmement ...
34Phase dappariement
- Quelques pistes
- - Regrouper les index
- famille morphologique
- administr ? administrer, administrateur,
administration - famille sémantique
média
presse écrite
revue
journal
hebdomadaire
mensuel
35Illustration
- Requêtes sur le moteur de recherche du site de
lUTM - Principes
- Recherche à l aide dun ou plusieurs mots reliés
par une expression booléenne - 3 opérateurs booléens
- and A and B textes contenant les deux mots
A et B - or A or B textes contenant A, ou B, ou les
deux - not not A textes ne contenant pas A
- Critère de pertinence
- Le classement des réponses est déterminé par
l'importance supposée, dans les documents
trouvés, des mots recherchés - Combinaison de divers critères
- - fréquence
- - position dans le document
- - présence dans les titres
- - importance de la page
36Requête 1 prêt and universitaire
- UTM - SCD - Bibliothèque Hispanique et
Hispano-Américaine E-mail Marie-Claude.Mathes_at_un
iv-tlse2.fr Condition d'accès - Prêt sur
inscription préalable - Consultation libre sur
place Services - Prêt entre bibliothèques -
Consultation du catalogue informatisé du réseau
des ... - ... , de 9h à 18h, et le vendredi, de 9h à 17h
Fermé du 15 juillet au 31 août et vacances
universitaires Condition d'accès - consultation
sur place - prêt à domicile pour étudiants,
enseignants et chercheurs de l'Université, ainsi
que pour d'autres utilisateurs sous certaines
conditions Services - Prêt entre ... - ... concret fonctionne sur le mode des relations
de voisinage. Le "topos" est un lieu chargé de
signification et non pas un espace vidé et
désocialisé prêt pour être aménagé par les
opérateurs de la communication électronique.
Comme le rappelle P.W Boudreault, "si la
révolution industrielle avait créé des ... - ... ou de médecine parallèle, des plats cuisinés,
des produits agricoles ou artisanaux, des objets
d'occasion, des travaux de jardinage ou de
ménage, du prêt d'outillage, de l'hébergement,
etc. Au départ, les systèmes ou cercles locaux
d'échanges sont, comme toutes les associations,
la rencontre d'un projet ...
37Requête 2 service and médical
- Textes pertinents mais non proposés
- Service infirmier accueil, entretien, conseils
soins de première urgence (injections, points
de suture, prise de tension) ... - Consultation médicale généraliste, consultations
médicales spécialisées vaccinations, nutrition
et diététique Dermatologie, sevrage tabagique,
médecine du sport - Textes non pertinents mais proposés
- ... , étranger de linquiétante étrangeté à la
peur de létranger. 4 ième Rencontres du groupe
Sud Ouest du CIPA. Montauban. SZTULMAN H. (1999).
Secret médical et non assistance à personne en
péril - Coût 60h/session sur 2 semaines consécutives 2
sessions au choix juin 2001 ou nov./déc. 2001 1
980 francs Communication en anglais scientifique
et médical Durée Admission Coût Stage intensif
...
38Conclusion
- Des connaissances linguistiques pour guider
- - La compréhension des textes
- - L extraction dinformations linguistiques
pertinentes - - La mise en rapport dunités linguistiques
différentes - - La constitution dun index
- Prochaines étapes
- - Apprendre à la machine à réaliser certaines
de ces tâches - - Outil de traitement automatique des langues
pour la construction de ressources
terminologiques