Title: Cours%204
1Cours 4
2Catégories grammaticales
- En anglais parts of speech (POS)
- Exemple de liste de catégories grammaticales
- nom, verbe, adjectif, adverbe, pronom,
préposition, conjonction, déterminant - En général, 10 à 15 catégories par langue
- Information sur les voisins du mot
- Un pronom est souvent suivi d'un verbe il
intervient - Un déterminant est souvent suivi d'un nom les
annonces - Information sur la prononciation du mot
- Président peut être un nom Le président de
séance est en retard - Président peut être un verbe Ils président la
séance à tour de rôle - La prononciation est différente
- Les poules du couvent couvent
3Catégories grammaticales
- Catégories grammaticales et suffixes
- vaccine est un verbe, on peut le regrouper avec
vacciner - féminine est un adjectif, on peut le regrouper
avec féminin - Application la recherche d'informations
- Catégories grammaticales et pertinence
- Les noms sont souvent pertinents balle, film,
banque... - Les prépositions le sont moins selon, depuis,
malgré... - une croix en or et pierres précieuses... nom
- Or la version de la chanson... conjonction
4Définition des catégories grammaticales
- Par les suffixes
- Deux mots qui prennent les mêmes suffixes ont des
chances d'appartenir à la même catégorie - vaccine, vaccinent, vacciné, vaccines/juge,
jugent, jugé, juges verbes - parent, parents, parente, parentes/ami, amis,
amie, amies noms - Par les contextes
- Deux mots qui acceptent les mêmes contextes ont
des chances d'appartenir à la même catégorie - Les représentants des pays concernés
- Les représentants des partis concernés noms
- Le TGV n'avait pas prévu de s'arrêter
- Le TGV n'avait pas cessé de s'arrêter verbes
5Catégories ouvertes/fermées
- Catégories fermées
- Les éléments sont en nombre limité et fixe
- Mots grammaticaux (jouent un rôle important dans
la grammaire), courts et fréquents - Prépositions à de par pour sans selon depuis
malgré... - Quelques dizaines
- On en crée rarement de nouvelles
- Catégories ouvertes
- Les éléments sont nombreux et de nouveaux sont
créés continuellement - Noms futon MP3 pseudotéléspectateur
triréacteur... - Quelques dizaines de milliers
- Verbes faxer surréglementer sursubventionner
télécopier... - Quelques milliers
6Catégories ouvertes
- Noms ou substantifs
- Souvent précédés d'un déterminant des annonces
- Varient entre singulier et pluriel une
annonce/des annonces - Sous-catégories
- noms communs bateau, chaise, relation, élève
- noms propres Paris, Laporte, Lip
- Verbes
- Varient en temps il annonce il annoncera
- personne il annonce nous annonçons
- Sous-catégories
- auxiliaires pouvoir, devoir, avoir, être...
7Catégories ouvertes
- Adjectifs
- Varient entre singulier et pluriel normal normaux
- masculin et féminin normaux normales
- Adverbes
- Généralement déplaçables dans une phrase
- Souvent, le bus s'arrête ici
- Le bus, souvent, s'arrête ici
- Le bus s'arrête souvent ici
- Le bus s'arrête ici souvent
8Catégories fermées
- Prépositions
- à de par pour sans selon sur sous avec depuis
malgré... - Devant des noms ou des verbes à des
annonces pour annoncer - Conjonctions
- et ou mais car...
- Entre deux séquences analogues des programmes
et des données - que quand si comme lorsque...
- Devant une phrase incluse dans une autre Je
viendrai si je peux
9Catégories fermées
- Déterminants
- un une des du le la les chaque deux trois quatre
beaucoup mon... - Devant des noms des annonces beaucoup
d'annonces - Pronoms
- je tu il elle on nous vous moi toi lui ceci cela
qui quoi que quelqu'un...
10Étiquettes lexicales
- En anglais tags
- Je viendrai si je peux
- Je,PRO1s viendrai,VF1s si,CONJS je,PRO1s
peux,VP1s - Un objet qui identifie pour chaque token-mot
- - la catégorie grammaticale
- - éventuellement d'autres propriétés (temps,
personne, nombre...) - On peut aussi étiqueter les symboles de
ponctuation
11Étiquettes lexicales non structurées
- Je,PP viendrai,VBF si,IN je,PP peux,VBP
- Chaque étiquette représente une catégorie
généralement un peu plus précise qu'une catégorie
grammaticale - Exemples
- PP pronom personnel
- VBF verbe conjugué au futur
- IN préposition ou conjonction de subordination
- Jeu d'étiquettes (tagset)
- Ensemble d'étiquettes
- Pour l'anglais, généralement 50 à 150 étiquettes
12Étiquettes lexicales structurées
- Je,PRO1s viendrai,VF1s si,CONJS je,PRO1s
peux,VP1s - Chaque étiquette donne séparément
- - la catégorie grammaticale
- - d'autres propriétés éventuelles
- - temps (présent, futur, passé...)
- - personne (1, 2, 3)
- - genre (masculin, féminin)
- - nombre (singulier, pluriel)
- etc.
- Traits flexionnels
13Étiquettes lexicales structurées
- viendrai,VF1s
- Paires attribut-valeur
- partOfSpeech verb
- tense future
- person 1
- number singular
- attributs (features)
- valeurs (values)
14- ABR abreviation
- ADJ adjective
- ADV adverb
- DETART article
- DETPOS possessive pronoun (ma, ta, ...)
- INT interjection
- KON conjunction
- NAM proper name
- NOM noun
- NUM numeral
- PRO pronoun
- PRODEM demonstrative pronoun
- PROIND indefinite pronoun
- PROPER personal pronoun
- PROPOS possessive pronoun (mien, tien, ...)
- PROREL relative pronoun
- PRP preposition
PRPdet preposition plus article
(au,du,aux,des) PUN punctuation
PUNcit punctuation citation SENT sentence tag
SYM symbol VERcond verb conditional
VERfutu verb futur VERimpe verb imperative
VERimpf verb imperfect VERinfi verb
infinitive VERpper verb past participle
VERppre verb present participle VERpres verb
present VERsimp verb simple past VERsubi verb
subjunctive imperfect VERsubp verb subjunctive
present
15Racinisation
- Pour la recherche d'informations, les variations
de forme des mots ne sont pas très pertinentes et
augmentent inutilement le nombre de dimensions de
l'espace vectoriel - Exemples
- vaccine, vaccinent, vacciné, vaccines...
- La racinisation (stemming) consiste à remplacer
toutes ces variantes par vacciner - ou même vaccine, vaccinent, vacciné, vaccines,
vaccination, vaccinal... par vaccin - On n'a pas besoin que ce soit un mot correct, il
suffit que ce soit le même pour tous
16Le raciniseur de Porter (1980)
- Substitution de suffixes
- ational --gt ate relational --gt relate
- ing --gt ? motoring --gt motor
- Plusieurs passes
- Passe 1 ies --gt i capabilities --gt capabiliti
- Passe 4 (mgt0)biliti --gt ble capabiliti --gt
capable - m nombre de séquences voyelle/consonne
- Exemples
- capabilities m 5 capa m 1
17Step 1a SSES -gt SS
caresses -gt caress IES -gt I
ponies -gt poni
ties -gt ti SS -gt
SS caress -gt caress
S -gt cats
-gt cat Step 1b (mgt0) EED -gt EE
feed -gt feed
agreed -gt agree (v) ED
-gt plastered -gt plaster
bled
-gt bled (v) ING -gt
motoring -gt motor
sing -gt sing If the second or
third of the rules in Step 1b is successful, the
following is done AT -gt ATE
conflat(ed) -gt conflate BL -gt BLE
troubl(ed) -gt trouble
IZ -gt IZE siz(ed) -gt
size (d and not (L or S or Z)) -gt
single letter
hopp(ing) -gt hop
tann(ed) -gt tan
fall(ing) -gt fall
hiss(ing) -gt hiss
fizz(ed) -gt
fizz (m1 and o) -gt E
fail(ing) -gt fail
fil(ing) -gt file The rule to map to
a single letter causes the removal of one of the
double letter pair. v contains a vowel (a, e,
i, o, u, or y preceded by a consonant) d ends
with a double consonant, e.g. tt, ss o ends with
cvc, where the second c is not w, x or y
18Step 1c (v) Y -gt I
happy -gt happi
sky -gt sky Step 2 (mgt0)
ATIONAL -gt ATE relational -gt
relate (mgt0) TIONAL -gt TION
conditional -gt condition
rational -gt rational
(mgt0) ENCI -gt ENCE valenci -gt
valence (mgt0) ANCI -gt ANCE
hesitanci -gt hesitance (mgt0) IZER -gt
IZE digitizer -gt digitize
(mgt0) ABLI -gt ABLE conformabli -gt
conformable (mgt0) ALLI -gt AL
radicalli -gt radical (mgt0) ENTLI -gt
ENT differentli -gt different
(mgt0) ELI -gt E vileli - gt
vile (mgt0) OUSLI -gt OUS
analogousli -gt analogous (mgt0) IZATION -gt
IZE vietnamization -gt vietnamize
(mgt0) ATION -gt ATE predication -gt
predicate (mgt0) ATOR -gt ATE
operator -gt operate (mgt0) ALISM -gt
AL feudalism -gt feudal (mgt0)
IVENESS -gt IVE decisiveness -gt
decisive (mgt0) FULNESS -gt FUL
hopefulness -gt hopeful (mgt0) OUSNESS -gt
OUS callousness -gt callous
(mgt0) ALITI -gt AL formaliti -gt
formal (mgt0) IVITI -gt IVE
sensitiviti -gt sensitive (mgt0) BILITI -gt
BLE sensibiliti -gt sensible
19Step 3 (mgt0) ICATE -gt IC
triplicate -gt triplic (mgt0) ATIVE -gt
formative -gt form (mgt0)
ALIZE -gt AL formalize -gt
formal (mgt0) ICITI -gt IC
electriciti -gt electric (mgt0) ICAL -gt
IC electrical -gt electric
(mgt0) FUL -gt hopeful -gt
hope (mgt0) NESS -gt
goodness -gt good Step 4 (mgt1) AL
-gt revival -gt reviv
(mgt1) ANCE -gt allowance -gt
allow (mgt1) ENCE -gt
inference -gt infer (mgt1) ER -gt
airliner -gt airlin (mgt1) IC
-gt gyroscopic -gt
gyroscop (mgt1) ABLE -gt
adjustable -gt adjust (mgt1) IBLE -gt
defensible -gt defens (mgt1)
ANT -gt irritant -gt
irrit (mgt1) EMENT -gt
replacement -gt replac (mgt1) MENT -gt
adjustment -gt adjust (mgt1)
ENT -gt dependent -gt
depend (mgt1 and (S or T)) ION -gt
adoption -gt adopt (mgt1) OU -gt
homologou -gt homolog (mgt1)
ISM -gt communism -gt
commun (mgt1) ATE -gt
activate -gt activ (mgt1) ITI -gt
angulariti -gt angular (mgt1)
OUS -gt homologous -gt
homolog (mgt1) IVE -gt
effective -gt effect (mgt1) IZE -gt
bowdlerize -gt bowdler S ends
with s (and the same for other letters)
20Step 5a (mgt1) E -gt
probate -gt probat
rate -gt rate (m1 and
not o) E -gt cease -gt
ceas Step 5b (m gt 1 and d and L) -gt
single letter
controll -gt control
roll -gt roll
21Le raciniseur de Porter (1980)
- Exemples d'imperfections
- Paires regroupées
- numerical numerous --gt numer
- university universe --gt univers
- Paires non regroupées
- noisy --gt noisi noise --gt nois
- sparsity --gt sparsiti sparse --gt spars
22Étiquetage
- Attribution d'une étiquette lexicale à chaque
token (mot ou symbole de ponctuation) - Entrées un texte tokenisé et un jeu
d'étiquettes - Sortie le texte étiqueté
- Applications
- recherche d'informations
- reconnaissance de parole
- analyse syntaxique
- Ambiguïtés lexicales
- La poste livre le colis dans un délai d'une
semaine verbe - Le livre parvient à l'acheteur en une semaine nom
23Étiquetage par règles écrites à la main
- Première étape
- On consulte un lexique qui donne toutes les
étiquettes possibles des tokens-mots - Il,PRO3s est,VP3s,Ams,Amp,Afs,Afp,ADV
fin,Ams,Nfs ./. - Deuxième étape
- On applique des règles écrites à la main qui
éliminent des étiquettes en fonction du contexte - if (1A/ADV/QUANT) (2 SENT-LIM) (NOT -1
SVOC/A) - then eliminate non-ADV tags
- else eliminate ADV tag
24Étiquetage par règles apprises statistiquement
(Brill, 1995)
- Première étape
- On consulte un lexique qui donne l'étiquette la
plus fréquente pour chaque token - race/NN (plus souvent nom que verbe)
- expected/VBN to/TO race/NN tomorrow/NN
- Deuxième étape
- On applique les règles apprises statistiquement
qui changent des étiquettes en fonction du
contexte - Changer NN en VB après TO
- expected/VBN to/TO race/VB tomorrow/NN
25Étiquetage par règles apprises statistiquement
- Deux algorithmes d'apprentissage
- Pour la première étape
- Le lexique donnant l'étiquette la plus fréquente
pour chaque token est obtenu à partir d'un corpus
étiqueté - Pour la deuxième étape
- Entrées le lexique de la première étape un
corpus étiqueté des formes de règles - Sorties un ensemble de règles
- étiqueter le texte du corpus avec le lexique de
la première étape - tant que les résultats ne sont pas assez bons
- examiner toutes les règles
- sélectionner celle qui donne le meilleur
étiquetage - remplacer l'ancien étiquetage par celui obtenu
26Étiquetage par règles apprises statistiquement
- Pour la deuxième étape
- Les règles peuvent être des arbres de décision
- Chaque noeud de l'arbre correspond à un critère
(question), et chaque noeud fils à une réponse
possible - Chaque feuille correspond à une décision
- Exemple de jeu de critères
- étiquette de l'avant-dernier token avant -
étiquette du dernier token avant - forme du
token, s'il est fréquent - les 2 premières
lettres du token - les 3 dernières lettres du
token
- particularités typographiques du token
(majuscules, guillemets, tiret...) - forme du
token après, s'il est fréquent - particularités
typographiques du token après (majuscules,
guillemets, tiret...)
27Étiquetage par modèle de Markovappris
statistiquement
- Probabilité qu'un mot étiqueté TO soit suivi d'un
mot étiqueté NN - P(NNTO) 0,021 P(VBTO) 0,34
- Probabilité qu'un mot étiqueté NN soit race
- P(raceNN) 0,00041 P(race VB) 0,00003
- Probabilité qu'un mot étiqueté TO soit suivi de
race/NN - P(NNTO) P(raceNN) 0,000007
- P(VBTO) P(race VB) 0,00001
- Conclusion
- L'étiquette correcte de race dans to race est
probablement VB