Title: Prsentation PowerPoint
1Segmentation et étiquetage des textes par la
méthode dexploration contextuelle
Ghassan Mourad Univ. Ain Chams, Caire, Egypte,
17 decembre 2007 et ICAR-CNRS (Univ Lyon II et
CNRS), Lyon les 4-5 avril 2008.
2- Plan
- Éléments définitoires
- Problématiques générales
- La méthode dExploration Contextuelle
- Exemple de segmentation
- Exemple de filtrage
- Présentation et exemples danalyse par Sarfiyya
3Éléments de définition et corpus
- La citation terme générique tout fragment
textuel rapporté, écrit ou prononcé, avec ou sans
guillemets - Information Citationnelle la citation dans son
co(n)texte - La citation proprement dite, le cité, et
lintroducteur (verbe, préposition, autres
marqueurs)
??? ????? ????? ??? ?????? - ???????? - ??
??????? ????????. ???? ????? ?????? ?? ?????????
??????? ?? ???? ?? ?????? ??? ???? ???? ????????
.
Corpus de repérage assafir Corpus de validation
al ahram
4La méthode dexploration contextuelle
LEC relève de lanalyse sémantique de
texte. Elle permet de prendre en compte des
indices contextuels internes au texte pour -
lever des indéterminations sémantiques -
prendre certaines décisions dans la construction
du sens et le filtrage de certaines informations,
la segmentation, etc. Desclés al. 91,
Desclés 93, 97, Jouis 93, Berri 96 Un système
dEC fait appel à des connaissances exclusivement
linguistiques - indices déclencheurs ou
indicateurs - indices complémentaires et à
un ensemble de règles dEC
5Contexte interne, ou contexte indépendant du
domaine (J.-P. Desclés)
6Chaque règle est de la forme
SI U (indicateur) est identifié dans un espace
de recherche E et SI l'on
constate la présence des indices complémentaires
(V1, ..., Vn)/ou (W1, ..., Wm) avant et/ou après
U ALORS prendre la décision D
7Méthode dEC
Décision
Marqueurs déclencheurs
Indices gauches
Indices droits
8questionnement
???
????
????
9Méthode dEC
Décision
questionnement
Marqueurs déclencheurs
Indices gauches
Indices droits
???
????
????
10DR ou citation
???
?? ????
11Méthode dEC
Décision
DR ou citation
Marqueurs déclencheurs
Indices gauches
Indices droits
???
?? ????
12- Principe de base de segmentation
Marqueurs déclencheurs
Signes de ponctuation ? / / , / !/ ? / \r /..
Contexte gauche
Contexte droit
Coordination ?? ?, ???
Connecteurs ?????, ???, ??, ?????...
Règles de segmentation en phrases
13 14La segmentation de textes arabes nécessité des
connaissances morpho-syntaxiques, indices
temporels, des connecteurs, etc.
??? ???? ???? ?? ????? ?????? , ??? ???? ????
???????
SI la virgule est suivie par un espace ET Si
lespace est suivi dun verbe ET SI le contexte
droit de la virgule commence par un marqueur
temporel ??? ????, ??????? ??????, ?? ??? ??
???????, ??? ???, ??? ????, ???? ???, ALORS la
virgule ne marque pas la fin de la phrase
15Exemple dapplication
... ???? ????? ???????, ????? ??????? ?????????
????????? ?????? ???? ????????, ???? ??????
?????? ???????? ??????, ??? ??????? ?? ????.
ltagt...??? ???? ?????, ???? ?????? ???????
???????? ????? ??? ????????,lt/a gt ltagt????
?????? ????? ?????? ????,lt/agt ltagt??? ?????? ??
???. lt/agt
16Filtrage de citations Par des règles
dexploration contextuelle, Mais exprimée par
des automates selon Sarfiyya
17Par de règle dexploration contextuelle
SI la classe de verbe de dire qâla (U
indicateur) est identifiée dans un espace de
recherche E (segment textuel Phrase
graphique) et SI l'on constate la présence des
indices complémentaires inna après U qâla ALORS
le segment textuel E est une inf. Cit
18Identification sous forme dexpression régulière
ou automate
ClasseDeVerbeIntrocduteur de la forme Dire
CDC inna
qâla mot inna (a-dit mot que)
19Le filtrage dautres notions sémantiques Exemple
dannonces thématiques
min el .. anna, Il est .. que , Ex Min
el (mouhem moufiddarourimouhtamal) anna
Ex Il est ( possible probable sûr ..)
que
20Conclusion
Il est nécessaire davoir des ressources
linguistiques fiables et une bonne
organisation de ces ressources Marqueurs
déclencheurs ou indicateurs, Indices
complémentairesRègles dEC LEC permet le
parcours du texte selon le contexte, en dautres
termes, il est facile de voir le contexte gauche
et droit Les schémas préétablis parcourent
souvent dans un seul sens la vision et la
modélisation linguistique ne sont pas très
visibles Le retour vers le contexte droit
après lidentification de marqueurs déclencheurs
nest pas, à ma connaissance, très évident Il
est important de trouver une solution danalyse
et de parcours
21La linguistique informatique comme discipline
Observation, description, théorisation,
Effectivité
Informatique
Linguistique
Pensée informatique
Linguistique Informatique
Dans la LI se déploient le caractère théorique de
la linguistique et leffectivité de linformatique
22Faire de la Linguistique informatique
Expression réelle de la notion dans les textes
Informatisation opérationnelle
Connaissances intuitives sur une notion
donnée
Formalisation opératoire
Observation réelle
Expérimentation, validation
Observables
23Problématiques générales dans le cadre de la LI
(mais aussi en TAL)
Pour
241e Problématique passer dun texte non segmenté
à un texte segmenté (balisé), selon des règles
de segmentation
Texte
Texte balisé (segmenté/structuré)
------- --------- ------ ----- ----------- -
-------- ------ ----- ------- - ----- - ---
----- ----------- - ----- ---- ----- -----------
- -------- - ---- ----- ----------- - ------
- ---- ----- ----------- - -------- -------
---- ----- ----------- - -------- - ------ -----
--------- - -------- - ------ ----- -------- -
-------- - -------- - ------------- ------
lttgt------- --------- lt/tgt ltsgtltpgtltagt------
lt/agtltagt-----lt/agt ----- ----- - -- -
---------- ----- ----- ------ ------lt/agtltpgt
ltligt ------ ----- ------- - ----- lt/ligt ltligt ---
----- ----------- - -----lt/ligt ltpgt---- -----
----------- - -------- - ------ ----- -----------
- -------- - ltt2gt--------lt/t2gt ------- -- --- --
-- ---- ------- lt/pgt ltpgtltagt------ -----lt/agt
ltagt----------- ---- ----- ---- ---- ---- ---
-------- - ------ ----- ---- - --------
-lt/agtlt/pgtlt/sgt
252e Problématique, annoter le texte par des
balises XML ou autre, selon les marques
linguistiques
Texte étiqueté par des notions sémantiques et
discursives
Texte segmenté structuré
lttgt------- --------- lt/tgt ltsgtltpgtltagt------
lt/agtltagt-----lt/agt ----- ----- - -- -
---------- ----- ----- ------ ------lt/agtltpgt
ltligt ------ ----- ------- - ----- lt/ligt ltligt ---
----- ----------- - -----lt/ligt ltpgt---- -----
----------- - -------- - ------ ----- -----------
- -------- - ltt2gt--------lt/t2gt ------- -- --- --
-- ---- ------- lt/pgt ltpgtltagt------ -----lt/agt
ltagt----------- ---- ----- ---- ---- ---- ---
-------- - ------ ----- ---- - --------
-lt/agtlt/pgtlt/sgt
lttgt------- --------- lt/tgt ltsgtltpgtltagt ltATgt------
lt/ATgt lt/agtltagt-----lt/agt ltINTgt-- ----lt/INTgt -
ltCITgt ----- ------ lt/CITgt ------lt/agtltpgt ltligt
------ ----- ------- - ----- lt/ligt ltligt --- -----
----------- - -----lt/ligt ltpgt---- -----
----------- - --- - ------ ----- - - --------
- ltt2gt--------lt/t2gt ltCONgt------- -- - lt/CONgt
------- lt/pgt ltpgtltagt------ -----lt/agt
ltagt----------- ---- ----- ---- --- --------
- ------ - -------- -lt/agtlt/pgtlt/sgt
261a Problématique
Définir les frontières formelles - des segments
à traiter
Nécessite des modules de pré-traitement de
textes, ou des modules de segmentations La
réalisation demande une étude systématique
des signes typographiques pour trouver une
certaine régularité dutilisation, létude de
contextes de certains connecteurs (Ar)
272e Problématique
Lidentification et le filtrage de certains
segments textuels Ex. la citation
- Nécessite
- une étude systématique de texte
- donc
- de ses composants linguistiques
- - par une étude et fouille sémantique
-
- des ses composants typographiques
- - par une étude sémantique de la ponctuation,
- de larchitecture de texte et de la disposition
spatiale de certains segments