Prsentation PowerPoint - PowerPoint PPT Presentation

1 / 27
About This Presentation
Title:

Prsentation PowerPoint

Description:

La citation : terme g n rique ; tout fragment textuel rapport , crit ou ... Information Citationnelle : la citation dans son co(n)texte. La citation proprement dite, ... – PowerPoint PPT presentation

Number of Views:25
Avg rating:3.0/5.0
Slides: 28
Provided by: lal65
Category:

less

Transcript and Presenter's Notes

Title: Prsentation PowerPoint


1
Segmentation et étiquetage des textes par la
méthode dexploration contextuelle
Ghassan Mourad Univ. Ain Chams, Caire, Egypte,
17 decembre 2007 et ICAR-CNRS (Univ Lyon II et
CNRS), Lyon les 4-5 avril 2008.
2
  • Plan
  • Éléments définitoires
  • Problématiques générales
  • La méthode dExploration Contextuelle
  • Exemple de segmentation
  • Exemple de filtrage
  • Présentation et exemples danalyse par Sarfiyya

3
Éléments de définition et corpus
  • La citation terme générique tout fragment
    textuel rapporté, écrit ou prononcé, avec ou sans
    guillemets
  • Information Citationnelle la citation dans son
    co(n)texte
  • La citation proprement dite, le cité, et
    lintroducteur (verbe, préposition, autres
    marqueurs)

??? ????? ????? ??? ?????? - ???????? - ??
??????? ????????. ???? ????? ?????? ?? ?????????
??????? ?? ???? ?? ?????? ??? ???? ???? ????????
.
Corpus de repérage assafir Corpus de validation
al ahram
4
La méthode dexploration contextuelle
LEC relève de lanalyse sémantique de
texte. Elle permet de prendre en compte des
indices contextuels internes au texte pour -
lever des indéterminations sémantiques -
prendre certaines décisions dans la construction
du sens et le filtrage de certaines informations,
la segmentation, etc. Desclés al. 91,
Desclés 93, 97, Jouis 93, Berri 96 Un système
dEC fait appel à des connaissances exclusivement
linguistiques - indices déclencheurs ou
indicateurs - indices complémentaires et à
un ensemble de règles dEC
5
Contexte interne, ou contexte indépendant du
domaine (J.-P. Desclés)
6
Chaque règle est de la forme
SI U (indicateur) est identifié dans un espace
de recherche E et SI l'on
constate la présence des indices complémentaires
(V1, ..., Vn)/ou (W1, ..., Wm) avant et/ou après
U ALORS prendre la décision D
7
Méthode dEC
Décision
Marqueurs déclencheurs
Indices gauches
Indices droits
8
questionnement
???
????
????
9
Méthode dEC
Décision
questionnement
Marqueurs déclencheurs
Indices gauches
Indices droits
???
????
????
10
DR ou citation
???
?? ????
11
Méthode dEC
Décision
DR ou citation
Marqueurs déclencheurs
Indices gauches
Indices droits
???
?? ????
12
  • Principe de base de segmentation

Marqueurs déclencheurs
Signes de ponctuation ? / / , / !/ ? / \r /..
Contexte gauche
Contexte droit
Coordination ?? ?, ???
Connecteurs ?????, ???, ??, ?????...
Règles de segmentation en phrases
13
  • Règle de segmentation
  • La virgule

14
La segmentation de textes arabes nécessité des
 connaissances morpho-syntaxiques, indices
temporels, des connecteurs, etc.
??? ???? ???? ?? ????? ?????? , ??? ???? ????
???????

SI la virgule est suivie par un espace ET Si
lespace est suivi dun verbe ET SI le contexte
droit de la virgule commence par un marqueur
temporel ??? ????, ??????? ??????, ?? ??? ??
???????, ??? ???, ??? ????, ???? ???, ALORS la
virgule ne marque pas la fin de la phrase
15
  • Règles de segmentation
  • La virgule

Exemple dapplication
  • Texte source

... ???? ????? ???????, ????? ??????? ?????????
????????? ?????? ???? ????????, ???? ??????
?????? ???????? ??????, ??? ??????? ?? ????.
  • Texte segmenté

ltagt...??? ???? ?????, ???? ?????? ???????
???????? ????? ??? ????????,lt/a gt  ltagt????
?????? ????? ?????? ????,lt/agt ltagt??? ?????? ??
???. lt/agt
16
Filtrage de citations Par des règles
dexploration contextuelle, Mais exprimée par
des automates selon Sarfiyya
17
Par de règle dexploration contextuelle
SI la classe de verbe de dire qâla (U
indicateur) est identifiée dans un espace de
recherche E (segment textuel Phrase
graphique) et SI l'on constate la présence des
indices complémentaires inna après U qâla ALORS
le segment textuel E est une inf. Cit
18
Identification sous forme dexpression régulière
ou automate
ClasseDeVerbeIntrocduteur de la forme Dire
CDC inna
qâla mot inna (a-dit mot que)
19
Le filtrage dautres notions sémantiques Exemple
dannonces thématiques
min el .. anna,  Il est .. que , Ex Min
el (mouhem moufiddarourimouhtamal) anna
Ex  Il est ( possible probable sûr ..)
que
20
Conclusion
Il est nécessaire davoir des ressources
linguistiques fiables et une bonne
organisation de ces ressources Marqueurs
déclencheurs ou indicateurs, Indices
complémentairesRègles dEC LEC permet le
parcours du texte selon le contexte, en dautres
termes, il est facile de voir le contexte gauche
et droit Les schémas préétablis parcourent
souvent dans un seul sens la vision et la
modélisation linguistique ne sont pas très
visibles Le retour vers le contexte droit
après lidentification de marqueurs déclencheurs
nest pas, à ma connaissance, très évident Il
est important de trouver une solution danalyse
et de parcours
21
La linguistique informatique comme discipline
Observation, description, théorisation,
Effectivité
Informatique
Linguistique
Pensée informatique
Linguistique Informatique
Dans la LI se déploient le caractère théorique de
la linguistique et leffectivité de linformatique
22
Faire de la Linguistique informatique
Expression réelle de la notion dans les textes
Informatisation opérationnelle
 Connaissances intuitives sur une notion
donnée
Formalisation opératoire
Observation réelle
Expérimentation, validation
Observables
23
Problématiques générales dans le cadre de la LI
(mais aussi en TAL)
Pour
24
1e Problématique passer dun texte non segmenté
à un texte segmenté (balisé), selon des règles
de segmentation
Texte
Texte balisé (segmenté/structuré)
------- --------- ------ ----- ----------- -
-------- ------ ----- ------- - ----- - ---
----- ----------- - ----- ---- ----- -----------
- -------- - ---- ----- ----------- - ------
- ---- ----- ----------- - -------- -------
---- ----- ----------- - -------- - ------ -----
--------- - -------- - ------ ----- -------- -
-------- - -------- - ------------- ------
lttgt------- --------- lt/tgt ltsgtltpgtltagt------
lt/agtltagt-----lt/agt ----- ----- - -- -
---------- ----- ----- ------ ------lt/agtltpgt
ltligt ------ ----- ------- - ----- lt/ligt ltligt ---
----- ----------- - -----lt/ligt ltpgt---- -----
----------- - -------- - ------ ----- -----------
- -------- - ltt2gt--------lt/t2gt ------- -- --- --
-- ---- ------- lt/pgt ltpgtltagt------ -----lt/agt
ltagt----------- ---- ----- ---- ---- ---- ---
-------- - ------ ----- ---- - --------
-lt/agtlt/pgtlt/sgt
25
2e Problématique, annoter le texte par des
balises XML ou autre, selon les marques
linguistiques
Texte étiqueté par des notions sémantiques et
discursives
Texte segmenté structuré
lttgt------- --------- lt/tgt ltsgtltpgtltagt------
lt/agtltagt-----lt/agt ----- ----- - -- -
---------- ----- ----- ------ ------lt/agtltpgt
ltligt ------ ----- ------- - ----- lt/ligt ltligt ---
----- ----------- - -----lt/ligt ltpgt---- -----
----------- - -------- - ------ ----- -----------
- -------- - ltt2gt--------lt/t2gt ------- -- --- --
-- ---- ------- lt/pgt ltpgtltagt------ -----lt/agt
ltagt----------- ---- ----- ---- ---- ---- ---
-------- - ------ ----- ---- - --------
-lt/agtlt/pgtlt/sgt
lttgt------- --------- lt/tgt ltsgtltpgtltagt ltATgt------
lt/ATgt lt/agtltagt-----lt/agt ltINTgt-- ----lt/INTgt -
ltCITgt ----- ------ lt/CITgt ------lt/agtltpgt ltligt
------ ----- ------- - ----- lt/ligt ltligt --- -----
----------- - -----lt/ligt ltpgt---- -----
----------- - --- - ------ ----- - - --------
- ltt2gt--------lt/t2gt ltCONgt------- -- - lt/CONgt
------- lt/pgt ltpgtltagt------ -----lt/agt
ltagt----------- ---- ----- ---- --- --------
- ------ - -------- -lt/agtlt/pgtlt/sgt
26
1a Problématique
Définir les frontières formelles - des segments
à traiter
Nécessite des modules de pré-traitement de
textes, ou des modules de segmentations La
réalisation demande une étude systématique
des signes typographiques pour trouver une
certaine régularité dutilisation, létude de
contextes de certains connecteurs (Ar)
27
2e Problématique
Lidentification et le filtrage de certains
segments textuels Ex. la citation
  • Nécessite
  • une étude systématique de texte
  • donc
  • de ses composants linguistiques
  • - par une étude et fouille sémantique
  • des ses composants typographiques
  • - par une étude sémantique de la ponctuation,
  • de larchitecture de texte et de la disposition
    spatiale de certains segments
Write a Comment
User Comments (0)
About PowerShow.com