SATIM : Une architecture modulaire pour l'analyse et le traitement de l'information multidimensionnelle : application au texte Jean-Guy Meunier - PowerPoint PPT Presentation

1 / 90
About This Presentation
Title:

SATIM : Une architecture modulaire pour l'analyse et le traitement de l'information multidimensionnelle : application au texte Jean-Guy Meunier

Description:

Title: Diapositive 1 Author: Jean-Guy Meunier Last modified by ** Created Date: 5/3/2002 11:48:09 AM Document presentation format: Affichage l' cran – PowerPoint PPT presentation

Number of Views:80
Avg rating:3.0/5.0

less

Transcript and Presenter's Notes

Title: SATIM : Une architecture modulaire pour l'analyse et le traitement de l'information multidimensionnelle : application au texte Jean-Guy Meunier


1
SATIM Une architecture modulaire pour l'analyse
et le traitement de l'information
multidimensionnelle application au
texteJean-Guy Meunier Ismaïl Biskri
2
Plan
  • 1 Une présentation des architectures classiques
    de ATO.  Ie des générations  de programmes dans
    le domaine
  •       caractéristiques,
  •       limites
  •        et besoin de nouveaux paradigmes .
  •  
  • 2- Le concept de LATAO
  •       les idées classiques interprétation,
    reprise, ajustement test etc. ( voir mes textes
    sur la question 
  • 3- Une modelisation fonctionnelle des opérations
    et fonctions de LATAO
  •       présentation des opérations classiques
  •        filtatrage, étiqutage , matrice, analyse
    etc. 
  •       abstraction fonctionnelle
  •             intrant opération résultat etc.
    récursion
  •       bref  repréndre l'idée de fonctions et
    combinateurs
  •       Note si tu as un premier brouillon de
    texte ....J'en ai . Ce sera la partie importante.
  • 4- Une modélisation Objets des opérations et
    fonctions de LATAO
  •       Comment peut on traduire ces fonctions en
    objets...?
  • Je compte sur toi pour cette partie...
  • 5- SATIM comme premier modele de réalisation
  •       extraire de tes textes et des miens et
    autres la présentation générale de SATIm et
    montrer qu'elle réalise les idées de 3 et 4

3
PARTIE 1 les architectures de ATO.
  • Des générations de systèmes ATO
  • Les Caractéristiques,
  • Les Limites,
  • Les besoins de nouveaux paradigmes.

4
Génération 1 de ATO (1950-1970)
  • Des systèmes de traitement élémentaires de texte
  • La saisie électronique des textes
  • Les alphabets
  • Les encodages (les cartes perforées)
  • Lédition électronique
  • Exemples
  • Le corpus de T Aquin de Busa
  • Fran Text
  • Brown Corpus
  • Kierkegard

5
Génération 2 de ATO (1970-1980)
  • Systèmes pour des chaînes élémentaires de base
  • Lexique
  • Statistique
  • Cooccurrences
  • Lemmatisation
  • Concordances
  • Exemples

6
Generation 3 de ATO (1980-1995)
  • Systèmes pour des chaînes spécifiques des
    modules danalyse
  • De type linguistique
  • Tagger.
  • Description syntaxique
  • Manipulation
  • De dictionnaires de lexique
  • De termes complexes
  • Ex Lexter
  • Exemples
  • Cocoa, Tact,
  • Sato, Nomino, Deredec
  • De type numérique
  • Extraction statistique
  • Exemple Spat
  • Extraction de régularités
  • Leximap
  • Exemple
  • Alceste 1

7
Génération 4 de ATO (1995-)
  • Systèmes avec accès au contenu avec des chaînes
    de traitement complexes
  • de type linguistique
  • In text.
  • De type numérique
  • Alceste
  • Conterm
  • Numexco
  • Gramexco

8
Acquis et limites de la technologique
  • Un traitement ATO
  • Un ensemble de fonctions danalyse
  • Inconvénients
  • peu dintégration des approches numériques et
    linguistiques
  • technologie informatique intégrée pas assez
    modulaires, pas assez flexibles, etc.
  • Une technologie propriétaire.
  • Conséquences
  • Difficultés à modifier les fonctions
  • Difficultés à introduire des nouvelles fonctions

9
Vers une cinquième génération de
systèmes en ATO
  • Nécessité dune nouvelles génération
  • Intégration des fonctions danalyse
  • Modularité des fonctions danalyse
  • Flexibilité des chaînes de traitement
  • Partage des modules entre plusieurs Systèmes

10
Partie 2 LATAO
11
La variété des utilisateurs de texte
  • Ils sont multiples
  • Et aucun ne réalise une même chaîne de
    traitement.
  • Ils ont des méthodes de travail différentes
  • Les objectifs de traitement peuvent être perçus
    différemment processus de découverte.

12
Les  mineurs du texte.
  • de multiples experts ont affaire au texte
  • publiciste, vendeur, formateur,professeurs
  • juriste, notaire, avocat
  • gestionnaire de projet
  • communicateur, programmeur, écrivain,
    bibliothécaire
  • recherchiste,linguiste,éditeur,étudiant,agent
    d'administration,
  • veilleurs technologie, de compétiteurs etc
  • analystes financiers ,économiste
  • rédacteur de discours
  • Ingénieurs, techniciens,
  • médecins, infirmiers

13
Les chaînes de traitement
L'écrivain technique
recherche documents
identification fragments reliés et pertinents
analyse des fragments
Organisation des fragments de manière cohérente
Écriture du texte
Contrôle du style et correction
Vérification des versions
formatage selon un gabarit des versions
diffusion
14
Techniciens de projets
Recherche documents
Identification des documents pertinents
Indexation des documents
Relier les documents entre eux
Écrire des rapports
Contrôle du style
Contrôle des versions
Formatage selon un gabarit
Diffusion
15
Chaînes de traitement Le
documentaliste
construire le reposoir
définir la terminologie
cataloguer
indexer
classifier
construire le thésaurus
gérer le système.
Archiver
Publier
16
Chaînes de traitement Le
recherchiste
Trouver des questions
Chercher des thèmes reliés
catégoriser,
Analyser
Résumer
Ecrire des rapport
17
Chaînes de traitement Le
journaliste
lire
annoter
Interelier
commenter
résumer
argumenter
rédiger
éditer
publier
18
Chaînes de traitement Le suivi de
projet
Écrire rapport
échanger
modifier
suivre
valider
publier
router
19
Chaînes de traitement L' éditeur
transcrire
saisir
corriger
baliser
formater
mettre en page
diffuser
20
Chaînes de traitement Le
linguistique
segmentation
lexique
terminologie
Base de connaissances
dictionnaire
démonstration
style
rhétorique
argumentation
21
Chaînes de traitement Le rapport de groupe
écrire rapport
échanger
modifier
suivre
valider
publier
router
22
PARTIE 3 La décomposition fonctionnelle
  • Le concept de décomposition des modules
  • Quels modules ?
  • La représentation fonctionnelle des modules

23
Architecture formelle de la composante
de base d'une chaîne de traitement
Oi
traitement.
Vk
V1,..... Vj
Output
Input
contrôle
Représentation dune Fonction par une catégorie
de base Si (O ( (V1,..... Vj) Vk))
24
Une chaîne une combinaisons de
fonctions
25
Une chaîne Combinaisons des fonctions
26
Une chaîne Combinaisons des fonctions
  • Variation dans le temps

temps k
temps j
temps i
27
Quelles chaînes de traitement conserver ?
  • Toutes les chaînes de traitement ne sont pas
    valides.
  • Souvent la validité est jugée selon la pertinence
    de la chaîne
  • Juge usager ou concepteur.
  • Avec la représentation catégorielle des
    différentes fonctions de la chaîne
  • La validité est garantie par la bonne connexion
    des catégories
  • Exemple
  • Deux fonctions Si et Si1
  • Si (O ( (V1,..... Vj) Vk))
  • Si1 ( O (Vk (V1,..... Vl)))
  • Si Si1 (O ( (V1,..... Vj) (V1,..... Vl)))

28
La décomposition de LATAO
  • Multiplicité des opérations (modules)

dictionnaires
thesaurus
grammaires
Paramètres
Règles
identificateur
  • Une formalisation adéquate des opérations

29
Quelles fonctions retenir?
30
Représentation algébrique dune chaîne de
traitement
  • Représentation catégorielle des fonctions
  • Si (O ( (V1,..... Vi) Vk))
  • Règles de vérification de la bonne connexion des
    fonctions
  • Grammaires formelles empruntées à la
    linguistique-informatique
  • Combinateurs empruntés à la logique combinatoire
  • Planification empruntés à lintelligence
    Artificielle

31
PARTIE 4 Représentation objet des fonctions
  • Des objet et des opérations sur des objets.
  • Présentation des fonctions comme des modules
    objets
  • Des filtreurs, des matricieurs, etc.

32
Fonctions de filtrage et nettoyage de texte
  • Pour être admissible à des analyses il faut
    préparer matériellement les textes
  • Correction,
  • transformation PDF en texte,
  • Élimination des scories,
  • Etc.

33
Exemple Filtrage par langue
ARABE
ITALIEN
ANGLAIS
image
34
Fonctions de segmentation
  • Identification de deux types dentités
  • Fragments de texte paragraphes, pages, etc.
    (Domaines dinformation)
  • Unités dinformation textuelle Mots, n-grams,
    etc. (Unités dinformation)

35
Deux Grands groupes de fonctions danalyse
  • Les fonctions danalyse linguistique,
  • Les fonctions danalyse numérique,
  • Effort pour les intégrer,
  • Elles interviennent à divers moments de la chaîne
    de traitement.

36
Fonctions détiquetage et de filtrage
des un-ifs et dom-ifs
  • Étape 1. Préparation du corpus
  • Filtrage du corpus
  • Mots fonctionnels, mots-outils, Stop-words,
    go-words et trivial words
  • Je, de, la, tous, etc.
  • Lemmatisation
  • Raisons ? Raison
  • Synonyme
  • HAPAX et mots fréquents
  • Mots ayant une distribution selon une certaine
    courbe.

Mots (Lexique)
Filtres
Corpus filtré
37
Fonctions de transformation
vectorielle
  • Étape 2 Transformation du texte en une
    représentation vectorielle

38
Fonction de transformation vectorielle
  • Matrice textuelle

U1
U2
U3
U4
Un


1
1
1
0
1
S1

0
0
1
0
0
S2

0
0
0
1
1
S3

1
1
1
1
1
S4

0
0
1
1
1
S5

0
1
0
1
0
S6

1
1
1
1
0
Sn
39
Groupe de fonctions danalyse
  • A partir de la matrice plusieurs analyses sont
    possibles
  • Sur les unifs et les domifs
  • Classification des unifs et domifs

40
Fonctions danalyse par
classification
41
Fonctions danalyse par
classification
  • Classification des segments de texte

Classe A
Classe C
Classe E
Classe B
Classe D
42
Multiplicité des classifieurs
  • Réseau de neurones
  • ACP
  • Clustering
  • Champs de Markov
  • Algorithmes génétiques
  • Cartographie de Kohonen
  • Etc.

43
Fonctions danalyse des résultats des
classifieurs
  • Classification des segments de texte

Classe A
Classe C
Classe E
Lexique des mots de la classe
Dieu âme vérité
Esprit idée règle
Sang veine artère
Poumon matière cœur
vêtements français Raison
Classe B
Classe D
44
Fonctions daide a linterprétation des
résultats lanalyse thématique
  • extraction de connaissances à partir des classes

45
Fonctions daide à linterprétation des
résultats
  • La représentation par
  • graphe, réseau, etc.
  • Ergonomie de la
  • représentation.

46
Cat a cone
http//www.sims.berkeley.edu/hearst/cac-overview.
html
47
"SemioMap
  • http//www.semio.com/SemioMin.html
  • Approche sémiotique
  • Découvre des "nuggets" conceptuels
  • Indexation Extraction
  • Clustering de concepts 
  • avec saillance
  • Navigation graphique. 

48
NeuroText

http//www.grimmersoft.com/NeuroText.htm
Approche neuronale Clustering visualisation
49
Inventix.com
50
WEBSOM map
http//websom.hut.fi/websom/comp.ai.neural-nets-ne
w/html/root.html
51
L'Analyse thématique
Un graphe de relations des éléments d'une classe
de segments
52
Fonctions daide à linterprétation des résultats
la catégorisation
Assignation de points à des étiquettes
capital
institution
53
Fonctions danalyse par extraction
54
Analyse lexicale
administration arrival check cashier cleaner chec
k credit dining employee hôtel luggage room diner
banquet
building administration arrival
time check-out cashier floor cleaner check credit
card dining room employe hôtel
reservations luggage room services diner
reservations banquet services
building administration arrival
time check-out cashier floor cleaner check credit
card dining room employe hôtel
reservations luggage room services diner
reservations banquet services
  • Plusieurs possibilités
  • Termes complexes
  • Thesaurus
  • Indexation

55
Lindexation
exemple de texte Le départ est à 12, 00 heures
a.m. Les clients utilisant des cartes de crédit
peuvent payer leur facture par les services de
télévision ou par boîte vocale dans le confort de
leur chambre. Prière de de consulter la section
Services de lhôtel sur votre guide de
télévision . ..
  • Assister l'ajout automatique d'étiquettes ou de
    mots clefs selon un plan de classification

Départ Clients cartes de crédits
  • la tâche
  • transformer un texte à des fins de recherche pour
    des utilisateurs cibles

56
Un résumeur
  • Une sélection de points dans l'espace textuel
  • Via des règles
  • Via des propriétés statistiques

57
Thesaurus
  • Relier les catégories

Réservation
appartement
chambres
suites
Traiteur
Restaurant
cafétéria
58
Lexicaliste fabriquer une base de données
lexicales propriétaire, une ontologie
propriétaire
MOTEURS
Masculin
MOTEUR
nom
3e per, fut
verbe
ENVOLERA
ENVOLER
masc
nom
RESTAURANT
RESTAURANT
féminin
nom
ACIDITE
ACIDE
masc
nom
CREDIT
CREDIT
masc
FEREUX
adjectif
RARE
59
L'hyperlien
Définir automatiquement Vecteurs similaires
60
PARTIE 5 SATIM
61
SATIM
  • SATIM
  • Plate-forme générique visant à organiser des
    modules informatiques autonomes.
  • Sapplique à lanalyse de données textuels ou
    autres.
  • Adaptable à différents objectifs,
  • Flexible plusieurs paramètres,
  • Modulaire facilite ladaptabilité ou la mise à
    jour de la plate-forme,
  • Permet la création rapide d'une multitude de
    chaînes de traitement,
  • Peut être augmentée par de nouveaux modules,
  • Indépendance des modules.

62
SATIM la colonne vertébrale dune chaîne
Paramétrages de SATIM
  • Plusieurs types dunifs pour décrire le texte
  • mots, n-grams, phonèmes,
  • tags, marqueurs, ...
  • étiquettes, catégories,

Texte source
Projection sur 2 dimensions
Modules de réduction du vocabulaire
Modules de classification
63
Exemple de la fonction Segmentation
Similar difficulties arise when we consider the
sense of touch. It is true that the table always
gives us a sensation of hardness, and we feel
that it resists pressure. But the sensation we
obtain depends upon how hard we press the table
and also upon what part of the body we press
with thus the various sensations due to various
pressures or various parts of the body cannot be
supposed to reveal directly any definite property
of the table, but at most to be signs of some
property which perhaps causes all the sensations,
but is not actually apparent in any of them. And
the same applies still more obviously to the
sounds which can be elicited by rapping the
table. Thus it becomes evident that the real
table, if there is one, is not the same as what
we immediately experience by sight or touch or
hearing. The real table, if there is one, is not
immediately known to us at all, but must be an
inference from what is immediately known. Hence,
two very difficult questions at once arise
namely, (1) Is there a real table at all? (2) If
so, what sort of object can it be?
Similar difficulties arise when we consider the
sense of touch. It is true that the table always
gives us a sensation of hardness, and we feel
that it resists pressure. But the sensation we
obtain depends upon how hard we press the table
and also upon what part of the body we press
with thus the various sensations due to various
pressures
or various parts of the body cannot be supposed
to reveal directly any definite property of the
table, but at most to be signs of some property
which perhaps causes all the sensations, but is
not actually apparent in any of them. And the
same applies still more obviously to the sounds
which can be elicited by rapping the table.?
Thus it becomes evident that the real table, if
there is one, is not the same as what we
immediately experience by sight or touch or
hearing. The real table, if there is one, is not
immediately known to us at all, but must be an
inference from what is immediately known. Hence,
two very difficult questions at once arise
namely, (1) Is there a real table at all? (2) If
so, what sort of object can it be?
64
Exemple de la réduction du vocabulaire
lemmatisation
mots fonctionnels
Demontré Démontrés Démontre
filtrage manuel
Et, le, la les, des, ce, est, car
démontrer
65
Illustration danalyse
  • Numexco
  • Gramexco

66
Numexco
Préparation du texte
Classification Réseau de neurones
Représentation vectorielle du texte
67
Gramexco
Préparation du texte
Classification Réseau de neurones
Représentation vectorielle du texte
68
Quelques applications
69
Exemples de catégorisation de segments sous
 connaissance 
  • Diagnostic correct du réseau Oui
  • Diagnostic correct du réseau Non

In this respect our theory of belief must differ
from our theory of acquaintance, since in the
case of acquaintance it was not necessary to take
account of any opposite. (2) It seems fairly
evident that if there were no beliefs there could
be.".
" Some relations demand three terms, some four,
and so on. Take, for instance, the relation
'between'. So long as only two terms come in, the
relation 'between' is impossible three terms are
the smallest number that render it possible. York
is between London "
70
  • Multiplicité des opérations (modules)

dictionnaires
thesaurus
grammaires
Paremêtres
Règles
identificateur
  • Une formalisation adéquate des opérations

71
(No Transcript)
72
La catégorisation
Assignation de points a des étiquettes
capital
institution
73
Sur les propriétés
  • Relations entre mots , concepts , catégories

74
Cartes conceptuelles
Canada
GTI Capital
compagnies
country
Associations
France
capital
déduction
taxe
ministries
75
Une carte conceptuelle
Relations entre des termes associés
76
Découvertes de nouveaux thèmes
déduction
taxe
ministères
Ajouter étiquette
Vérifier !
Dévouvrir de nouveaux liens
77
Navigation thématique
GTI Capital
compagnies
Associations
déduction
capital
taxe
ministries
78
L'indexation
  • la tâche
  • transformer un texte à des fins de recherche pour
    des utilisateurs cibles

exemple de texte Le départ est à 12, 00 hres
a.m. Les clients utilisant des cartes de crédit
peuvent payer leur facture par les services de
télévision ou par boîte vocale dans le confort de
leur chambre. Prière de de consulter la section
Services de lhôtel sur votre guide de
télévision
exemple de texte Le départ est à 12, 00 hures
a.m. Les clients utilisant des cartes de crédit
peuvent payer leur facture par les services de
télévision ou par boîte vocale dans le confort de
leur chambre. Prière de de consulter la section
Services de lhôtel sur votre guide de
télévision . ..
Assister l'ajout automatique de d'étiquette ou
de mots clefs
Départ Clients cartes de crédits
Selon un plan de classification
79
L'indexation
80
Méthode d'indexation
  • Par divers indices statistiques
  • CHI carré
  • Salton

Analyse de la distribution des termes dans un
texte
81
Méthode d'indexation
  • Par réseaux de neurones

Analyse de coprésence des termes importants
dans les classes neuronales
si
si
si
si
si
si
si
si
si
décret, gouvernement , taxe, i
programme, bogue, langage
sentence ,jugement crise
82
Méthode d'indexation
  • Par ontologie

Analyse par application de règles utilisant une
base de connaissances
BASE DE CONNAISSANCES
si
décret, gouvernement , taxe, i
programme, bogue, langage
sentence ,jugement crise
83
Un analyseur lexical est
Un choix dans les propriétés
Lexique la classe des termes pertinents
Terminologie classes des termes
complexes Thesaurus Mots sémantiquement reliés
Indexation mots pertinents pour rappel
84
Knowledge extractor
investors
WHO ?
  • solution
  • deliver structured on
  • specific information .

where ?
GTI CAPITAL INNOVATECH PACIFIC NORTHWEST
POLYTECH LMSOFT HITECH
WHEN ?
décember 1997 august september 1997
85
Déterminer les unités dinformation
ANALYSEURS DUNIFS
Le petit chaperon rouge porte toujours des
parfums Channel .
Outils
identifier les unités dinformation
mots
chaperon
rouge
porte
des
Le
parfums
CHANEL
toujours
petit
petit
chaperon
rouge
porte N
parfum0
CHANEL (parfum)
porte V
86
(No Transcript)
87
Déterminer les unités dinformation
ANALYSEURS DUNIFS
Le petit chaperon rouge porte toujours des
parfums Channel .
Outils
identifier les unités dinformation
mots
chaperon
rouge
porte
des
Le
parfums
CHANEL
toujours
petit
petit
chaperon
rouge
porte N
parfum0
CHANEL (parfum)
porte V
88
Knowledge extractor is
Regenerating filled argumental stucture of a
word
Who
How
When
What
To whom
INVEST

SELL
89
BloobingRandall Rohrer, David Ebert, and John
Sibert, http//www.seas.gwu.edu/rohrer/textviz/
  • Blobby Text - document content mapped to shape
  • corpus "spreadsheet"
  • corpus "spreadsheet"
  • multiple documents
  • corpus "spreadsheet"

90
Inxight
http//www.inxight.com/
Catégoriseur Clustering Visualition Résumeur Outil
s linguistiques
91
(No Transcript)
92
Fonctions de lexicaliste
  • Vient en plusieurs saveurs
  • Utilise plusieurs outils
  • liste de mots fonctionnels
  • filtres statistiques et associatifs,
  • étiquetage morphologique
  • Différents niveaux d'analyse
  • totalement automatique
  • avec assistance
  • pour usage ciblé

93
Le Lexicalistele vocabulaire de base
  • employés
  • femme
  • chambre
  • services
  • réservation
  • hôtel
  • client
  • nettoyeur
  • banquet
  • chèque
  • crédit
  • caissier
  • bagage
  • traiteur
  • arrivée
  • départ
  • coût
  • restaurant

12 33 48 24 28 18 2 1 22 20 11 10 22 26 65
1.2 3 5 2 6 1 4 7 2 4 4 4 5 2 4
  • La solution
  • utiliser le lexique
  • trouver le vocabulaire de base
  • et ses statistiques
  • et autres outils

94
Le Lexicaliste les mots complexes
  • administration
  • hôtel
  • réservation
  • nettoyeur
  • banquet
  • chèque
  • carte de crédit
  • caissier
  • bagage
  • traiteur
  • arrivée
  • départ
  • coût
  • restaurant
  • La solution
  • utiliser le lexique
  • trouver les mots simples
  • trouver les mots complexes

employés de soutien femme de chambre services
de réservation
95
Dictionnariste-

96
Dictionnariste
  • Offrir des définitions propres à l'organisation

Service au chambre services divers commandés à
partir de la chambre. Payable sur
livraison.. Traiteur Service
d'approvisionnement pour clients extérieurs à
l'hôtel.
97
Usage d'un dictionnaire maison assistance
à la lecture technique
Dictionnaire Traiteur Service
d'approvision- nement pour clients extérieurs à
l'hôtel.
Procédures pour les réservations de restauration
. 1- Suite à une demande, le gérant du service
de la restauration doit demander au service des
réservations de locaux les disponibilités des
salles de banquet pour les dates des
demandes 2-Le gérant doit s'informer auprès du
traiteur de ses disponibilités, du menu offert et
du prix 3 . 4...
s
traiteur
98
Fonctions de lexicaliste
  • Vient en plusieurs saveurs
  • Utilise plusieurs outils
  • liste de mots fonctionnels
  • filtres statistiques et associatifs,
  • étiquetage morphologique
  • Différents niveaux d'analyse
  • totalement automatique
  • avec assistance
  • pour usage ciblé

99
Le Lexicalistele vocabulaire de base
  • employés
  • femme
  • chambre
  • services
  • réservation
  • hôtel
  • client
  • nettoyeur
  • banquet
  • chèque
  • crédit
  • caissier
  • bagage
  • traiteur
  • arrivée
  • départ
  • coût
  • restaurant

12 33 48 24 28 18 2 1 22 20 11 10 22 26 65
1.2 3 5 2 6 1 4 7 2 4 4 4 5 2 4
  • La solution
  • utiliser le lexique
  • trouver le vocabulaire de base
  • et ses statistiques
  • et autres outils

100
(No Transcript)
101
(No Transcript)
102
(No Transcript)
103
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com