Title: SATIM : Une architecture modulaire pour l'analyse et le traitement de l'information multidimensionnelle : application au texte Jean-Guy Meunier
1SATIM Une architecture modulaire pour l'analyse
et le traitement de l'information
multidimensionnelle application au
texteJean-Guy Meunier Ismaïl Biskri
2Plan
- 1 Une présentation des architectures classiques
de ATO. Ie des générations de programmes dans
le domaine - caractéristiques,
- limites
- et besoin de nouveaux paradigmes .
-
- 2- Le concept de LATAO
- les idées classiques interprétation,
reprise, ajustement test etc. ( voir mes textes
sur la question - 3- Une modelisation fonctionnelle des opérations
et fonctions de LATAO - présentation des opérations classiques
- filtatrage, étiqutage , matrice, analyse
etc. - abstraction fonctionnelle
- intrant opération résultat etc.
récursion - bref repréndre l'idée de fonctions et
combinateurs - Note si tu as un premier brouillon de
texte ....J'en ai . Ce sera la partie importante. - 4- Une modélisation Objets des opérations et
fonctions de LATAO - Comment peut on traduire ces fonctions en
objets...? - Je compte sur toi pour cette partie...
- 5- SATIM comme premier modele de réalisation
- extraire de tes textes et des miens et
autres la présentation générale de SATIm et
montrer qu'elle réalise les idées de 3 et 4
3PARTIE 1 les architectures de ATO.
- Des générations de systèmes ATO
- Les Caractéristiques,
- Les Limites,
- Les besoins de nouveaux paradigmes.
4 Génération 1 de ATO (1950-1970)
- Des systèmes de traitement élémentaires de texte
- La saisie électronique des textes
- Les alphabets
- Les encodages (les cartes perforées)
- Lédition électronique
- Exemples
- Le corpus de T Aquin de Busa
- Fran Text
- Brown Corpus
- Kierkegard
5 Génération 2 de ATO (1970-1980)
- Systèmes pour des chaînes élémentaires de base
- Lexique
- Statistique
- Cooccurrences
- Lemmatisation
-
- Concordances
- Exemples
6 Generation 3 de ATO (1980-1995)
- Systèmes pour des chaînes spécifiques des
modules danalyse - De type linguistique
- Tagger.
- Description syntaxique
- Manipulation
- De dictionnaires de lexique
- De termes complexes
- Ex Lexter
- Exemples
- Cocoa, Tact,
- Sato, Nomino, Deredec
- De type numérique
- Extraction statistique
- Exemple Spat
- Extraction de régularités
- Leximap
- Exemple
- Alceste 1
7 Génération 4 de ATO (1995-)
- Systèmes avec accès au contenu avec des chaînes
de traitement complexes - de type linguistique
- In text.
- De type numérique
- Alceste
- Conterm
- Numexco
- Gramexco
8 Acquis et limites de la technologique
- Un traitement ATO
- Un ensemble de fonctions danalyse
- Inconvénients
- peu dintégration des approches numériques et
linguistiques - technologie informatique intégrée pas assez
modulaires, pas assez flexibles, etc. - Une technologie propriétaire.
- Conséquences
- Difficultés à modifier les fonctions
- Difficultés à introduire des nouvelles fonctions
9 Vers une cinquième génération de
systèmes en ATO
- Nécessité dune nouvelles génération
- Intégration des fonctions danalyse
- Modularité des fonctions danalyse
- Flexibilité des chaînes de traitement
- Partage des modules entre plusieurs Systèmes
10Partie 2 LATAO
11 La variété des utilisateurs de texte
- Ils sont multiples
- Et aucun ne réalise une même chaîne de
traitement. - Ils ont des méthodes de travail différentes
- Les objectifs de traitement peuvent être perçus
différemment processus de découverte.
12 Les mineurs du texte.
- de multiples experts ont affaire au texte
- publiciste, vendeur, formateur,professeurs
- juriste, notaire, avocat
- gestionnaire de projet
- communicateur, programmeur, écrivain,
bibliothécaire - recherchiste,linguiste,éditeur,étudiant,agent
d'administration, - veilleurs technologie, de compétiteurs etc
- analystes financiers ,économiste
- rédacteur de discours
- Ingénieurs, techniciens,
- médecins, infirmiers
13 Les chaînes de traitement
L'écrivain technique
recherche documents
identification fragments reliés et pertinents
analyse des fragments
Organisation des fragments de manière cohérente
Écriture du texte
Contrôle du style et correction
Vérification des versions
formatage selon un gabarit des versions
diffusion
14 Techniciens de projets
Recherche documents
Identification des documents pertinents
Indexation des documents
Relier les documents entre eux
Écrire des rapports
Contrôle du style
Contrôle des versions
Formatage selon un gabarit
Diffusion
15 Chaînes de traitement Le
documentaliste
construire le reposoir
définir la terminologie
cataloguer
indexer
classifier
construire le thésaurus
gérer le système.
Archiver
Publier
16 Chaînes de traitement Le
recherchiste
Trouver des questions
Chercher des thèmes reliés
catégoriser,
Analyser
Résumer
Ecrire des rapport
17 Chaînes de traitement Le
journaliste
lire
annoter
Interelier
commenter
résumer
argumenter
rédiger
éditer
publier
18 Chaînes de traitement Le suivi de
projet
Écrire rapport
échanger
modifier
suivre
valider
publier
router
19 Chaînes de traitement L' éditeur
transcrire
saisir
corriger
baliser
formater
mettre en page
diffuser
20 Chaînes de traitement Le
linguistique
segmentation
lexique
terminologie
Base de connaissances
dictionnaire
démonstration
style
rhétorique
argumentation
21Chaînes de traitement Le rapport de groupe
écrire rapport
échanger
modifier
suivre
valider
publier
router
22PARTIE 3 La décomposition fonctionnelle
- Le concept de décomposition des modules
- Quels modules ?
- La représentation fonctionnelle des modules
23 Architecture formelle de la composante
de base d'une chaîne de traitement
Oi
traitement.
Vk
V1,..... Vj
Output
Input
contrôle
Représentation dune Fonction par une catégorie
de base Si (O ( (V1,..... Vj) Vk))
24 Une chaîne une combinaisons de
fonctions
25 Une chaîne Combinaisons des fonctions
26 Une chaîne Combinaisons des fonctions
temps k
temps j
temps i
27Quelles chaînes de traitement conserver ?
- Toutes les chaînes de traitement ne sont pas
valides. - Souvent la validité est jugée selon la pertinence
de la chaîne - Juge usager ou concepteur.
- Avec la représentation catégorielle des
différentes fonctions de la chaîne - La validité est garantie par la bonne connexion
des catégories - Exemple
- Deux fonctions Si et Si1
- Si (O ( (V1,..... Vj) Vk))
- Si1 ( O (Vk (V1,..... Vl)))
- Si Si1 (O ( (V1,..... Vj) (V1,..... Vl)))
28 La décomposition de LATAO
- Multiplicité des opérations (modules)
dictionnaires
thesaurus
grammaires
Paramètres
Règles
identificateur
- Une formalisation adéquate des opérations
29 Quelles fonctions retenir?
30Représentation algébrique dune chaîne de
traitement
- Représentation catégorielle des fonctions
- Si (O ( (V1,..... Vi) Vk))
- Règles de vérification de la bonne connexion des
fonctions - Grammaires formelles empruntées à la
linguistique-informatique - Combinateurs empruntés à la logique combinatoire
- Planification empruntés à lintelligence
Artificielle
31PARTIE 4 Représentation objet des fonctions
- Des objet et des opérations sur des objets.
- Présentation des fonctions comme des modules
objets - Des filtreurs, des matricieurs, etc.
32Fonctions de filtrage et nettoyage de texte
- Pour être admissible à des analyses il faut
préparer matériellement les textes - Correction,
- transformation PDF en texte,
- Élimination des scories,
- Etc.
33 Exemple Filtrage par langue
ARABE
ITALIEN
ANGLAIS
image
34 Fonctions de segmentation
- Identification de deux types dentités
- Fragments de texte paragraphes, pages, etc.
(Domaines dinformation) - Unités dinformation textuelle Mots, n-grams,
etc. (Unités dinformation)
35Deux Grands groupes de fonctions danalyse
- Les fonctions danalyse linguistique,
- Les fonctions danalyse numérique,
- Effort pour les intégrer,
- Elles interviennent à divers moments de la chaîne
de traitement.
36 Fonctions détiquetage et de filtrage
des un-ifs et dom-ifs
- Étape 1. Préparation du corpus
- Filtrage du corpus
- Mots fonctionnels, mots-outils, Stop-words,
go-words et trivial words - Je, de, la, tous, etc.
- Lemmatisation
- Raisons ? Raison
- Synonyme
- HAPAX et mots fréquents
- Mots ayant une distribution selon une certaine
courbe.
Mots (Lexique)
Filtres
Corpus filtré
37 Fonctions de transformation
vectorielle
- Étape 2 Transformation du texte en une
représentation vectorielle
38 Fonction de transformation vectorielle
U1
U2
U3
U4
Un
1
1
1
0
1
S1
0
0
1
0
0
S2
0
0
0
1
1
S3
1
1
1
1
1
S4
0
0
1
1
1
S5
0
1
0
1
0
S6
1
1
1
1
0
Sn
39 Groupe de fonctions danalyse
- A partir de la matrice plusieurs analyses sont
possibles - Sur les unifs et les domifs
- Classification des unifs et domifs
40 Fonctions danalyse par
classification
41 Fonctions danalyse par
classification
- Classification des segments de texte
Classe A
Classe C
Classe E
Classe B
Classe D
42 Multiplicité des classifieurs
- Réseau de neurones
- ACP
- Clustering
- Champs de Markov
- Algorithmes génétiques
- Cartographie de Kohonen
- Etc.
43Fonctions danalyse des résultats des
classifieurs
- Classification des segments de texte
Classe A
Classe C
Classe E
Lexique des mots de la classe
Dieu âme vérité
Esprit idée règle
Sang veine artère
Poumon matière cœur
vêtements français Raison
Classe B
Classe D
44Fonctions daide a linterprétation des
résultats lanalyse thématique
- extraction de connaissances à partir des classes
45 Fonctions daide à linterprétation des
résultats
- La représentation par
- graphe, réseau, etc.
- Ergonomie de la
- représentation.
46 Cat a cone
http//www.sims.berkeley.edu/hearst/cac-overview.
html
47 "SemioMap
- http//www.semio.com/SemioMin.html
- Approche sémiotique
- Découvre des "nuggets" conceptuels
- Indexation Extraction
- Clustering de concepts
- avec saillance
- Navigation graphique.
48 NeuroText
http//www.grimmersoft.com/NeuroText.htm
Approche neuronale Clustering visualisation
49 Inventix.com
50 WEBSOM map
http//websom.hut.fi/websom/comp.ai.neural-nets-ne
w/html/root.html
51 L'Analyse thématique
Un graphe de relations des éléments d'une classe
de segments
52Fonctions daide à linterprétation des résultats
la catégorisation
Assignation de points à des étiquettes
capital
institution
53Fonctions danalyse par extraction
54 Analyse lexicale
administration arrival check cashier cleaner chec
k credit dining employee hôtel luggage room diner
banquet
building administration arrival
time check-out cashier floor cleaner check credit
card dining room employe hôtel
reservations luggage room services diner
reservations banquet services
building administration arrival
time check-out cashier floor cleaner check credit
card dining room employe hôtel
reservations luggage room services diner
reservations banquet services
55 Lindexation
exemple de texte Le départ est à 12, 00 heures
a.m. Les clients utilisant des cartes de crédit
peuvent payer leur facture par les services de
télévision ou par boîte vocale dans le confort de
leur chambre. Prière de de consulter la section
Services de lhôtel sur votre guide de
télévision . ..
- Assister l'ajout automatique d'étiquettes ou de
mots clefs selon un plan de classification
Départ Clients cartes de crédits
- la tâche
- transformer un texte à des fins de recherche pour
des utilisateurs cibles
56 Un résumeur
- Une sélection de points dans l'espace textuel
- Via des règles
- Via des propriétés statistiques
57 Thesaurus
Réservation
appartement
chambres
suites
Traiteur
Restaurant
cafétéria
58 Lexicaliste fabriquer une base de données
lexicales propriétaire, une ontologie
propriétaire
MOTEURS
Masculin
MOTEUR
nom
3e per, fut
verbe
ENVOLERA
ENVOLER
masc
nom
RESTAURANT
RESTAURANT
féminin
nom
ACIDITE
ACIDE
masc
nom
CREDIT
CREDIT
masc
FEREUX
adjectif
RARE
59 L'hyperlien
Définir automatiquement Vecteurs similaires
60PARTIE 5 SATIM
61 SATIM
- SATIM
- Plate-forme générique visant à organiser des
modules informatiques autonomes. - Sapplique à lanalyse de données textuels ou
autres. - Adaptable à différents objectifs,
- Flexible plusieurs paramètres,
- Modulaire facilite ladaptabilité ou la mise à
jour de la plate-forme, - Permet la création rapide d'une multitude de
chaînes de traitement, - Peut être augmentée par de nouveaux modules,
- Indépendance des modules.
62SATIM la colonne vertébrale dune chaîne
Paramétrages de SATIM
- Plusieurs types dunifs pour décrire le texte
- mots, n-grams, phonèmes,
- tags, marqueurs, ...
- étiquettes, catégories,
Texte source
Projection sur 2 dimensions
Modules de réduction du vocabulaire
Modules de classification
63Exemple de la fonction Segmentation
Similar difficulties arise when we consider the
sense of touch. It is true that the table always
gives us a sensation of hardness, and we feel
that it resists pressure. But the sensation we
obtain depends upon how hard we press the table
and also upon what part of the body we press
with thus the various sensations due to various
pressures or various parts of the body cannot be
supposed to reveal directly any definite property
of the table, but at most to be signs of some
property which perhaps causes all the sensations,
but is not actually apparent in any of them. And
the same applies still more obviously to the
sounds which can be elicited by rapping the
table. Thus it becomes evident that the real
table, if there is one, is not the same as what
we immediately experience by sight or touch or
hearing. The real table, if there is one, is not
immediately known to us at all, but must be an
inference from what is immediately known. Hence,
two very difficult questions at once arise
namely, (1) Is there a real table at all? (2) If
so, what sort of object can it be?
Similar difficulties arise when we consider the
sense of touch. It is true that the table always
gives us a sensation of hardness, and we feel
that it resists pressure. But the sensation we
obtain depends upon how hard we press the table
and also upon what part of the body we press
with thus the various sensations due to various
pressures
or various parts of the body cannot be supposed
to reveal directly any definite property of the
table, but at most to be signs of some property
which perhaps causes all the sensations, but is
not actually apparent in any of them. And the
same applies still more obviously to the sounds
which can be elicited by rapping the table.?
Thus it becomes evident that the real table, if
there is one, is not the same as what we
immediately experience by sight or touch or
hearing. The real table, if there is one, is not
immediately known to us at all, but must be an
inference from what is immediately known. Hence,
two very difficult questions at once arise
namely, (1) Is there a real table at all? (2) If
so, what sort of object can it be?
64Exemple de la réduction du vocabulaire
lemmatisation
mots fonctionnels
Demontré Démontrés Démontre
filtrage manuel
Et, le, la les, des, ce, est, car
démontrer
65Illustration danalyse
66Numexco
Préparation du texte
Classification Réseau de neurones
Représentation vectorielle du texte
67Gramexco
Préparation du texte
Classification Réseau de neurones
Représentation vectorielle du texte
68 Quelques applications
69Exemples de catégorisation de segments sous
connaissance
- Diagnostic correct du réseau Oui
- Diagnostic correct du réseau Non
In this respect our theory of belief must differ
from our theory of acquaintance, since in the
case of acquaintance it was not necessary to take
account of any opposite. (2) It seems fairly
evident that if there were no beliefs there could
be.".
" Some relations demand three terms, some four,
and so on. Take, for instance, the relation
'between'. So long as only two terms come in, the
relation 'between' is impossible three terms are
the smallest number that render it possible. York
is between London "
70- Multiplicité des opérations (modules)
dictionnaires
thesaurus
grammaires
Paremêtres
Règles
identificateur
- Une formalisation adéquate des opérations
71(No Transcript)
72 La catégorisation
Assignation de points a des étiquettes
capital
institution
73 Sur les propriétés
- Relations entre mots , concepts , catégories
74 Cartes conceptuelles
Canada
GTI Capital
compagnies
country
Associations
France
capital
déduction
taxe
ministries
75 Une carte conceptuelle
Relations entre des termes associés
76 Découvertes de nouveaux thèmes
déduction
taxe
ministères
Ajouter étiquette
Vérifier !
Dévouvrir de nouveaux liens
77 Navigation thématique
GTI Capital
compagnies
Associations
déduction
capital
taxe
ministries
78 L'indexation
- la tâche
- transformer un texte à des fins de recherche pour
des utilisateurs cibles
exemple de texte Le départ est à 12, 00 hres
a.m. Les clients utilisant des cartes de crédit
peuvent payer leur facture par les services de
télévision ou par boîte vocale dans le confort de
leur chambre. Prière de de consulter la section
Services de lhôtel sur votre guide de
télévision
exemple de texte Le départ est à 12, 00 hures
a.m. Les clients utilisant des cartes de crédit
peuvent payer leur facture par les services de
télévision ou par boîte vocale dans le confort de
leur chambre. Prière de de consulter la section
Services de lhôtel sur votre guide de
télévision . ..
Assister l'ajout automatique de d'étiquette ou
de mots clefs
Départ Clients cartes de crédits
Selon un plan de classification
79 L'indexation
80 Méthode d'indexation
- Par divers indices statistiques
- CHI carré
- Salton
Analyse de la distribution des termes dans un
texte
81 Méthode d'indexation
Analyse de coprésence des termes importants
dans les classes neuronales
si
si
si
si
si
si
si
si
si
décret, gouvernement , taxe, i
programme, bogue, langage
sentence ,jugement crise
82 Méthode d'indexation
Analyse par application de règles utilisant une
base de connaissances
BASE DE CONNAISSANCES
si
décret, gouvernement , taxe, i
programme, bogue, langage
sentence ,jugement crise
83 Un analyseur lexical est
Un choix dans les propriétés
Lexique la classe des termes pertinents
Terminologie classes des termes
complexes Thesaurus Mots sémantiquement reliés
Indexation mots pertinents pour rappel
84 Knowledge extractor
investors
WHO ?
- solution
- deliver structured on
- specific information .
where ?
GTI CAPITAL INNOVATECH PACIFIC NORTHWEST
POLYTECH LMSOFT HITECH
WHEN ?
décember 1997 august september 1997
85 Déterminer les unités dinformation
ANALYSEURS DUNIFS
Le petit chaperon rouge porte toujours des
parfums Channel .
Outils
identifier les unités dinformation
mots
chaperon
rouge
porte
des
Le
parfums
CHANEL
toujours
petit
petit
chaperon
rouge
porte N
parfum0
CHANEL (parfum)
porte V
86(No Transcript)
87 Déterminer les unités dinformation
ANALYSEURS DUNIFS
Le petit chaperon rouge porte toujours des
parfums Channel .
Outils
identifier les unités dinformation
mots
chaperon
rouge
porte
des
Le
parfums
CHANEL
toujours
petit
petit
chaperon
rouge
porte N
parfum0
CHANEL (parfum)
porte V
88 Knowledge extractor is
Regenerating filled argumental stucture of a
word
Who
How
When
What
To whom
INVEST
SELL
89BloobingRandall Rohrer, David Ebert, and John
Sibert, http//www.seas.gwu.edu/rohrer/textviz/
- Blobby Text - document content mapped to shape
90 Inxight
http//www.inxight.com/
Catégoriseur Clustering Visualition Résumeur Outil
s linguistiques
91(No Transcript)
92 Fonctions de lexicaliste
- Vient en plusieurs saveurs
- Utilise plusieurs outils
- liste de mots fonctionnels
- filtres statistiques et associatifs,
- étiquetage morphologique
- Différents niveaux d'analyse
- totalement automatique
- avec assistance
- pour usage ciblé
93 Le Lexicalistele vocabulaire de base
- employés
- femme
- chambre
- services
- réservation
- hôtel
- client
- nettoyeur
- banquet
- chèque
- crédit
- caissier
- bagage
- traiteur
- arrivée
- départ
- coût
- restaurant
12 33 48 24 28 18 2 1 22 20 11 10 22 26 65
1.2 3 5 2 6 1 4 7 2 4 4 4 5 2 4
- La solution
- utiliser le lexique
- trouver le vocabulaire de base
- et ses statistiques
- et autres outils
94 Le Lexicaliste les mots complexes
- administration
- hôtel
- réservation
- nettoyeur
- banquet
- chèque
- carte de crédit
- caissier
- bagage
- traiteur
- arrivée
- départ
- coût
- restaurant
- La solution
- utiliser le lexique
- trouver les mots simples
- trouver les mots complexes
employés de soutien femme de chambre services
de réservation
95 Dictionnariste-
96 Dictionnariste
- Offrir des définitions propres à l'organisation
Service au chambre services divers commandés à
partir de la chambre. Payable sur
livraison.. Traiteur Service
d'approvisionnement pour clients extérieurs à
l'hôtel.
97 Usage d'un dictionnaire maison assistance
à la lecture technique
Dictionnaire Traiteur Service
d'approvision- nement pour clients extérieurs à
l'hôtel.
Procédures pour les réservations de restauration
. 1- Suite à une demande, le gérant du service
de la restauration doit demander au service des
réservations de locaux les disponibilités des
salles de banquet pour les dates des
demandes 2-Le gérant doit s'informer auprès du
traiteur de ses disponibilités, du menu offert et
du prix 3 . 4...
s
traiteur
98 Fonctions de lexicaliste
- Vient en plusieurs saveurs
- Utilise plusieurs outils
- liste de mots fonctionnels
- filtres statistiques et associatifs,
- étiquetage morphologique
- Différents niveaux d'analyse
- totalement automatique
- avec assistance
- pour usage ciblé
99Le Lexicalistele vocabulaire de base
- employés
- femme
- chambre
- services
- réservation
- hôtel
- client
- nettoyeur
- banquet
- chèque
- crédit
- caissier
- bagage
- traiteur
- arrivée
- départ
- coût
- restaurant
12 33 48 24 28 18 2 1 22 20 11 10 22 26 65
1.2 3 5 2 6 1 4 7 2 4 4 4 5 2 4
- La solution
- utiliser le lexique
- trouver le vocabulaire de base
- et ses statistiques
- et autres outils
100(No Transcript)
101(No Transcript)
102(No Transcript)
103(No Transcript)