Title: XPLOR Portail pour la mise en ligne des analyses T
1XPLORPortail pour la mise en ligne des analyses
Tétralogie
- Mots-clés
- analyse de données,
- analyse relationnelle,
- veille stratégique,
- base de données relationnelle, MySql
- Internet, Portail
- navigation hypertexte,
- équations de recherche relationnelles,
- Graphiques statistiques
2IntroductionLe système danalyse Tétralogie
- Possibilités actuelles
- Macros analyses
- Grands corpus
- Multi-bases
- Multi-formats
- Multi-user via le web
- Interactif Coopératif
- Graphique
- Système ouverts
- Besoins exprimés
- Taille des dictionnaires
- Zooms personnalisés
- Navigation
- Extractions ciblées
- Automatisation
- Reporting de base
- Accès par portail
- Micros analyses
3Le système actuel
- Système de découverte de connaissances
- Sources BDD, CD, Web, Presse, News, Brevets
- Un module dextraction
- Terminologie, synonymie, fréquences, multi-termes
- Matrices (présence/absence, contingence,
cooccurrence) - Un module danalyse
- Tris et structurations de matrices
- Analyses multidimensionnelles (ACP, AFC)
- Classifications (connexité, CAH, CPP)
- Reporting (zooms, cartes, arbres, trajectoires)
4Le processus de découverte
5L'aspect collégial d'une analyse
6Le principe du non reformatage
- Descripteur de format
- élément de synchro
- nom en clair du champ
- abréviation Tétralogie
- nom de la bannière
- drapeau dutilité
- liste de séparateurs
- Un descripteur par format
- Un chef dorchestre
- On peut tout combiner!
Options possibles rang dans la liste saut de
ligne ligne vide séparateurs complexes courbe de
charge champs virtuels dicos négatifs dicos
positifs niveaux de coupure
7Une matrice par question posée
- Auteurs - Auteurs
- Elle fait apparaître lensemble des
collaborations, leurs structures, les personnes
qui les animent ainsi que les différentes équipes
isolées du domaine. - Auteurs - Dates
- Elle permet de connaître l'évolution de la
productivité scientifique de chaque auteur dans
le domaine étudié et de détecter les auteurs
émergents ou ceux qui séloignent du sujet. - Mots clés - Dates
- Elle montre l'évolution des problématiques de
recherche, c'est à dire si un sujet a suscité
beaucoup d'intérêts, s'il est innovant.
8Une matrice par question posée
- Auteurs - Pays
- Elle fait apparaître les collaborations
internationales entre auteurs et indirectement
entre Pays - Multi-termes - Journaux
- Elle permet de retrouver les thématiques abordées
dans les différents journaux - Auteurs - organismes
- Elle permet de connaître les collaborations entre
les organismes de recherche et éventuellement
leur concurrence. - Mots clés - Auteurs
- Elle fait apparaître les domaines de recherche
des différents auteurs ainsi que les
collaborations ou concurrences entre groupes
d'auteurs sur des problématiques
9Génération directe des matrices
- Avantages
- très grande rapidité de traitement (ram, hash
coding) - facilité décriture des algorithmes
- Inconvénients
- taille limitée (lt5000x5000/2D, lt 25000x250x4/3D)
- place perdue (matrices souvent très creuses)
- temps de chargement
- gestion des noms (courts et longs)
- gestion des doublons
- pas danalyse sur plus de 2 ou 3 variables
10Quapporte la base de données
- Lexhaustivité de la terminologie retenue
- Des requêtes relationnelles interactives
- Un grande gamme dopérateurs dextraction
- La disponibilité immédiate (pour les micro
analyses) - Une navigation entièrement personnelle
- Lappropriation de loutil par le non spécialiste
- Le partage danalyses via le web
- Environnement vu dans un contexte général
- Repérer des éléments précis à surveiller
- leur environnement, leurs liens, leur évolution
11Compilation de macro analyses
- On part des matrices pour constituer la base
- lanalyse Tétralogie doit être complète
- Les dictionnaires doivent être unifiés
- Analyse statique
- seules des matrices 2D sont générées
- le temps est considéré comme une variable
- Analyse dynamique
- le temps est la 3 dimension
- toutes les matrices sont en 3D
- les matrices sont 2 fois plus petites (4 plans)
12Génération directe de la base
- Permet la prise en compte de la totalité
- des champs sémantiques (mots-clé, texte libre,
index) - des acteurs (auteurs, sites Web, organismes)
- des documents pris individuellement (notices,
url) - des unités sémantiques (phrases, paragraphes)
- Le temps est intégré dès le départ
- calculs éclatés si possible en 4 périodes
- Les noms long sont normalisés et indexés
- Il ny a plus de perte de place
- Génération plus longue que pour les matrices!
13Extraction des matrices depuis la base de données
- Permet de réaliser les macro analyses
- Il faut choisir des limitations
- champs sémantiques, acteurs, documents
- On peut ne pas stocker les matrices
- Les matrices utilisent les mêmes dictionnaires
- Le retour aux documents est facilité
- Chaque élément peut être précisé et analysé
- auteurs, journaux, organismes, pays
14Accès aux items et aux relations
15Accès aux filtres et aux tris
16Accès aux graphiques
17Présentation sous forme dhistogramme après
filtrage
18Présentation sous forme de secteurs
19Réseaux de liens après filtrage
20Conclusion
- La version 1 est opérationnelle
- Nombreux opérateurs de filtrage interactifs
- en absolu, en relatif, relationnels, pondérés
- Automatisation
- énormes possibilités
- scénarios personnalisables
- Encore peu de visualisations graphiques
- histogrammes, secteurs, liens
- Bientôt sur le portail
- de nombreuses analyses en accès libre (IUP)
- des analyses confidentielles sécurisées
21GeoECDdes cartes géographiques issues du texte
- Saïd KAROUACH / Bernard DOUSSET
-
- IRIT-SIG
- Univ. Toulouse3
- karouach_at_irit.fr
22Principe
Tétralogie
23Extraction de l'information
24Codage de l'information
25Codage de l'information
26Différents types de vues
- Vue en mode absolu (données brutes)
- Vue en mode relatif (pondération)
- divisé par la population,
- divisé par le pnb,
- divisé par la surface,...
- Vue filtrée ( Sélection )
- Vue globale / Zoom / Extraits
27Types de vues (valeurs brutes)
28Types de vues (pondération)
29Types de vues (filtrage)
30Types de vues (animation)
31Types de vues (zoom)
32Interactivité Communication
- Interactivité
- Traitement / Calcul
- Filtrage
- Animation séquentielle
- Communication
- Entre les cartes dun même Utilisateur
- Entre utilisateurs ( via le Réseau )
- Avec les classifications de Tétralogie
33Communication entre utilisateurs
34Communication avec la CAH
35Conclusion Perspectives
- Amélioration de la qualité de la carte
- Ajout de certains petits pays
- Définition dautres zones géographiques
- Autres granularités (régions, départements)
- Autres données externes
- Données spécifiques à lentreprise