Title: Data Mining
1Data MiningText Mining
- B. Dousset (I.R.I.T.) dousset_at_irit.fr
- http//atlas.irit.fr
-
2I. La veille stratégique
3Observer et analyser l'environnement
- Des organismes publics
- Recherche
- Administration, ...
- Des entreprises privées
- PME/PMI
- Grands Comptes, ...
- Des équipes de RD, des décideurs,
- Depuis
- Les bases en lignes, les CD/Rom,
- Internet, la Presse, ...
4DĂ©tecter
- L'évolution des divers secteurs d'activité
- Scientifique Technique
- Economique Financier
- Juridique RĂ©glementaire
- Les nouveaux centres dintérêt (signaux faibles)
- Les nouveaux acteurs
- Les impacts Ă©conomiques actuels ou potentiels
- La concurrence et les menaces
- Les opportunités de développement
5RĂ©aliser le Suivi
- Des marchés
- Des coopérations
- Des alliances
- Des participations
- De l'innovation
- Des ruptures
- Des modes
- Des implantations
- Des transferts de technologie
- Des dépôts de brevets
- Des Ă©quipes de recherche
- De la terminologie
- Des bases documentaires
- Des publications
- De la publicité
- Des appels d'offres
6Secteurs dactivité publics ou privés
7II. MĂ©thodologies Identification du besoin
8III. Les traitements Le réseau de compétences
9III. Les traitements Le processus de découverte
10II. Les outils de la découverte
11Historique du développement
- 1983 Visualisation 3D dune ACP (DEA)
- 1985-87 Espace paramĂ©trique en 3D T. BenjamaĂ
(Thèse) - 1987 Trilogie 3D (ACP, AFC, CAH, CPP)
- 1989-93 Analyse textuelle, Ă©volution T. Dkaki
(Thèse) - 1993 Tétralogie 4D
- 1998 Visualisation interactive de CAH (DEA),
- RĂ©duction de la terminologie (DEA),
signaux faibles (Stage) - 1999 Conception de système dIE M. Salle
(Thèse et Medesiie) - Visualisation de liens en 4D (DEA)
- 2002 Ingénierie du besoin en IE T. Zid (Thèse
et Medesiie) - 2003 Grands graphes, géostratégie S. Karouach
(Thèse)
12GĂ©rer les corpus d'informations
- Gestion arborescente des applications
- HĂ©ritage des connaissances sur les bases
- Description des structures par des Méta données
- Gestion des descripteurs et des outils
- Correction des données sources
- Recherche et harmonisation du vocabulaire
- Génération de filtres, de dictionnaires
- Génération automatique des matrices
présences/absences, contingences, cooccurrences
13GĂ©rer les matrices (Tableur 3D)
- Epuration matrice
- DĂ©doublonage
- Extractions
- Relinéarisation
- Normalisation
- Comparaisons
- Carte de matrices
- Zoom Panoramique
- Zoom 3D
- Tris
- Alphabétique
- De consistance
- De connexité
- Absolu par blocs
- Relatif par blocs
- Histogrammes
- Pré classifications
- Import/Export
14Les méthodes danalyse
- Analyse en Composantes Principales (ACP)
- Analyse Factorielle des Correspondances (AFC)
- Visualisations des cartes factorielles (2D, 3D,
4D) - MĂ©thodes de classifications (CAH, CPP)
- Etude de lévolution
- absolue (trajectoires par AFM)
- différentielle (vitesse et accélération)
- relative (rotations procustéennes)
- Dessins de graphes relationnels
- Cartes géostratégiques
15II. Méthodologies La synthèse de linformation
16II. MĂ©thodologies Les niveaux de linformation
- linformation explicite (exogène)
- linformation implicite (endogène)
- Maturité de l information
- Linformation consciente collective (CC)
- Linformation consciente individuelle (CI)
- Linformation inconsciente collective (IC)
- Linformation inconsciente individuelle (I I)
- La terminologie Ă©mergente
- Les concepts Ă©mergents
- cohérence, simultanéité, consensus
17III. La préparation des données
18Décrire le format des données
19Procéder aux dénombrements
- Choix des champs
- Coupure
- sur fréquence
- sur
- Filtres
- positifs
- négatifs
- Synonymes
- Fichiers produits
- .ind, .indA, .indF
20Nécessité dhomogénéiser
- Exemple des adresses extrait de 146 adresses du
mĂŞme organisme - ECOLE-NATL-VET-TOULOUSE, 23 CH CAPELLES, F-31076
TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, 23 CHEMIN CAPELLES,
F-31076 TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
TOULOUSE 03, FRANCE - ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
TOULOUSE 3, FRANCE - ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, ASSOCIE INRA
PHYSIOPATHOL TOXICOL EXPTL LAB, 23 CHEMIN
CAPELLES, F-31076 TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, BIOCHIM LAB, F-31076
TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, CTR NATL INFORMAT
TOXICOL VET, 23 CHEMIN CAPELLES, F-31076
TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, 23 CHEM
CAPELLES, F-31076 TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, 23
CHEMIN DES CAPELLES, F-31076 TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, ENV
MICROBIOL MOLEC, INRA LAB, 23 CHEMIN CAPELLES,
F-31076 TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, INRA,
UNITE MICROBIOL MOLEC, 23 CHEMIN CAPELLES,
F-31076 TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, INRA,
UNITE MICROBIOL MOLEC, F-31076 TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT ELEVAGE PROD, 23
CHEMIN CAPELLES, F-31076 TOULOUSE 3, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT ELEVAGE PROD, 23
CHEMIN CAPELLES, F-31076 TOULOUSE 3, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT PARASITOL, F-31076
TOULOUSE, FRANCE - ECOLE-NATL-VET-TOULOUSE, DEPT PARASITOL,
TOULOUSE, FRANCE
21Proposer des synonymies
- Différentes stratégies
- Fichier .Syn
- Propositions
- Validation
- Fusion
- Recomptage
- Restitution
- listes doublons
- classes
- documents
22Exemple Auteurs Journaux (AU JN)
23Exemple Auteurs Auteurs Dates (AU AU DP)
24IV. La découverte par les méthodes de tris
25Le Tri de Consistance
- Tri des lignes et colonnes
- Tri dune seule ligne
- Tri dune seule colonne
- Recherche
- dEquipe
- de Leader
- de typologie
- Emergence
- de Terme
- de Concept
- de Revue
- dAuteur
- de Lien
26Les réseaux de liens
- avec une ligne
- avec une colonne
- coloration
- fonction du lien
- linéaire
- non linéaire
- noms
- longs
- courts
- niveau de coupure
- en du max
27Zooms de matrices en 2D
28Visualisation des matrices en 3D
- Vue simultanée
- de l'amplitude
- de la répartition
- des liens
- Zoom
- Rotations en 3D
- Visualisation des classes
- SĂ©lection de sous matrices
- Importation de rotations
- Exportation de rotations
29Le Tri de Connexité
30La Suppression de Liens Faibles
- DĂ©connexion partielle
- Tri de connexité
- DĂ©tection
- des sous groupes
- du nombre de classes
- des liens faibles
- Confrontation avec
- Valeurs propres
- AFC vue en 4D
- Classifications
31Le Tri par Blocs Diagonaux
- Utilisé lorsque la matrice est carrée et connexe
- Détecte les clusters (groupes homogènes)
- Les place le long de la diagonale
- Le zoom du tableur permet
- Leur mise en Ă©vidence
- La navigation le long de la diagonale
- Extraction possible des clusters
- Analyse descendante par AFC
- Confrontation avec les classifications
- DĂ©tail du contenu des lignes et des colonnes
32- Utilisation des tris diagonaux
Tri par classes de connexité
33Exemple Co-citations de Brevets
Brevets qui citent les mêmes références
34- DĂ©tection des multi-termes
35Révéler les Concepts émergents
36V. La découverte par la théorie des graphes
37Placement initial aléatoire
Placement circulaire en fonction dun tri
Convergence rapide du placement des sommets
.
?Algorithme de Fruchterman91 Attraction
RĂ©pulsion
38Icônes colorés en fonction des classes
Icônes en bâtons
IcĂ´nes proportionnels
39Graphe local
40- Navigation dans les grands graphes
Graphe des plus proches voisins
Graphe initial
Elimination progressive des liens faibles
Masquage des sommets au dessous du seuil
Affichage de la valeur de chaque arĂŞte du graphe
41Partitionnement par Markov Clustering
42Convergence vers les classes MCL
43- Extraction des classes MCL
Graphe des classes
Extraction des classes
44Réseaux sémantiques
- DĂ©marche
- Recherche des clusters sémantiques
- Utilisation de plusieurs mesures
- liens absolus
- liens relatifs
- Ă©quivalences
- seuillages
45Visualisation du graphe de clusters
46Visualisation du graphe partitionné
47Liens extérieurs à la classe
- Coloration
- Nuds internes en bleu
- Nuds externes colorés
48Exploration par transitivité
49Exploration par transitivité
50Structure des Ă©quipes
Equipe Degen co
Equipe Etienne
51RĂ©seau auteurs-pays
52RĂ©seau auteurs-villes
Liens caraĂŻbes
53VI. La découverte par l'analyse
multidimensionnelle
54LAnalyse en Composantes Principales
- Sapplique aux données quantitatives
- Nuage des lignes dans lespace des colonnes
- Recherche des axes principaux de ce nuage
- Meilleure Visualisation de ce nuage en 2D, 3D, 4D
- Représentation du cercle de corrélation des
colonnes - Confrontation des 2 vues pour trouver des
relations - Mise en Ă©vidence par SĂ©lections et Liens
- Analyse descendante des autres axes factoriels
55Observatoire de la qualité des lanalyses
56Visualisations en 2D et en 3D
57Nuage des individus en 4D
58Cercle de corrélation des variables
59Synchronisation des deux cartes
60LAnalyse Factorielle des Correspondances
- Qualité de lAnalyse
- Paramètres associés
- Valeurs Propres
- Vecteurs Propres
- Inerties
- Valeurs Cumulées
- Corrélations
- Densités
- Contributions
- relatives et absolues
- ACP sur les profils
- Données qualitatives
- Données binaires
- Tableaux de contingence
- Une seule carte
- Lignes (individus)
- Colonnes (variables)
- Analyse de la typologie
- La proximité a un sens
61Choix dun azimut par rotation
62Exportation de rotations choix dazimut
63Carte factorielle 4D Thèmes - Auteurs
64SĂ©lection Multiple Classe dIcĂ´nes
- Garder
- la SĂ©lection
- le Reste
- Extraire
- les Noms
- les Notices
- Classer
- La SĂ©lection
65Analyse des sources dinformation
Pascal SCI
Pascal
50 Sources
138 Sources
Web of Science
Pascal CC
SCI CC
Current-Contents
59 Sources
66VII. La découverte par les méthodes de
classification
67La Classification Ascendante Hiérarchique
- Décomposition en Classes Imbriquées
- Plusieurs Types de Critères
- Distance Euclidienne
- Distance Maximum
- Distance Minimum
- Distance Moyenne
- Représentation sous forme dArbre Planaire
- Exportation des Classes vers Vues 4D
68Navigation dans une Classification
LAAS (Toulouse) Classes thématiques
Equipe
Ligne de coupure
69Exportation dune Classification
Classes superposées
Ligne de coupure
Le plan principal nest pas la bon choix
70La Classification Par Partitions
- Méthode non hiérarchique
- Sélection préalable du nombre de classes
- Distance Inter Classe Maximum
- Distance Intra Classe Minimum
- Processus Itératif
- Deux MĂ©thodes
- Les Centres Mobiles
- Les Nuées Dynamiques
71Principe de la méthode
- MĂ©thode des centres mobiles
- supervisée
- k classes
- 1 représentant
- choix en 3D
- coloration
- icĂ´nes
72VIII. La découverte par analyse chronologique et
spatiale
73La Matrice des Cooccurrences Multiples (2 Ă 4
plans)
74Analyse factorielle des correspondances multiples
(AFCM)
75La Notion de Trajectoire
76- Analyse procustéenne (de Procuste ou Procrustes)
- Celui qui allonge en tirant, devenu le symbole de
luniformité - "Dans la légende grecque ,
- Procruste est un bandit qui hante la route près
d'Eleusis. - Il invite des voyageurs, quil Ă©tend sur un des
deux lits qui meublent son logis, - l'un très long, l'autre très court.
- Si l'hĂ´te est trop grand pour le petit lit,
Procuste lui ampute les jambes, - s'il occupe l'autre, Procuste l'Ă©tire jusqu'Ă ce
quil cadre avec le lit."
77Principe de lanalyse
- Evolution dun nuage de points
- Enlever
- la translation moyenne
- la rotation moyenne
- lhomothétie moyenne
78Cartes géostratégiques
SOUTH-KOREA SPAIN SRI-LANKA SUDAN SURINAME
SWAZILAND SWEDEN SWITZERLAND SYRIA TAIWAN
TAJIKSTAN TANZANIA THAILAND TOGO
TRINIDAD-TOBAGO TUNISIA TURKEY UK UAE
UGANDA UKRAINE URUGUAY USA UZBEKISTAN VENEZUELA
VIETNAM YEMEN YUGOSLAVIA ZAMBIA ZIMBABWE
BULGARIA BURKINA-FASO BURUNDI CAMBODGE CAMEROON
CANADA CTRL-AFRICAN-REP CHAD CHILE CHINA
COLOMBIA CONGO CONGO-PEOPL-REP
COOK-ISLAND COSTA-RICA COTE-IVOIRE CROATIA
CUBA CYPRUS CZECHOSLOVAKIA CZECH-REPUBLIC
DENMARK DJIBOUTI DOMINIQUE ECUADOR EGYPT
ERITREA ESTONIA ETHIOPIA FIJI FINLAND
FR-POLYNESIA FRANCE FR-GUIANA GABON
GAMBIA GEORGIA GERMANY GHANA GREECE GROENLAND
GUADELOUPE GUATEMALA GUINEA GUINE-B GUINE-E GUY
ANA HAITI HONG-KONG HUNGARY ICELAND INDIA
INDONESIA IRAN IRAQ IRELAND ISRAEL ITALY
JAMAICA JAPAN JORDAN KAZAKHSTAN
KENYA KIRIBATI-ISLANDS KUWAIT KYRGYZSTAN LAOS LAT
VIA LEBANON LESOTHO LIBERIA LIBYA LITHUANIA
LUXEMBOURG MADAGASCAR MAKEDONIA
MALAWI MALAYSIA MALDIVE-ISLANDS MALI
MARTINIQUE MAURITANIA MAURITIUS MEXICO
MOLDOVA MONGOLIA MOROCCO MOZAMBIQUE MYANMAR NAM
IBIA NEPAL NETHERLANDS NEW-CALEDONIA
NEW-ZEALAND NIGER NIGERIA NIUE NORTH-KOREA NORW
AY OMAN UZBEKISTAN PAKISTAN PANAMA
PAPUA-NEW-GUINEA PARAGUAY PERU PHILIPPINES
POLAND PORTUGAL PUERTO-RICO QATAR REUNION
ROMANIA RUSSIA RWANDA SALVADOR SAUDI-ARABIA
SENEGAL SERBIA SIERRA LEONE SINGAPORE
SLOVAKIA SLOVENIA SOMALIA SOUTH-AFRICA
Dictionnaire des noms standards des
pays AFGHANISTAN ALBANIA ALGERIA
ANGOLA ANTIGUA-BARBUDA ARGENTINA
ARMENIA AUSTRALIA AUSTRIA AZERBAIJAN BAHRAIN BA
NGLADESH BARBADOS BELARUS BELGIUM BELIZE BENIN
BHOUTAN BOLIVIA BOSNIA BOTSWANA BRAZIL BRUNEI
79Echelle de coloration
80Application de pondérations
Carte en valeurs absolues
81Zones géographiques
82Segmentation automtique
Segmentation
83Importation de classifications
Importation dune classification
Niveau de coupure
Effectifs des classes
84Etude de lévolution par animation
- Caractéristiques de lanimation
- en fonction du temps matrice PA-DP
- par défilement de chaque variable
- par sélection de groupes de variables
- en mode absolu ou relatif
- en fonction du codage
- en fonction du niveau de coupure (CAH)
85Evolution relative entre deux périodes
Pays non présents dans la dernière période
.
Pays en récession
Pays en forte croissance
Carte en mode relatif Ă©tude de tendances
86IX. Possibilités Actuelles et Perspectives
87RĂ©alisations dEtudes Ponctuelles
- Etat de l'art dans un domaine de recherche
- Suivi de l'Ă©volution d'un domaine
- technique,
- Ă©conomique,
- juridique, ...
- Etude du positionnement
- d'un organisme,
- d'une société, ...
- Evaluation de composantes stratégiques
- Veille automatique
88Collaboration avec les Experts
- Mise au point de scénarios d'analyse pour chaque
type de base - Elaboration doutils spécifiques
- filtres,
- dictionnaires de synonymes, ...
- Interrogations multibases
- Veille en continu (sentinelles)
- Qualification d'experts TĂ©tralogie,
- Accords de prestations de service en VT
89Collaboration avec les Utilisateurs
- Mise en place de serveurs plus puissants
- à l' IRIT (développement)
- Ă la BU (exploitation CD et bases en ligne)
- chez des utilisateurs ayant suivi la formation
- Mise Ă jour automatique du Logiciel
- Mise en commun des outils sur les serveurs
- Descripteurs de bases
- Reformatage, filtrage, dictionnaires
- Club des utilisateurs de TĂ©tralogie
90Perspectives
- Extension de la norme "ATLAS" avec nos
partenaires - Amélioration des méthodes existantes
- Ajout de nouvelles méthodes danalyse
- Recherche et filtrage de l'information
- Extension vers le traitement du langage naturel
(Texte intégral, Multilinguisme) - Extension vers des systèmes "sentinelles" de
veille automatique
91Secteurs potentiels
- L'optimisation de la définition des filières
d'emplois - L'aide à la décision dans les choix
- technologiques
- mercantiques
- gestionnaires des entreprises
- Un meilleur positionnement en matière de
propriété industrielle - La résistance à la concurrence
- Les études de marchés, ...
92X. Diffusion
93Le Serveur TĂ©traWeb
- Lexique de la veille
- Documentation en ligne
- Dates, lieux et contenu des cours de formation
- Liste des utilisateurs
- Mode d'accès aux serveurs
- Coordonnées des experts pour chaque domaine
- Liste des manifestations sur la veille
- Nouveaux outils et leur mode d'utilisation
- Conseils pour les analyses
94http//atlas.irit.fr
95Présentation dune macro analyse
96Accès aux fichiers et aux graphiques
97Portail pour les micro analyses
98Visualisations Interactives
99Cartographie Interactive