Data Mining - PowerPoint PPT Presentation

1 / 99
About This Presentation
Title:

Data Mining

Description:

Les impacts conomiques actuels ou potentiels. La concurrence et les menaces. Les ... 1983 Visualisation 3D d'une ACP (DEA) 1985-87 Espace param trique en ... – PowerPoint PPT presentation

Number of Views:172
Avg rating:3.0/5.0
Slides: 100
Provided by: upsi2
Category:
Tags: actuels | data | mining

less

Transcript and Presenter's Notes

Title: Data Mining


1
Data MiningText Mining
  • B. Dousset (I.R.I.T.) dousset_at_irit.fr
  • http//atlas.irit.fr

2
I. La veille stratégique
3
Observer et analyser l'environnement
  • Des organismes publics
  • Recherche
  • Administration, ...
  • Des entreprises privĂ©es
  • PME/PMI
  • Grands Comptes, ...
  • Des Ă©quipes de RD, des dĂ©cideurs,
  • Depuis
  • Les bases en lignes, les CD/Rom,
  • Internet, la Presse, ...

4
DĂ©tecter
  • L'Ă©volution des divers secteurs d'activitĂ©
  • Scientifique Technique
  • Economique Financier
  • Juridique RĂ©glementaire
  • Les nouveaux centres dintĂ©rĂŞt (signaux faibles)
  • Les nouveaux acteurs
  • Les impacts Ă©conomiques actuels ou potentiels
  • La concurrence et les menaces
  • Les opportunitĂ©s de dĂ©veloppement

5
RĂ©aliser le Suivi
  • Des marchĂ©s
  • Des coopĂ©rations
  • Des alliances
  • Des participations
  • De l'innovation
  • Des ruptures
  • Des modes
  • Des implantations
  • Des transferts de technologie
  • Des dĂ©pĂ´ts de brevets
  • Des Ă©quipes de recherche
  • De la terminologie
  • Des bases documentaires
  • Des publications
  • De la publicitĂ©
  • Des appels d'offres

6
  • Contexte

Secteurs dactivité publics ou privés
7
II. MĂ©thodologies Identification du besoin
8
III. Les traitements Le réseau de compétences
9
III. Les traitements Le processus de découverte
10
II. Les outils de la découverte
11
Historique du développement
  • 1983 Visualisation 3D dune ACP (DEA)
  • 1985-87 Espace paramĂ©trique en 3D T. BenjamaĂ 
    (Thèse)
  • 1987 Trilogie 3D (ACP, AFC, CAH, CPP)
  • 1989-93 Analyse textuelle, Ă©volution T. Dkaki
    (Thèse)
  • 1993 TĂ©tralogie 4D
  • 1998 Visualisation interactive de CAH (DEA),
  • RĂ©duction de la terminologie (DEA),
    signaux faibles (Stage)
  • 1999 Conception de système dIE M. Salle
    (Thèse et Medesiie)
  • Visualisation de liens en 4D (DEA)
  • 2002 IngĂ©nierie du besoin en IE T. Zid (Thèse
    et Medesiie)
  • 2003 Grands graphes, gĂ©ostratĂ©gie S. Karouach
    (Thèse)

12
GĂ©rer les corpus d'informations
  • Gestion arborescente des applications
  • HĂ©ritage des connaissances sur les bases
  • Description des structures par des MĂ©ta donnĂ©es
  • Gestion des descripteurs et des outils
  • Correction des donnĂ©es sources
  • Recherche et harmonisation du vocabulaire
  • GĂ©nĂ©ration de filtres, de dictionnaires
  • GĂ©nĂ©ration automatique des matrices
    présences/absences, contingences, cooccurrences

13
GĂ©rer les matrices (Tableur 3D)
  • Epuration matrice
  • DĂ©doublonage
  • Extractions
  • RelinĂ©arisation
  • Normalisation
  • Comparaisons
  • Carte de matrices
  • Zoom Panoramique
  • Zoom 3D
  • Tris
  • AlphabĂ©tique
  • De consistance
  • De connexitĂ©
  • Absolu par blocs
  • Relatif par blocs
  • Histogrammes
  • PrĂ© classifications
  • Import/Export

14
Les méthodes danalyse
  • Analyse en Composantes Principales (ACP)
  • Analyse Factorielle des Correspondances (AFC)
  • Visualisations des cartes factorielles (2D, 3D,
    4D)
  • MĂ©thodes de classifications (CAH, CPP)
  • Etude de lĂ©volution
  • absolue (trajectoires par AFM)
  • diffĂ©rentielle (vitesse et accĂ©lĂ©ration)
  • relative (rotations procustĂ©ennes)
  • Dessins de graphes relationnels
  • Cartes gĂ©ostratĂ©giques

15
II. Méthodologies La synthèse de linformation
16
II. MĂ©thodologies Les niveaux de linformation
  • linformation explicite (exogène)
  • linformation implicite (endogène)
  • MaturitĂ© de l information
  • Linformation consciente collective (CC)
  • Linformation consciente individuelle (CI)
  • Linformation inconsciente collective (IC)
  • Linformation inconsciente individuelle (I I)
  • La terminologie Ă©mergente
  • Les concepts Ă©mergents
  • cohĂ©rence, simultanĂ©itĂ©, consensus

17
III. La préparation des données
18
Décrire le format des données
19
Procéder aux dénombrements
  • Choix des champs
  • Coupure
  • sur frĂ©quence
  • sur
  • Filtres
  • positifs
  • nĂ©gatifs
  • Synonymes
  • Fichiers produits
  • .ind, .indA, .indF

20
Nécessité dhomogénéiser
  • Exemple des adresses extrait de 146 adresses du
    mĂŞme organisme
  • ECOLE-NATL-VET-TOULOUSE, 23 CH CAPELLES, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, 23 CHEMIN CAPELLES,
    F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
    TOULOUSE 03, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
    TOULOUSE 3, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ANAT PATHOL LAB, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, ASSOCIE INRA
    PHYSIOPATHOL TOXICOL EXPTL LAB, 23 CHEMIN
    CAPELLES, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, BIOCHIM LAB, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, CTR NATL INFORMAT
    TOXICOL VET, 23 CHEMIN CAPELLES, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, 23 CHEM
    CAPELLES, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, 23
    CHEMIN DES CAPELLES, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, ENV
    MICROBIOL MOLEC, INRA LAB, 23 CHEMIN CAPELLES,
    F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, INRA,
    UNITE MICROBIOL MOLEC, 23 CHEMIN CAPELLES,
    F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT BIOL MOLEC, INRA,
    UNITE MICROBIOL MOLEC, F-31076 TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT ELEVAGE PROD, 23
    CHEMIN CAPELLES, F-31076 TOULOUSE 3, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT ELEVAGE PROD, 23
    CHEMIN CAPELLES, F-31076 TOULOUSE 3, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT PARASITOL, F-31076
    TOULOUSE, FRANCE
  • ECOLE-NATL-VET-TOULOUSE, DEPT PARASITOL,
    TOULOUSE, FRANCE

21
Proposer des synonymies
  • DiffĂ©rentes stratĂ©gies
  • Fichier .Syn
  • Propositions
  • Validation
  • Fusion
  • Recomptage
  • Restitution
  • listes doublons
  • classes
  • documents

22
  • Croisements 2D

Exemple Auteurs Journaux (AU JN)
23
  • Croisements 3D

Exemple Auteurs Auteurs Dates (AU AU DP)
24
IV. La découverte par les méthodes de tris
25
Le Tri de Consistance
  • Tri des lignes et colonnes
  • Tri dune seule ligne
  • Tri dune seule colonne
  • Recherche
  • dEquipe
  • de Leader
  • de typologie
  • Emergence
  • de Terme
  • de Concept
  • de Revue
  • dAuteur
  • de Lien

26
Les réseaux de liens
  • avec une ligne
  • avec une colonne
  • coloration
  • fonction du lien
  • linĂ©aire
  • non linĂ©aire
  • noms
  • longs
  • courts
  • niveau de coupure
  • en du max

27
Zooms de matrices en 2D
28
Visualisation des matrices en 3D
  • Vue simultanĂ©e
  • de l'amplitude
  • de la rĂ©partition
  • des liens
  • Zoom
  • Rotations en 3D
  • Visualisation des classes
  • SĂ©lection de sous matrices
  • Importation de rotations
  • Exportation de rotations

29
Le Tri de Connexité
  • Matrice non connexe
  • Classes connexes

30
La Suppression de Liens Faibles
  • DĂ©connexion partielle
  • Tri de connexitĂ©
  • DĂ©tection
  • des sous groupes
  • du nombre de classes
  • des liens faibles
  • Confrontation avec
  • Valeurs propres
  • AFC vue en 4D
  • Classifications

31
Le Tri par Blocs Diagonaux
  • UtilisĂ© lorsque la matrice est carrĂ©e et connexe
  • DĂ©tecte les clusters (groupes homogènes)
  • Les place le long de la diagonale
  • Le zoom du tableur permet
  • Leur mise en Ă©vidence
  • La navigation le long de la diagonale
  • Extraction possible des clusters
  • Analyse descendante par AFC
  • Confrontation avec les classifications
  • DĂ©tail du contenu des lignes et des colonnes

32
  • Utilisation des tris diagonaux

Tri par classes de connexité
33
Exemple Co-citations de Brevets
Brevets qui citent les mêmes références
34
  • DĂ©tection des multi-termes

35
Révéler les Concepts émergents
36
V. La découverte par la théorie des graphes
37
  • Dessins de graphes

Placement initial aléatoire
Placement circulaire en fonction dun tri
Convergence rapide du placement des sommets
.

?Algorithme de Fruchterman91 Attraction
RĂ©pulsion





38
  • Choix ergonomiques

Icônes colorés en fonction des classes
Icônes en bâtons
IcĂ´nes proportionnels
39
  • SĂ©lection dun sommet

Graphe local
40
  • Navigation dans les grands graphes

Graphe des plus proches voisins
Graphe initial
Elimination progressive des liens faibles
Masquage des sommets au dessous du seuil
Affichage de la valeur de chaque arĂŞte du graphe
41
Partitionnement par Markov Clustering
42
Convergence vers les classes MCL
43
  • Extraction des classes MCL

Graphe des classes
Extraction des classes
44
Réseaux sémantiques
  • DĂ©marche
  • Recherche des clusters sĂ©mantiques
  • Utilisation de plusieurs mesures
  • liens absolus
  • liens relatifs
  • Ă©quivalences
  • seuillages

45
Visualisation du graphe de clusters
46
Visualisation du graphe partitionné
47
Liens extérieurs à la classe
  • Coloration
  • Nuds internes en bleu
  • Nuds externes colorĂ©s

48
Exploration par transitivité
49
Exploration par transitivité
50
Structure des Ă©quipes
Equipe Degen co
Equipe Etienne
51
RĂ©seau auteurs-pays
52
RĂ©seau auteurs-villes
Liens caraĂŻbes
53
VI. La découverte par l'analyse
multidimensionnelle
54
LAnalyse en Composantes Principales
  • Sapplique aux donnĂ©es quantitatives
  • Nuage des lignes dans lespace des colonnes
  • Recherche des axes principaux de ce nuage
  • Meilleure Visualisation de ce nuage en 2D, 3D, 4D
  • ReprĂ©sentation du cercle de corrĂ©lation des
    colonnes
  • Confrontation des 2 vues pour trouver des
    relations
  • Mise en Ă©vidence par SĂ©lections et Liens
  • Analyse descendante des autres axes factoriels

55
Observatoire de la qualité des lanalyses
56
Visualisations en 2D et en 3D
  • 2D Visualisation
  • 3D Visualisation

57
Nuage des individus en 4D
58
Cercle de corrélation des variables
59
Synchronisation des deux cartes
60
LAnalyse Factorielle des Correspondances
  • QualitĂ© de lAnalyse
  • Paramètres associĂ©s
  • Valeurs Propres
  • Vecteurs Propres
  • Inerties
  • Valeurs CumulĂ©es
  • CorrĂ©lations
  • DensitĂ©s
  • Contributions
  • relatives et absolues
  • ACP sur les profils
  • DonnĂ©es qualitatives
  • DonnĂ©es binaires
  • Tableaux de contingence
  • Une seule carte
  • Lignes (individus)
  • Colonnes (variables)
  • Analyse de la typologie
  • La proximitĂ© a un sens

61
Choix dun azimut par rotation
62
Exportation de rotations choix dazimut
  • Variables (colonnes)
  • Individus et Variables

63
Carte factorielle 4D Thèmes - Auteurs
64
SĂ©lection Multiple Classe dIcĂ´nes
  • Garder
  • la SĂ©lection
  • le Reste
  • Extraire
  • les Noms
  • les Notices
  • Classer
  • La SĂ©lection

65
Analyse des sources dinformation
Pascal SCI
Pascal
50 Sources
138 Sources
Web of Science
Pascal CC
SCI CC
Current-Contents
59 Sources
66
VII. La découverte par les méthodes de
classification
67
La Classification Ascendante Hiérarchique
  • DĂ©composition en Classes ImbriquĂ©es
  • Plusieurs Types de Critères
  • Distance Euclidienne
  • Distance Maximum
  • Distance Minimum
  • Distance Moyenne
  • ReprĂ©sentation sous forme dArbre Planaire
  • Exportation des Classes vers Vues 4D

68
Navigation dans une Classification
LAAS (Toulouse) Classes thématiques
Equipe
Ligne de coupure
69
Exportation dune Classification
Classes superposées
Ligne de coupure
Le plan principal nest pas la bon choix
70
La Classification Par Partitions
  • MĂ©thode non hiĂ©rarchique
  • SĂ©lection prĂ©alable du nombre de classes
  • Distance Inter Classe Maximum
  • Distance Intra Classe Minimum
  • Processus ItĂ©ratif
  • Deux MĂ©thodes
  • Les Centres Mobiles
  • Les NuĂ©es Dynamiques

71
Principe de la méthode
  • MĂ©thode des centres mobiles
  • supervisĂ©e
  • k classes
  • 1 reprĂ©sentant
  • choix en 3D
  • coloration
  • icĂ´nes

72
VIII. La découverte par analyse chronologique et
spatiale
73
La Matrice des Cooccurrences Multiples (2 Ă  4
plans)
74
Analyse factorielle des correspondances multiples
(AFCM)
75
La Notion de Trajectoire
76
  • Analyse procustĂ©enne (de Procuste ou Procrustes)
  • Celui qui allonge en tirant, devenu le symbole de
    luniformité
  • "Dans la lĂ©gende grecque ,
  • Procruste est un bandit qui hante la route près
    d'Eleusis.
  • Il invite des voyageurs, quil Ă©tend sur un des
    deux lits qui meublent son logis,
  • l'un très long, l'autre très court.
  • Si l'hĂ´te est trop grand pour le petit lit,
    Procuste lui ampute les jambes,
  • s'il occupe l'autre, Procuste l'Ă©tire jusqu'Ă  ce
    quil cadre avec le lit."

77
Principe de lanalyse
  • Evolution dun nuage de points
  • Enlever
  • la translation moyenne
  • la rotation moyenne
  • lhomothĂ©tie moyenne

78
Cartes géostratégiques
SOUTH-KOREA SPAIN SRI-LANKA SUDAN SURINAME
SWAZILAND SWEDEN SWITZERLAND SYRIA TAIWAN
TAJIKSTAN TANZANIA THAILAND TOGO
TRINIDAD-TOBAGO TUNISIA TURKEY UK UAE
UGANDA UKRAINE URUGUAY USA UZBEKISTAN VENEZUELA
VIETNAM YEMEN YUGOSLAVIA ZAMBIA ZIMBABWE
BULGARIA BURKINA-FASO BURUNDI CAMBODGE CAMEROON
CANADA CTRL-AFRICAN-REP CHAD CHILE CHINA
COLOMBIA CONGO CONGO-PEOPL-REP
COOK-ISLAND COSTA-RICA COTE-IVOIRE CROATIA
CUBA CYPRUS CZECHOSLOVAKIA CZECH-REPUBLIC
DENMARK DJIBOUTI DOMINIQUE ECUADOR EGYPT
ERITREA ESTONIA ETHIOPIA FIJI FINLAND
FR-POLYNESIA FRANCE FR-GUIANA GABON
GAMBIA GEORGIA GERMANY GHANA GREECE GROENLAND
GUADELOUPE GUATEMALA GUINEA GUINE-B GUINE-E GUY
ANA HAITI HONG-KONG HUNGARY ICELAND INDIA
INDONESIA IRAN IRAQ IRELAND ISRAEL ITALY
JAMAICA JAPAN JORDAN KAZAKHSTAN
KENYA KIRIBATI-ISLANDS KUWAIT KYRGYZSTAN LAOS LAT
VIA LEBANON LESOTHO LIBERIA LIBYA LITHUANIA
LUXEMBOURG MADAGASCAR MAKEDONIA
MALAWI MALAYSIA MALDIVE-ISLANDS MALI
MARTINIQUE MAURITANIA MAURITIUS MEXICO
MOLDOVA MONGOLIA MOROCCO MOZAMBIQUE MYANMAR NAM
IBIA NEPAL NETHERLANDS NEW-CALEDONIA
NEW-ZEALAND NIGER NIGERIA NIUE NORTH-KOREA NORW
AY OMAN UZBEKISTAN PAKISTAN PANAMA
PAPUA-NEW-GUINEA PARAGUAY PERU PHILIPPINES
POLAND PORTUGAL PUERTO-RICO QATAR REUNION
ROMANIA RUSSIA RWANDA SALVADOR SAUDI-ARABIA
SENEGAL SERBIA SIERRA LEONE SINGAPORE
SLOVAKIA SLOVENIA SOMALIA SOUTH-AFRICA
Dictionnaire des noms standards des
pays AFGHANISTAN ALBANIA ALGERIA
ANGOLA ANTIGUA-BARBUDA ARGENTINA
ARMENIA AUSTRALIA AUSTRIA AZERBAIJAN BAHRAIN BA
NGLADESH BARBADOS BELARUS BELGIUM BELIZE BENIN
BHOUTAN BOLIVIA BOSNIA BOTSWANA BRAZIL BRUNEI
79
Echelle de coloration



80
Application de pondérations

Carte en valeurs absolues

81
Zones géographiques


82
Segmentation automtique
Segmentation
83
Importation de classifications
Importation dune classification

Niveau de coupure
Effectifs des classes

84
Etude de lévolution par animation
  • CaractĂ©ristiques de lanimation
  • en fonction du temps matrice PA-DP
  • par dĂ©filement de chaque variable
  • par sĂ©lection de groupes de variables
  • en mode absolu ou relatif
  • en fonction du codage
  • en fonction du niveau de coupure (CAH)


85
Evolution relative entre deux périodes
Pays non présents dans la dernière période
.




Pays en récession
Pays en forte croissance
Carte en mode relatif Ă©tude de tendances
86
IX. Possibilités Actuelles et Perspectives
87
RĂ©alisations dEtudes Ponctuelles
  • Etat de l'art dans un domaine de recherche
  • Suivi de l'Ă©volution d'un domaine
  • technique,
  • Ă©conomique,
  • juridique, ...
  • Etude du positionnement
  • d'un organisme,
  • d'une sociĂ©tĂ©, ...
  • Evaluation de composantes stratĂ©giques
  • Veille automatique

88
Collaboration avec les Experts
  • Mise au point de scĂ©narios d'analyse pour chaque
    type de base
  • Elaboration doutils spĂ©cifiques
  • filtres,
  • dictionnaires de synonymes, ...
  • Interrogations multibases
  • Veille en continu (sentinelles)
  • Qualification d'experts TĂ©tralogie,
  • Accords de prestations de service en VT

89
Collaboration avec les Utilisateurs
  • Mise en place de serveurs plus puissants
  • Ă  l' IRIT (dĂ©veloppement)
  • Ă  la BU (exploitation CD et bases en ligne)
  • chez des utilisateurs ayant suivi la formation
  • Mise Ă  jour automatique du Logiciel
  • Mise en commun des outils sur les serveurs
  • Descripteurs de bases
  • Reformatage, filtrage, dictionnaires
  • Club des utilisateurs de TĂ©tralogie

90
Perspectives
  • Extension de la norme "ATLAS" avec nos
    partenaires
  • AmĂ©lioration des mĂ©thodes existantes
  • Ajout de nouvelles mĂ©thodes danalyse
  • Recherche et filtrage de l'information
  • Extension vers le traitement du langage naturel
    (Texte intégral, Multilinguisme)
  • Extension vers des systèmes "sentinelles" de
    veille automatique

91
Secteurs potentiels
  • L'optimisation de la dĂ©finition des filières
    d'emplois
  • L'aide Ă  la dĂ©cision dans les choix
  • technologiques
  • mercantiques
  • gestionnaires des entreprises
  • Un meilleur positionnement en matière de
    propriété industrielle
  • La rĂ©sistance Ă  la concurrence
  • Les Ă©tudes de marchĂ©s, ...

92
X. Diffusion
93
Le Serveur TĂ©traWeb
  • Lexique de la veille
  • Documentation en ligne
  • Dates, lieux et contenu des cours de formation
  • Liste des utilisateurs
  • Mode d'accès aux serveurs
  • CoordonnĂ©es des experts pour chaque domaine
  • Liste des manifestations sur la veille
  • Nouveaux outils et leur mode d'utilisation
  • Conseils pour les analyses

94
http//atlas.irit.fr
95
Présentation dune macro analyse
96
Accès aux fichiers et aux graphiques
97
Portail pour les micro analyses
98
Visualisations Interactives
99
Cartographie Interactive
Write a Comment
User Comments (0)
About PowerShow.com