Title: Analyse statistique et modlisation des grands rseaux dinteractions
1Analyse statistique et modélisation des grands
réseaux dinteractions
Paris 20 décembre 2004
2Contexte
- Grands graphes apparaissant en pratique
- Expliquer le comportement d'individus qui
interagissent par des lois gouvernant le système
- On cherche à comprendre
- la structure de ces graphes,
- leur évolution,
- les phénomènes agissant sur ces réseaux.
3Quelques exemples
- Réseaux sociaux
- Qui ... à/avec qui téléphone, est ami, envoie
un courrier électronique, écrit un article,
tourne un film, dirige une entreprise, mange... - Réseaux technologiques
- graphe du Web,
- graphe d'Internet,
- graphes de réseaux électriques,
- Réseaux biologiques
- graphes d'interactions métaboliques,
- graphes d'interconnexions de cellules nerveuses,
- Et bien dautres (linguistique, etc.)
4Méthodologie
- Utilisation doutils formels
- théorie des graphes,
- analyse statistique,
- modélisation probabiliste.
- Études expérimentales
- Étudier des applications
- Comprendre en profondeur certains réseaux
- Extraction de concepts généraux
5Contenu de la thèse
- Analyse statistique
- Grands réseaux dinteractions étudiés
- Paramètres étudiés
- Modélisation
- État de l'art
- Le modèle biparti
- Vers un modèle multiparti
- Quelques applications
- Graphe des échanges dun réseau P2P
- Résistance aux pannes et aux attaques
- Exploration du graphe de lInternet
6Plan de lexposé
- Analyse statistique
- Grands réseaux dinteractions étudiés
- Paramètres étudiés
- Modélisation
- État de l'art (approches et limitations)
- Le modèle biparti
- Vers un modèle multiparti
- Quelques applications
- Graphe des échanges dun réseau P2P
- Résistance aux pannes et aux attaques
- Exploration du graphe de lInternet
7Analyse statistique
- Objectifs de lanalyse statistique
- Description statistique
- Obtenir de linformation pertinente pour
modéliser - Interprétation des résultats obtenus
- Comment ?
- Définition de propriétés (statistiques)
pertinentes - Corrélations entre ces propriétés
- Comparaison avec des graphes aléatoires
- Observation de la croissance des graphes
- Etc.
8Propriétés étudiées
- Clustering (densité locale)
- Autres propriétés
- Centralité
- Corrélations entre propriétés
9Propriétés communes
- Faible densité
- Fort clustering (forte densité locale)
- Faible distance moyenne
- Distribution des degrés très hétérogène
Tous les graphes ne partagent pas ces propriétés.
10Plan de lexposé
- Analyse statistique
- Grands réseaux dinteractions étudiés
- Paramètres étudiés
- Modélisation
- État de l'art (approches et limitations)
- Le modèle biparti
- Vers un modèle multiparti
- Quelques applications
- Graphe des échanges dun réseau P2P
- Résistance aux pannes et aux attaques
- Exploration du graphe de lInternet
11Deux approches
- Modèles par tirage uniforme
- Plus rigoureux (preuves formelles)
- Pas de propriétés cachées
- Modèles incrémentaux
- Itération dun processus de construction
- Propriétés non souhaitées (graphes planaires)
- Modèles réalistes
- Autres approches
- Modèles déterministes, etc.
12Limitations des modèles actuels
- État courant de la génération
- Problèmes résolus
- Graphes de taille fixée (sommets, liens, densité)
- Graphes ayant une distribution des degrés fixée
- Problèmes ouverts
- Tirage uniforme de graphes à clustering donné
- Propriétés plus complexes (corrélations, etc.)
Pas de modèle capturant degrés et clustering
13Modèle biparti - plan
Guillaume, Latapy IPL 2004 Guillaume, Latapy
CAAN 2004
Analyse de la croissance de certains graphes
Propriétés spécifiques à ces graphes
Modèle pour générer de tels graphes
14Structure bipartie naturelle
- Structure bipartie entre nuds et événements
- G(événement,nuds, événement x noeuds)
- Projection dun graphe biparti
15Distributions des degrés
- Distribution des individus
- décroissance polynomiale
- Distribution des événements
- décroissance exponentielle
16Modèle à distributions fixées
- Distribution fixée pour le haut et le bas.
- Assigner un degré à chaque sommet,
- Créer pour chaque nud des demi-liens (autant que
son degré), - Relier les demi-liens de manière aléatoire.
17Résultats expérimentaux
18Résultats formels
- Théorème Le diamètre de la projection est
logarithmique. - Théorème Le clustering est borné inférieurement
par une constante qui dépend des distributions. - Théorème La distribution des degrés de la
projection est similaire à celle de bottom.
19Décomposition
- Approche inverse
- donner une vision bipartie de tout graphe.
- Problème clique covering
- En général
- Pas de solution unique
- Solution optimale dure à calculer (NP-complète)
- Nombre minimal de cliques
- Cliques de taille maximale (degrés haut élevés)
- Pas de bonne approximation
20Solution approchée
- On cherche une décomposition telle que
- on capture la structure des graphes bipartis,
- on trouve de grandes cliques,
- un petit nombre de cliques suffit.
21Résultats obtenus
- Distribution en bas
- loi puissance
- Distribution en haut
- décroissance exponentielle
22Application aux GRI
23Conclusions
- Modèle biparti aléatoire
- Basé sur un processus de construction naturel,
- Suffisamment simple pour comprendre son
fonctionnement et prouver ses propriétés, - Génère des graphes réalistes,
- Peut être appliqué à des graphes non bipartis.
- Possibilité de définir un modèle dynamique
- Ajout de cliques se recouvrant partiellement.
24Défauts du modèle
- En pratique recouvrements entre cliques
- Nombreuses cliques biparties
- Similaire au clustering
25Extension du modèle
- Ajout d'un niveau pour capturer les bi-cliques
- Génération de triparti aléatoire
- Décomposition en clique puis en bi-cliques
- Génération avec les distributions de degrés
- Ajout de niveaux supplémentaires
26Plan de lexposé
- Analyse statistique
- Grands réseaux dinteractions étudiés
- Paramètres étudiés
- Modélisation
- État de l'art (approches et limitations)
- Le modèle biparti
- Vers un modèle multiparti
- Quelques applications
- Graphe des échanges dun réseau P2P
- Résistance aux pannes et aux attaques
- Exploration du graphe de lInternet
27Graphe déchanges pair-à-pair
Guillaume, Le-Blond PDPTA 2004 Guillaume,
Latapy, Le-Blond IWDC 2004
- Contexte
- Le protocole eDonkey
- Collecte des données
- Analyse de la trace
- Échanges entre pairs
- Le graphe des requêtes
- Comportement des pairs
- Données échangées
- Conclusions et perspectives
28Données collectées
- On se place sur un serveur pour enregistrer
toutes les communications avec les clients. - Requêtes de connexion et déconnexion
- T P
- T instant, P Id du pair
- Recherches de sources
- T P H P1 P2 Pn
- H fichier demandé
- Pi liste de pairs fournissant H
29Graphe des requêtes
- Q (P, D, E, ?)
- Q est un graphe biparti orienté pondéré
- P ensemble des pairs
- D ensemble des données
- E ensemble des arcs pondérés
- p ? d si p a demandé d
- d ? p si p est cité comme fournissant d
- ? fonction de poids sur les arcs
- p ? d nombre de fois que p a demandé d
- d ? p nombre de fois que p est cité pour d
- (informations temporelles)
30Construction du graphe
- Chaque requête de recherche de sources
- T S C H P1 P2 Pn
- Engendre les liens
31Étude centrée sur les degrés
- Pour un pair
- dout,? nombre de requêtes.
- din,? nombre de citations.
- dout nombre de d distinctes recherchées.
- din nombre de d pour lesquelles le pair est
cité.
- Fort din,? client très cité partage de
fichiers populaires, ou nombreux fichiers. - Fort din partage de nombreux fichiers.
- dout,? et dout sont relativement liés
32Degré non pondéré des pairs
- Degrés entrants et sortants très variables
- Majorité de pairs très peu actifs
- Pairs partageant ou recherchant de nombreux
fichiers
33Corrélations entre degrés
jl virer les remarques sur la présence des
sommets extrêmes, ou voir avec JY si les
résultats P2P sont prêts.
34Poids sur les liens
- d ? p grande hétérogénéité
- ? Présence de pairs surchargés.
- p ? d seuil pour les données demandées.
- ? Mise en évidence de pairs déloyaux.
35Évolution des degrés
- Distribution des degrés très stable.
- Croissance lente du degré moyen.
- Degré entrant 2degré sortant.
36Degrés maximaux
- Fort degré entrant ? fort degré sortant.
- Comportements typiques
- fort degré entrant cités pour de nouveaux
fichiers. - fort degré sortant nouvelles requêtes.
37Degrés entrant pondérés
- Croissance linéaire du degré pondéré.
- Degré vite stabilisé gt quelques fichiers
populaires.
38Degrés sortant pondérés
- Degré constant gt fichiers identiques redemandés.
39Robustesse des réseaux
Guillaume, Latapy, Magnien OPODIS 2004
- Capacité à communiquer dans un réseau endommagé
- Comprendre les causes de la tolérance plus ou
moins grande des réseaux - Outils utilisés
- Modélisation des pannes et des attaques
- Preuves formelles sur plusieurs modèles de graphes
40Métrologie de lInternet
Guillaume, Latapy INFOCOM 2005
- Évaluer la représentativité des cartes de
lInternet. - Modélisation de lInternet approche
expérimentale.
41Conclusions
- Les GRI font partie dune classe de graphe
particulière (cf analyse) - Étude de cas particuliers
- Outils puissants pour étudier des données (P2P)
- Extraction de concepts plus généraux (dynamique)
- Utilisation de la modélisation pour faire des
preuves formelles ou dans un contexte de
simulation.
42Perspectives
- Analyser
- la dynamique, les valuations, pondérations, les
graphes hybrides, hétérogènes, etc. - Modéliser
- La métrologie, une problématique générale.
- Algorithmique dédiée
- Graphes de grande taille (algorithmes linéaires).
- Calculs approchés souvent suffisants.