Analyse statistique et modlisation des grands rseaux dinteractions - PowerPoint PPT Presentation

1 / 42
About This Presentation
Title:

Analyse statistique et modlisation des grands rseaux dinteractions

Description:

Analyse statistique et mod lisation des grands r seaux d'interactions ... la dynamique, les valuations, pond rations, les graphes hybrides, h t rog nes, etc. ... – PowerPoint PPT presentation

Number of Views:89
Avg rating:3.0/5.0
Slides: 43
Provided by: jeanl50
Category:

less

Transcript and Presenter's Notes

Title: Analyse statistique et modlisation des grands rseaux dinteractions


1
Analyse statistique et modélisation des grands
réseaux dinteractions
  • Jean-Loup Guillaume

Paris 20 décembre 2004
2
Contexte
  • Grands graphes apparaissant en pratique
  • Expliquer le comportement d'individus qui
    interagissent par des lois gouvernant le système
  • On cherche à comprendre
  • la structure de ces graphes,
  • leur évolution,
  • les phénomènes agissant sur ces réseaux.

3
Quelques exemples
  • Réseaux sociaux
  • Qui ... à/avec qui téléphone, est ami, envoie
    un courrier électronique, écrit un article,
    tourne un film, dirige une entreprise, mange...
  • Réseaux technologiques
  • graphe du Web,
  • graphe d'Internet,
  • graphes de réseaux électriques,
  • Réseaux biologiques
  • graphes d'interactions métaboliques,
  • graphes d'interconnexions de cellules nerveuses,
  • Et bien dautres (linguistique, etc.)

4
Méthodologie
  • Utilisation doutils formels
  • théorie des graphes,
  • analyse statistique,
  • modélisation probabiliste.
  • Études expérimentales
  • Étudier des applications
  • Comprendre en profondeur certains réseaux
  • Extraction de concepts généraux

5
Contenu de la thèse
  • Analyse statistique
  • Grands réseaux dinteractions étudiés
  • Paramètres étudiés
  • Modélisation
  • État de l'art
  • Le modèle biparti
  • Vers un modèle multiparti
  • Quelques applications
  • Graphe des échanges dun réseau P2P
  • Résistance aux pannes et aux attaques
  • Exploration du graphe de lInternet

6
Plan de lexposé
  • Analyse statistique
  • Grands réseaux dinteractions étudiés
  • Paramètres étudiés
  • Modélisation
  • État de l'art (approches et limitations)
  • Le modèle biparti
  • Vers un modèle multiparti
  • Quelques applications
  • Graphe des échanges dun réseau P2P
  • Résistance aux pannes et aux attaques
  • Exploration du graphe de lInternet

7
Analyse statistique
  • Objectifs de lanalyse statistique
  • Description statistique
  • Obtenir de linformation pertinente pour
    modéliser
  • Interprétation des résultats obtenus
  • Comment ?
  • Définition de propriétés (statistiques)
    pertinentes
  • Corrélations entre ces propriétés
  • Comparaison avec des graphes aléatoires
  • Observation de la croissance des graphes
  • Etc.

8
Propriétés étudiées
  • Distance moyenne
  • Clustering (densité locale)
  • Distribution des degrés
  • Autres propriétés
  • Centralité
  • Corrélations entre propriétés

9
Propriétés communes
  • Faible densité
  • Fort clustering (forte densité locale)
  • Faible distance moyenne
  • Distribution des degrés très hétérogène

Tous les graphes ne partagent pas ces propriétés.
10
Plan de lexposé
  • Analyse statistique
  • Grands réseaux dinteractions étudiés
  • Paramètres étudiés
  • Modélisation
  • État de l'art (approches et limitations)
  • Le modèle biparti
  • Vers un modèle multiparti
  • Quelques applications
  • Graphe des échanges dun réseau P2P
  • Résistance aux pannes et aux attaques
  • Exploration du graphe de lInternet

11
Deux approches
  • Modèles par tirage uniforme
  • Plus rigoureux (preuves formelles)
  • Pas de propriétés cachées
  • Modèles incrémentaux
  • Itération dun processus de construction
  • Propriétés non souhaitées (graphes planaires)
  • Modèles réalistes
  • Autres approches
  • Modèles déterministes, etc.

12
Limitations des modèles actuels
  • État courant de la génération
  • Problèmes résolus
  • Graphes de taille fixée (sommets, liens, densité)
  • Graphes ayant une distribution des degrés fixée
  • Problèmes ouverts
  • Tirage uniforme de graphes à clustering donné
  • Propriétés plus complexes (corrélations, etc.)

Pas de modèle capturant degrés et clustering
13
Modèle biparti - plan
Guillaume, Latapy IPL 2004 Guillaume, Latapy
CAAN 2004
Analyse de la croissance de certains graphes
Propriétés spécifiques à ces graphes
Modèle pour générer de tels graphes
14
Structure bipartie naturelle
  • Structure bipartie entre nuds et événements
  • G(événement,nuds, événement x noeuds)
  • Projection dun graphe biparti

15
Distributions des degrés
  • Distribution des individus
  • décroissance polynomiale
  • Distribution des événements
  • décroissance exponentielle

16
Modèle à distributions fixées
  • Distribution fixée pour le haut et le bas.
  • Assigner un degré à chaque sommet,
  • Créer pour chaque nud des demi-liens (autant que
    son degré),
  • Relier les demi-liens de manière aléatoire.

17
Résultats expérimentaux
18
Résultats formels
  • Théorème Le diamètre de la projection est
    logarithmique.
  • Théorème Le clustering est borné inférieurement
    par une constante qui dépend des distributions.
  • Théorème La distribution des degrés de la
    projection est similaire à celle de bottom.

19
Décomposition
  • Approche inverse
  • donner une vision bipartie de tout graphe.
  • Problème  clique covering 
  • En général
  • Pas de solution unique
  • Solution optimale dure à calculer (NP-complète)
  • Nombre minimal de cliques
  • Cliques de taille maximale (degrés haut élevés)
  • Pas de bonne approximation

20
Solution approchée
  • On cherche une décomposition telle que
  • on capture la structure des graphes bipartis,
  • on trouve de grandes cliques,
  • un petit nombre de cliques suffit.

21
Résultats obtenus
  • Distribution en bas
  • loi puissance
  • Distribution en haut
  • décroissance exponentielle

22
Application aux GRI
23
Conclusions
  • Modèle biparti aléatoire
  • Basé sur un processus de construction naturel,
  • Suffisamment simple pour comprendre son
    fonctionnement et prouver ses propriétés,
  • Génère des graphes réalistes,
  • Peut être appliqué à des graphes non bipartis.
  • Possibilité de définir un modèle dynamique
  • Ajout de cliques se recouvrant partiellement.

24
Défauts du modèle
  • En pratique recouvrements entre cliques
  • Nombreuses cliques biparties
  • Similaire au clustering

25
Extension du modèle
  • Ajout d'un niveau pour capturer les bi-cliques
  • Génération de triparti aléatoire
  • Décomposition en clique puis en bi-cliques
  • Génération avec les distributions de degrés
  • Ajout de niveaux supplémentaires

26
Plan de lexposé
  • Analyse statistique
  • Grands réseaux dinteractions étudiés
  • Paramètres étudiés
  • Modélisation
  • État de l'art (approches et limitations)
  • Le modèle biparti
  • Vers un modèle multiparti
  • Quelques applications
  • Graphe des échanges dun réseau P2P
  • Résistance aux pannes et aux attaques
  • Exploration du graphe de lInternet

27
Graphe déchanges pair-à-pair
Guillaume, Le-Blond PDPTA 2004 Guillaume,
Latapy, Le-Blond IWDC 2004
  • Contexte
  • Le protocole eDonkey
  • Collecte des données
  • Analyse de la trace
  • Échanges entre pairs
  • Le graphe des requêtes
  • Comportement des pairs
  • Données échangées
  • Conclusions et perspectives

28
Données collectées
  • On se place sur un serveur pour enregistrer
    toutes les communications avec les clients.
  • Requêtes de connexion et déconnexion
  • T P
  • T instant, P Id du pair
  • Recherches de sources
  • T P H P1 P2 Pn
  • H fichier demandé
  • Pi liste de pairs fournissant H

29
Graphe des requêtes
  • Q (P, D, E, ?)
  • Q est un graphe biparti orienté pondéré
  • P ensemble des pairs
  • D ensemble des données
  • E ensemble des arcs pondérés
  • p ? d si p a demandé d
  • d ? p si p est cité comme fournissant d
  • ? fonction de poids sur les arcs
  • p ? d nombre de fois que p a demandé d
  • d ? p nombre de fois que p est cité pour d
  • (informations temporelles)

30
Construction du graphe
  • Chaque requête de recherche de sources
  • T S C H P1 P2 Pn
  • Engendre les liens

31
Étude centrée sur les degrés
  • Pour un pair
  • dout,? nombre de requêtes.
  • din,? nombre de citations.
  • dout nombre de d distinctes recherchées.
  • din nombre de d pour lesquelles le pair est
    cité.
  • Fort din,? client très cité partage de
    fichiers populaires, ou nombreux fichiers.
  • Fort din partage de nombreux fichiers.
  • dout,? et dout sont relativement liés

32
Degré non pondéré des pairs
  • Degrés entrants et sortants très variables
  • Majorité de pairs très peu actifs
  • Pairs partageant ou recherchant de nombreux
    fichiers

33
Corrélations entre degrés
jl virer les remarques sur la présence des
sommets extrêmes, ou voir avec JY si les
résultats P2P sont prêts.
34
Poids sur les liens
  • d ? p grande hétérogénéité
  • ? Présence de pairs surchargés.
  • p ? d seuil pour les données demandées.
  • ? Mise en évidence de pairs déloyaux.

35
Évolution des degrés
  • Distribution des degrés très stable.
  • Croissance lente du degré moyen.
  • Degré entrant 2degré sortant.

36
Degrés maximaux
  • Fort degré entrant ? fort degré sortant.
  • Comportements typiques
  • fort degré entrant cités pour de nouveaux
    fichiers.
  • fort degré sortant nouvelles requêtes.

37
Degrés entrant pondérés
  • Croissance linéaire du degré pondéré.
  • Degré vite stabilisé gt quelques fichiers
    populaires.

38
Degrés sortant pondérés
  • Degré constant gt fichiers identiques redemandés.

39
Robustesse des réseaux
Guillaume, Latapy, Magnien OPODIS 2004
  • Capacité à communiquer dans un réseau endommagé
  • Comprendre les causes de la tolérance plus ou
    moins grande des réseaux
  • Outils utilisés
  • Modélisation des pannes et des attaques
  • Preuves formelles sur plusieurs modèles de graphes

40
Métrologie de lInternet
Guillaume, Latapy INFOCOM 2005
  • Évaluer la représentativité des cartes de
    lInternet.
  • Modélisation de lInternet approche
    expérimentale.

41
Conclusions
  • Les GRI font partie dune classe de graphe
    particulière (cf analyse)
  • Étude de cas particuliers
  • Outils puissants pour étudier des données (P2P)
  • Extraction de concepts plus généraux (dynamique)
  • Utilisation de la modélisation pour faire des
    preuves formelles ou dans un contexte de
    simulation.

42
Perspectives
  • Analyser
  • la dynamique, les valuations, pondérations, les
    graphes hybrides, hétérogènes, etc.
  • Modéliser
  • La métrologie, une problématique générale.
  • Algorithmique dédiée
  • Graphes de grande taille (algorithmes linéaires).
  • Calculs approchés souvent suffisants.
Write a Comment
User Comments (0)
About PowerShow.com