Analyse statistique : pour faire de son site un hit ! - PowerPoint PPT Presentation

1 / 61
About This Presentation
Title:

Analyse statistique : pour faire de son site un hit !

Description:

Le serveur enregistre le tout sur un fichier (habituellement un .txt ou un .log) ... Alarmes. Format. Facilit d'usage. 38. Les outils statistiques. Approches ... – PowerPoint PPT presentation

Number of Views:98
Avg rating:3.0/5.0
Slides: 62
Provided by: oBe82
Category:

less

Transcript and Presenter's Notes

Title: Analyse statistique : pour faire de son site un hit !


1
Analyse statistique pour faire de son site un
hit !
  • données, statistiques et analyse

2
Diverses problématiques
  • Ressources différentes
  • Environnements divers
  • Objectifs multiples
  • Un point en commun

3
Pas de recette miracle
  • S aider de méthodes éprouvées

4
Lintention de cet exposé
  • Réduire les efforts et mesurer le succès en
    saidant des fichiers journaux (logs)
  • Faciliter l analyse 

5
Structure de la présentation
  • Les fichiers journaux (logs)
  • Les statistiques
  • L'analyse

6
L'enregistrement de l'activité
  • Le serveur enregistre le tout sur un fichier
    (habituellement un .txt ou un .log)

7
Un fichier journal (log)
  • 206.135.203.174 - - 19/Jul/1999000004 -0600
    "GET /studio/drives.html HTTP/1.1" 200 20607
    "http//www.webdevelopers.com/" "Mozilla/4.0
    (compatible MSIE 5.0 Windows 98 DigExt)"

8
206.135.203.174 - - 19/Jul/1999000004 -0600
"GET /studio/drives.html HTTP/1.1" 200 20607
"http//www.webdevelopers.com/" "Mozilla/4.0
(compatible MSIE 5.0 Windows 98 DigExt)"
  • Le nom dhôte du serveur distant ou son DNS
  • Le rfc931 (ou User Logname), soit le nom
    dutilisateur du visiteur (remplacé par un si
    non disponible)
  • Le nom dutilisateur (ou Authenticated User) que
    linternaute sest donné lui-même (remplacé par
    un si non disponible)
  • La date et le moment exact de la visite
  • La différence en rapport avec lheure de
    Greenwich (GMT)
  • Laction exécutée (i.e Get ou Send)
  • Le  URI Stern  (Universal Ressources
    Identifier) soit ici lobjet associé à laction
  • Les paramètres utilisés par lobjet ou le  URI
    Query 

9
206.135.203.174 - - 19/Jul/1999000004 -0600
"GET /studio/drives.html HTTP/1.1" 200 20607
"http//www.webdevelopers.com/" "Mozilla/4.0
(compatible MSIE 5.0 Windows 98 DigExt)"
  • La réponse du serveur (Status Code ou Return
    Code)
  • La quantité de données transférées au serveur
    distant pour accomplir lopération (en bytes)
  • Le référenceur ou le référant (Referrer)
  • La version du protocole HTML utilisée
  • Le fureteur utilisé
  • Le système dexploitation, la plate-forme

10
De gros fichiers
  • Le fichier produit par lenregistrement des
    données dune semaine pour le site csst.qc.ca
    fait 75 megs environ
  • Des besoins en espace disque sur le serveur
    peuvent se faire sentir
  • Cela peut occasionner des frais
  • Sortir, faire circuler les données plutôt que de
    laisser les fichiers sur le serveur
  • Selon la configuration du serveur, les fichiers
    peuvent être effacés
  • Il ne faut pas prendre de risque, il est
    primordial de ne jamais perdre ces données

11
Automatisation des opérations
  • Envoyer automatiquement par le serveur un
    courriel avec le fichier et selon un calendrier
  • Une personne reçoit linformation et transfert
    ensuite les données vers un lieu de stockage
    permanent
  • On configure ensuite le serveur pour quil purge
    les fichiers sur son disque après un certain temps

12
La logistique entourant les fichiers journaux
  • Tout manquement, altération, perte peut avoir des
    conséquences importantes sur le reste des
    opérations
  • Comme dhabitude, le mois perdu est toujours le
    plus important

13
Considérer les caractéristiques du ou des systèmes
  • Ils ne sont pas tous configurés de la même façon
  • Connaître lemplacement des fichiers journaux
  • Contrôler la qualité pour une approche plus
    précise et solide

14
Tirer le maximum des fichiers journaux
  • Obtenir des moyennes, des tableaux, des
    graphiques
  • Comparer les variables
  • Étendre la comparaison sur une période de temps
  • L outil statistique une nécessité
  • Déterminer la fréquence de saisie

15
Retenir que
  • Le fichier journal est pratiquement la seule
    façon de voir ce qui se passe sur le site
  • Permet de faire l archivage et l historique du
    site
  • Permet de retracer un individu indésirable
  • Permet de comprendre un mauvais fonctionnement
  • Permet de planifier des développements
  • Permet de déterminer les activités et certaines
    caractéristiques des usagers

16
Définir le parcours des données provenant du logs
  • Les données sont filtrées
  • La réception des données par les intervenants
  • Le traitement des données

17
Description des statistiques
  • Prudence avec les hits

18
Pages populaires
  • Peut-être le thème le plus intéressant
  • Nombre de hits quune page reçoit
  • Habituellement la page daccueil se trouve en
    haut de la liste

19
Pages (suite)
  • Définir page Web (HTML, HTM, XML, PHP etc.)
  • Quoi faire avec les autres objets
  • Se faire une idée générale

20
Pages (suite)
  • Ne pas sauter aux conclusions trop rapidement
  • Plusieurs liens vers la page ou liens importants
  • Qualité de l'indexation
  • Regarder attentivement les raisons expliquant la
    popularité dune page avant de passer aux
    interprétations
  • Deux utilisations évidentes possibles

21
Pages (suite) 
  • La page la moins populaire
  • Page dentrée
  • Page de sortie
  • Page à accès unique

22
Code de réponse
  • Un message d'erreur est toujours grave
  • Chaque fois qu un visiteur se trouve devant un
    message derreur, il ne trouve pas ce quil veut
    ou il quitte le site.
  • Pour certains, cela signifie de largent en
    moins, pour dautres des clients insatisfaits.
  • Connaître les erreurs ou les codes de réponse est
    facile avec un outil statistique.

23
Pays les plus actifs
  • Selon les besoins, cette information peut-être
    très utile
  • Pour connaître la visibilité internationale
  • Pour voir sil y a lieu dindexer son site dans
    les moteurs de recherche nationaux ou régionaux

24
Serveur ou hôte dorigine
  • Numéro IP ou DNS
  • Fournisseurs Internet
  • L'usager principal est-il humain ?
  • Systématisation de l'analyse de ces statistiques.

25
Fureteur et système dexploitation
  • Le niveau  techno  des utilisateurs
  • Deux implications importantes
  • Vieux fureteurs
  • Dernières versions

26
Référenceurs
  • Doù les utilisateurs viennent
  • Les deux premières sources de trafic
  • Moteurs de recherche
  • Liens existant sur dautres sites

27
Mots de la recherche
  • Quels mots les gens utilisent pour nous trouver
  • Utilisons-nous bien ces mots ?

28
Visites
  • Une visite par entrée sur le site
  • Durée X avant de compter une autre visite pour le
    même IP
  • Problèmes liés à cette statistique

29
Sessions
  • Les activités de lutilisateur durant une seule
    visite
  • La durée et le parcours de lutilisateur
  • La démonstration des qualités ou des défauts de
    la structure du site
  • Il ne sagit pas de cookies

30
D'autres statistiques
  • Reconnaissance des robots
  • Erreurs du fureteur
  • Analyse du proxy
  • Analyse du Firewall

31
Les variations dans les statistiques
  • La mise en commun de statistiques peut en créer
    de nouvelles
  • Pages accédées par kilo octets
  • Accès simultané maximum
  • Moyennes par jour, par mois, par heure, etc.

32
Choisir un outil statistique
  • Les utilisateurs
  • Les facteurs déterminants
  • Quelques exemples d'outils

33
Marketing (utilisateurs)
  • Utilisation générale du site
  • Vendre le site
  • Qui vient sur le site
  • Sections ou pages populaires

34
Architecte (utilisateurs)
  • Pour déterminer les opérations faites par
    lutilisateur sur le site et la fréquence de ces
    opérations

35
Designer (utilisateurs)
  • L utilisation spécifique du site
  • Circulation sur le site
  • Organisation de linformation
  • Présentation de linformation

36
Développeur (utilisateurs)
  • Performance du système
  • Les moyennes et les capacités du système

37
Ingénieur (utilisateurs)
  • Messages derreurs et avertissements

38
Facteurs déterminants pour le choix d'un outil
  • Environnement de travail
  • Capacité de manipuler de gros fichiers
  • Personnalisation
  • Temps pour produire un rapport
  • Accessibilité
  • Automatisation
  • Alarmes
  • Format
  • Facilité dusage

39
Les outils statistiques
  • Approches
  • HitBox Pro
  • Site Server 3
  • WebTrends

40
HitBox Pro de WebSideStory
  • Plus que le simple outil statistique de base
  • Il faut payer pour avoir la version complète
  • Quelques codes et HitBox soccupe du reste
  • Avantages du modèle "service"
  • Statistiques, tableaux et aide
  • Peu de contrôle sur les configurations
  • Particularités
  • Une bonne alternative

41
Site Server 3 de Microsoft
  • Le haut du pavé
  • Innombrables fonctions
  • Statistiques complètes
  • Configuration difficile et gestion complexe au
    départ
  • Des  DNS lookups  de première classe
  • Et plus au sujet des DNS
  • Pas de rapport  intelligent  sur les erreurs
  • Excellent produit

42
WebTrends Log Analyzer
  • Outil le plus connu
  • Puissance brute, contrôle et présentation
  • Interface simple et configurable
  • Différents formats
  • Aide complète
  • Outil par excellence

43
Spécificité de lanalyse statistique informatisée
  • Codification automatique
  • Calculs mathématiques automatiques
  • Lanalyse peut débuter plus rapidement

44
Le contexte
  • Compétences de léquipe
  • Faisabilité de lanalyse
  • Modes
  • Besoins de lorganisation et de la clientèle
  • Intérêt de lorganisation
  • Familiarité avec le domaine de recherche

45
La problématique
  • En quoi la résolution de la problématique du site
    sera utile ?
  • Quelles lacunes faut-il combler et pourquoi ?
  • À quel besoin cela répond ?
  • Définir une problématique

46
Formuler des questions ou des hypothèses
  • Faire des liens entre des variables vérifiables
    et mesurables
  • Formuler des hypothèses ou des questions
  • Par extension, prévoir la relation entre des
    faits et des événements
  • À faire dès le début

47
Aperçu de lanalyse statistique de données
quantitatives
  • La tendance centrale
  • L'étendue et l'écart type
  • La courbe de distribution
  • Les corrélations

48
La tendance centrale
  • Déterminer ce qui est typique dans la clientèle
  • Établir une médiane
  • Connaître le mode
  • Indices sur la tendance centrale de lactivité

49
Létendue et lécart type
  • A quel point les individus formant la clientèle
    du site diffèrent les uns des autres par rapport
    à une caractéristique donnée
  • Exemple portant sur la longueur des sessions

50
Courbe de distribution
  • En fonction de la variable mesurée on peut
    vouloir connaître le mode de distribution des
    individus

51
Corrélations
  • Relations entre les variables
  • On cherche à faire des corrélations entre des
    groupes ou entre des statistiques

52
Linterprétation et la discussion des résultats
  • Le sens général des observations
  • Fonctions principales

53
Vérification des hypothèses
  • Relations causales
  • Énoncer des probabilités
  • Prouver les résultats
  • Confirmer ou infirmer les hypothèses

54
Concepts explicatifs
  • Susciter un nouveau concept
  • En particulier, si certains résultats nétaient
    pas prévus au départ

55
Comment faire mentir les statistiques
  • Interprétations de données incomplètes qui mènent
    à des comparaisons douteuses
  • Les inférences qui constituent des conjectures
    plutôt que des interprétations objectives
  • Interprétations diverses à partir des mêmes
    données
  • Problème déchantillonnage
  • Représentations graphiques trompeuses

56
Lutilisation des résultats pour faire de son
site un hit
  • Discussion des résultats
  • Actions
  • Responsabilités

57
Discussion des résultats
  • Dernière étape de lanalyse
  • Retour critique sur les étapes
  • Discussion des implications de la recherche

58
Passer à laction
  • Lanalyse un aide à la décision.
  • On ne peut se permettre dignorer les effets de
    la recherche
  • La prise de conscience des problèmes dans le but
    éventuel dapporter des modifications à son site
  • Discuter de la façon dapporter les correctifs
    nécessaires

59
Assumer les responsabilités inhérentes
  • Rapport étroit entre lobservateur et le sujet
    observé
  • Faire preuve déthique dans la manipulation des
    données et des statistiques
  • Difficultés éthiques  il faut protéger la
    clientèle qui vient sur le site, tout en faisant
    avancer les connaissances actuelles

60
Conclusion à la recherche de performance
  • Des causes de la performance
  • De multiples facteurs
  • Une compréhension cohérente
  • Des conditions favorables multiples
  • Y nest pas toujours la cause de X
  • Des partenariats mutuellement bénéfiques

61
Références
  • MASSÉ, P. Méthodes de collecte et d analyse en
    communication, Québec, Presses de l Université
    du Québec, 1992, 253 p.
  • MASSÉ, P. Systèmes d information, de
    communication et performance organisationnelle,
    Québec, Presses de l Université du Québec, 1994,
    276 p.
  • Log Capture and Analysis, http//www.microsfot.com
    /technet/ecommerce/logcanda.asp
  • An introduction to Web site traffic analysis from
    your swerver log file, http//virtualpromote.com/t
    rafficreports.html
  • Log-Analysis Tools Site Server Is on the Right
    Track, http//www.networkcomputing.com/917/917r12.
    html
  • WebTrends Log Analyzer 5.0 Full Review,
    http//www.zdnet.com/pcmag/stories/pipreviews/0,98
    36,141363,00.html
  • WebSideStory HibBox Pro Overview,
    http//www.zdnet.com/pcmag/stories/overview/0,9835
    ,251594,00.html
  • University of Cambridge Statistical Laboratory,
    http//statslab.cam.ac.uk/
  • Log Analysis Tools, http//dir.yahoo.com/Business_
    and_Economy/Business_to_Business/Computers/Softwar
    e/Internet/World_Wide_Web/Log_Analysis_Tools/
Write a Comment
User Comments (0)
About PowerShow.com