Title: Analyse statistique : pour faire de son site un hit !
1Analyse statistique pour faire de son site un
hit !
- données, statistiques et analyse
2 Diverses problématiques
- Ressources différentes
- Environnements divers
- Objectifs multiples
- Un point en commun
3Pas de recette miracle
- S aider de méthodes éprouvées
4Lintention de cet exposé
- Réduire les efforts et mesurer le succès en
saidant des fichiers journaux (logs) - Faciliter l analyse
5Structure de la présentation
- Les fichiers journaux (logs)
- Les statistiques
- L'analyse
6L'enregistrement de l'activité
- Le serveur enregistre le tout sur un fichier
(habituellement un .txt ou un .log)
7Un fichier journal (log)
- 206.135.203.174 - - 19/Jul/1999000004 -0600
"GET /studio/drives.html HTTP/1.1" 200 20607
"http//www.webdevelopers.com/" "Mozilla/4.0
(compatible MSIE 5.0 Windows 98 DigExt)"
8206.135.203.174 - - 19/Jul/1999000004 -0600
"GET /studio/drives.html HTTP/1.1" 200 20607
"http//www.webdevelopers.com/" "Mozilla/4.0
(compatible MSIE 5.0 Windows 98 DigExt)"
- Le nom dhôte du serveur distant ou son DNS
- Le rfc931 (ou User Logname), soit le nom
dutilisateur du visiteur (remplacé par un si
non disponible) - Le nom dutilisateur (ou Authenticated User) que
linternaute sest donné lui-même (remplacé par
un si non disponible) - La date et le moment exact de la visite
- La différence en rapport avec lheure de
Greenwich (GMT) - Laction exécutée (i.e Get ou Send)
- Le URI Stern (Universal Ressources
Identifier) soit ici lobjet associé à laction - Les paramètres utilisés par lobjet ou le URI
Query
9206.135.203.174 - - 19/Jul/1999000004 -0600
"GET /studio/drives.html HTTP/1.1" 200 20607
"http//www.webdevelopers.com/" "Mozilla/4.0
(compatible MSIE 5.0 Windows 98 DigExt)"
- La réponse du serveur (Status Code ou Return
Code) - La quantité de données transférées au serveur
distant pour accomplir lopération (en bytes) - Le référenceur ou le référant (Referrer)
- La version du protocole HTML utilisée
- Le fureteur utilisé
- Le système dexploitation, la plate-forme
10De gros fichiers
- Le fichier produit par lenregistrement des
données dune semaine pour le site csst.qc.ca
fait 75 megs environ - Des besoins en espace disque sur le serveur
peuvent se faire sentir - Cela peut occasionner des frais
- Sortir, faire circuler les données plutôt que de
laisser les fichiers sur le serveur - Selon la configuration du serveur, les fichiers
peuvent être effacés - Il ne faut pas prendre de risque, il est
primordial de ne jamais perdre ces données
11Automatisation des opérations
- Envoyer automatiquement par le serveur un
courriel avec le fichier et selon un calendrier - Une personne reçoit linformation et transfert
ensuite les données vers un lieu de stockage
permanent - On configure ensuite le serveur pour quil purge
les fichiers sur son disque après un certain temps
12La logistique entourant les fichiers journaux
- Tout manquement, altération, perte peut avoir des
conséquences importantes sur le reste des
opérations - Comme dhabitude, le mois perdu est toujours le
plus important
13Considérer les caractéristiques du ou des systèmes
- Ils ne sont pas tous configurés de la même façon
- Connaître lemplacement des fichiers journaux
- Contrôler la qualité pour une approche plus
précise et solide
14Tirer le maximum des fichiers journaux
- Obtenir des moyennes, des tableaux, des
graphiques - Comparer les variables
- Étendre la comparaison sur une période de temps
- L outil statistique une nécessité
- Déterminer la fréquence de saisie
15Retenir que
- Le fichier journal est pratiquement la seule
façon de voir ce qui se passe sur le site - Permet de faire l archivage et l historique du
site - Permet de retracer un individu indésirable
- Permet de comprendre un mauvais fonctionnement
- Permet de planifier des développements
- Permet de déterminer les activités et certaines
caractéristiques des usagers
16Définir le parcours des données provenant du logs
- Les données sont filtrées
- La réception des données par les intervenants
- Le traitement des données
17Description des statistiques
18Pages populaires
- Peut-être le thème le plus intéressant
- Nombre de hits quune page reçoit
- Habituellement la page daccueil se trouve en
haut de la liste
19Pages (suite)
- Définir page Web (HTML, HTM, XML, PHP etc.)
- Quoi faire avec les autres objets
- Se faire une idée générale
20Pages (suite)
- Ne pas sauter aux conclusions trop rapidement
- Plusieurs liens vers la page ou liens importants
- Qualité de l'indexation
- Regarder attentivement les raisons expliquant la
popularité dune page avant de passer aux
interprétations - Deux utilisations évidentes possibles
21Pages (suite)
- La page la moins populaire
- Page dentrée
- Page de sortie
- Page à accès unique
22Code de réponse
- Un message d'erreur est toujours grave
- Chaque fois qu un visiteur se trouve devant un
message derreur, il ne trouve pas ce quil veut
ou il quitte le site. - Pour certains, cela signifie de largent en
moins, pour dautres des clients insatisfaits. - Connaître les erreurs ou les codes de réponse est
facile avec un outil statistique.
23Pays les plus actifs
- Selon les besoins, cette information peut-être
très utile - Pour connaître la visibilité internationale
- Pour voir sil y a lieu dindexer son site dans
les moteurs de recherche nationaux ou régionaux
24Serveur ou hôte dorigine
- Numéro IP ou DNS
- Fournisseurs Internet
- L'usager principal est-il humain ?
- Systématisation de l'analyse de ces statistiques.
25Fureteur et système dexploitation
- Le niveau techno des utilisateurs
- Deux implications importantes
- Vieux fureteurs
- Dernières versions
26Référenceurs
- Doù les utilisateurs viennent
- Les deux premières sources de trafic
- Moteurs de recherche
- Liens existant sur dautres sites
27Mots de la recherche
- Quels mots les gens utilisent pour nous trouver
- Utilisons-nous bien ces mots ?
28Visites
- Une visite par entrée sur le site
- Durée X avant de compter une autre visite pour le
même IP - Problèmes liés à cette statistique
29Sessions
- Les activités de lutilisateur durant une seule
visite - La durée et le parcours de lutilisateur
- La démonstration des qualités ou des défauts de
la structure du site - Il ne sagit pas de cookies
30D'autres statistiques
- Reconnaissance des robots
- Erreurs du fureteur
- Analyse du proxy
- Analyse du Firewall
31Les variations dans les statistiques
- La mise en commun de statistiques peut en créer
de nouvelles - Pages accédées par kilo octets
- Accès simultané maximum
- Moyennes par jour, par mois, par heure, etc.
32Choisir un outil statistique
- Les utilisateurs
- Les facteurs déterminants
- Quelques exemples d'outils
33Marketing (utilisateurs)
- Utilisation générale du site
- Vendre le site
- Qui vient sur le site
- Sections ou pages populaires
34Architecte (utilisateurs)
- Pour déterminer les opérations faites par
lutilisateur sur le site et la fréquence de ces
opérations
35Designer (utilisateurs)
- L utilisation spécifique du site
- Circulation sur le site
- Organisation de linformation
- Présentation de linformation
36Développeur (utilisateurs)
- Performance du système
- Les moyennes et les capacités du système
37Ingénieur (utilisateurs)
- Messages derreurs et avertissements
38Facteurs déterminants pour le choix d'un outil
- Environnement de travail
- Capacité de manipuler de gros fichiers
- Personnalisation
- Temps pour produire un rapport
- Accessibilité
- Automatisation
- Alarmes
- Format
- Facilité dusage
39 Les outils statistiques
- Approches
- HitBox Pro
- Site Server 3
- WebTrends
40HitBox Pro de WebSideStory
- Plus que le simple outil statistique de base
- Il faut payer pour avoir la version complète
- Quelques codes et HitBox soccupe du reste
- Avantages du modèle "service"
- Statistiques, tableaux et aide
- Peu de contrôle sur les configurations
- Particularités
- Une bonne alternative
41Site Server 3 de Microsoft
- Le haut du pavé
- Innombrables fonctions
- Statistiques complètes
- Configuration difficile et gestion complexe au
départ - Des DNS lookups de première classe
- Et plus au sujet des DNS
- Pas de rapport intelligent sur les erreurs
- Excellent produit
42WebTrends Log Analyzer
- Outil le plus connu
- Puissance brute, contrôle et présentation
- Interface simple et configurable
- Différents formats
- Aide complète
- Outil par excellence
43Spécificité de lanalyse statistique informatisée
- Codification automatique
- Calculs mathématiques automatiques
- Lanalyse peut débuter plus rapidement
44Le contexte
- Compétences de léquipe
- Faisabilité de lanalyse
- Modes
- Besoins de lorganisation et de la clientèle
- Intérêt de lorganisation
- Familiarité avec le domaine de recherche
45La problématique
- En quoi la résolution de la problématique du site
sera utile ? - Quelles lacunes faut-il combler et pourquoi ?
- À quel besoin cela répond ?
- Définir une problématique
46Formuler des questions ou des hypothèses
- Faire des liens entre des variables vérifiables
et mesurables - Formuler des hypothèses ou des questions
- Par extension, prévoir la relation entre des
faits et des événements - À faire dès le début
47Aperçu de lanalyse statistique de données
quantitatives
- La tendance centrale
- L'étendue et l'écart type
- La courbe de distribution
- Les corrélations
48La tendance centrale
- Déterminer ce qui est typique dans la clientèle
- Établir une médiane
- Connaître le mode
- Indices sur la tendance centrale de lactivité
49Létendue et lécart type
- A quel point les individus formant la clientèle
du site diffèrent les uns des autres par rapport
à une caractéristique donnée - Exemple portant sur la longueur des sessions
50Courbe de distribution
- En fonction de la variable mesurée on peut
vouloir connaître le mode de distribution des
individus
51Corrélations
- Relations entre les variables
- On cherche à faire des corrélations entre des
groupes ou entre des statistiques
52Linterprétation et la discussion des résultats
- Le sens général des observations
- Fonctions principales
53Vérification des hypothèses
- Relations causales
- Énoncer des probabilités
- Prouver les résultats
- Confirmer ou infirmer les hypothèses
54Concepts explicatifs
- Susciter un nouveau concept
- En particulier, si certains résultats nétaient
pas prévus au départ
55Comment faire mentir les statistiques
- Interprétations de données incomplètes qui mènent
à des comparaisons douteuses - Les inférences qui constituent des conjectures
plutôt que des interprétations objectives - Interprétations diverses à partir des mêmes
données - Problème déchantillonnage
- Représentations graphiques trompeuses
56Lutilisation des résultats pour faire de son
site un hit
- Discussion des résultats
- Actions
- Responsabilités
57Discussion des résultats
- Dernière étape de lanalyse
- Retour critique sur les étapes
- Discussion des implications de la recherche
58Passer à laction
- Lanalyse un aide à la décision.
- On ne peut se permettre dignorer les effets de
la recherche - La prise de conscience des problèmes dans le but
éventuel dapporter des modifications à son site - Discuter de la façon dapporter les correctifs
nécessaires
59Assumer les responsabilités inhérentes
- Rapport étroit entre lobservateur et le sujet
observé - Faire preuve déthique dans la manipulation des
données et des statistiques - Difficultés éthiques il faut protéger la
clientèle qui vient sur le site, tout en faisant
avancer les connaissances actuelles
60 Conclusion à la recherche de performance
- Des causes de la performance
- De multiples facteurs
- Une compréhension cohérente
- Des conditions favorables multiples
- Y nest pas toujours la cause de X
- Des partenariats mutuellement bénéfiques
61Références
- MASSÉ, P. Méthodes de collecte et d analyse en
communication, Québec, Presses de l Université
du Québec, 1992, 253 p. - MASSÉ, P. Systèmes d information, de
communication et performance organisationnelle,
Québec, Presses de l Université du Québec, 1994,
276 p. - Log Capture and Analysis, http//www.microsfot.com
/technet/ecommerce/logcanda.asp - An introduction to Web site traffic analysis from
your swerver log file, http//virtualpromote.com/t
rafficreports.html - Log-Analysis Tools Site Server Is on the Right
Track, http//www.networkcomputing.com/917/917r12.
html - WebTrends Log Analyzer 5.0 Full Review,
http//www.zdnet.com/pcmag/stories/pipreviews/0,98
36,141363,00.html - WebSideStory HibBox Pro Overview,
http//www.zdnet.com/pcmag/stories/overview/0,9835
,251594,00.html - University of Cambridge Statistical Laboratory,
http//statslab.cam.ac.uk/ - Log Analysis Tools, http//dir.yahoo.com/Business_
and_Economy/Business_to_Business/Computers/Softwar
e/Internet/World_Wide_Web/Log_Analysis_Tools/