Title: Copernic
1La face cachée des systèmes de recherche
Martin Bouchard, président Janvier 2003
2Historique
- Premier moteur de recherche
- Architext (Lycos)
- 100 000 documents indexés
- Deuxième génération
- Inktomi
- Altavista
- 10 millions de documents indexés
- Troisième génération
- Google
- Fast (AlltTheWeb.com)
- gt1 milliard de documents indexés
3Infrastructure
4Quelques concepts importants
- Précision
- Couverture (recall)
- Fraîcheur
5Importance de la précision
- Dans le contexte dun site Web ou dune
entreprise, la précision est, de loin, lélément
le plus important dans le choix dun moteur de
recherche.
6Méthodes détablissement de la pertinence
- Fréquences des mots clés
- Popularité des pages
- Langage naturel
- Feedback des utilisateurs
- Analyse linguistique du contenu
7Importance de la fraîcheur
- Les utilisateurs veulent de linformation à jour.
- Linformation désuète a peu de valeur.
- Façons daméliorer celle-ci
- Lindexation à fréquence variable
- Lindexation active
- Lindexation forcée
- Les requêtes temporelles
8Quest-ce que les gens recherchent?
- Sites ou micro-sites importants
- Documents spécifiques
- Informations spécifiques
- Personnes ou des postes
- Un service en ligne
- Données de recherche
9Méta-données
- Les métas donnés contiennent de linformation qui
améliorent grandement la précision. - Il est important de pouvoir les indexer
- ex. auteur, date, sujet, catégorie
- Déjà, plusieurs logiciels génèrent ces
informations. (ex. Microsoft Word) - Il faut être en mesure de générer des requêtes
sur les méta-données
10Problématique des méta-données
- Peuvent êtres utilisées à des fins de spamming
sur le Net - Pas assez fréquemment utilisées (25)
- Inconsistance des données
- Duplication (documents modèles)
11Lutilisateur dun moteur de recherche
- Effectue des requêtes de faible qualité
- Courtes (2,35 mots, en moyenne)
- Termes imprécis
- Syntaxe simpliste (80 des cas sans opérateur)
- 85 ne consultent que la première page de
résultats - 78 des requêtes erronées ne sont pas modifiées
- Études intéressantes CHI, Hypertext, SIGIR, etc.
12Divers trucs pour améliorer lindexation du
contenu
- Utiliser des titres et des résumés descriptifs
- Utiliser les méta-données
- Utiliser XML
- Créer vos propres modèles de donnés
13Divers trucs pour améliorer lindexation du
contenu (suite)
- Utiliser des URLs et noms de fichiers
significatifs - www.xyz.com/pricelist/december2002.html
- La structure du site à un impact pour plusieurs
indexeurs (et aide les usagers) - www.xyz.com/hr/politiques/teletravail.htm vs
www.xyz.com/hr/polit/tt.htm
14Divers trucs pour améliorer lindexation du
contenu (suite)
- Les pages dynamiques sont difficiles à indexer
(ASP, JSP, CGI, pages gen. BD, pages
personnalisées) - Solution
- Utiliser un indexeur compatible avec ce type de
page - Créer un profil utilisateur par défaut
- Faire attention aux fichier témoin (cookies)
obligatoires -gt le trou noir des moteurs de
recherche
15Divers trucs pour améliorer lindexation du
contenu (suite)
- Les pages HTML incluant des liens référencés en
JavaScript sont souvent non indexées - Solution
- Inclure une balise ltNOSCRIPTgt qui fournit un lien
HREF
16Divers trucs pour améliorer lindexation du
contenu (suite)
- Certains indexeurs ne gèrent pas la balise META
REFRESH - Solution
- Inclure un liens normal HREF à la nouvelle page
17Divers trucs pour améliorer lindexation du
contenu (suite)
- Certains indexeurs ne verront pas les liens
contenus dans un cadre (frame) - Solution
- Inclure un lien dans une section ltNOFRAMESgt
- Inclure la nouvelle page dans la page du plan du
site
18Critères de sélection dun moteur de recherche
- Solution flexible et personnalisable
- Outil dadministration flexible et puissant
- Performance et extensibilité (scalability)
- Facile à utiliser pour lusager final
- Mise à jour des index en temps réel
- Algorithmes de pertinence à la fine pointe de la
technologie - Compatibilité avec du contenu multilingue
- Gestion des doublons
- API flexible et documenté
- Qualité des résultats de recherche
19Périodes de question
20(No Transcript)