Copernic - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Copernic

Description:

Title: Copernic Author: Charles Laflamme 1 Last modified by: Martin Bouchard Created Date: 2/18/2002 4:19:10 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:50
Avg rating:3.0/5.0
Slides: 21
Provided by: Charle727
Category:

less

Transcript and Presenter's Notes

Title: Copernic


1
La face cachée des systèmes de recherche
Martin Bouchard, président Janvier 2003
2
Historique
  • Premier moteur de recherche
  • Architext (Lycos)
  • 100 000 documents indexés
  • Deuxième génération
  • Inktomi
  • Altavista
  • 10 millions de documents indexés
  • Troisième génération
  • Google
  • Fast (AlltTheWeb.com)
  • gt1 milliard de documents indexés

3
Infrastructure
4
Quelques concepts importants
  • Précision
  • Couverture (recall)
  •  Fraîcheur 

5
Importance de la précision
  • Dans le contexte dun site Web ou dune
    entreprise, la précision est, de loin, lélément
    le plus important dans le choix dun moteur de
    recherche.

6
Méthodes détablissement de la pertinence
  • Fréquences des mots clés
  • Popularité des pages
  • Langage naturel
  •  Feedback  des utilisateurs
  • Analyse linguistique du contenu

7
Importance de la  fraîcheur 
  • Les utilisateurs veulent de linformation à jour.
  • Linformation désuète a peu de valeur.
  • Façons daméliorer celle-ci
  • Lindexation à fréquence variable
  • Lindexation  active 
  • Lindexation  forcée 
  • Les requêtes temporelles

8
Quest-ce que les gens recherchent?
  • Sites ou micro-sites importants
  • Documents spécifiques
  • Informations spécifiques
  • Personnes ou des postes
  • Un service en ligne
  • Données de recherche

9
Méta-données
  • Les métas donnés contiennent de linformation qui
    améliorent grandement la précision.
  • Il est important de pouvoir les indexer
  • ex. auteur, date, sujet, catégorie
  • Déjà, plusieurs logiciels génèrent ces
    informations. (ex. Microsoft Word)
  • Il faut être en mesure de générer des requêtes
    sur les méta-données

10
Problématique des méta-données
  • Peuvent êtres utilisées à des fins de spamming
    sur le Net
  • Pas assez fréquemment utilisées (25)
  • Inconsistance des données
  • Duplication (documents modèles)

11
Lutilisateur dun moteur de recherche
  • Effectue des requêtes de faible qualité
  • Courtes (2,35 mots, en moyenne)
  • Termes imprécis
  • Syntaxe simpliste (80 des cas sans opérateur)
  • 85 ne consultent que la première page de
    résultats
  • 78 des requêtes erronées ne sont pas modifiées
  • Études intéressantes CHI, Hypertext, SIGIR, etc.

12
Divers trucs pour améliorer lindexation du
contenu
  • Utiliser des titres et des résumés descriptifs
  • Utiliser les méta-données
  • Utiliser XML
  • Créer vos propres modèles de donnés

13
Divers trucs pour améliorer lindexation du
contenu (suite)
  • Utiliser des URLs et noms de fichiers
    significatifs
  • www.xyz.com/pricelist/december2002.html
  • La structure du site à un impact pour plusieurs
    indexeurs (et aide les usagers)
  • www.xyz.com/hr/politiques/teletravail.htm vs
    www.xyz.com/hr/polit/tt.htm

14
Divers trucs pour améliorer lindexation du
contenu (suite)
  • Les pages dynamiques sont difficiles à indexer
    (ASP, JSP, CGI, pages gen. BD, pages
    personnalisées)
  • Solution
  • Utiliser un indexeur compatible avec ce type de
    page
  • Créer un profil utilisateur par défaut
  • Faire attention aux fichier témoin (cookies)
    obligatoires -gt le trou noir des moteurs de
    recherche

15
Divers trucs pour améliorer lindexation du
contenu (suite)
  • Les pages HTML incluant des liens référencés en
    JavaScript sont souvent non indexées
  • Solution
  • Inclure une balise ltNOSCRIPTgt qui fournit un lien
    HREF

16
Divers trucs pour améliorer lindexation du
contenu (suite)
  • Certains indexeurs ne gèrent pas la balise META
    REFRESH
  • Solution
  • Inclure un liens normal HREF à la nouvelle page

17
Divers trucs pour améliorer lindexation du
contenu (suite)
  • Certains indexeurs ne  verront  pas les liens
    contenus dans un cadre (frame)
  • Solution
  • Inclure un lien dans une section ltNOFRAMESgt
  • Inclure la nouvelle page dans la page du plan du
    site

18
Critères de sélection dun moteur de recherche
  • Solution flexible et personnalisable
  • Outil dadministration flexible et puissant
  • Performance et extensibilité (scalability)
  • Facile à utiliser pour lusager final
  • Mise à jour des index en temps réel
  • Algorithmes de pertinence à la fine pointe de la
    technologie
  • Compatibilité avec du contenu multilingue
  • Gestion des  doublons 
  • API flexible et documenté
  • Qualité des résultats de recherche

19
Périodes de question
20
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com