Title: La recherche sur Internet
1La recherche sur Internet
2Les annuaires (on parle aussi de catalogues, de
répertoires et de plus en plus de portails). Leur
base est indexée manuellement par des hommes.
Les moteurs de recherche. Leur base est indexée
automatiquement par des logiciels robots.
Examinons les mécanismes d'indexation de chacun
de ces outils.Des hommes pour les annuaires
Les annuaires ordonnent les pages du Web par
thème, sous-thème, etc. Il s'agit donc d'une
structure arborescente. Ce sont des hommes qui
assurent l'indexation de ces pages, ce qui
explique que le plus gros des annuaires (Yahoo!)
n'indexe " que " quelques centaines de milliers
de pages, soit une partie infime des pages
existantes !
3- Avantages
- L'indexation tient réellement compte du contenu.
- Les annuaires proposent généralement le choix
entre une recherche par équation ou par
arborescence. - Une équation de recherche est un ensemble de
critères (mots-clés, expressions) reliés par des
opérateurs. Par exemple, esclavage ET (enfants OU
mineurs) recherchera des documents sur
l'esclavage des enfants ou sur l'esclavage des
mineurs.
4- Inconvénients
- Une fraction infime du Web est référencée.
- L'évolution très rapide des contenus impose un
rythme de mise à jour incompatible avec une
indexation manuelle. - Seuls les sites qui se sont manifestés sont
référencés. Ce ne sont pas forcément les plus
intéressants. - La classification arborescente a des limites un
sujet comme vache folle peut être indexé dans
différentes rubriques économie, politique,
zoologie, agriculture, santé
5Des robots pour les moteurs Les moteurs
permettent une interrogation qui s'apparente à la
recherche documentaire par mots-clés. Ce sont de
gigantesques bases de données d'adresses Web,
indexées sur les mots contenus dans les pages.
Ces bases de données sont constituées
automatiquement par des logiciels appelés robots
ou agents intelligents. Ces moteurs qui, en 1996,
visaient encore à l'exhaustivité, n'arrivent plus
maintenant qu'à indexer au mieux 30 des pages
du Web(3) . Mais cela représente 100 millions de
pages et il y a bien des chances que
l'information recherchée s'y trouve.Il est
important de comprendre que cette indexation ne
tient compte que des mots contenus dans les
pages, en dehors de tout contexte. Par exemple,
une recherche sur théorie ET relativité vous
donnera bien sûr des documents sur la théorie de
la relativité mais aussi plein d'autres
ressources n'ayant rien à voir, car les termes "
théorie " et " relativité " peuvent être utilisés
dans d'autres contextes.
6- Inconvénients
- Aucune analyse sémantique du contenu, mais une
indexation plein texte où chaque mot est indexé
indépendamment de son contexte. - Pas de classification par domaine.
- Syntaxe précise à respecter pour les équations de
recherche.
7- Avantages
- Quantité des documents indexés.
- Possibilité d'équations de recherche complexes.
- Même un site qui n'a pas fait la démarche pour
être référencé, peut être indexé par
Alta-Vista(4) . - (4) Le robot d'Alta-Vista visite d'abord tous les
sites déclarés par leurs auteurs (un lien sur la
page d'accueil d'Alta-Vista permet cette
déclaration), puis tous les sites qui y sont
liés.
8(No Transcript)
9tableau