Title: Trouver au lieu de chercher : on ne trouve pas TOUT sur le WEB mais de TOUT
1Trouver au lieu de chercher on ne trouve pas
TOUT sur le WEB mais de TOUT
- Patrick Gay - GIBIPO Patrick Johner - INFODOC
- Formation sur les recherches documentaires et
bibliographiques pour les AID de 2ème année - Lausanne les 19 26 avril 2002
2Comportement standard
- 80 des internautes se précipitent sur un moteur
de recherche et tapent un ou deux mots-clefs
séparés par un espace - Et si nous faisions un petit sondage dans la
salle. - Qui utilise Google ou Altavista ainsi ?
- Pas de panique, il existe d autres moyens plus
performants, nous allons les découvrir. - Le premier , éviter les fautes d orthographe !
3Au programme
- Introduction
- Syntaxe
- R-doc
- Outils
- R-Bib
- Conclusion
- page 5
- page 12
- page 21
- page 32
- page 67
- page 88
4Intro - historique
- Années 70 naissance de l Internet
- Réseau ARPANET
- VERONICA (recherches titres, occurrences des
termes, répertoires) - WAIS (indexation en texte intégral)
- ARCHIE (recherches sur serveurs FTP)
- Années 90 avènement du WEB au CERN
- Outils spécialisés comme Mosaïc en 1994
5Intro - raisons du succès
- Protocole TCP/IP
- Langage commun à tous les types de machines et de
système dexploitation - Interconnexion des tous les réseaux
- Dialogue entre toutes les machines
- Administration centrale minimale
- Effort coopératif, suffixes de domaine, les
adresses des machines (IP), équivalent en clair. - Langage HTML pour les pages WEB
6Intro - services disponibles
- Sites WEB
- http//wwwedu.ge.ch/dip/biblioweb
- Messagerie électronique
- patrick.johner_at_edu.ge.ch
- Listes de diffusion forums de discussion
- swiss-lib_at_lists.switch.ch
- Accès à des banques de données
- Telnet
- Echanges de données
- FTP
7Intro - critique de linformation
- Hétérogénéité contenu et le codage
- Instabilité
- Fragmentation
- Renouvellement continuel
- Non structuré
- Multilinguisme
- Publique / privé / commercial
8Intro - les six questions de base
- Qui est la source ?
- Quels résultats obtenons-nous ?
- Comment est présentée l information ?
- Quand le site a été crée ?
- Où sommes-nous ?
- Pourquoi diffuse-t-on cette information ?
9Intro - évaluer un site
- Fiabilité et qualité de l information
- Trier l information
- Evaluer l information et la source
- Exactitude, exhaustivité
- Auditoire
- Vraisemblance, impartialité, cohérence
- Vérifier l information
10Intro - déchiffrer les URL
- Http// protocole
- www. Web
- Geneve. Nom
- Ch Extension
- http//www.geneve.ch
- URL (Uniform Ressource Locator)
11Quelques chiffres
- 82 des recherches par mots-clefs
- 17 navigation dans rubriques
- 300 millions d internautes dans le monde
- Plus de 10 millions en France
- On parle de 500 milliards de pages
- 7,1 millions de sites
12Syntaxe - opérateurs par défaut ?
- Tapons par exemple
- réchauffement planète
- Selon l opérateur par défaut nous aurons des
documents concernant - le réchauffement de la planète avec et
- soit le réchauffement du cassoulet de la veille
mais aussi sur la planète Mars avec ou .
13Syntaxe - opérateur ou
- Opérateur qui permet d ouvrir une
recherche, - par exemple
- bibliothèque ou library
- chien ou chiens
14Syntaxe - opérateur sauf
- Cet opérateur permet de supprimer un concept dans
une recherche, - par exemple
- cancer sauf horoscope
15Syntaxe - troncature
- Nous pouvons avoir
- capi
- taine
- ca ne
- capitaine
- capitale
- capital
- mitaine
- capitaine
- cabine
- capitaine
- carabine
16Syntaxe - majuscules, minuscules
- Sur Altavista nous pouvons tester
- ibm ou IBM
- on aura alors ibm ou IBM
- Ibm
- on aura alors pas ibm ou IBM
- on peut aussi tester avec Peugeot
17Syntaxe - gestion des langues
- Nous avons
- Google.com
- Google .fr
- Google.ch
- Un moyen de limiter
- notre champ de
- recherche.
- Nous avons aussi le
- filtre linguistique.
- Mais certains outils ne
- donnent pas les mêmes
- résultats avec
- library
- bibliothèque
-
18Syntaxe - accents et ordre
- Pour certains outils de recherche sur le WEB les
accents ont une importance. - Jérome
- Jerome
- Idem pour l ordre des termes, on a pas toujours
le même résultat. - Paris Dakar
- Dakar Paris
19Syntaxe - expressions
- Nous pouvons formuler de trois façons
- New York
- nous aurons soit New Age
- soit la ville d York
- New York
- nous aurons le New Age dans la ville d York
- New York
- nous aurons enfin New York
20Vingt mots-clefs les plus utilisés
- Météo
- Sexe
- ANPE
- Google
- Yahoo
- Lycos
- Caramail
- Tennis
- SNCF
- Annuaire
- Pages jaunes
- Recherche
- MP3
- Harry Potter
- FNAC
- Voilà
- Immobilier
- Musique
- Emploi
- Star academy
- Looksmart 2002
21R-DOC - autres zones
- Recherches possibles sur l URL
- Recherches sur les titres des pages
- Recherches dans les zones invisibles
- balise Meta Keywords ou Description
- Recherches dans les pages archivées
22R-DOC - trouver les mots-clefs
- Rien de tel que de prendre une feuille et un
crayon pour commencer une recherche. - Nous avons
- mots-clefs primaires
- finance, commerce, tourisme, loisirs, voyage
- mots-clefs secondaires
- jus d orange, bourse, Chicago
- mots-clefs interdits
- avec fruits, apple éviter computer
23R-DOC - résultats
- Sur un annuaire vous avez les catégories, puis
le résultat avec une notice.
- Sur un moteur vous avez directement des résultats
classés selon la pertinence.
24R-DOC - indice de popularité
- Historiquement les résultats sont présentés selon
- l occurrence du mot-clef
- sa place dans le document, début, fin
- la taille de celui-ci dans le texte
- Indice de popularité (IPP)
- liens qui pointent sur un site
- double niveau pour éviter la triche
25R-DOC - indexation des sites
- Déclaration volontaire du site par son Webmaster,
il est aussi possible d influencer les robots en
mettant certaines indications dans le titre des
pages, en choisissant la place des termes, en
utilisant en HTML les zones meta- données (Head)
ou se trouvent les mots-clés, titres.
- A travers un robot (spider ou crawler) qui
explore de manière automatique la toile, il se
faufile par les liens, seules les pages HTML sont
prises en compte, il reste une importante partie
non indexées somme les bases de données, les
documents PDF (sauf Google) - passage tous les 2-3 mois vu la taille du WEB.
26R-DOC - page en HTML
27R-DOC - indexation
- Mots vides
- Indexation au mot
- Indexation en texte intégral
- Index monochamp
- Index multichamps
- Recherche en langage naturel
- Indexation automatique
- Analyse sémantique
- Analyse phonétique
28R-DOC - méthodologie
- Quel est le sujet précis ?
- Je recherche de l information sur la maladie de
la vache folle - Quelle limite géographique, linguistique,
temporelle ? - Documents en français de moins de trois ans
- Quels mot clés conviendrait ?
- Maladie de la vache folle
- Moteur de recherche à utiliser ?
- Http//metacrawler.com/index.html
- Formulation précise de la recherche ?
- Maladie de la vache folle
- Les réponses sous quelle forme ?
- Une adresse de site intéressant
- Validité de l information ou évaluation du site
?
29R-DOC - Service de référence
- En bibliothèque nous devons aussi penser à
- Qui demande l information ?
- Quel est son niveau de connaissance ?
- Pourquoi a-t-il besoin des ces informations ?
- Dans la mesure du possible nous ferons avec
notre lecteur la recherche et instaurerons à
mesure un dialogue .
30R-DOC - pages de résultats
- Présentation par ordre de pertinence selon règles
et hiérarchies pré-établies - emplacement du terme recherché, dans le titre,
les mots-clé, texte ... - fréquence dapparition du terme dans le document
- par popularité (nombre de liens qui pointent sur
le site) - Mais doublons souvent présents
31Internautes ont consulté au moins une fois en
janvier 2002 les sites suivants
- Bannières publicitaires
- Moteur de recherche
- Catalogue en ligne
- Compte bancaire
- Comparaison de prix
- Achat en ligne
- Petites annonces
- Source BVA
32Outils - annuaires
- Un annuaire représente dans une hiérarchie de
domaines et de sous-domaines un certain nombre de
sites décrits par quelques informations précises.
- Yahoo
- 2 millions de sites
- Yahoo France
- 140 000 sites
- Nomade
- 140 000 sites
33Outils - Yahoo
- Créé en 1994 par deux étudiants de Stanford
- D abord recenser leurs propres sites, avant de
devenir une activité commerciale, Google prend la
relève en cas ne non réponse. - 55 millions de requêtes de page par jour,
- 2 millions de sites recensés,
- En France en mai 2001 yahoo.fr
- 3,2 millions de visiteurs,
- 500 millions de pages vues.
34Outils - essayer
- J aimerais de la documentation sur les
bibliothèques virtuelles - Essayez virtual libraries
- Comparez le nombre de réponses
35Outils - Yahoo 1 http//fr.yahoo.com/
36Outils - Yahoo 2 http//fr.yahoo.com/
37Outils - répertoires thématiques
- Valeur ajoutée
- Limitation du bruit
- Donne adresses des sites
- Biais par couverture régionale
- Accès direct limité
- Mises à jour aléatoires
38Vocabulaire
- INTERNET
- Interconnexion mondiales d ordinateurs, soit des
utilisateurs avec leurs ordinateurs soit des
serveurs. - L Internet représente l aspect lié à
l infrastructure, la tuyauterie du réseau
mondial.
- WEB
- Ce n est qu une partie de l Internet qui
permet de consulter des documents multimédias. - Le WEB invisible cest
- Les archives de presse
- Les pages WEB crées avec des outils dynamiques
- Les banques de données gratuites ou payantes
39Outils - moteurs de recherche
- Le moteur de recherche recensent des pages WEB
dans un index, puis il classe les résultats selon
un algorithme.
- Voilà
- 30 millions pages
- Altavista
- 13 millions en français
- 550 millions
- Lycos
- 11 millions
- Google
- 620 millions
40Outils - Google
- Dérivé de Gogol, 10 à la puissance 100
- Créé en 1998 par des étudiants de Stanford
- Devient en 1999 une société commerciale
- En juin 2001, 620 millions de pages en totalité
sur leurs disques - Classement par indice de popularité
- En France Google.fr
- Peu de publicité et beaucoup de nouveautés
41Outils - essayer l outil
- Nous cherchons de l information sur la musique
baroque - Nous cherchons des informations sur le climat au
Sénégal
42Outils - Google 1 http//www.google.com/
43Outils - Google 2 http//www.google.com/
44Outils - Google mode d emploi
- Minuscules/majuscules Idem
- Ordre des mots Important
- OU OR
- ET Opérateur par défaut
- SAUF -
- Troncature Non
- Recherche linguistique
- Recherche sur le nom du site site
- etc ...
45Outils - robots généralistes
- Simplicité dutilisation
- Couverture la plus complète
- Mise à jour automatique et rapide
- Amélioration constante
- Bruit
- Doublons non détectés
- Hétérogénéité des réponses
46Outils - lequel choisir ?
- Recherche d une source d information globale,
un site sur mon sujet m intéresse. - ANNUAIRE
- On recherche par exemple le site de Renault
- Recherche d une donnée précise ou pointue, elle
sera mentionnée sur une page. - MOTEUR
- Je recherche des information sur la Renault Clio
47Outils - maîtriser l outil
- Nous cherchons des informations sur la
construction du Pont Butin à Genève -
- Faire une recherche sur Yahoo et sur Google
- Regardez les résultats et vous aurez une étendue
des interprétations - Comparez les trois premiers résultats de chaque
recherche
48Internet ne remplace pas une bibliothèque !
- Tout n est pas sur Internet,
- Chercher sur Internet, c est comme chercher une
aiguille dans une botte de foin, - Le contrôle qualité n existe pas,
- Texte en pleine page sans notes, illustrations,
tableaux - Sur les 1,5 millions de livres depuis 1970, seuls
quelques milliers sur le WEB
- On ne consulte pas plus de 30 minutes un écran,
- La bibliothèque virtuelle ne suffit pas,
- La numérisation des documents coûte cher,
- Les documents sur le WEB n ont pas plus de 10-15
ans, - 80 des personnes préfèrent acheter un livre
plutôt que de consulter Internet.
49Outils - Norhern Light
- Du nom d un bâteau construit à Boston en 1851,
ce nouveau moteur de recherche (1997) a des
fonctionnalités innovantes. - En ANGLAIS
- Résultats classés dans une dizaine de dossiers,
les thèmes sont créés en fonction du sujet de la
recherche. - Egalement des moteurs spécialisés.
50Outils - Norhern Light http//www.northernlight.co
m/
51Outils - Altavista
- Projet de recherche en 1995 aux laboratoires
Digital - Outil de recherche en texte intégral
- Alta vista, vue d en haut
- En 2001 robot Scooter indexe 10 millions de pages
par jour et visite 2 000 gros sites.
52Outils - Altavista http//fr.altavista.com/
53Outils - essayer l outil
- Trouvez l adresse du site des bibliothèques de
l enseignement secondaire à Genève - Je voudrais trouver le taux de change du dollar
canadien en francs français - Taux de change
- Dollar canadien
- Franc français
54Outils - Manitoo http//www.manitoo.ch
55Outils - langage naturel
- INFOCLIC
- On peut saisir sa question en langage naturel
comme - Quel temps fait-il à Genève aujourd hui ?
- Où trouver un plan de Paris ?
56Outils - Infoclic http//www.infoclic.fr
57Outils - métamoteurs
- Recherche plus exhaustive
- fourni une requête sur cet outil
- interroge plusieurs moteurs
- récupère les données, enlève doublons
- affiche les résultats
- Copernic un logiciel
- Metacrowler un site WEB
58Outils - Kartoo Http//www.kartoo.com
59Outils - Interface de recherche unifiée
- Un exemple COPERNIC
- Logiciel qui fait appel à différents outils de
recherche de façon simultanée - Requête envoyée à plusieurs outils simultanément
- Syntaxe propre pour formuler la requête
- Valeur ajoutée
- éliminer les doublons
- présentation unifiée des résultats
- recalculer les indices de pertinences
- Appauvrissement des fonctions de recherche
60Outils - Copernic 1 http//www.copernic.com/fr
61Outils - Copernic 2 http//www.copernic.com/fr
62Outils - Copernic 3 http//www.copernic.com/fr
63Outils - agents intelligents
- Autonomie
- Capacité à communiquer
- Capacité à coopérer
- Capacité à raisonner
- Comportement adaptatif
- Fidélité
- Authentification, confidentialité
- Sécurité
- Compétence
- Intégrité
64Outils - Comparaisons
- Notoriété et contenu des index
- Contenu de l index
- Fonctionnalités d interrogation
- Fonctionnalités de visualisation
- Fonctionnalités spécifiques
- Différentes syntaxes
- Un site de référence ABONDANCE
65Outils - Abondance http//www.abondance.com/
66Palmarès 2001 des outils
- Annuaire francophone
- Yahoo 40
- Voila 22
- Nomade 9
- Open directory 9
- Lycos 7
- MSN 4
- Moteur francophone
- Google 78
- Voilà moteur 6
- Altavista 2
- Fast 2
- Lokace 1
- Nothernlight 1
- Abondance décembre 2001
67R-BIB - recherches bibliographiques
- Catalogues de bibliothèques disponibles sur
Internet - Bibal Web
- Bibliothèques scolaires Genève
- BN Opale plus
- Bibliothèque Nationale de France
- Rero
- Bibliothèques universitaires romandes
68R-BIB - BIBALWEB 1 http//wwwedu.ge.ch/dip/bibliow
eb
69R-BIB - BIBALWEB 2 http//wwwedu.ge.ch/dip/bibliow
eb
- Dernière version 480 000 notices
- La base de données des bibliothèques de
l'enseignement genevois n'est pas un catalogue
collectif. Dans la version 6.0 de mars 2002, il
s'agit de la réunion de l'ensemble des catalogues
- des 26 bibliothèques rattachées au secondaire II,
- de l'Office d'orientation et de formation
professionnelle (OOFP), l Office de la Jeunesse
(OJ), de l information documentaire de la DGCO, - du Centre de Ressource et de Documentation
Pédagogiques (CRDP). - De ce fait, une même notice pourra se retrouver
plusieurs fois dans cette base de données avec de
légères différences.
70R-BIB - BIBALWEB 2 http//wwwedu.ge.ch/dip/bibliow
eb
71R-BIB - essayer l outil
- Dans quelle bibliothèque puis-je trouvez un
exemplaire de la Peste de Albert Camus ? - Quelle est le numéro de téléphone à faire pour
réserver ce livre - Est-ce possible d aller consulter ce livre un
mercredi après-midi
72R-BIB - BN Opale Plus 1 http//www.ccfr.bnf.fr
73R-BIB - BN Opale Plus 2 http//www.ccfr.bnf.fr
- Catalogue collectif de France offre dès janvier
2001 14 millions de notices d ouvrages et de
périodiques des principales bibliothèque de
France.
- Catalogue BN Opale (7 millions à la bibliothèque
nationale) - Catalogue système universitaire (4 millions dans
le réseau des 100 bibliothèques universitaires) - Catalogue des fonds anciens (2 millions)
74R-BIB - BN Opale Plus 3 http//www.ccfr.bnf.fr
75R-BIB - essayer l outil
- Combien d auteurs ont pour nom Bazin ?
- Citez nous un titre d Hervé Bazin
- Où puis-je consulter cet ouvrage ?
76R-BIB - RERO 1 http//www.rero.ch
77R-BIB - RERO 2 http//www.rero.ch
- La base de données bibliographiques RERO (Réseau
des bibliothèques de Suisse occidentale) contient
la plupart des documents - des bibliothèques cantonales universitaires et
- des bibliothèques spécialisées de Suisse romande.
- Le système informatique s'appelle VTLS (Virginia
Tech Library System). Il s'agit d'un système
américain, adopté par la Bibliothèque nationale
suisse, que l'on retrouve, en outre, dans de
nombreuses bibliothèques européennes (Finlande,
Ecosse, Catalogne, Belgique, Pologne, Russie,
etc.).
78R-BIB - RERO 3 http//www.rero.ch
79R-BIB - essayer l outil
- Préparez rapidement une petite liste des ouvrages
(bibliographie) de Jacques Chessex, avec les
titres et la date présumée de la première édition.
80R-BIB - Nebis 1 http//www.nebis.ch
81R-BIB - Nebis 2 http//www.nebis.ch
- Réseau de bibliothèques
- et de centres d'information en Suisse
- Plus de 60 bibliothèques d'universités, de HES et
d'organismes de recherche de toutes les régions
linguistiques se sont rassemblées dans le réseau
de bibliothèques et de centres d'information en
Suisse (NEBIS). - Le catalogue NEBIS contient environ 2 millions de
titres livres, séries, revues et supports non
book. La plupart des documents peuvent être
commandés en ligne. Pour pouvoir emprunter des
livres, il est impératif de s'inscrire comme
usager auprès d'une bibliothèque NEBIS.
82R-BIB - Nebis 3 résultats standard
83R-BIB - Nebis 4 résultats ISBD
84R-BIB - Nebis 5 résultats citation
85R-BIB - Nebis 6 résultats MARC
86R-BIB - Essayer l outil
- Vous recherchez une publication d
- Alain Jacquesson sur l informatique
- et les bibliothèques et désirez le localiser.
87R-BIB - maîtriser l outil
- Combien d exemplaires du livre
- Dictionnaire des difficultés de la langue
française / par Adolphe V. Thomas .- Larousse,
1980 ou 1988 - Se trouvent au DIP-GE
- En Suisse romande,
- En France
88Protéger les jeunes !
- Si Internet est une porte sur le monde
- 48 des jeunes canadiens ne se fient pas à tout,
- 50 ont consulté des sites pornographiques,
- 25 ont visité des sites racistes ou haineux ,
- 40 ont établi des contacts par chat ,
- 15 ont rencontré des gens connus sur le WEB.
- Alors faisons attention dans nos médiathèques.
89Conclusion - créez vos signets
- Avoir le réflexe de mettre dans les Références ou
signets les bonnes adresses - Constituer des dossiers par thèmes
- Possibilités d exporter et/ou d importer les
signets - dun ordinateur à un autre
- sur pages Word ou WEB
90Conclusion - bibliographie
- Trouver de l information sur le WEB / Olivier
Andrieux. - Eyrolles, 2001 - La recherche intelligente sur lInternet outils
et méthodes / Henry Samier, Victor Sandoval.
Hermès, 1998 - Moteurs de recherche pour le Web /Alfred et Emily
Glossbrenner. First interactive, 1999 - Trouver tout sur Internet. - Micro Application,
2001 - Internet mode d emploi pour enseignant
/Dominique Ruhlmann. - CRDP de Bretagne, 2001 - http//www.adbs.fr/adbs/sitespro/lardy/risi.htm
- http//formist.enssib.fr/412567A0004D098D/Vframese
t/EAUTO - http//www.ac-grenoble.fr/giri/index.htm
- http//www.ccr.jussieu.fr/urfist/fourmi.htm