Title: La Recherche dInformation sur le Web
1La Recherche dInformation sur le Web
- De la documentation électronique de votre
université aux outils du Web - Gabriel Gallezot - Urfist Paca-c
10/12/07 - Gallezot-at-unice.fr
29/11/07
2Programme
- Rappel sur la Recherche dInformation (RI)
- contexte de la RI, Usage de linfo, Appropriation
des outils - formulation des requêtes (des questions)
- lIndexation notion centrale
- Panorama et utilisation des outils de recherche
du web - les bases de données
- Dico co
- OA co
- Outils 2.0
- Moteurs
- les répertoires
3Le contexte de la Recherche d'Information
4Usage de linformation
Rechercher IR/épistémè
Types de documents
Formats de documents
Accès aux documents
5Les ressources
- En BU
- Les catalogues
- Les bases de données
- Les périodiques
- Les encyclopédies et dictionnaires
- Les livres électroniques
- Les cédéroms
- Web  gratuitÂ
- les bases de données
- Dico co
- OA co
- Outils 2.0
- Moteurs
- les répertoires
6La RI en contexte - différentes sources -
différents outils - différents contextes
Source Info_at_vis
7Appropriation des outils
The Machine is Us/ing Us
Introducing the book
8La Recherche dInformation
- Bien appréhender votre question- Bien
appréhender ce que vous cherchez et où vous le
cherchez- Comprendre lenvers du décor
lindexation- Bien gérer ses requêtes
9Quelques questions
- Quels documents sont d'intérêt pour moi (ma
question) ? - Est-ce que d'autres documents assez proches de
mon intérêt peuvent être également considérés ? - Les titres d'autres documents pourraient-ils
déclencher des idées valables pour ma recherche
d'information ? - Comment mes mots-clés sont-ils réellement
distribués dans un des document ? - ....
- Trois notions à considérer
- Relevance (correspondance a ma question)?
- Pertinence (ce qui m'intéresse vraiment)
- Serendipity (quelle chose que je ne recherchais
pas mais qui pourrait également m'intéresser)
10Aiguille(s) et botte(s) de foin
- Chercher une aiguille dans une botte de foin
cest - trouver une aiguille connue dans une botte de
foin connue - trouver une aiguille connue dans une botte de
foin inconnue - trouver une aiguille inconnue dans une botte de
foin inconnue - trouver n'importe quelle aiguille dans une botte
de foin - trouver Koll, 00
- gt 3 façons de recherche linformation
- Â chercher de l'information sur un objet bien
défini - chercher de l'information sur un objet
incomplètement décrit mais qui sera
reconnaissable dès qu'un le rencontrera - trouver de l'information de manière fortuite.Â
(Toms)?
11Où chercher ?
- Information contenue sur les ordinateurs
individuels - plusieurs millions dordinateurs inter-connectés
P2P
- bases de données spécialisées
- Contenu dynamique
- Index partiel des sites
- Interdiction dindexation
Web invisible
- 10 Milliards de
- Pages web
- Forum de
- discussion
Web visible et Web 2.0
- Contenu indexable,
- contenu taggé
À partir de Source Eric Boutin
12La notion dindexation(une notion transversale
et centrale)?
- Indexer/classer pour retrouver (mots
clés/répertoire, )? - Les métadonnées (entête)?
- La structuration du document (corps)?
- Classification
- Index
- Thésaurus
- Taxonomie
- Facette
- Ontologie
13Gestion du bruit et du silence
Documents non relevants
Documents relevants
Corpus
Bien gérer VOS REQUETES !
14Documents non retrouvés
Documents retrouvés
Bien gérer VOS REQUETES !
non relevants (bruit)?
relevants
Relevants (silence)?
non relevants
Documents retrouvés
Document non retrouvés
Optimiser sa recherche d'information
15Les opérateurs booléens
- Exemple
- Ensemble A
- cours
- tutorial
- Ensemble B
- tutorial
- gratuit
- Ensemble C
- Payant
cours ou tutorial
Cours
OR
Tutorial
tutorial et gratuit
tutorial
AND
gratuit
Protection
cours
AND NOT
cours sauf payant
payant
Les booléens sur GIRI http//www.bibl.ulaval.ca/
vitrine/giri/mod3/booleen.htm
16Les types de recherche
- La recherche lexicale (morphologique) la
recherche d'un mot ou d'un groupe de mots,
notamment par le biais de requêtes booléennes
(et, ou, etc.). Une fonction à laquelle
s'ajoutent des opérateurs d'adjacence et de
proximité. Tous des moteurs proposent en général
ce type de possibilités. - La recherche syntaxique elle permet de
retrouver un terme quelle que soit sa déclinaison
(plurielle, conjuguée, etc.), et d'étendre la
recherche aux mots synonymes ou de même racine
étymologique. Cette recherche offre également des
modules de recherche floue ou de phonétisation. - La recherche statistique lorsque la recherche
s'effectue sur les mots, une analyse statistique
permet de calculer la pertinence de ces mots par
rapport au référentiel documentaire. - La recherche sémantique l'opération s'effectue
à partir d'une analyse du sens de la requête,
c'est-Ã -dire en recherchant les mots
sémantiquement proches de ceux qu'elle utilise.
La recherche s'appuie alors sur un dictionnaire
sémantique qui, à chaque mot de la langue,
associe leurs différents sens. - La combinaison des recherches sémantique,
syntaxique, lexicale et statistique permet aux
éditeurs de proposer des fonctions avancées
résumé de documents, classement et sélection
optimisés des réponses, jusqu'aux assistants de
requêtes (conçus pour permettre à l'utilisateur
d'affiner sa demande en lui proposant des
requêtes connexes ou enrichies)
17Exemples doutils(panorama)
18Les bases de données
- Pubmed (Base biblio http//www.ncbi.nlm.nih.gov/
sites/entrez ) - (Tutoriel complet Urfist de Strasbourg
http//urfist.u-strasbg.fr/supports/bddbi_co/pubme
d/m1001.html - Article Inist (catalogues http//services.inis
t.fr/public/fre/conslt.htm - Images http//www.jupiterimages.fr (regroupe
Librededroits.com, Goodshoot, AgenceImages et
Stockimage) - Sons Lencyclopedie Sonore, http//e-sonore.u-p
aris10.fr/e-sonore/main.php?dajsearch_smallsid
refCAE92LEG08 - Librairies en ligne (Amazon, chapitre.com, )?
19Dico and Co
- Wikipedia http//fr.wikipedia.org/wiki/Accueil
- Les dictionnaires http//www.dictionnaire-mediad
ico.com/ http//www.les-dictionnaires.com/ - TermScience (lexiques, dictionnaires, thesaurus)
http//www.termsciences.fr (pluging FF)? - CNRTL Centre National de Ressources Textuelles
et (Morphologies, Lexicographie, Etymologie,
Synonymie, Antonymie, Proxémie, Concordance)
http//www.cnrtl.fr/lexicographie/
20OA Co
- HAL http//hal.archives-ouvertes.fr/
- Revues.org http//www.revues.org/
- OAIster http//www.oaister.org/
21Outils du web2.0(fonction recherche uniquement)
- Signets Del.ici.ous (http//del.icio.us/ ),
digg (http//www.digg.com/ ), - Ref biblio CiteUlike (http//www.citeulike.org/
), Bibsonomy (http//www.bibsonomy.org/ ), - illustrations Flickr (http//www.flickr.com/ ),
youtube (http//www.youtube.com/ ), - Présentations (PPT http//www.slideshare.net )
22Les outils de recherche du web(moteurs,
annuaires et autres)
- Google scholar http//scholar.google.com
- Lecdi http//www.lecdi.net/
- In extenso http//www.in-extenso.org/
- Exalead http//www.exalead.fr
- Kvisu http//beta.kvisu.com/
- Ixquick http//www.eu.ixquick.com/fra/
- Wayback machine http//www.archive.org/
- Wikio (blogs) http//www.wikio.fr/blogs
- Yahoo (Mindset) http//mindset.research.yahoo.co
m/ - Open directory project http//www.dmoz.org/
23Les répertoires
- Répertoire critique en SHS http//album.revues.org
/ - Répertoire de Bases de données en SHS, CALAME
http//calame.ish-lyon.cnrs.fr/ - Répertoire de revues Open Access, DOAJ
http//www.doaj.org/ - Répertoire d'Archive Ouverte, OpenDOAR
http//www.opendoar.org/ - Répertoire du CHU de Rouen (revues dans le
domaine Biomed) http//www.chu-rouen.fr/documed/
cbc.html - Répertoire de ressources  academiques Bubl ,
http//bubl.ac.uk/ - Répertoire de BdD gratuites (Dadi)
http//dadi.enssib.fr/ - Répertoire web2.0 http//www.go2web20.net/
- Search engines watch http//searchenginewatch.co
m/showPage.html?pagelinks
24Â Mon environnement de rechercheÂ
- Quelques exemples
- Mes extensions FF (mes moteurs, zotero,)
- Mon moteur de recherche (co-op/customsearch)?
- Mon portail Ning, netvibe, Igoogle, facebook,
25Vos questions
?
26 et en plus
27Moteurs (remarques)?
- Interfaçage http//www.touchgraph.com/TGGoogleBr
owser.html - Comprendre la relation entre les moteurs
http//www.search-this.com/search_engine_decoder.a
sp
28Méthodologie de recherche
- 2 guides
- CERISE http//web.ccr.jussieu.fr/urfist/cerise/
- InfoSphere http//www.bibliotheques.uqam.ca/Info
Sphere/sciences_humaines/index1.html - Et aussi REPERE http//repere.enssib.fr/frontOff
ice/afficheArticle.asp?idTheme13
29Stratégie de requête (exemple)?
Google
Inurldurand intitle  durand pierre Site
durand inurldurand intitle  durand
pierre  durand pierre Durand pierre
bruit
silence
Source Eric boutin
30Les deux aspects des outils de recherche
Base de données
Propagation electrons
1
2
Collecte et stockage
Fournir à Linternaute 10 à 20 réponses
pertinentes
Source Eric Boutin
31Le point de départ de Google
Comprendre le ranking http//professeurs.esiea.f
r/wassner/?2007/06/03/74-l-algorithme-pagerank-com
ment-ca-marche
Analyse de la citation SCI Eugène Garfield
Article 1
Article 2
Duchemin Bla bla bla Dugenet(89)?
Dugenet Bla bla bla Dumoulin(79)?
PAGERANK (
Google
)?
PAGERANK (
Google
)?
Linux.org
Linux.org
C
F
C
F
 un article scientifique tire sa légitimité de
la reconnaissance par ses pairsÂ
A
A
B
B
E
E
Yahoo!
Yahoo!
A is linked to by more
A reçoit des liens émanant de
Chaque page web a un poids appelé Pagerank
popular
sites than B
sites plus populaires que B
(
whatever the query is
)?
quelle que soit la requête
A better than B
A est meilleur que B
Source Eric Boutin