La Recherche dInformation sur le Web - PowerPoint PPT Presentation

1 / 31
About This Presentation
Title:

La Recherche dInformation sur le Web

Description:

contexte de la RI, Usage de l'info, Appropriation des outils. formulation des requ tes ... Panorama et utilisation des outils de recherche du web. les bases de ... – PowerPoint PPT presentation

Number of Views:40
Avg rating:3.0/5.0
Slides: 32
Provided by: uni54
Category:

less

Transcript and Presenter's Notes

Title: La Recherche dInformation sur le Web


1
La Recherche dInformation sur le Web
  • De la documentation électronique de votre
    université aux outils du Web
  • Gabriel Gallezot - Urfist Paca-c
    10/12/07
  • Gallezot-at-unice.fr

29/11/07
2
Programme
  • Rappel sur la Recherche dInformation (RI)
  • contexte de la RI, Usage de linfo, Appropriation
    des outils
  • formulation des requêtes (des questions)
  • lIndexation notion centrale
  • Panorama et utilisation des outils de recherche
    du web
  • les bases de données
  • Dico co
  • OA co
  • Outils 2.0
  • Moteurs
  • les répertoires

3
Le contexte de la Recherche d'Information
4
Usage de linformation
Rechercher IR/épistémè

Types de documents
Formats de documents
Accès aux documents
5
Les ressources
  • En BU
  • Les catalogues
  • Les bases de données
  • Les périodiques
  • Les encyclopédies et dictionnaires
  • Les livres électroniques
  • Les cédéroms
  • Web  gratuit 
  • les bases de données
  • Dico co
  • OA co
  • Outils 2.0
  • Moteurs
  • les répertoires

6
La RI en contexte - différentes sources -
différents outils - différents contextes
Source Info_at_vis
7
Appropriation des outils
The Machine is Us/ing Us
Introducing the book
8
La Recherche dInformation
- Bien appréhender votre question- Bien
appréhender ce que vous cherchez et où vous le
cherchez- Comprendre lenvers du décor
lindexation- Bien gérer ses requêtes
9
Quelques questions
  • Quels documents sont d'intérêt pour moi (ma
    question) ?
  • Est-ce que d'autres documents assez proches de
    mon intérêt peuvent être également considérés ?
  • Les titres d'autres documents pourraient-ils
    déclencher des idées valables pour ma recherche
    d'information ?
  • Comment mes mots-clés sont-ils réellement
    distribués dans un des document ?
  • ....
  • Trois notions à considérer
  • Relevance (correspondance a ma question)?
  • Pertinence (ce qui m'intéresse vraiment)
  • Serendipity (quelle chose que je ne recherchais
    pas mais qui pourrait également m'intéresser)

10
Aiguille(s) et botte(s) de foin
  • Chercher une aiguille dans une botte de foin
    cest
  • trouver une aiguille connue dans une botte de
    foin connue
  • trouver une aiguille connue dans une botte de
    foin inconnue
  • trouver une aiguille inconnue dans une botte de
    foin inconnue
  • trouver n'importe quelle aiguille dans une botte
    de foin
  • trouver Koll, 00
  • gt 3 façons de recherche linformation
  •  chercher de l'information sur un objet bien
    défini
  • chercher de l'information sur un objet
    incomplètement décrit mais qui sera
    reconnaissable dès qu'un le rencontrera
  • trouver de l'information de manière fortuite. 
    (Toms)?

11
Où chercher ?
  • Information contenue sur les ordinateurs
    individuels
  • plusieurs millions dordinateurs inter-connectés

P2P
  • bases de données spécialisées
  • Contenu dynamique
  • Index partiel des sites
  • Interdiction dindexation

Web invisible
  • 10 Milliards de
  • Pages web
  • Forum de
  • discussion

Web visible et Web 2.0
  • Contenu indexable,
  • contenu taggé

À partir de Source Eric Boutin
12
La notion dindexation(une notion transversale
et centrale)?
  • Indexer/classer pour retrouver (mots
    clés/répertoire, )?
  • Les métadonnées (entête)?
  • La structuration du document (corps)?
  • Classification
  • Index
  • Thésaurus
  • Taxonomie
  • Facette
  • Ontologie

13
Gestion du bruit et du silence
Documents non relevants
Documents relevants
Corpus
Bien gérer VOS REQUETES !
14
Documents non retrouvés
Documents retrouvés
Bien gérer VOS REQUETES !
non relevants (bruit)?
relevants
Relevants (silence)?
non relevants
Documents retrouvés
Document non retrouvés
Optimiser sa recherche d'information
15
Les opérateurs booléens
  • Exemple
  • Ensemble A
  • cours
  • tutorial
  • Ensemble B
  • tutorial
  • gratuit
  • Ensemble C
  • Payant

cours ou tutorial
Cours
OR
Tutorial
tutorial et gratuit
tutorial
AND
gratuit
Protection
cours
AND NOT
cours sauf payant
payant
Les booléens sur GIRI http//www.bibl.ulaval.ca/
vitrine/giri/mod3/booleen.htm
16
Les types de recherche
  • La recherche lexicale (morphologique) la
    recherche d'un mot ou d'un groupe de mots,
    notamment par le biais de requêtes booléennes
    (et, ou, etc.). Une fonction à laquelle
    s'ajoutent des opérateurs d'adjacence et de
    proximité. Tous des moteurs proposent en général
    ce type de possibilités.
  • La recherche syntaxique elle permet de
    retrouver un terme quelle que soit sa déclinaison
    (plurielle, conjuguée, etc.), et d'étendre la
    recherche aux mots synonymes ou de même racine
    étymologique. Cette recherche offre également des
    modules de recherche floue ou de phonétisation.
  • La recherche statistique lorsque la recherche
    s'effectue sur les mots, une analyse statistique
    permet de calculer la pertinence de ces mots par
    rapport au référentiel documentaire.
  • La recherche sémantique l'opération s'effectue
    à partir d'une analyse du sens de la requête,
    c'est-à-dire en recherchant les mots
    sémantiquement proches de ceux qu'elle utilise.
    La recherche s'appuie alors sur un dictionnaire
    sémantique qui, à chaque mot de la langue,
    associe leurs différents sens.
  • La combinaison des recherches sémantique,
    syntaxique, lexicale et statistique permet aux
    éditeurs de proposer des fonctions avancées
    résumé de documents, classement et sélection
    optimisés des réponses, jusqu'aux assistants de
    requêtes (conçus pour permettre à l'utilisateur
    d'affiner sa demande en lui proposant des
    requêtes connexes ou enrichies)

17
Exemples doutils(panorama)
18
Les bases de données
  • Pubmed (Base biblio http//www.ncbi.nlm.nih.gov/
    sites/entrez )
  • (Tutoriel complet Urfist de Strasbourg
    http//urfist.u-strasbg.fr/supports/bddbi_co/pubme
    d/m1001.html
  • Article Inist (catalogues http//services.inis
    t.fr/public/fre/conslt.htm
  • Images http//www.jupiterimages.fr (regroupe
    Librededroits.com, Goodshoot, AgenceImages et
    Stockimage)
  • Sons Lencyclopedie Sonore, http//e-sonore.u-p
    aris10.fr/e-sonore/main.php?dajsearch_smallsid
    refCAE92LEG08
  • Librairies en ligne (Amazon, chapitre.com, )?

19
Dico and Co
  • Wikipedia http//fr.wikipedia.org/wiki/Accueil
  • Les dictionnaires http//www.dictionnaire-mediad
    ico.com/ http//www.les-dictionnaires.com/
  • TermScience (lexiques, dictionnaires, thesaurus)
    http//www.termsciences.fr (pluging FF)?
  • CNRTL Centre National de Ressources Textuelles
    et (Morphologies, Lexicographie, Etymologie,
    Synonymie, Antonymie, Proxémie, Concordance)
    http//www.cnrtl.fr/lexicographie/

20
OA Co
  • HAL http//hal.archives-ouvertes.fr/
  • Revues.org http//www.revues.org/
  • OAIster http//www.oaister.org/

21
Outils du web2.0(fonction recherche uniquement)
  • Signets Del.ici.ous (http//del.icio.us/ ),
    digg (http//www.digg.com/ ),
  • Ref biblio CiteUlike (http//www.citeulike.org/
    ), Bibsonomy (http//www.bibsonomy.org/ ),
  • illustrations Flickr (http//www.flickr.com/ ),
    youtube (http//www.youtube.com/ ),
  • Présentations (PPT http//www.slideshare.net )

22
Les outils de recherche du web(moteurs,
annuaires et autres)
  • Google scholar http//scholar.google.com
  • Lecdi http//www.lecdi.net/
  • In extenso http//www.in-extenso.org/
  • Exalead http//www.exalead.fr
  • Kvisu http//beta.kvisu.com/
  • Ixquick http//www.eu.ixquick.com/fra/
  • Wayback machine http//www.archive.org/
  • Wikio (blogs) http//www.wikio.fr/blogs
  • Yahoo (Mindset) http//mindset.research.yahoo.co
    m/
  • Open directory project http//www.dmoz.org/

23
Les répertoires
  • Répertoire critique en SHS http//album.revues.org
    /
  • Répertoire de Bases de données en SHS, CALAME
    http//calame.ish-lyon.cnrs.fr/
  • Répertoire de revues Open Access, DOAJ
    http//www.doaj.org/
  • Répertoire d'Archive Ouverte, OpenDOAR
    http//www.opendoar.org/
  • Répertoire du CHU de Rouen (revues dans le
    domaine Biomed) http//www.chu-rouen.fr/documed/
    cbc.html
  • Répertoire de ressources  academiques  Bubl ,
    http//bubl.ac.uk/
  • Répertoire de BdD gratuites (Dadi)
    http//dadi.enssib.fr/
  • Répertoire web2.0 http//www.go2web20.net/
  • Search engines watch http//searchenginewatch.co
    m/showPage.html?pagelinks

24
 Mon environnement de recherche 
  • Quelques exemples
  • Mes extensions FF (mes moteurs, zotero,)
  • Mon moteur de recherche (co-op/customsearch)?
  • Mon portail Ning, netvibe, Igoogle, facebook,

25
Vos questions
?
26
et en plus
27
Moteurs (remarques)?
  • Interfaçage http//www.touchgraph.com/TGGoogleBr
    owser.html
  • Comprendre la relation entre les moteurs
    http//www.search-this.com/search_engine_decoder.a
    sp

28
Méthodologie de recherche
  • 2 guides
  • CERISE http//web.ccr.jussieu.fr/urfist/cerise/
  • InfoSphere http//www.bibliotheques.uqam.ca/Info
    Sphere/sciences_humaines/index1.html
  • Et aussi REPERE http//repere.enssib.fr/frontOff
    ice/afficheArticle.asp?idTheme13

29
Stratégie de requête (exemple)?
Google
Inurldurand intitle  durand pierre  Site
durand inurldurand  intitle  durand
pierre   durand pierre  Durand pierre
bruit
silence
Source Eric boutin
30
Les deux aspects des outils de recherche
Base de données
Propagation electrons
1
2
Collecte et stockage
Fournir à Linternaute 10 à 20 réponses
pertinentes
Source Eric Boutin
31
Le point de départ de Google
Comprendre le ranking http//professeurs.esiea.f
r/wassner/?2007/06/03/74-l-algorithme-pagerank-com
ment-ca-marche
Analyse de la citation SCI Eugène Garfield
Article 1
Article 2
Duchemin Bla bla bla Dugenet(89)?
Dugenet Bla bla bla Dumoulin(79)?
PAGERANK (
Google
)?
PAGERANK (
Google
)?
Linux.org
Linux.org
C
F
C
F
 un article scientifique tire sa légitimité de
la reconnaissance par ses pairs 
A
A
B
B
E
E
Yahoo!
Yahoo!
A is linked to by more
A reçoit des liens émanant de
Chaque page web a un poids appelé Pagerank
popular
sites than B
sites plus populaires que B
(
whatever the query is
)?
quelle que soit la requête
A better than B
A est meilleur que B
Source Eric Boutin
Write a Comment
User Comments (0)
About PowerShow.com