Title: Les%20techniques%20des%20moteurs%20de%20recherche
1Les techniques des moteurs de recherche
Comment ça marche ?
Est ce que ça marche ?
Quest-ce qui marche le mieux ?
BOUTTES Cédric
2Plan
Plan
I - Le fonctionnement des moteurs de
recherche II Un mode de recherche booléen
basé sur le contenu des documents ?
indexation en texte intégral avec prise en compte
de la localisation et de la fréquence des mots
des documents III Application des
traitements linguistiques pour une recherche plus
efficace ? utilisation d index de lemmes et
technique dexpansion de requête ? utilisation
d index de groupes nominaux ? indexation
sémantique à laide des ontologies IV Des
techniques pour améliorer le classement des
résultats ? tri par popularité et tri par
clustering ? outils daide à la reformulation
des requêtes
3Fonctionnement des moteurs
FONCTIONNEMENT DES MOTEURS DE RECHERCHES
Base de données de documents indexés
1
téléchargement des pages
Serveur dindex
Crawler
indexation
2
3
interrogation de lindex et mis en forme des
résultats
Serveur Web
INTRANET
Internet
requête
?requin AND blanc ?
4Indexation en texte intégral
INDEX page 2 www.dietetique.fr F E U T
I M Poids Homme 1 0 0
0 0 0 1 Blanc 1 0
0 0 0 0 1 Recherche 1 0
0 0 0 0 1
Page Web N2 url www.dietetique.fr Texte
un homme mange le blanc dœuf
Page Web N1 url www.dents_de_la_mer.fr Titre
Le grand requin blanc. Texte ... le film où
le requin attaquait lhomme Image
INDEX page 1 www.dents_de_la_mer.fr F E
U T I M Poids Requin 2 0
0 1 1 0 4 Blanc 1 0
0 1 0 0 2 Homme 1
0 0 0 0 0 1
INDEX inversé des mots Page Poids Blanc www.de
nts_de_la_mer.fr 2 www.dietetique.fr
1 Homme www.dietetique.fr 1
www.dents_de_la_mer.fr 1 Requin www.dents_de_la
_mer.fr 4 Mange www.dietetique.fr 1
à la de d dans les par des le nos
Liste mots-vides
5Bruit et Silence
Ensemble des documents de la base
Documents pertinents trouvés
Ensemble des documents trouvés
Ensemble des documents pertinents dans la base
Rappel
Précision
SILENCE ensemble des documents pertinents non
trouvés
BRUIT ensemble des documents non pertinents
trouvés
6Source de silence
Non trouvé et pertinent SILENCE
Trouvé et pertinent
ont attaqué
Rappel
attaquera
attaque
attaquait
REQUETE UTILISATEUR REQUIN BLANC ATTAQUE
HOMME
7Index de lemmes
Doc2
Doc1
Doc3
Extraction des mots bruts
attaquera
attaquait
ont attaqué
Dico de lemmes
Analyse Syntaxique
INDEXATION
attaquer Doc1 Doc2 Doc3
Dico de lemmes
Analyse Syntaxique
ANALYSE DE LA REQUETE
REQUETE UTILISATEUR attaque
Indexation libre par fichier inverse de lemmes
8Expansion de requête
Doc1
Doc2
Doc3
Extraction des mots bruts
attaquera
attaquait
ont attaqué
INDEXATION EN TEXTE INTEGRAL
attaquera Doc1 attaquait
Doc2 ont attaqué Doc3
attaquera
attaquait
Dico de lemmes
ont attaqué
Analyse Syntaxique
ANALYSE DE LA REQUETE
REQUETE UTILISATEUR attaque
Technique dexpansion de requête
9Source de bruit
Trouvé et non pertinent BRUIT
Trouvé et pertinent
blanc doeuf
Précision
requin blanc
requin baleine
REQUETE UTILISATEUR GRAND REQUIN BLANC
10Index de groupes nominaux
Doc1
Doc2
Analyse Syntaxique du texte
Extraction de groupes nominaux
Dico
Le requin blanc a attaqué
Des requins blancs ont attaqué
Nominalisation
INDEXATION
Attaque de requin blanc Doc1
Doc2
Index inversé de groupes nominaux
Dico
Nominalisation
Analyse Syntaxique
ANALYSE DE LA REQUETE
REQUETE UTILISATEUR Une attaque de requin
blanc
Indexation libre par fichier inverse de groupes
nominaux (ou syntagme)
11Indexation sémantique
Doc1 lhomme a été victime dun grand requin
blanc
Analyse Morpho Syntaxique du texte
Extraction de mots, groupes nominaux
Ontologie
Analyse statistique pour le choix des concepts
qui serviront à indexer le document
INDEXATION
AGRESSION
requin
victime
attaque
Index des concepts extraits des documents
AGRESSION Doc1
Ontologie
AGRESSION
ANALYSE DE LA REQUETE
Analyse statistique
requin
victime
attaque
Analyse Morpho Syntaxique de la question
REQUETE UTILISATEUR Les attaques de requin
blanc sur lhomme
Indexation sémantique à laide des ontologies
12Techniques de classement
Autres techniques de classement
100
45.1
45.1
10
Méthode basée sur la co-citation
58
25.8
52.8
52.8
7.74
2) Tri par clustering
Classement des documents trouvés dans des
dossiers eux même constitués de sous-dossiers
Sujets
Type
Source
Langue
13Kartoo
Techniques daffinage lexemple de Kartoo
14CONCLUSION
- Linterrogation en mode booléen des index en
texte intégral génère du bruit et du silence. - Les techniques linguistiques permettent de
limiter ces problèmes. - Il existe des méthodes pour améliorer le
classement des résultats. - Une autre piste le Web Sémantique