Extraction de l - PowerPoint PPT Presentation

About This Presentation
Title:

Extraction de l

Description:

Extraction de l information partir de WWW Stan Matwin cole d Ing nierie et de technologie de l information Universit d Ottawa stan_at_site.uottawa.ca – PowerPoint PPT presentation

Number of Views:122
Avg rating:3.0/5.0
Slides: 39
Provided by: StanM6
Category:

less

Transcript and Presenter's Notes

Title: Extraction de l


1
Extraction de linformation à partir de WWW
  • Stan Matwin
  • École dIngénierie et de technologie de
    linformation
  • Université dOttawa
  • stan_at_site.uottawa.ca

2
Plan
  • Motivation
  • Recherche
  • Engins
  • Filtres
  • Extraction texte mining
  • Classification
  • Étiquettage
  • Futur XML

3
Motivation
  • 800M pages, 100M/mois
  • On peut trouver tout mais comment chercher
  • Outils qui produisent et distribuent
    linformation sont là, mais outils qui
    lextraient
  • Ces outils doivent être personnalisés

4
Engins de recherche
  • Tout le monde sen sert, mais
  • On sait peu sur leur mécanique
  • À lexception de Google

5
Anatomie des engins de recherche
  • On ne sait pas grand-chose sur AV, Lycos,
    Yahoo, etc.
  • Certains détails sur Google et Clever ont
    été publiés
  • Critères de conception
  • Différences
  • Architecture
  • Structures de données

6
Objectifs
  • Concepts de base de la RI
  • Rappel (recall) pourcentage des docs pertinents
    qui sont retournés Précision pourcentage de docs
    pertinents dans les docs retournés
  • Quantité des centaines de milliers de requêtes
    par seconde
  • Qualité haute précision (pas avec les moteurs
    actuels)

7
Classement des pages
  • L'idée une page est importante quand elle est
    beaucoup "référée" (qu'il y a beaucoup de liens
    vers elle), ou "référée" par une page importante.
  • Le classement des pages (PR) est utilisé pour
    gérer les priorités. Efficace, même pour une
    recherche sur les titres de pages.

8
  • Les pages T1,,Tn pointent vers la page A, C(A)
    est le fan-out de APR(A)(1-d)
    d(PR(T1)/C(T1)PR(Tn)/C(Tn))dcoeff. de
    dumping 0,85Modèle d'un parcours au hasard du
    WebPR(p) prob. qu'un utilisateur allant au
    hasard visite p

9
Autres termes
  • Le texte de l'ancre (anchor) est associé à la
    page-cible
  • Certains aspects du balisage sont utilisés

10
Architecture de Google
  • Le serveur d'URLs envoie une liste d'URLs à
    donner aux crawlers
  • StoreServer compresse et stocke les pages
  • Indexer extrait les mots avec position, taille,
    capitalisation.
  • Les ancres contiennentles liens et leur texte
  • Sorter génère des règles inversées
  • Searcher utilise Lexicon et PR

11
Détails
  • Les mots sont stockés dans des tonneaux (codes
    wordIDs) si un doc contient un mot, le code du
    doc et le code du mot sont stockés avec la
    hitlist de ce mot dans le doc
  • Le lexique pointe vers les tonneaux invertis
    chaque mot pointe vers le code de mot et les hits

12
Fonctionnement
  • Crawling
  • Recherche
  • Ranking

13
Crawling et indexation
  • Analyse syntaxique pour obtenir des ancres et
    des mots. Robuste face aux erreurs (flexpile)
  • Indexation en parallèle hashage en tonneaux
    (barrels) en utilisant le lexique. Le problème
    des nouveaux mots

14
Recherche
  • 1 parser la requête
  • 2 convertir les mots en codes (wordIDs).
  • 3 Identifier un groupe pour chaque mot
  • 4 parcourir les listes de docs jusqu'à ce qu'on
    trouve un doc qui corresponde à tous les
    mots-clés de la requête

15
Ranking
  • S'il y a un seul mot identifier la hit list et
    son type, compter le nombre de hits de chaque
    type, faire une multiplication vectorielle
    Combiner avec le PR
  • S'il y a plusieurs mots, prendre en compte la
    proximité

16
Pour aller plus loin
  • Google ne retourne aucune page d'IBM pour la
    requête 'mainframes'
  • Beaucoup de pages qui pointent vers la page
    principale d'IBM utilisent le terme mainframe,
    donc cette page devraient être retournée.

17
  • Clever classe les pages de type "autorités"
    (authoritities) et les pages de type "moyeu"
    (hub). Les autorités sont les page qui ont un bon
    score PR. Les hubs sont les pages qui pointent
    vers plusieurs autorités. Par exemple la page de
    mon ami contient des liens vers des catalogues de
    CDs. On ne peut pas déterminer les hubs avec
    seulement le PR.
  • Clever/HITS (Hyperlink Induced Topic Search)
    commence avec un jeu initial de pages et de hubs.

18
Mathématiquement
  • Soit xp le poids de l'autorité, yq le poids du
    hub q-gtp dénote q a un lien vers p
  • Soit A la matrice d'adjacence Ai,j 1 s'il y a
    un lien entre i et j, sinon 0

19
  • x ?ATy et y ? Ax
  • x ?ATAx, et on peut faire des itérations sur les
    puissances de ATA
  • Cette séquence de puissances converge vers le
    vecteur propre de ATA
  • Donc le résultat ne dépend pas des poids de
    départ

20
  • Enlever les liens 'locaux' (Retour à la page
    principale)
  • Dérive (drift) transfert à l'autorité
    principale, par exemple le sujet des loisirs
  • Détournement (highjacking) si plusieurs pages
    d'un même site apparaissent dans l'ensemble de
    base, elles couvrent peut-être un sujet

21
  • Compensé par l'indexation partielle du contenu et
    des ancres et par la
  • division des pages en "pagelettes" pour avoir une
    séquence continue de liens
  • Les hubs marchent bien pour faire de
    l'apprentissage sur un sujet, mais sont moins
    bons pour chercher une information spécifique.

22
Autres engins
  • Altavista et Lycos ont probablement des méthodes
    simples de sélection
  • Excite semble utiliser beaucoup de propriétés des
    pages
  • Voir  What is a tall poppy among Web pages? 7th
    Intl WWW Conf.

23
Á quoi sert la classification de textes?
  • Archivage automatique
  • Filtrage de lInternet (négatif)
  • Systèmes de recommandation (positives)
  • Extraction dinformation

24
Apprentissage supervisé (classification)
  • Étant donné
  • un ensemble dexemples Tet, où chaque t est
    létiquette dune classe parmi les classes C1,Ck
    du concept qui est à apprendre
  • Trouver
  • une description de chaque classe permettant une
    bonne prédiction de la classe de nouveaux exemples

25
Classification
  • Approche habituelle
  • les exemples sont représentés sous forme de
    vecteurs de valeurs dattributs
  • La théorie est confirmée par lexpérience plus
    il y a dexemples, plus précise est la prédiction

26
Classification de textes approche habituelle
  1. enlever les mots-arrêt (stop words) et les
    marqueurs non-textuels
  2. les mots restants sont tous pris comme des
    attributs
  3. un document devient un vecteur ltmot, fréquencegt
  4. entraîner un classifieur booléen pour chaque
    classe
  5. évaluer les résultats sur un nouvel échantillon

Bag of words
27
Outils de classification des textes
  • RIPPER
  • un système dapprentissage orienté règles
  • Fonctionne bien sur de gros ensembles de traits
    binaires
  • Réseaux bayesiens naïfs
  • Efficaces (pas de recherche)
  • Simples à programmer
  • Indiquent un niveau de croyance

28
Autres ressources
  • Stop list stemmer
  • http//www.dcs.gla.ac.uk/idiom/ir_resources/lingui
    stic_utils/
  • Aussi Brill tagger
  • Analyseur syntaxique DIPETT
  • Classifieur Bayesien RAINBOW (CMU)
  • Un hub à consulter
  • http//n106.is.tokushima-u.ac.jp/member/kita/NLP/n
    lp_tools.html

29
Autres travaux
  • Yang les meilleurs résultats obtenus avec k-NN
    82,3 de précision en micro-moyenne
  • Joachim Support Vector Machine (SVM) données
    non étiquetées
  • SVM nest pas affectée par une forte
    dimensionnalité ni par la rareté des exemples.

30
SVM en classification de textes
SVM
SVM transductive Séparation maximale Marge pour
le jeu de test
  • Lentraînement sur 17 exemples dans les 10
    catégories les plus fréquentes donne une
    performance de 60 sur 3000 cas de test
    disponibles pendant lentraînement.

31
Nouveautés
  • Travail sur le texte marqué (Word, Web)
  • XML avec des marqueurs sémantiques avantages et
    inconvénients pour lAA/FD
  • Co-apprentissage
  • Fouille de textes

32
Extraction
  • Web ? base de données
  • Comment retrouver linfo dun type spécifique?
  • Classification pièces des pages ? catégories
    sémantiques
  • ou pages ? classes des pages
  • P. ex. pages des équipes, labos, chercheurs,
    programmes denseignement, étudiants, etc.

33
Classification des pages
  • Mitchell The Role of Unlabeled Data in
    Supervised Learning," T. Mitchell, Proceedings of
    the Sixth International Colloquium on Cognitive
    Science, San Sebastian, Spain, 1999 (invited
    paper)
  • Les pages de cinq universités
  • Classes prof, ét, cours,
  • Classification, mais en partant de quels
    attributs?

34
Deux représenations redondantes et suffisantes
35
Co-apprentissage
  • Comment utiliser les données non étiquetées? Ou
    comment limiter le nombre dexemples à étiqueter?
  • Deux classifieurs et deux représentations
    redondantes et suffisantes (redundantly
    sufficient)
  • entraîner les deux, appliquer les deux sur le jeu
    de test,
  • ajouter les meilleures prédictions au jeu
    dapprentissage.
  • Le taux derreur est diminué de moitié (il passe
    de 11 à 5).

36
Sciences cognitives?
  • Le co-apprentissage semble être justifié
    cognitivement
  • Modèle apprentissage détudiants par groupes de
    deux
  • Quels autres mécanismes dapprentissage
    pourraient fournir des modèles de lapprentissage
    supervisé?

37
XML
  • Idéal conçu exprès pour faciliter
    recherche/extraction
  • DTD définiront linformation de façon (balisage)
    symbolique
  • Succès dépend dacceptation de lapproche DTD
  • Conversion HTML ? XML

38
Conclusion
  • Une tâche pratique pour laquelle il faut trouver
    une solution
  • Aucune solution satisfaisante pour linstant
  • Un domaine de recherche fertile
Write a Comment
User Comments (0)
About PowerShow.com