WWW: M - PowerPoint PPT Presentation

About This Presentation
Title:

WWW: M

Description:

P ginas que tienen muchos links de salida son llamadas conectores (hubs) ... entrada desde buenos conectores (hubs) y buenos hubs vienen de enlaces de salida ... – PowerPoint PPT presentation

Number of Views:52
Avg rating:3.0/5.0
Slides: 24
Provided by: infU1
Category:
Tags: www | hubs

less

Transcript and Presenter's Notes

Title: WWW: M


1
WWW Máquinas de BúsquedaM. Andrea Rodríguez
TastetsDIIC - Universidad de Concepciónhttp//ww
w.inf.udec.cl/andrea
2
Ranking
  • Modelos más usados Boolean o Vector y sus
    variaciones
  • Ranking tiene que ser realizado con acceso sólo a
    los índices y no el texto
  • Acerca de los algoritmos, la información es
    secreta y es casi imposible tener una medida de
    recall

3
Ranking
  • Yuwono y Lee (1997) propusieron tres algoritmos
    de ranking (plus tf-idf scheme)
  • Boolean spread (Boolean clásico más simplified
    link analysis)
  • Most-cited (basado sólo en los términos incluidos
    en páginas que tienen un link a las páginas en la
    respuesta)
  • Vector Spread Activation (Vector space model y
    spread activation model) (relativamente superior,
    75)
  • Boolean spread y vector spread usan modelos
    clásicos extendidos con páginas apuntadas por
    páginas en la respuesta o páginas que apuntan a
    la respuesta.

4
Ranking
  • Algunos nuevos algoritmos también usan
    información de hyperlink
  • Diferencia importante entre la Web y IR en
    databases el número de hyperlinks que apuntan a
    una página refleja una medida de popularidad y
    calidad.
  • Links entre páginas frecuentente indican una
    relación entre ellas.

5
Ranking
  • Ejemplos de rankings basados en análisis de
    links
  • WebQuery, el cual permite browsing visual de
    páginas Web. Toma un conjunto de páginas Web y
    las ordena en base a cuán conectadas están.
    También extiende el conjunto de páginas a un
    conjunto de páginas altamente conectadas.

6
Ranking
  • WebQuery

7
Ranking
  • Ranking de Kleinberg depende de la consulta y
    considera el conjunto de páginas S que apunta a o
    son apuntadas por la respuesta.
  • Páginas que tienen muchos links que apuntan a
    ellas en S son llamadas autoridades (authorities)
  • Páginas que tienen muchos links de salida son
    llamadas conectores (hubs)
  • Mejores páginas authorities vienen de links de
    entrada desde buenos conectores (hubs) y buenos
    hubs vienen de enlaces de salida de buenas
    authorities.

8
Ranking

   
9
Ranking
  • PageRank simula un usuario que navega
    aleatoriamente en la Web, quien salta a una
    página aleatoria con probabilidad q o que sigue
    un hyperlink aleatorio (en la página actual) con
    probabilidad 1 - q.
  • Este proceso es modelado como una cadena de
    Markov, donde la probabilidad estacionaria de
    estar en cada página puede ser calculada.
  • Sea C(a) el número de enlaces de salida de una
    página a y suponga que página a está apuntada por
    páginas p1 a pn

10
Ranking
11
Crawling la Web
  • Comienza con un conjunto de URLs y desde ellos
    extrae los URLs, los cuales son seguidos
    recursivamente en un enfoque breadth-first o
    depth-first.
  • Máquinas de búsqueda permiten a usuarios enviar
    los sitios Web top que serán agregados a la lista
    de URL.
  • Una variación es comenzar con un conjunto de URL
    populares,porque se espera que ellas tengan
    frecuentes requerimientos de información.

12
Crawling
  • Ambos casos trabajan bien para un crawler, pero
    es difícil coordinar muchos crawlers de manera de
    evitar visitar la misma página más que una vez en
    un recorrido.
  • Otra técnica es dividir la Web usando códigos de
    países o nombre de Internet, y asignar un o más
    robots a cada partición.
  • Considerando como la Web es atravezada, el índice
    de máquina de búsqueda puede ser pensada de una
    forma análoga a las estrellas en el cielo. Lo que
    uno ve no existe tal cual, ya que la luz ha
    atravezado diferentes distancias hasta nuestro
    ojo.

13
Crawling
  • Similarmente, páginas Web referenciadas en un
    índice son también exploradas en diferentes
    momentos.
  • Cuán actualizadas son las páginas Web en un
    índice? Las páginas son de un día a un dos meses
    viejas. Por esta razón, muchas máquinas de
    búsqueda muestran en la respuesta la fecha cuando
    la página fue indexada.
  • El porcentaje de enlaces inválidos almacenados en
    máquinas de búsqueda varía de 2 a 9

14
Crawling
  • Usuarios crean páginas que son recorridas o
    indexadas después de unos pocos días o semanas.
  • Algunas máquinas atraviezan la Web completa,
    mientras otros seleccionan sólo un cierto
    subconjunto de depth de recorrdio.
  • Han páginas que aprenden la frecuencia de cambio
    de una página y la visita de acuerdo a eso.
  • Los crawlers actuales son capaces de atravezar
    hasta 10 millines de páginas Web en un día.

15
Crawling
  • El orden que los URL son visitados es importante
  • Usando una política breadth first, se busca todas
    las páginas enlazadas a la actual primero. Esto
    es bueno para sitios que están bien estructurados
    por tópicos relacionados. Por otro lado, la
    cobertura puede ser amplia pero poco profunda y
    un servidor Web puede ser bombardeado por muchos
    requerimientos.
  • En el caso de depth first, se sigue el primer
    enlace y así sucesivamente hasta no se puede ir
    más profundo.
  • Un buen esquema de ordenamiento puede hacer la
    diferencia para visitar las mejores páginas
    primero (PageRank)

16
Crawling
  • Esquema de ordamiento alternativos
  • Estrategias con ninguna información adicional
  • backlink-count
  • batch-pagerank
  • partial-pagerank
  • OPIC (weighted backlink strategy)
  • largest site first.
  • Estrategias con información histórica
  • Estrategias con toda la información

17
Crawling
18
Crawling
  • Debido a que los robots pueden sobrepasar un
    servidor y usar ancho de banda significativo de
    la Internet, un conjunto de guías para la
    conducta de robots debe ser desarrollada.
  • Crawlers puden tener problemas con páginas HTML
    que usan mapas o frames. Adicionamente, páginas
    generadas dinámicamente no pueden ser indexadas
    como tampoco, páginas protegidas por password.

19
Indices
  • La mayoría de los índices son variaciones del
    índice invertido.
  • Un archivo invertido es una lista de palabras
    ordenadas, cada una de las cuales apunta a las
    páginas donde existe.
  • Algunas máquinas de búsqueda usan eliminación de
    stopwords para reducir el tamaño del índice.
    Normalización puede incluir remover puntuación y
    múltiple espacios.
  • Dar al usuario alguna idea acerca del documento
    recuperado, el índice entrega una descripción
    corta de la página Web.

20
Indices
  • Asumiendo que 500 bytes son usados para almacenar
    un URL y una descripción, se necesitan 50Gb para
    almaenar 100 millones de páginas
  • Como el usuario recibe inicialmente sólo un
    subconjunto de la respuesta completa a una
    consulta, las máquinas de búsqueda almacenan la
    respuesta completa.

21
Indices
  • Técnicas de indexación pueden reducir el espacio
    del archivo invertido hasta un 30 de tamaño del
    texto (menos si stopwords son eliminadas). Para
    100 millones de páginas, esto implica 15 Gb de
    disco duro.
  • Una consulta es respondida por un búsqueda
    binaria en la lista ordenada de palabras de un
    archivo invertido.
  • Búsqueda por múltiple palabras, los resultados
    tienen que ser combinados para general una
    respuesta final.
  • Problema frecuencia de la palabra

22
Indices
  • Archivos invertidos pueden también apuntar a la
    posición exacta de ocurrencia de una palabra,
    pero es muy costoso.
  • Tener la posición exacta permite responder
    preguntas de frases o proximidad.
  • Actualmente no se conoce cómo las máquinas de
    búsqueda permiten búsqueda por frases.

23
Indices
  • Apuntar a una página o una posición es una
    indicación de la granularidad de un índice.
  • Los índices pueden ser menos densos si apuntan a
    un bloque lógico
  • Reduce la varianza dada por los tamaños de
    documentos, haciendo bloques del mismo tamaño.
  • Reduce el tamaño de los punteros
  • Reduce el número de referencias
Write a Comment
User Comments (0)
About PowerShow.com