Webgraph: algoritmos e m - PowerPoint PPT Presentation

1 / 57
About This Presentation
Title:

Webgraph: algoritmos e m

Description:

Webgraph: algoritmos e m todos Luciana Salete Buriol Instituto de Inform tica, Universidade Federal do Rio Grande do Sul (UFRGS) Slides de Luciana Buriol, Viviane ... – PowerPoint PPT presentation

Number of Views:76
Avg rating:3.0/5.0
Slides: 58
Provided by: LucianaSa1
Category:

less

Transcript and Presenter's Notes

Title: Webgraph: algoritmos e m


1
Webgraph algoritmos e métodos
  • Luciana Salete Buriol
  • Instituto de Informática,
  • Universidade Federal do Rio Grande do Sul (UFRGS)
  • Slides de Luciana Buriol, Viviane Orengo e
    Leandro Wives

2
Webgraph
  • O Webgraph é o grafo direcionado gerado a partir
    da estrutura de links das páginas web.
  • cada página web é um vértice
  • cada hyperlink entre páginas é um arco
    direcionado.
  • É um grafo de grande dimensão, esparso e desconexo

3
Sumário
  • Motivação e objetivos
  • Recuperação de Informações
  • Extração, armazenamento e compactação do webgraph
  • Características topológicas e propriedades do
    webgraph
  • Algoritmos de classificação
  • Algoritmos de aproximação para cálculo de
    propriedades do webgraph
  • Conclusões

4
Motivações
  • Grande dimensão atualmente possui mais de 24
    bilhões de vértices e cerca de 500 bilhões de
    arcos
  • 1998 24 milhões de páginas
  • 1999 200 milhões
  • 2003 3.5 bilhões de páginas
  • 2005 11.5 bilhões de páginas
  • 2006 24 bilhões de páginas

5
Motivações
  • É a fonte de dados utilizada por ferramentas de
    busca para organização e classificação das
    páginas web
  • Não se assemelha a outras redes
  • Diversidade de tópicos, estilos e línguas
  • Insere uma série de desafios para a área de
    computação, possibilitando o surgimento de novas
    pesquisas e novas soluções

6
Web Crawling
  • Coleta das páginas web

7
Coleta de páginas
  • A coleta das páginas é realizada por uma máquina
    de busca (web crawler)
  • Faz a busca a partir de um conjunto inicial de
    páginas
  • Após extrair a página, identifica seus links

Página web
8
Coleta das páginas
  • É preciso possuir links entrantes para ser
    coletada
  • Uma máquina de busca de grande dimensão deve
  • Identificar eficientemente páginas já extraídas
  • Processar em paralelo
  • Usar banda de rede limitada
  • Usar a política da boa educação

9
Estrutura de um crawler
  • bag ? seed
  • while bag ?
  • pick p ? bag
  • download p
  • if p is seen continue
  • parse p
  • for each q ? outlinks(p) do
  • if q is new then
  • bag ? bag ? q
  • end if
  • end for
  • store p
  • end while

10
Estrutura de um crawler
  • bag ? seed
  • while bag ?
  • pick p ? bag
  • download p
  • if p is seen continue
  • parse p
  • for each q ? outlinks(p) do
  • if q is new then
  • bag ? bag ? q
  • end if
  • end for
  • store p
  • end while

11
Coleta das páginas
  • Problemas práticos
  • Tempo x espaço. Ex 42 milhões de páginas html do
    domínio italiano, tendo em média 10 KB por página.

12
Coleta das páginas
  • Algumas máquinas de busca
  • WIRE Universidade do Chile
  • UbiCrawler Universidade Estadual de Milão
  • Nutch (www.nutch.org) USA, implementado em Java,
    fácil instalação e utilização, opções para
    usuário
  • Maiores detalhes em
    http//www.dis.uniroma1.it/buriol/Query.ppt
  • As máquinas de busca comerciais, como Google,
    Yahoo, Alta Vista, TodoBR, não são de domínio
    público

13
Armazenamento do dados
  • Armazenamento do webgrafo e/ou conteúdo das
    páginas?
  • páginas de diversos formatos html, txt, doc,
    pdf, ps, ppt, etc
  • Uma página web sem figuras, tem tamanho médio de
    10 a 14 Kb

14
Recuperação de Informações na Web
  • Trata da representação, armazenamento,
    organização e acesso à informação referente às
    páginas web
  • R. Baeza-Yates e B. Ribeiro-Neto, Modern
    Information Retrieval, 1999, www2.dcc.ufmg.br/livr
    os/irbook

15
(No Transcript)
16
O processo de IR
  • O usuário tipicamente precisa traduzir sua
    necessidade de informações em forma de uma
    consulta (keywords).
  • Exemplo
  • Necessidade de Informação Quais as vinícolas do
    RS que produzem vinho com a uva Melot?
  • Palavras-chave vinícola RS merlot

17
Índice invertido
Lista de postings
Índice (dicionário)
18
Dicionário de Termos observações
  • Cerca de 100 milhões de palavras!
  • Uma estimativa de Grossman e Frieder (2004), 2
    milhões de termos ocupam menos de 32MB (sem
    compressão)
  • Busca binária, com complexidade relativamente
    baixa O (log n) ou
  • Funções hash com lista de colisão
  • Em coleções dinâmicas, usar outras estruturas
    (TRIE, PAT, PATRICIA, B-TREES)

19
Componentes de um sistema de IR
20
Formato do Webgraph
  • os nós recebem identificadores
  • Representação do grafo no formato IPS lista de
    adjacência forward and backward
  • Dividido em vários arquivos
  • Tamanho para um conjunto de 200 milhões de
    páginas 15 GB (21 arquivos)

21
Link Analysis
  • Identificação da estrutura topológica do grafo
  • Cálculo de diversas propriedades do grafo
  • classificação das páginas web

22
Medidas Elementares
  • Distribuição do indegree e outdegree
  • É referente ao número de páginas que possuem grau
    di, para i1,2maxd
  • Em geral a distribuição para o webgraph se
    apresenta como uma power law a probabilidade de
    um nó possuir degree d é proporcional a para
    algum ?gt1

23
Distribuição do grau das páginas
24
Indegree Distribution
25
Outdegree Distribution
26
Pagerank Distribution
27
Estrutura Macroscópica do Webgraph
28
Identificando tentáculos e tubos
29
Ilhas nós restantes
30
Medidas da estrutura bow-tie para wikigraphs
31
Biblioteca de Algoritmos para Análise de grafos
de grande dimensão
  • Desenvolvida no Dipartimento di Informatica e
    Sistemistica della Universita La Sapienza, Roma,
    Itália.
  • Disponível gratuitamente em http//www.dis.unirom
    a1.it/cosin/html_pages/COSIN-Tools.htm
  • Documentação em http//www.dis.uniroma1.it/cosin
    /publications/deliverableD13.pdf

32
Estrutura da Biblioteca
  • Generators
  • Measures
  • Search algorithms
  • Bow-tie discovering
  • File converters
  • Miscellaneous

33
Pagerank
  • As páginas web são apresentadas em ordem
    decrescente de seu pagerank
  • PageRank (PR) é um valor numérico que representa
    o quão importante uma página é
  • Simula o procedimento de um internauta!
  • Selecione uma página ao acaso (aleatória)
  • Repita até convergir
  • com probabilidade ??visita uma página vizinha
  • com probabilidade 1-??visita uma página vizinha
  • Em geral ????????

34
PageRank algorithm BP 97
  • Um nível de propagação
  • Boas paginas devem ser apontadas por boas paginas!

1/3
1/3
1/3
35
PageRank propagação do ranking
36
Algoritmo HITS (Kleinberg)
  • Define
  • Autority páginas com muitos links de entrada
  • Hub páginas com muitos links de saída
  • Inicialize todos pesos com valor 1
  • Repita ate convergir
  • Os hubs recebem os pesos dos authorities
  • Os authorities recebem os pesos dos hubs
  • Normalize os pesos

37
Pagerand and HITS Algorithms
  • ambos são algoritmos iterativos
  • cálculo através de um processo algébrico
  • convergem para o principal autovetor da matriz de
    links da do webgraph (matriz de transição de uma
    cadeia de Markov)

38
Algoritmos de Classificação
  • Outros alg. de classificação Salsa, ExpertRank,
    etc.
  • Avaliação
  • Classificação adequada
  • Cálculo rápido
  • Estabilidade
  • Menos susceptível a link spamming

39
Algoritmos de memória secundária
  • O grafo não pode ser carregado em memória
    principal, mas armazenado em memória secundária
  • Algoritmos de memória secundária buscam minimizar
    o acesso a disco
  • Tratando-se de grafos de grande dimensão, quase
    na totalidade os algoritmos não são executados em
    memória principal
  • Algoritmos de memória principal, semi-externos e
    de memória secundária

40
Webgraph do domínio .br
  • Um novo retrato da web brasileira, M. Modesto, A.
    Pereira, N. Ziviani, C. Castillos, R.
    Baeza-Yates, 2005 (Brasil Chile)
  • domínio .br
  • 7.7 milhões de páginas e 126 milhões de links
    (média de 16 links por página)

41
Webgraph do domínio .br
  • Média de 14,4 Kb por página. Anteriormente era de
    9 Kb (Um retrato da web brasileira, Veloso et al,
    2000)
  • 6.4 das páginas são duplicadas
  • 41.7 das páginas são dinâmicas

42
Webgraph do domínio .br
  • Idioma
  • português 88,6
  • inglês 11,2 e
  • espanhol 1,16
  • Domínio
  • 91.1 com.br
  • 2.7 org.br
  • 0,3 edu.br

43
Propriedades Avançadas
  • Cálculo do número de triângulos do grafo
  • Cálculo do número de cliques bipartidos de
    pequena dimensão
  • Cálculo do coeficiente de clustering

44
Comunidades Web emergentes
  • Identifique todos cliques bipartidos de dimensão
  • 3 i 10

45
Bases de Dados Alternativas
  • Wikipedia www.wikipedia.org
  • maior enciclopédia online do mundo
  • Cada artigo é um nó e cada hyperlink entre
    artigos é um arco do grafo
  • Poucos links externos
  • Um grafo pode ser gerado para cada língua
  • Língua Inglesa 1.250.000 nós (15 arcos por nó)
  • Possui informação temporal

46
Algoritmos de Data Stream
  • algoritmos de aproximação baseados em
    probabilidade
  • usam memória limitada
  • Originalmente dados são lidos uma única vez em
    forma de stream
  • Usam sketch (tipo e numero de funções hash) ou
    amostragem (amostra e tamanho da amostragem)
  • Já propostos triângulos, cliques bipartidos e
    coeficiente de clustering

47
Contando o Número de Triângulos de um Grafo
T1
T2
T3
T0
48
Contando o Número de Triângulos de um Grafo
  • O que é uma amostra?

49
Contando o Número de Triângulos de um Grafo
  • Quantas amostras deste tipo tem um grafo?
  • A seguinte propriedade e verdadeira para qualquer
    grafo
  • T1 2T2 3T3 E(V-2)
  • Triplas do tipo T0 nao fazem parte desta amostra

50
Contando o Número de Triângulos de um Grafo
  • Os algoritmos podem se beneficiar da estrutura
    dos dados
  • Em geral são polinomiais de baixa ordem
  • Motivação necessidade de cálculos on the fly,
    cálculo de propriedades do webgraph, redes de
    sensores, etc.

51
Compressão
  • Níveis de compressão
  • Conteúdo da página
  • URL da página
  • Webgraph
  • Usa técnicas especializadas que permitem grande
    compressão e rápido acesso aos dados.

52
Observações levadas em consideração para
compressão
  • Consecutividade muitos links num mesmo web site
    são similares lexicograficamente.
  • Ex http//my.sample.com/whitepaper/nodeA.html
  • http//my.sample.com/whitepaper/nodeB.html
  • Localidade cerca de 80 dos links são locais, ou
    seja, apontam para páginas no mesmo domínio
  • Similaridade Páginas do mesmo domínio tendem a
    ter muitos links que apontam para as mesmas
    páginas

53
Compressão das URLs
54
Lista de Adjacência em Código Delta
55
Lista de Adjacência em Código Delta
56
Compressão do Webgraph
  • Melhor compressão (3.08 2.89) bits por arco
    Universidade Estadual de Milão (http//webgraph.ds
    i.unimi.it)
  • Compressão vs. tempo de acesso
  • Acesso seqüencial e aleatório

57
Conclusões
  • Tópico atual, com muitos trabalhos em aberto e
    muitas conferências na área
  • Deve-se ter uma visão geral, mas especializar-se
    em poucos tópicos
  • Reúne resultados de diversas áreas
  • Equilíbrio entre teórico e pratico
  • Os estudos são recentes, de interesse atual, e
    ainda carece de muita pesquisa
  • Muitos problemas de dimensões diversas

58
Tópicos de Interesse
  • GERAL Algoritmos e Otimização
  • Algoritmos de memória secundária
  • propor algoritmos de data stream para o cálculo
    de propriedades avançadas
  • Geração de grafos sintéticos
  • evolução temporal do grafo geração de grafos,
    propriedades e classificação.
  • determinar como tais propriedades podem aprimorar
    as ferramentas de busca

59
Áreas Relacionadas
  • Algoritmos
  • Recuperação de informações
  • Mineração de dados
  • Banco de dados
  • Inteligência Artificial
  • Processamento de Linguagem natural

60
Contato
  • Luciana Salete Buriol
  • buriol_at_inf.ufrgs.br
  • www.inf.ufrgs.br/buriol
Write a Comment
User Comments (0)
About PowerShow.com