CS276%20Information%20Retrieval%20and%20Web%20Search - PowerPoint PPT Presentation

About This Presentation
Title:

CS276%20Information%20Retrieval%20and%20Web%20Search

Description:

CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan Lecture 9: Query expansion – PowerPoint PPT presentation

Number of Views:229
Avg rating:3.0/5.0
Slides: 53
Provided by: Christop508
Category:

less

Transcript and Presenter's Notes

Title: CS276%20Information%20Retrieval%20and%20Web%20Search


1
  • CS276Information Retrieval and Web Search
  • Christopher Manning and Prabhakar Raghavan
  • Lecture 9 Query expansion

2
Recapitulando a última aula
  • Avaliando um motor de busca
  • Benchmarks
  • Precisão e Retorno
  • Resumo dos resultados

3
Recap Avaliação de recuperação não rankeada
Precisão ou Retorno
Sec. 8.3
  • Precisão fração de documentos recuperados que
    são relevantes P(relevanterecuperado)
  • Retorno fração de documentos relevantes que são
    recuperados R(recuperadorelevante)
  • Precisão P tp/(tp fp)
  • Retorno R tp/(tp fn)

Relevante Não-relevante
Recuperado tp fp
Não recuperado fn tn
4
Recaptulando Uma medida combinada F
Sec. 8.3
  • Medida combinada que avalia o intercâmbio
    precisão/retorno é a medida F (modo de ponderação
    harmônica)
  • Pessoas normalmente usam a medida balanceada F1
  • i.e., com ? 1 ou ? ½
  • Modo harmônico é uma média conservadora
  • Veja CJ van Rijsbergen, Information Retrieval

5
Nesta aula
  • Melhorando os resultados
  • Para alto retorno. Por exemplo, para pesquisar
    aeroplano não corresponde a avião, nem
    termodinâmico com calor
  • Opções para melhorar resultados
  • Métodos Globais
  • Expansão da consulta
  • Sinônimos
  • Geração automática de tesauro
  • Métodos Locais
  • Relevância do Feedback
  • Feedback de Pseudo relevância

6
O que tem no Cap. 9
  • Conceito de Centróide
  • Rocchio
  • Otimização da Consulta
  • Feedback Positivo x Feedback Negativo
  • Pressupostos
  • Problemas
  • Estratégias de Feedback
  • Feedback Web
  • Peseudo Feedback
  • Expansão da Consulta

7
Feedback de Relevância
Sec. 9.1
  • Feedback de Relevância feedback dos usuários
    sobre a relevância dos documentos em um conjunto
    inicial de resultados.
  • Usuário cria uma consulta (curta, simples)
  • O usuário marca alguns resultados como relevantes
    ou não-relevantes.
  • O sistema computa uma representação melhor da
    necessidade de informação baseado no feedback.
  • O Feedback de relevância pode passar por uma ou
    mais iterações.
  • Idéiapode ser difícil de formular uma consulta
    boa quando você não conhece a coleção bem

8
Feedback de Relevância
Sec. 9.1
  • Usaremos recuperação ad hoc para se referir a
    uma recuperação regular sem feedback de
    relevância.
  • Vamos ver agora quatro exemplos de feedback de
    relevância que destacam aspectos diferentes.

9
Páginas Similares
10
Feedback de Relevância Exemplo
Sec. 9.1.1
  • Mecanismo de busca de imagem http//nayana.ece.ucs
    b.edu/imsearch/imsearch.html

11
Resultados para uma consulta inicial
Sec. 9.1.1
12
Feedback de Relevância
Sec. 9.1.1
13
Resultados após Feedback de Relevância
Sec. 9.1.1
14
Resultados ad hoc para a consulta canina source
Fernando Diaz
15
Resultados ad hoc para a consulta canina source
Fernando Diaz
16
Feedback do do usuário Selecione o que é
relevante source Fernando Diaz
17
Resultados após o feedback de relevância
source Fernando Diaz
18
Consulta inicial / resultados
Sec. 9.1.1
  • Consulta Inicial Novo satélite de aplicações
    espaciais
  • 1. 0.539, 08/13/91, NASA Hasnt Scrapped
    Imaging Spectrometer
  • 2. 0.533, 07/09/91, NASA Scratches Environment
    Gear From Satellite Plan
  • 3. 0.528, 04/04/90, Science Panel Backs NASA
    Satellite Plan, But Urges Launches of Smaller
    Probes
  • 4. 0.526, 09/09/91, A NASA Satellite Project
    Accomplishes Incredible Feat Staying Within
    Budget
  • 5. 0.525, 07/24/90, Scientist Who Exposed Global
    Warming Proposes Satellites for Climate Research
  • 6. 0.524, 08/22/90, Report Provides Support for
    the Critics Of Using Big Satellites to Study
    Climate
  • 7. 0.516, 04/13/87, Arianespace Receives
    Satellite Launch Pact From Telesat Canada
  • 8. 0.509, 12/02/87, Telecommunications Tale of
    Two Companies
  • Usuário então marca os documentos relevantes com
    .

19
Consulta expandida após feedback de relevância
Sec. 9.1.1
  • 2,074 new 15,106 space
  • 30,816 satellite 5,660 application
  • 5,991 nasa 5,196 eos
  • 4,196 launch 3,972 aster
  • 3,516 instrument 3,446 arianespace
  • 3,004 bundespost 2,806 ss
  • 2,790 rocket 2,053 scientist
  • 2,003 broadcast 1,172 earth
  • 0,836 oil 0,646 measure

20
Resultados para a consulta expandida
Sec. 9.1.1
  • 1. 0.513, 07/09/91, NASA Scratches Environment
    Gear From Satellite Plan
  • 2. 0.500, 08/13/91, NASA Hasnt Scrapped Imaging
    Spectrometer
  • 3. 0.493, 08/07/89, When the Pentagon Launches a
    Secret Satellite, Space Sleuths Do Some Spy Work
    of Their Own
  • 4. 0.493, 07/31/89, NASA Uses Warm
    Superconductors For Fast Circuit
  • 5. 0.492, 12/02/87, Telecommunications Tale of
    Two Companies
  • 6. 0.491, 07/09/91, Soviets May Adapt Parts of
    SS-20 Missile For Commercial Use
  • 7. 0.490, 07/12/88, Gaping Gap Pentagon Lags in
    Race To Match the Soviets In Rocket Launchers
  • 8. 0.490, 06/14/90, Rescue of Satellite By Space
    Agency To Cost 90 Million

21
Conceito-chave Centróide
Sec. 9.1.1
  • O centróide é o centro de massa de um conjunto de
    pontos.
  • Lembre-se que nós representamos documentos como
    pontos em um espaço de alta dimensão
  • Definição Centróide
  • onde C é o conjunto de documentos.

22
Algoritmo Rocchio
Sec. 9.1.1
  • O algoritmo Rocchio usa o modelo de espaço
    vetorial para escolher uma consulta de feedback
    de relevância
  • Rocchio pede a consulta qopt que maximiza
  • Tenta separar documentos marcados como relevantes
    ou não-relevantes
  • Problema não sabemos os documentos realmente
    relevantes

23
Teoricamente a melhor consulta
Sec. 9.1.1
x
x
x
x
o
x
x
x
x
x
x
x
x
o
x
x
o
x
o
x
o
o
x
x
x documentos não-relevante o documentos
relevantes
Optimal query
24
Rocchio 1971 Algorithm (SMART)
Sec. 9.1.1
  • Utilizado na prática
  • Dr conjunto de vetores de documentos
    relevantes conhecidos
  • Dnr conjunto de vetores de documentos
    irrelevantes conhecidos
  • Diferente de Cr e Cnr
  • qm vetor consulta modificado q0 vetor
    consulta original a,ß,? pesos (escolhidos a mão
    ou definidos empiricamente)
  • A nova consulta se desloca para próximo dos
    documentos relevantes e longe de documentos
    irrelevantes

!
25
Observando as sutilezas
Sec. 9.1.1
  • Balanceando a vs. ß/? Se temos um monte de
    documentos julgados, queremos um maior ß/?.
  • Alguns pesos no vetor de consulta podem ser
    negativos
  • Pesos negativos a longo prazo são ignoradas
    (definido para 0)

26
Relevância do Feedback sobre a consulta inicial
Sec. 9.1.1
Initial query
x
x
x
o
x
x
x
x
x
x
x
o
x
o
x
o
x
x
o
o
x
x
x
x
x known non-relevant documents o known relevant
documents
Revised query
27
Feedback de Relevância em espaços vetoriais
Sec. 9.1.1
  • Podemos modificar a consulta com base no feedback
    de relevância e aplicar modelo de espaço vetorial
    padrão.
  • Utiliza apenas os documentos que foram marcados.
  • feedback de relevância pode melhorar o retorno e
    precisão
  • feedback de relevância é mais útil para o
    aumento do retorno em situações nas quais o
    retorno é importante
  • Os usuários podem esperar para analisar os
    resultados e ter tempo para percorrer

28
Feedback Positivo vs Negativo
Sec. 9.1.1
  • O feedback positivo é mais valioso do que o
    feedback negativo (então, faça ? lt ? ex. ?
    0.25, ? 0.75).
  • Muitos sistemas apenas permitem feedback positivo
    (?0).

Why?
29
Aparte Espaço vetorial pode ser contra-intuitivo.
Doc J. Snow Cholera
x
x
x
x
x
x
x
x
x
o
x
x
x
x
q1
x
x
x
x
x
x
x
x
x
q1 query cholera o www.ph.ucla.edu/epi/snow.ht
ml x other documents
Query cholera
30
Alto-dimencionamento do Espaço vetorial
  • As consultas "cólera" e "John Snow" estão longe
    umas das outras no espaço vetorial.
  • Como pode o documento "John Snow e Cólera estar
    perto de ambos?
  • Nossas intuições para espaços bi- e
    tri-dimensional não funcionam em gt 10.000
    dimensões.
  • 3 dimensões se um documento está perto de muitas
    consultas, então, algumas dessas consultas devem
    estar próximos umas das outros.
  • Não mantém para um espaço de alta dimensão.

31
Relevance Feedback Pressupostos
Sec. 9.1.3
  • A1 Usuário tem conhecimento suficiente para a
    consulta inicial.
  • A2 Protótipos de relevância são
    "bem-comportadso.
  • A distribuição de termos em documentos relevantes
    serão semelhantes
  • A distribuição de termos em documentos não
    relevantes serão diferentes das dos documentos
    relevantes.
  • Ou Todos os documentos relevantes estão
    fortemente agrupados em torno de um único
    protótipo.
  • Ou Há protótipos diferentes, mas eles têm
    sobreposição de vocabulário significativa.
  • Semelhanças entre documentos relevantes e
    irrelevantes são pequenas

32
Violação do A1
Sec. 9.1.3
  • O usuário não tem conhecimento inicial
    suficiente.
  • Exemplos
  • Erros ortográficos (Brittany Speers).
  • Recuperação da informação multilíngüe (hígado).
  • Incompatibilidade de vocabulário de pesquisa vs
    vocabulário coleção
  • Cosmonauta / astronauta

33
Violação do A2
Sec. 9.1.3
  • Existem vários protótipos de relevância.
  • Exemplos
  • Birmânia / Mianmar
  • Governo políticas contraditórias
  • Estrelas Pop que trabalharam no Burger King
  • Freqüentemente instâncias de um conceito geral
  • Bom conteúdo editorial pode resolver problema
  • Relatório sobre as políticas governamentais
    contraditórias.

34
Relevance Feedback Problemas
  • Consultas longas são ineficientes para mecanismo
    de RI típico.
  • Longos tempos de resposta para o usuário.
  • Alto custo para o sistema de recuperação.
  • Solução Parcial
  • Apenas repondere certos termos proeminente
  • Talvez top 20 por freqüência do termo
  • Usuários são muitas vezes relutantes em fornecer
    feedback explícito
  • É muitas vezes difícil de entender por que um
    determinado documento foi recuperado após a
    aplicação do feedback de relevância

Why?
35
Avaliação de estratégias de feedback de relevância
Sec. 9.1.5
  • Use q0 e calcular o gráfico de retorno e precisão
  • Use qm e calcular o gráfico de retorno e precisão
  • Avaliar em todos os documentos da coleção
  • Melhorias espetaculares, mas ... é trapaça!
  • Em parte devido à maior pontuação de documentos
    conhecidos julgados como relevantes
  • Deve ser avaliada com relação aos documentos não
    visto pelo usuário
  • Use documentos na coleção residual (conjunto de
    documentos retirando aqueles avaliados como
    relevante)
  • Medidas normalmente são menores do que na
    consulta original
  • Mas é uma avaliação mais realista
  • O desempenho relativo pode ser validamente
    comparado
  • Empiricamente, uma rodada de feedback de
    relevância é frequentemente muito útil. Duas
    rodadas é marginalmente útil.

36
Avaliação dos Feedbacks de Relevância
Sec. 9.1.5
  • Segundo método - avaliar apenas os docs não
    avaliados pelo usuário no primeiro turno
  • Poderia fazer um feedback de relevância parecer
    pior do que realmente é
  • Pode ainda avaliar o desempenho relativo de
    algoritmos
  • Mais satisfatório - use duas coleções cada uma
    com suas próprias avaliações de pertinência
  • q0 e o feedback dos usuários na primeira coleção
  • qm é executado na segunda coleção e medido

37
Avaliação Caveat
Sec. 9.1.3
  • Verdadeira avaliação da usabilidade deve comparar
    com outros métodos, tendo a mesma quantidade de
    tempo.
  • Alternativa para o feedback de relevância
    usuário revê e reenvia consulta.
  • Usuários podem preferir revisão / re-submissão ao
    invés de ter de julgar a relevância dos
    documentos.
  • Não há provas claras de que o feedback de
    relevância é o melhor uso do tempo do usuário.

38
Feedback de relevância na Web
Sec. 9.1.4
  • Alguns mecanismos de busca oferecem uma
    característica de páginas similares /
    relacionadas (esta é uma forma trivial de
    relevante feedback)
  • Google (link-based)
  • Altavista
  • Stanford WebBase
  • Mas alguns não, porque é difícil de explicar para
    o usuário médio
  • Alltheweb
  • bing
  • Yahoo
  • Excite inicialmente tinha feedback de relevância
    de verdade, mas o abandonou por falta de uso.

a/ß/? ??
39
Excite Relevance Feedback
Sec. 9.1.4
  • Spink et al. 2000
  • Apenas cerca de 4 das sessões de consulta de
    usuário utilizam a opção feedback de relevância
  • Expresso como o link "More like this ao lado de
    cada resultado
  • Mas cerca de 70 dos usuários apenas olhar para
    primeira página de resultados e não buscam coisas
    novas
  • Portanto, 4 é cerca de 1 / 8 de pessoas que
    prorroga a pesquisa
  • O feedback de relevância melhora os resultados em
    aproximadamente 2 / 3 das vezes

40
Feedback de pseudo relevância
Sec. 9.1.6
  • O feedback de pseudo-relevância automatiza a
    parte manual do feedback de relevância
    verdadeiro.
  • Algoritmo de pseudo-relevância
  • Recupera uma lista ordenada de documentos (de
    maiores acessos (hits)) para a consulta do
    usuário.
  • Presumir que os top k documentos são relevantes.
  • Faça o feedback de relevância (ex., Rocchio)
  • Funciona muito bem em média
  • Mas podem dar horrivelmente errado para algumas
    consultas.
  • Várias iterações podem causar desvio de consulta.
  • Por quê? (Minas de Cobre/Chile)

41
Expansão de consulta
Sec. 9.2.2
  • No feedback de relevância, os usuários dão uma
    entrada adicional (relevante / não relevante) em
    documentos, que é usado para reponderar os termos
    nos documentos
  • Na expansão da consulta, os usuários dão entrada
    adicional (bom/mau termo de pesquisa) em palavras
    ou frases

42
Assistente de consulta
Você esperaria um recurso assim para aumentar o
volume da consulta em um mecanismo de busca?
43
Como podemos aumentar a consulta do usuário?
Sec. 9.2.2
  • Tesauro manual
  • Ex. MedLine physician, sinônimo doc, doctor,
    MD, medico
  • Pode ser de consulta em vez de apenas sinônimos
  • Análise global (estático de todos os documentos
    na coleção)
  • Tesauro derivado Automaticamente
  • (estatísticas de co-ocorrência)
  • Refinamentos com base na mineração de logs de
    consultas
  • Comum na Web
  • Análise local (dinâmico)
  • Análise dos documentos no conjunto de resultado

44
Tesauro (Thesaurus)
  • Tesauro, também conhecido como dicionário de
    idéias afins, é uma lista de palavras com
    significados semelhantes, dentro de um domínio
    específico de conhecimento. Por definição, um
    tesauro é restrito. Não deve ser encarado
    simplesmente como uma lista de sinônimos, pois o
    objetivo do tesauro é justamente mostrar as
    diferenças mínimas entre as palavras e ajudar o
    escritor a escolher a palavra exata.
  • Fonte http//pt.wikipedia.org/wiki/Thesaurus

45
Exemplo de tesauro manual
Sec. 9.2.2
46
Expansão da consulta baseada em tesauro
Sec. 9.2.2
  • Para cada termo t, em uma consulta, expandir a
    consulta com sinônimos e palavras relacionadas ao
    termo t do tesauro
  • felino ? felino gato
  • Deve ponderar menos os termos adicionados do que
    os termos originais da consulta.
  • Geralmente aumenta o retorno
  • Amplamente utilizado em muitos campos da ciência
    e engenharia
  • Pode diminuir significativamente a precisão,
    especialmente com termos ambíguos.
  • taxa de juros ? taxa de juros fascinante
    avaliação
  • Existe um alto custo da produção manual do
    tesauro
  • E, para atualizá-lo, quando ocorre mudança
    científica

47
Geração Automática do Tesauro
Sec. 9.2.3
  • Tentativa de gerar um tesauro automaticamente,
    analisando o conjunto de documentos
  • Noção fundamental similaridade entre duas
    palavras
  • Definição 1 Duas palavras são semelhantes se
    elas co-ocorrem com palavras semelhantes.
  • Definição 2 Duas palavras são semelhantes se
    elas ocorrem em uma dada relação gramatical com
    as mesmas palavras.
  • Você pode colher, descascar, comer, preparar, etc
    maçãs e peras, então maçãs e peras devem ser
    semelhante
  • Basear em co-ocorrência é a forma mais robusta,
    as relações gramaticais são mais precisas.

Por quê?
48
Tesauro de co-ocorrência
Sec. 9.2.3
  • Maneira mais simples para calcular um tesauro é
    se basear nas similaridade termo-a-termo em C
    AAT onde A é a matriz termo-documento.
  • wi,j (normalizado) ponderação para (ti ,dj)
  • Para cada ti, escolher termos com valores
    elevados em C

O que contém C , se A é uma matriz de incidência
termo-documento (0/1)?
dj
N
ti
M
49
Exemplo de geração automática do tesauro
Sec. 9.2.3
50
Discussão da geração automática do tesauro
Sec. 9.2.3
  • Qualidade das associações é geralmente um
    problema.
  • Ambigüidade do termo pode introduzir termos
    irrelevantes mas que são estatisticamente
    correlacionados.
  • Apple Computador ? Apple fruta vermelha
    computador
  • Problemas
  • Falsos positivos Palavras consideradas como
    similares mas que não são
  • Falsos negativos As palavras não consideradas
    como similares, mas que são
  • Desde que os termos são de qualquer forma
    altamente correlacionados, a expansão pode não
    recuperar muitos documentos adicionais.

51
Feedback de relevância indireto
  • Na web, o DirectHit introduziu uma forma de
    feedback de relevância indireta.
  • DirectHit classificou os documentos que os
    usuários olharam com mais freqüência.
  • Clicar em links significa que o documento é
    provável de ser relevante
  • Assumindo que os resumos apresentados são bons,
    etc
  • Globalmente não necessariamente específico de
    usuário ou de consulta.
  • Esta é a área geral de mineração de clickstream
    (fluxo de cliques)
  • Hoje - tratada como parte do rankeamento de
    aprendizado da máquina

52
Resources
  • IIR Ch 9
  • MG Ch. 4.7
  • MIR Ch. 5.2 5.4
Write a Comment
User Comments (0)
About PowerShow.com