CS276%20Information%20Retrieval%20and%20Web%20Search

About This Presentation

Title:

CS276%20Information%20Retrieval%20and%20Web%20Search

Description:

CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan Lecture 9: Query expansion – PowerPoint PPT presentation

Number of Views:236

Avg rating:3.0/5.0

Slides: 53

Provided by: Christop508

Category:

more less

Transcript and Presenter's Notes

Title: CS276%20Information%20Retrieval%20and%20Web%20Search

1

CS276Information Retrieval and Web Search
Christopher Manning and Prabhakar Raghavan
Lecture 9 Query expansion

2
Recapitulando a última aula

Avaliando um motor de busca
Benchmarks
Precisão e Retorno
Resumo dos resultados

3
Recap Avaliação de recuperação não rankeada
Precisão ou Retorno
Sec. 8.3

Precisão fração de documentos recuperados que
são relevantes P(relevanterecuperado)
Retorno fração de documentos relevantes que são
recuperados R(recuperadorelevante)
Precisão P tp/(tp fp)
Retorno R tp/(tp fn)

Relevante Não-relevante
Recuperado tp fp
Não recuperado fn tn
4
Recaptulando Uma medida combinada F
Sec. 8.3

Medida combinada que avalia o intercâmbio
precisão/retorno é a medida F (modo de ponderação
harmônica)
Pessoas normalmente usam a medida balanceada F1
i.e., com ? 1 ou ? ½
Modo harmônico é uma média conservadora
Veja CJ van Rijsbergen, Information Retrieval

5
Nesta aula

Melhorando os resultados
Para alto retorno. Por exemplo, para pesquisar
aeroplano não corresponde a avião, nem
termodinâmico com calor
Opções para melhorar resultados
Métodos Globais
Expansão da consulta
Sinônimos
Geração automática de tesauro
Métodos Locais
Relevância do Feedback
Feedback de Pseudo relevância

6
O que tem no Cap. 9

Conceito de Centróide
Rocchio
Otimização da Consulta
Feedback Positivo x Feedback Negativo
Pressupostos
Problemas
Estratégias de Feedback
Feedback Web
Peseudo Feedback
Expansão da Consulta

7
Feedback de Relevância
Sec. 9.1

Feedback de Relevância feedback dos usuários
sobre a relevância dos documentos em um conjunto
inicial de resultados.
Usuário cria uma consulta (curta, simples)
O usuário marca alguns resultados como relevantes
ou não-relevantes.
O sistema computa uma representação melhor da
necessidade de informação baseado no feedback.
O Feedback de relevância pode passar por uma ou
mais iterações.
Idéiapode ser difícil de formular uma consulta
boa quando você não conhece a coleção bem

8
Feedback de Relevância
Sec. 9.1

Usaremos recuperação ad hoc para se referir a
uma recuperação regular sem feedback de
relevância.
Vamos ver agora quatro exemplos de feedback de
relevância que destacam aspectos diferentes.

9
Páginas Similares
10
Feedback de Relevância Exemplo
Sec. 9.1.1

Mecanismo de busca de imagem http//nayana.ece.ucs
b.edu/imsearch/imsearch.html

11
Resultados para uma consulta inicial
Sec. 9.1.1
12
Feedback de Relevância
Sec. 9.1.1
13
Resultados após Feedback de Relevância
Sec. 9.1.1
14
Resultados ad hoc para a consulta canina source
Fernando Diaz
15
Resultados ad hoc para a consulta canina source
Fernando Diaz
16
Feedback do do usuário Selecione o que é
relevante source Fernando Diaz
17
Resultados após o feedback de relevância
source Fernando Diaz
18
Consulta inicial / resultados
Sec. 9.1.1

Consulta Inicial Novo satélite de aplicações
espaciais
1. 0.539, 08/13/91, NASA Hasnt Scrapped
Imaging Spectrometer
2. 0.533, 07/09/91, NASA Scratches Environment
Gear From Satellite Plan
3. 0.528, 04/04/90, Science Panel Backs NASA
Satellite Plan, But Urges Launches of Smaller
Probes
4. 0.526, 09/09/91, A NASA Satellite Project
Accomplishes Incredible Feat Staying Within
Budget
5. 0.525, 07/24/90, Scientist Who Exposed Global
Warming Proposes Satellites for Climate Research
6. 0.524, 08/22/90, Report Provides Support for
the Critics Of Using Big Satellites to Study
Climate
7. 0.516, 04/13/87, Arianespace Receives
Satellite Launch Pact From Telesat Canada
8. 0.509, 12/02/87, Telecommunications Tale of
Two Companies
Usuário então marca os documentos relevantes com
.

19
Consulta expandida após feedback de relevância
Sec. 9.1.1

2,074 new 15,106 space
30,816 satellite 5,660 application
5,991 nasa 5,196 eos
4,196 launch 3,972 aster
3,516 instrument 3,446 arianespace
3,004 bundespost 2,806 ss
2,790 rocket 2,053 scientist
2,003 broadcast 1,172 earth
0,836 oil 0,646 measure

20
Resultados para a consulta expandida
Sec. 9.1.1

1. 0.513, 07/09/91, NASA Scratches Environment
Gear From Satellite Plan
2. 0.500, 08/13/91, NASA Hasnt Scrapped Imaging
Spectrometer
3. 0.493, 08/07/89, When the Pentagon Launches a
Secret Satellite, Space Sleuths Do Some Spy Work
of Their Own
4. 0.493, 07/31/89, NASA Uses Warm
Superconductors For Fast Circuit
5. 0.492, 12/02/87, Telecommunications Tale of
Two Companies
6. 0.491, 07/09/91, Soviets May Adapt Parts of
SS-20 Missile For Commercial Use
7. 0.490, 07/12/88, Gaping Gap Pentagon Lags in
Race To Match the Soviets In Rocket Launchers
8. 0.490, 06/14/90, Rescue of Satellite By Space
Agency To Cost 90 Million

21
Conceito-chave Centróide
Sec. 9.1.1

O centróide é o centro de massa de um conjunto de
pontos.
Lembre-se que nós representamos documentos como
pontos em um espaço de alta dimensão
Definição Centróide
onde C é o conjunto de documentos.

22
Algoritmo Rocchio
Sec. 9.1.1

O algoritmo Rocchio usa o modelo de espaço
vetorial para escolher uma consulta de feedback
de relevância
Rocchio pede a consulta qopt que maximiza
Tenta separar documentos marcados como relevantes
ou não-relevantes
Problema não sabemos os documentos realmente
relevantes

23
Teoricamente a melhor consulta
Sec. 9.1.1
x
x
x
x
o
x
x
x
x
x
x
x
x
o
x
x
o
x
o
x
o
o
x
x
x documentos não-relevante o documentos
relevantes
Optimal query
24
Rocchio 1971 Algorithm (SMART)
Sec. 9.1.1

Utilizado na prática
Dr conjunto de vetores de documentos
relevantes conhecidos
Dnr conjunto de vetores de documentos
irrelevantes conhecidos
Diferente de Cr e Cnr
qm vetor consulta modificado q0 vetor
consulta original a,ß,? pesos (escolhidos a mão
ou definidos empiricamente)
A nova consulta se desloca para próximo dos
documentos relevantes e longe de documentos
irrelevantes

!
25
Observando as sutilezas
Sec. 9.1.1

Balanceando a vs. ß/? Se temos um monte de
documentos julgados, queremos um maior ß/?.
Alguns pesos no vetor de consulta podem ser
negativos
Pesos negativos a longo prazo são ignoradas
(definido para 0)

26
Relevância do Feedback sobre a consulta inicial
Sec. 9.1.1
Initial query
x
x
x
o
x
x
x
x
x
x
x
o
x
o
x
o
x
x
o
o
x
x
x
x
x known non-relevant documents o known relevant
documents
Revised query
27
Feedback de Relevância em espaços vetoriais
Sec. 9.1.1

Podemos modificar a consulta com base no feedback
de relevância e aplicar modelo de espaço vetorial
padrão.
Utiliza apenas os documentos que foram marcados.
feedback de relevância pode melhorar o retorno e
precisão
feedback de relevância é mais útil para o
aumento do retorno em situações nas quais o
retorno é importante
Os usuários podem esperar para analisar os
resultados e ter tempo para percorrer

28
Feedback Positivo vs Negativo
Sec. 9.1.1

O feedback positivo é mais valioso do que o
feedback negativo (então, faça ? lt ? ex. ?
0.25, ? 0.75).
Muitos sistemas apenas permitem feedback positivo
(?0).

Why?
29
Aparte Espaço vetorial pode ser contra-intuitivo.
Doc J. Snow Cholera
x
x
x
x
x
x
x
x
x
o
x
x
x
x
q1
x
x
x
x
x
x
x
x
x
q1 query cholera o www.ph.ucla.edu/epi/snow.ht
ml x other documents
Query cholera
30
Alto-dimencionamento do Espaço vetorial

As consultas "cólera" e "John Snow" estão longe
umas das outras no espaço vetorial.
Como pode o documento "John Snow e Cólera estar
perto de ambos?
Nossas intuições para espaços bi- e
tri-dimensional não funcionam em gt 10.000
dimensões.
3 dimensões se um documento está perto de muitas
consultas, então, algumas dessas consultas devem
estar próximos umas das outros.
Não mantém para um espaço de alta dimensão.

31
Relevance Feedback Pressupostos
Sec. 9.1.3

A1 Usuário tem conhecimento suficiente para a
consulta inicial.
A2 Protótipos de relevância são
"bem-comportadso.
A distribuição de termos em documentos relevantes
serão semelhantes
A distribuição de termos em documentos não
relevantes serão diferentes das dos documentos
relevantes.
Ou Todos os documentos relevantes estão
fortemente agrupados em torno de um único
protótipo.
Ou Há protótipos diferentes, mas eles têm
sobreposição de vocabulário significativa.
Semelhanças entre documentos relevantes e
irrelevantes são pequenas

32
Violação do A1
Sec. 9.1.3

O usuário não tem conhecimento inicial
suficiente.
Exemplos
Erros ortográficos (Brittany Speers).
Recuperação da informação multilíngüe (hígado).
Incompatibilidade de vocabulário de pesquisa vs
vocabulário coleção
Cosmonauta / astronauta

33
Violação do A2
Sec. 9.1.3

Existem vários protótipos de relevância.
Exemplos
Birmânia / Mianmar
Governo políticas contraditórias
Estrelas Pop que trabalharam no Burger King
Freqüentemente instâncias de um conceito geral
Bom conteúdo editorial pode resolver problema
Relatório sobre as políticas governamentais
contraditórias.

34
Relevance Feedback Problemas

Consultas longas são ineficientes para mecanismo
de RI típico.
Longos tempos de resposta para o usuário.
Alto custo para o sistema de recuperação.
Solução Parcial
Apenas repondere certos termos proeminente
Talvez top 20 por freqüência do termo
Usuários são muitas vezes relutantes em fornecer
feedback explícito
É muitas vezes difícil de entender por que um
determinado documento foi recuperado após a
aplicação do feedback de relevância

Why?
35
Avaliação de estratégias de feedback de relevância
Sec. 9.1.5

Use q0 e calcular o gráfico de retorno e precisão
Use qm e calcular o gráfico de retorno e precisão
Avaliar em todos os documentos da coleção
Melhorias espetaculares, mas ... é trapaça!
Em parte devido à maior pontuação de documentos
conhecidos julgados como relevantes
Deve ser avaliada com relação aos documentos não
visto pelo usuário
Use documentos na coleção residual (conjunto de
documentos retirando aqueles avaliados como
relevante)
Medidas normalmente são menores do que na
consulta original
Mas é uma avaliação mais realista
O desempenho relativo pode ser validamente
comparado
Empiricamente, uma rodada de feedback de
relevância é frequentemente muito útil. Duas
rodadas é marginalmente útil.

36
Avaliação dos Feedbacks de Relevância
Sec. 9.1.5

Segundo método - avaliar apenas os docs não
avaliados pelo usuário no primeiro turno
Poderia fazer um feedback de relevância parecer
pior do que realmente é
Pode ainda avaliar o desempenho relativo de
algoritmos
Mais satisfatório - use duas coleções cada uma
com suas próprias avaliações de pertinência
q0 e o feedback dos usuários na primeira coleção
qm é executado na segunda coleção e medido

37
Avaliação Caveat
Sec. 9.1.3

Verdadeira avaliação da usabilidade deve comparar
com outros métodos, tendo a mesma quantidade de
tempo.
Alternativa para o feedback de relevância
usuário revê e reenvia consulta.
Usuários podem preferir revisão / re-submissão ao
invés de ter de julgar a relevância dos
documentos.
Não há provas claras de que o feedback de
relevância é o melhor uso do tempo do usuário.

38
Feedback de relevância na Web
Sec. 9.1.4

Alguns mecanismos de busca oferecem uma
característica de páginas similares /
relacionadas (esta é uma forma trivial de
relevante feedback)
Google (link-based)
Altavista
Stanford WebBase
Mas alguns não, porque é difícil de explicar para
o usuário médio
Alltheweb
bing
Yahoo
Excite inicialmente tinha feedback de relevância
de verdade, mas o abandonou por falta de uso.

a/ß/? ??
39
Excite Relevance Feedback
Sec. 9.1.4

Spink et al. 2000
Apenas cerca de 4 das sessões de consulta de
usuário utilizam a opção feedback de relevância
Expresso como o link "More like this ao lado de
cada resultado
Mas cerca de 70 dos usuários apenas olhar para
primeira página de resultados e não buscam coisas
novas
Portanto, 4 é cerca de 1 / 8 de pessoas que
prorroga a pesquisa
O feedback de relevância melhora os resultados em
aproximadamente 2 / 3 das vezes

40
Feedback de pseudo relevância
Sec. 9.1.6

O feedback de pseudo-relevância automatiza a
parte manual do feedback de relevância
verdadeiro.
Algoritmo de pseudo-relevância
Recupera uma lista ordenada de documentos (de
maiores acessos (hits)) para a consulta do
usuário.
Presumir que os top k documentos são relevantes.
Faça o feedback de relevância (ex., Rocchio)
Funciona muito bem em média
Mas podem dar horrivelmente errado para algumas
consultas.
Várias iterações podem causar desvio de consulta.
Por quê? (Minas de Cobre/Chile)

41
Expansão de consulta
Sec. 9.2.2

No feedback de relevância, os usuários dão uma
entrada adicional (relevante / não relevante) em
documentos, que é usado para reponderar os termos
nos documentos
Na expansão da consulta, os usuários dão entrada
adicional (bom/mau termo de pesquisa) em palavras
ou frases

42
Assistente de consulta
Você esperaria um recurso assim para aumentar o
volume da consulta em um mecanismo de busca?
43
Como podemos aumentar a consulta do usuário?
Sec. 9.2.2

Tesauro manual
Ex. MedLine physician, sinônimo doc, doctor,
MD, medico
Pode ser de consulta em vez de apenas sinônimos
Análise global (estático de todos os documentos
na coleção)
Tesauro derivado Automaticamente
(estatísticas de co-ocorrência)
Refinamentos com base na mineração de logs de
consultas
Comum na Web
Análise local (dinâmico)
Análise dos documentos no conjunto de resultado

44
Tesauro (Thesaurus)

Tesauro, também conhecido como dicionário de
idéias afins, é uma lista de palavras com
significados semelhantes, dentro de um domínio
específico de conhecimento. Por definição, um
tesauro é restrito. Não deve ser encarado
simplesmente como uma lista de sinônimos, pois o
objetivo do tesauro é justamente mostrar as
diferenças mínimas entre as palavras e ajudar o
escritor a escolher a palavra exata.
Fonte http//pt.wikipedia.org/wiki/Thesaurus

45
Exemplo de tesauro manual
Sec. 9.2.2
46
Expansão da consulta baseada em tesauro
Sec. 9.2.2

Para cada termo t, em uma consulta, expandir a
consulta com sinônimos e palavras relacionadas ao
termo t do tesauro
felino ? felino gato
Deve ponderar menos os termos adicionados do que
os termos originais da consulta.
Geralmente aumenta o retorno
Amplamente utilizado em muitos campos da ciência
e engenharia
Pode diminuir significativamente a precisão,
especialmente com termos ambíguos.
taxa de juros ? taxa de juros fascinante
avaliação
Existe um alto custo da produção manual do
tesauro
E, para atualizá-lo, quando ocorre mudança
científica

47
Geração Automática do Tesauro
Sec. 9.2.3

Tentativa de gerar um tesauro automaticamente,
analisando o conjunto de documentos
Noção fundamental similaridade entre duas
palavras
Definição 1 Duas palavras são semelhantes se
elas co-ocorrem com palavras semelhantes.
Definição 2 Duas palavras são semelhantes se
elas ocorrem em uma dada relação gramatical com
as mesmas palavras.
Você pode colher, descascar, comer, preparar, etc
maçãs e peras, então maçãs e peras devem ser
semelhante
Basear em co-ocorrência é a forma mais robusta,
as relações gramaticais são mais precisas.

Por quê?
48
Tesauro de co-ocorrência
Sec. 9.2.3

Maneira mais simples para calcular um tesauro é
se basear nas similaridade termo-a-termo em C
AAT onde A é a matriz termo-documento.
wi,j (normalizado) ponderação para (ti ,dj)
Para cada ti, escolher termos com valores
elevados em C

O que contém C , se A é uma matriz de incidência
termo-documento (0/1)?
dj
N
ti
M
49
Exemplo de geração automática do tesauro
Sec. 9.2.3
50
Discussão da geração automática do tesauro
Sec. 9.2.3

Qualidade das associações é geralmente um
problema.
Ambigüidade do termo pode introduzir termos
irrelevantes mas que são estatisticamente
correlacionados.
Apple Computador ? Apple fruta vermelha
computador
Problemas
Falsos positivos Palavras consideradas como
similares mas que não são
Falsos negativos As palavras não consideradas
como similares, mas que são
Desde que os termos são de qualquer forma
altamente correlacionados, a expansão pode não
recuperar muitos documentos adicionais.

51
Feedback de relevância indireto

Na web, o DirectHit introduziu uma forma de
feedback de relevância indireta.
DirectHit classificou os documentos que os
usuários olharam com mais freqüência.
Clicar em links significa que o documento é
provável de ser relevante
Assumindo que os resumos apresentados são bons,
etc
Globalmente não necessariamente específico de
usuário ou de consulta.
Esta é a área geral de mineração de clickstream
(fluxo de cliques)
Hoje - tratada como parte do rankeamento de
aprendizado da máquina