Title: CS276%20Information%20Retrieval%20and%20Web%20Search
1- CS276Information Retrieval and Web Search
- Christopher Manning and Prabhakar Raghavan
- Lecture 9 Query expansion
2Recapitulando a última aula
- Avaliando um motor de busca
- Benchmarks
- Precisão e Retorno
- Resumo dos resultados
3Recap Avaliação de recuperação não rankeada
Precisão ou Retorno
Sec. 8.3
- Precisão fração de documentos recuperados que
são relevantes P(relevanterecuperado) - Retorno fração de documentos relevantes que são
recuperados R(recuperadorelevante) - Precisão P tp/(tp fp)
- Retorno R tp/(tp fn)
Relevante Não-relevante
Recuperado tp fp
Não recuperado fn tn
4Recaptulando Uma medida combinada F
Sec. 8.3
- Medida combinada que avalia o intercâmbio
precisão/retorno é a medida F (modo de ponderação
harmônica) - Pessoas normalmente usam a medida balanceada F1
- i.e., com ? 1 ou ? ½
- Modo harmônico é uma média conservadora
- Veja CJ van Rijsbergen, Information Retrieval
5Nesta aula
- Melhorando os resultados
- Para alto retorno. Por exemplo, para pesquisar
aeroplano não corresponde a avião, nem
termodinâmico com calor - Opções para melhorar resultados
- Métodos Globais
- Expansão da consulta
- Sinônimos
- Geração automática de tesauro
- Métodos Locais
- Relevância do Feedback
- Feedback de Pseudo relevância
6O que tem no Cap. 9
- Conceito de Centróide
- Rocchio
- Otimização da Consulta
- Feedback Positivo x Feedback Negativo
- Pressupostos
- Problemas
- Estratégias de Feedback
- Feedback Web
- Peseudo Feedback
- Expansão da Consulta
7Feedback de Relevância
Sec. 9.1
- Feedback de Relevância feedback dos usuários
sobre a relevância dos documentos em um conjunto
inicial de resultados. - Usuário cria uma consulta (curta, simples)
- O usuário marca alguns resultados como relevantes
ou não-relevantes. - O sistema computa uma representação melhor da
necessidade de informação baseado no feedback. - O Feedback de relevância pode passar por uma ou
mais iterações. - Idéiapode ser difÃcil de formular uma consulta
boa quando você não conhece a coleção bem
8Feedback de Relevância
Sec. 9.1
- Usaremos recuperação ad hoc para se referir a
uma recuperação regular sem feedback de
relevância. - Vamos ver agora quatro exemplos de feedback de
relevância que destacam aspectos diferentes.
9Páginas Similares
10Feedback de Relevância Exemplo
Sec. 9.1.1
- Mecanismo de busca de imagem http//nayana.ece.ucs
b.edu/imsearch/imsearch.html
11Resultados para uma consulta inicial
Sec. 9.1.1
12Feedback de Relevância
Sec. 9.1.1
13Resultados após Feedback de Relevância
Sec. 9.1.1
14Resultados ad hoc para a consulta canina source
Fernando Diaz
15Resultados ad hoc para a consulta canina source
Fernando Diaz
16Feedback do do usuário Selecione o que é
relevante source Fernando Diaz
17Resultados após o feedback de relevância
source Fernando Diaz
18Consulta inicial / resultados
Sec. 9.1.1
- Consulta Inicial Novo satélite de aplicações
espaciais - 1. 0.539, 08/13/91, NASA Hasnt Scrapped
Imaging Spectrometer - 2. 0.533, 07/09/91, NASA Scratches Environment
Gear From Satellite Plan - 3. 0.528, 04/04/90, Science Panel Backs NASA
Satellite Plan, But Urges Launches of Smaller
Probes - 4. 0.526, 09/09/91, A NASA Satellite Project
Accomplishes Incredible Feat Staying Within
Budget - 5. 0.525, 07/24/90, Scientist Who Exposed Global
Warming Proposes Satellites for Climate Research - 6. 0.524, 08/22/90, Report Provides Support for
the Critics Of Using Big Satellites to Study
Climate - 7. 0.516, 04/13/87, Arianespace Receives
Satellite Launch Pact From Telesat Canada - 8. 0.509, 12/02/87, Telecommunications Tale of
Two Companies - Usuário então marca os documentos relevantes com
.
19Consulta expandida após feedback de relevância
Sec. 9.1.1
- 2,074 new 15,106 space
- 30,816 satellite 5,660 application
- 5,991 nasa 5,196 eos
- 4,196 launch 3,972 aster
- 3,516 instrument 3,446 arianespace
- 3,004 bundespost 2,806 ss
- 2,790 rocket 2,053 scientist
- 2,003 broadcast 1,172 earth
- 0,836 oil 0,646 measure
20Resultados para a consulta expandida
Sec. 9.1.1
- 1. 0.513, 07/09/91, NASA Scratches Environment
Gear From Satellite Plan - 2. 0.500, 08/13/91, NASA Hasnt Scrapped Imaging
Spectrometer - 3. 0.493, 08/07/89, When the Pentagon Launches a
Secret Satellite, Space Sleuths Do Some Spy Work
of Their Own - 4. 0.493, 07/31/89, NASA Uses Warm
Superconductors For Fast Circuit - 5. 0.492, 12/02/87, Telecommunications Tale of
Two Companies - 6. 0.491, 07/09/91, Soviets May Adapt Parts of
SS-20 Missile For Commercial Use - 7. 0.490, 07/12/88, Gaping Gap Pentagon Lags in
Race To Match the Soviets In Rocket Launchers - 8. 0.490, 06/14/90, Rescue of Satellite By Space
Agency To Cost 90 Million
21Conceito-chave Centróide
Sec. 9.1.1
- O centróide é o centro de massa de um conjunto de
pontos. - Lembre-se que nós representamos documentos como
pontos em um espaço de alta dimensão - Definição Centróide
- onde C é o conjunto de documentos.
22Algoritmo Rocchio
Sec. 9.1.1
- O algoritmo Rocchio usa o modelo de espaço
vetorial para escolher uma consulta de feedback
de relevância - Rocchio pede a consulta qopt que maximiza
- Tenta separar documentos marcados como relevantes
ou não-relevantes - Problema não sabemos os documentos realmente
relevantes
23Teoricamente a melhor consulta
Sec. 9.1.1
x
x
x
x
o
x
x
x
x
x
x
x
x
o
x
x
o
x
o
x
o
o
x
x
x documentos não-relevante o documentos
relevantes
Optimal query
24Rocchio 1971 Algorithm (SMART)
Sec. 9.1.1
- Utilizado na prática
- Dr conjunto de vetores de documentos
relevantes conhecidos - Dnr conjunto de vetores de documentos
irrelevantes conhecidos - Diferente de Cr e Cnr
- qm vetor consulta modificado q0 vetor
consulta original a,ß,? pesos (escolhidos a mão
ou definidos empiricamente) - A nova consulta se desloca para próximo dos
documentos relevantes e longe de documentos
irrelevantes
!
25Observando as sutilezas
Sec. 9.1.1
- Balanceando a vs. ß/? Se temos um monte de
documentos julgados, queremos um maior ß/?. - Alguns pesos no vetor de consulta podem ser
negativos - Pesos negativos a longo prazo são ignoradas
(definido para 0)
26Relevância do Feedback sobre a consulta inicial
Sec. 9.1.1
Initial query
x
x
x
o
x
x
x
x
x
x
x
o
x
o
x
o
x
x
o
o
x
x
x
x
x known non-relevant documents o known relevant
documents
Revised query
27Feedback de Relevância em espaços vetoriais
Sec. 9.1.1
- Podemos modificar a consulta com base no feedback
de relevância e aplicar modelo de espaço vetorial
padrão. - Utiliza apenas os documentos que foram marcados.
- feedback de relevância pode melhorar o retorno e
precisão - feedback de relevância é mais útil para o
aumento do retorno em situações nas quais o
retorno é importante - Os usuários podem esperar para analisar os
resultados e ter tempo para percorrer
28Feedback Positivo vs Negativo
Sec. 9.1.1
- O feedback positivo é mais valioso do que o
feedback negativo (então, faça ? lt ? ex. ?
0.25, ? 0.75). - Muitos sistemas apenas permitem feedback positivo
(?0).
Why?
29Aparte Espaço vetorial pode ser contra-intuitivo.
Doc J. Snow Cholera
x
x
x
x
x
x
x
x
x
o
x
x
x
x
q1
x
x
x
x
x
x
x
x
x
q1 query cholera o www.ph.ucla.edu/epi/snow.ht
ml x other documents
Query cholera
30Alto-dimencionamento do Espaço vetorial
- As consultas "cólera" e "John Snow" estão longe
umas das outras no espaço vetorial. - Como pode o documento "John Snow e Cólera estar
perto de ambos? - Nossas intuições para espaços bi- e
tri-dimensional não funcionam em gt 10.000
dimensões. - 3 dimensões se um documento está perto de muitas
consultas, então, algumas dessas consultas devem
estar próximos umas das outros. - Não mantém para um espaço de alta dimensão.
31Relevance Feedback Pressupostos
Sec. 9.1.3
- A1 Usuário tem conhecimento suficiente para a
consulta inicial. - A2 Protótipos de relevância são
"bem-comportadso. - A distribuição de termos em documentos relevantes
serão semelhantes - A distribuição de termos em documentos não
relevantes serão diferentes das dos documentos
relevantes. - Ou Todos os documentos relevantes estão
fortemente agrupados em torno de um único
protótipo. - Ou Há protótipos diferentes, mas eles têm
sobreposição de vocabulário significativa. - Semelhanças entre documentos relevantes e
irrelevantes são pequenas
32Violação do A1
Sec. 9.1.3
- O usuário não tem conhecimento inicial
suficiente. - Exemplos
- Erros ortográficos (Brittany Speers).
- Recuperação da informação multilÃngüe (hÃgado).
- Incompatibilidade de vocabulário de pesquisa vs
vocabulário coleção - Cosmonauta / astronauta
33Violação do A2
Sec. 9.1.3
- Existem vários protótipos de relevância.
- Exemplos
- Birmânia / Mianmar
- Governo polÃticas contraditórias
- Estrelas Pop que trabalharam no Burger King
- Freqüentemente instâncias de um conceito geral
- Bom conteúdo editorial pode resolver problema
- Relatório sobre as polÃticas governamentais
contraditórias.
34Relevance Feedback Problemas
- Consultas longas são ineficientes para mecanismo
de RI tÃpico. - Longos tempos de resposta para o usuário.
- Alto custo para o sistema de recuperação.
- Solução Parcial
- Apenas repondere certos termos proeminente
- Talvez top 20 por freqüência do termo
- Usuários são muitas vezes relutantes em fornecer
feedback explÃcito - É muitas vezes difÃcil de entender por que um
determinado documento foi recuperado após a
aplicação do feedback de relevância
Why?
35Avaliação de estratégias de feedback de relevância
Sec. 9.1.5
- Use q0 e calcular o gráfico de retorno e precisão
- Use qm e calcular o gráfico de retorno e precisão
- Avaliar em todos os documentos da coleção
- Melhorias espetaculares, mas ... é trapaça!
- Em parte devido à maior pontuação de documentos
conhecidos julgados como relevantes - Deve ser avaliada com relação aos documentos não
visto pelo usuário - Use documentos na coleção residual (conjunto de
documentos retirando aqueles avaliados como
relevante) - Medidas normalmente são menores do que na
consulta original - Mas é uma avaliação mais realista
- O desempenho relativo pode ser validamente
comparado - Empiricamente, uma rodada de feedback de
relevância é frequentemente muito útil. Duas
rodadas é marginalmente útil.
36Avaliação dos Feedbacks de Relevância
Sec. 9.1.5
- Segundo método - avaliar apenas os docs não
avaliados pelo usuário no primeiro turno - Poderia fazer um feedback de relevância parecer
pior do que realmente é - Pode ainda avaliar o desempenho relativo de
algoritmos - Mais satisfatório - use duas coleções cada uma
com suas próprias avaliações de pertinência - q0 e o feedback dos usuários na primeira coleção
- qm é executado na segunda coleção e medido
37Avaliação Caveat
Sec. 9.1.3
- Verdadeira avaliação da usabilidade deve comparar
com outros métodos, tendo a mesma quantidade de
tempo. - Alternativa para o feedback de relevância
usuário revê e reenvia consulta. - Usuários podem preferir revisão / re-submissão ao
invés de ter de julgar a relevância dos
documentos. - Não há provas claras de que o feedback de
relevância é o melhor uso do tempo do usuário.
38Feedback de relevância na Web
Sec. 9.1.4
- Alguns mecanismos de busca oferecem uma
caracterÃstica de páginas similares /
relacionadas (esta é uma forma trivial de
relevante feedback) - Google (link-based)
- Altavista
- Stanford WebBase
- Mas alguns não, porque é difÃcil de explicar para
o usuário médio - Alltheweb
- bing
- Yahoo
- Excite inicialmente tinha feedback de relevância
de verdade, mas o abandonou por falta de uso.
a/ß/? ??
39Excite Relevance Feedback
Sec. 9.1.4
- Spink et al. 2000
- Apenas cerca de 4 das sessões de consulta de
usuário utilizam a opção feedback de relevância - Expresso como o link "More like this ao lado de
cada resultado - Mas cerca de 70 dos usuários apenas olhar para
primeira página de resultados e não buscam coisas
novas - Portanto, 4 é cerca de 1 / 8 de pessoas que
prorroga a pesquisa - O feedback de relevância melhora os resultados em
aproximadamente 2 / 3 das vezes
40Feedback de pseudo relevância
Sec. 9.1.6
- O feedback de pseudo-relevância automatiza a
parte manual do feedback de relevância
verdadeiro. - Algoritmo de pseudo-relevância
- Recupera uma lista ordenada de documentos (de
maiores acessos (hits)) para a consulta do
usuário. - Presumir que os top k documentos são relevantes.
- Faça o feedback de relevância (ex., Rocchio)
- Funciona muito bem em média
- Mas podem dar horrivelmente errado para algumas
consultas. - Várias iterações podem causar desvio de consulta.
- Por quê? (Minas de Cobre/Chile)
41Expansão de consulta
Sec. 9.2.2
- No feedback de relevância, os usuários dão uma
entrada adicional (relevante / não relevante) em
documentos, que é usado para reponderar os termos
nos documentos - Na expansão da consulta, os usuários dão entrada
adicional (bom/mau termo de pesquisa) em palavras
ou frases
42Assistente de consulta
Você esperaria um recurso assim para aumentar o
volume da consulta em um mecanismo de busca?
43Como podemos aumentar a consulta do usuário?
Sec. 9.2.2
- Tesauro manual
- Ex. MedLine physician, sinônimo doc, doctor,
MD, medico - Pode ser de consulta em vez de apenas sinônimos
- Análise global (estático de todos os documentos
na coleção) - Tesauro derivado Automaticamente
- (estatÃsticas de co-ocorrência)
- Refinamentos com base na mineração de logs de
consultas - Comum na Web
- Análise local (dinâmico)
- Análise dos documentos no conjunto de resultado
44Tesauro (Thesaurus)
- Tesauro, também conhecido como dicionário de
idéias afins, é uma lista de palavras com
significados semelhantes, dentro de um domÃnio
especÃfico de conhecimento. Por definição, um
tesauro é restrito. Não deve ser encarado
simplesmente como uma lista de sinônimos, pois o
objetivo do tesauro é justamente mostrar as
diferenças mÃnimas entre as palavras e ajudar o
escritor a escolher a palavra exata. - Fonte http//pt.wikipedia.org/wiki/Thesaurus
45Exemplo de tesauro manual
Sec. 9.2.2
46Expansão da consulta baseada em tesauro
Sec. 9.2.2
- Para cada termo t, em uma consulta, expandir a
consulta com sinônimos e palavras relacionadas ao
termo t do tesauro - felino ? felino gato
- Deve ponderar menos os termos adicionados do que
os termos originais da consulta. - Geralmente aumenta o retorno
- Amplamente utilizado em muitos campos da ciência
e engenharia - Pode diminuir significativamente a precisão,
especialmente com termos ambÃguos. - taxa de juros ? taxa de juros fascinante
avaliação - Existe um alto custo da produção manual do
tesauro - E, para atualizá-lo, quando ocorre mudança
cientÃfica
47Geração Automática do Tesauro
Sec. 9.2.3
- Tentativa de gerar um tesauro automaticamente,
analisando o conjunto de documentos - Noção fundamental similaridade entre duas
palavras - Definição 1 Duas palavras são semelhantes se
elas co-ocorrem com palavras semelhantes. - Definição 2 Duas palavras são semelhantes se
elas ocorrem em uma dada relação gramatical com
as mesmas palavras. - Você pode colher, descascar, comer, preparar, etc
maçãs e peras, então maçãs e peras devem ser
semelhante - Basear em co-ocorrência é a forma mais robusta,
as relações gramaticais são mais precisas.
Por quê?
48Tesauro de co-ocorrência
Sec. 9.2.3
- Maneira mais simples para calcular um tesauro é
se basear nas similaridade termo-a-termo em C
AAT onde A é a matriz termo-documento. - wi,j (normalizado) ponderação para (ti ,dj)
- Para cada ti, escolher termos com valores
elevados em C
O que contém C , se A é uma matriz de incidência
termo-documento (0/1)?
dj
N
ti
M
49Exemplo de geração automática do tesauro
Sec. 9.2.3
50Discussão da geração automática do tesauro
Sec. 9.2.3
- Qualidade das associações é geralmente um
problema. - Ambigüidade do termo pode introduzir termos
irrelevantes mas que são estatisticamente
correlacionados. - Apple Computador ? Apple fruta vermelha
computador - Problemas
- Falsos positivos Palavras consideradas como
similares mas que não são - Falsos negativos As palavras não consideradas
como similares, mas que são - Desde que os termos são de qualquer forma
altamente correlacionados, a expansão pode não
recuperar muitos documentos adicionais.
51Feedback de relevância indireto
- Na web, o DirectHit introduziu uma forma de
feedback de relevância indireta. - DirectHit classificou os documentos que os
usuários olharam com mais freqüência. - Clicar em links significa que o documento é
provável de ser relevante - Assumindo que os resumos apresentados são bons,
etc - Globalmente não necessariamente especÃfico de
usuário ou de consulta. - Esta é a área geral de mineração de clickstream
(fluxo de cliques) - Hoje - tratada como parte do rankeamento de
aprendizado da máquina
52Resources
- IIR Ch 9
- MG Ch. 4.7
- MIR Ch. 5.2 5.4