Title: Avalia
1Avaliação De Sistemas De Recuperação De
Informação (RI)
Rachel Virgínia Xavier Aires 27 de
junho de 2002
2Avaliação De Sistemas De RI Panorâmica
- O que avaliar
- Como avaliar
- Avaliação de máquinas de busca
- Planejamento de uma avaliação de máquinas de busca
3O Que Avaliar
- Qual o objetivo da avaliação?
- Fazer uma avaliação do sistema
- Fazer uma avaliação dos usuários
- Fazer uma avaliação do sistema pensando nos
usuários
4Avaliando O Sistema (1-5)
- Que forma de indexação funciona melhor?
- Qual algoritmo de RI é melhor?
O Que Avaliar
5Avaliando O Sistema (2-5)
- As avaliações são feitas com um conjunto de
documentos, um conjunto de consultas e um
conjunto de respostas - A comparação em geral é feita através de duas
medidas recall e precision (ambas serão
explicadas em como avaliar)
O Que Avaliar
6Avaliando O Sistema (3-5)
- Exemplos de avaliação deste tipo são as
avaliações do TREC - Estas iniciativas são importantes para melhorar a
qualidade sob o ponto de vista técnico de RI - Exemplos de iniciativas semelhantes são as do
japão e china
O Que Avaliar
7Avaliando O Sistema (4-5)
- Críticas
- Credibilidade
- Ambiente de laboratórios X ambiente real
- Relevância dos julgamentos (em como avaliar)
- Generalidade
- As consultas são representativas?
- Coleções de texto pequenas e mais voltadas para
ciência e tecnologia
O Que Avaliar
8Avaliando O Sistema (5-5)
- Críticas
- Utilidade
- Alguns sistemas tem de ser avaliados segundo
outros critérios - A precisão está relacionada a visão do usuário de
um bom sistema? - Comprovação teórica
- Recall e precision têm algum significado para o
usuário? - Diferenças estatísticas entre estas medidas são
significante em contextos e situações reais?
O Que Avaliar
9Avaliando Os Usuários (1-3)
- Comportamento (processo de explorar a informação)
e satisfação dos usuários na busca - Eficiência do sistema
- Se as necessidades do usuário foram atendidas
- Se a informação recuperada é útil ou não
- Se a interface é amigável
O Que Avaliar
10Avaliando Os Usuários (2-3)
- Estas avaliações promoveram avanços
- Para conhecer as necessidades dos usuários
- Novos sistemas de RI, como os que passaram a
incluir interfaces de interação gráfica - Novas informações sobre que recursos podem ajudar
o usuário a encontrar recursos relevantes - E principalmente serviram para mostrar que
relevância é um conceito dinâmico e situacional
O Que Avaliar
11Avaliando Os Usuários (3-3)
- Problemas
- Os pesquisadores deste tipo de avaliação são
experientes em teorias e métodos e raramente em
tecnologia não sabem como fazer sistemas de
acordo com seus resultados ou traduzi-los de
forma que outros possam fazer - É difícil comparar ou resumir os resultados
porque são utilizados dados, métodos e níveis de
análise diferentes - São estudos em geral focados em públicos
específicos - Não estão relacionados a públicos grandes e
diferenciados - As análises levam de meses a anos
O Que Avaliar
12Avaliando O Sistema Considerando Os Usuários (1-2)
- Questões entre estes dois paradigmas (Saracevic,
1995) - Quanto sucesso teve e tem a RI em resolver o
problema da explosão de informação? - Quão bem a RI dá suporte às pessoas em situações
difíceis quando têm de escolher entre diversas
opções? - Como toda esta informação, associada a tecnologia
de RI existente, afeta nosso trabalho, lazer,
sociedade, cultura?
O Que Avaliar
13Avaliando O Sistema Considerando Os Usuários (2-2)
- Estas questões devem ser respondidas já que o
propósito geral de uma avaliação é aumentar as
chances de um determinado sistema de RI ser
adotado e utilizado. - Só é possível respondê-las com análises de
sistemas associadas a análises de usuários e
unindo as pesquisas de laboratório as situações
reais, contextos, indivíduos e organizações.
O Que Avaliar
14Avaliação De Sistemas De RI Reflexões
- O que avaliar
- Como avaliar
- Avaliação de máquinas de busca
- Planejamento de uma avaliação de máquinas de busca
15Como Avaliar
- Nem uma técnica proporciona por si só uma
avaliação completa. - Nem todos os critérios e medidas são necessários
para todos os contextos. - Como a performance é medida através de
benchmarks, a performance é válida apenas para o
ambiente em que foi medida.
16Como Avaliar
- É difícil construir corpora.
- Benchmarks pra web ainda estão sendo construídos.
- Não existem banchmarks para várias línguas. Como
é o caso do português.
17Precision e Recall(precisão e revocação)
Como Avaliar
18Precision E Recall No TREC
- Sumário estatístico número de tópicos, número de
documentos recuperados, número de documentos
relevantes. - Recall-precision precisão média em 11 níveis de
recall (de 0 a 1, de 0.1 em 0.1). - Precisão média quando 5, 10, .., 100, 1000
documents são recuperados. - Recall-precision para cada tópico e a média de
recall-precision para cada um dos sistemas para
aquele tópico.
Como Avaliar
19Dificuldades em medir
- Eficiência está relacionada à relevância dos
documentos recuperados - Não é fácil de calcular este número
- O que é relevante?
- Vai usar uma medida binária (sim/não) ou não?
- A forma não binária é mais natural
Como Avaliar
20Dificuldades em medir
- A relevância é
- Subjetiva depende do julgamento
- Situacional relacionada as necessidades atuais
do usuário - Cognitiva
- Dinâmica
Como Avaliar
21Fallout
- Problemas com precision e recall
- Número de documentos irrelevantes não é
considerado. - Como medir o recall se não existir documento
relevante no conjunto de documentos? - Como medir precision se nenhum documento for
recuperado?
Como Avaliar
22Outras Medidas
- Diferença simétrica normalizada.
- Fornece a diferença proporcional entre o conjunto
de documentos relevantes e irrelevantes
recuperados por um sistema. Quanto menor a
diferença, melhor o sistema em recuperar todos os
documentos relevantes para uma dada consulta.
Como Avaliar
23Medidas subjetivas De relevância
- Novelty Proporção de items relevantes
recuperados que o usuário não conhecia. - Habilidade de encontrar nova informação sobre um
tópico. - Coverage Proporção de items relevantes
recuperados que usuário já conhecia. - Quando o usuário quer encontrar documentos que
ele já conhecia.
Como Avaliar
24Particularidades da avaliação de sistemas RI na
web
Precision A / AC Recall A / AB
Como Avaliar
Na Web não temos B Difícil obter A e C
25Avaliação De Sistemas De RI Reflexões
- O que avaliar
- Como avaliar
- Avaliação de máquinas de busca
- Planejamento de uma avaliação de máquinas de busca
26Particularidades Da Avaliação De Máquinas De Busca
- O que é mais importante recall ou precision?
- Devido a generalidade desta aplicação o recall e
precision realmente não servem como medidas
únicas
27Particularidades Da Avaliação De Máquinas De Busca
- Apesar das dificuldades em definir os número de
documentos relevantes recuperados e não
recuperados a maioria dos estudos compara
máquinas de busca utilizando recall e/ou
precision - Por exemplo, olhando as 2 primeiras páginas de
resultados (Gwizdka Chignell,1999)
28Medidas Utilizadas
- Composição dos índices freqüência de atualização
e tamanho - Capacidade de busca o que a máquina de busca
permite usar - Performance além de precision e recall usam
tempo de resposta - Apresentação da saída
- Esforço do usuário quão difícil é para um
usuário comum utilizar a máquina de busca
Particularidades da avaliação de máquinas de busca
29Medidas Sugeridas Por Gwizdka Chignell (1-5)
- Sugerem que não se considere tempo de resposta.
Pois apesar de ser uma medida importante é uma
medida muito instável. - Falam de documentos relevantes, documentos
indiretamente relevantes e não relevantes. - Propõe uma medida de precisão que considere a
posição do item relevante (se entre os 10
primeiros tem um peso maior).
Particularidades da avaliação de máquinas de busca
30Medidas Sugeridas Por Gwizdka Chignell (2-5)
- Definem 4 tipos de precisão que variam de acordo
com a forma que a relevância é utilizada full
precision, best precision, useful precision e
objective precision.
Particularidades da avaliação de máquinas de busca
31Medidas Sugeridas Por Gwizdka Chignell (3-5)
- Full precision - considera a pontuação associada
a cada hit - Best precision - considera apenas os hits mais
relevantes - Useful precision - considera apenas os hits mais
relevantes e os que contém links para os mais
relevantes - Objective precision - não requer julgamentos de
relevância. É baseada na presença ou ausência de
termos requisitados e na distinção entre links
bons e ruins
Particularidades da avaliação de máquinas de busca
32Medidas Sugeridas Por Gwizdka Chignell (4-5)
- A precisão é medida para os 20 primeiros itens
recuperados
Particularidades da avaliação de máquinas de busca
33Medidas Sugeridas Por Gwizdka Chignell (5-5)
- Propõe uma medida de esforço baseada na medida de
tamanho da busca (número de documentos
irrelevantes antes de um documento relevante)
diferencia as paginas indiretamente relevantes. - Número de links ruins e de links duplicados.
Particularidades da avaliação de máquinas de busca
34Clickthrough Data
- Avaliação baseada totalmente nos cliques de
usuários. Não requer julgamentos ou feedback por
parte do usuário. - Se o usuário clica em mais documentos de uma
máquina de busca do que nos de outra tal máquina
retornou resultados mais relevantes (Joachims,
2002).
Particularidades da avaliação de máquinas de busca
35Avaliação De Sistemas De RI Reflexões
- O que avaliar
- Como avaliar
- Avaliação de máquinas de busca
- Planejamento de uma avaliação de máquinas de busca
36Planejamento De Uma Avaliação De Máquinas De Busca
- O que interessa verificar sobre uma máquina de
busca? Exemplos - Qual é a melhor máquina de busca sobre medicina?
- Qual a melhor máquina de busca para encontrar
artigos científicos? - Para diferentes necessidades, diferentes medidas
e formas de proceder a avaliação
37Questões Tradicionais Ainda Não Respondidas Para
Máquinas De Busca Para Português
- Qual a melhor para as perguntas mais freqüentes?
- Qual o tamanho estimado do índice de cada uma das
máquinas de busca? - Como o índice vem sendo alterado ao longo do
tempo (volume, que tipo de conteúdo, etc)?
38Questões Tradicionais Ainda Não Respondidas Para
Máquinas De Busca Para Português
- Qual a freqüência com que seus índices são
atualizados (freshness)? - Como é a intersecção (overlap) entre as máquinas
de busca? - Qual a freqüência de links que não existem mais?
39Questões Interessantes Sobre As Máquinas De Busca
Para Português
- É fácil encontrar artigos?
- Como é seu desempenho na busca por serviços
on-line? - Dão suporte a estudantes em suas pesquisas para o
colégio? - Qual a melhor para perguntas que estão freqüentes
em um determinado período? - Islã, tiazinha, etc
40O Que Definir
- Que mecanismos de busca avaliar
- Que consultas utilizar
- Como selecionar as consultas
- Filtrar ou não as consultas
- Quantas consultas
- Como julgar a relevância dos resultados
41Que Mecanismos De Busca Avaliar (1-2)
- Somente máquinas de busca ou máquinas de busca e
diretórios? - Só serviços de busca gratuitos?
- Somente máquinas de busca genéricas ou também
máquinas especializadas em um determinado
assunto? - Os meta searchers devem ser avaliados ou não,
somente quando possuem também algum mecanismo de
busca próprio?
42Que Mecanismos De Busca Avaliar (2-2)
- Avaliar apenas as máquinas de busca que só
indexam páginas em português ou também as que
indexam várias línguas incluindo o português? - Quantas máquinas de busca avaliar?
- Quais máquinas avaliar?
- www.cade.com.br, www.todobr.com.br, www.sapo.pt,
www.tumba.pt, www.google.com
43Que Consultas Utilizar (1-2)
- Selecionando dentre as consultas mais freqüentes
do log de uma máquina de busca ou dentre todas - Retirando uma amostra aleatória
- Removendo os assuntos que não se quer avaliar e
então retirar uma amostra - Escolher entre as consultas sobre um dado assunto
- Escolher uma amostra seguindo proporções
- Uma determinada porcentagem de questões com
apenas 2 palavras, com apenas 3, com frases - Questões em linguagem natural
44Que Consultas Utilizar (2-2)
- Elaborar uma lista de consultas manualmente.
- Para por exemplo, avaliar o desempenho das
máquinas de busca para pesquisa científica. - Solicitar que bibliotecários elaborem uma lista
de consultas para representar diferentes
necessidades de usuários. - Traduzir listas de consultas utilizadas em outros
estudos, por exemplo CLEF.
45Filtrar Ou Não As Consultas
SPC CEE CET SdPM
- Nem sempre é possível interpretar os objetivos
por trás de uma consulta. - Utilizar juízes humanos para escolher dentre as
consultas quais possuem pelo menos um objetivo
possível. - ou
- Coletar consultas com um grupo pequeno de
usuários e solicitar que explicitem o objetivo.
46Filtrar Ou Não As Consultas
- Nem sempre é possível interpretar os objetivos
por trás de uma consulta. - Utilizar juízes humanos para escolher dentre as
consultas quais possuem pelo menos um objetivo
possível. - ou
- Coletar consultas com um grupo pequeno de
usuários e solicitar que explicitem o objetivo.
47Quantas Consultas
- Quantas consultas para avaliar a precisão?
- 03 (Pratt Fragan, 2000 Notess, 2000), 04
(Notess, 2002) - 07 (Consumidor S.A Moreira)
- 15 (Gwizdka Chignell 1999 Notess, 1999)
- 18 (Bruza et al, 2000), 20 (CNET.com), 50
(Hawking et al, 1999) - Acima de 50 (Hawking et al, 2001 Li et al, 2001)
- Quantas consultas para avaliar critérios que
devem ser avaliados com uma freqüência maior? Por
exemplo, freshness.
48A Relevância Ou Não Dos Documentos (1-3)
- Dentre os documentos retornados como resposta,
quantos julgar? - Os primeiros 10 (CNET.com Chu Rosenthal, 1996
Hawking et al, 2001), 20 (Gwizdka Chignell,
1999 Hawking et al, 1999 Li et al, 2001 Su et
al, 1998) de cada máquina (1ª e 2ª páginas de
resultados)? - Quem irá julgar a relevância?
- O grupo que está realizando a avaliação (Chu
Rosenthal, 1996) pesquisadores da área. - Pessoas que não são de RI nem de computação. Por
exemplo, usuários interessados em um determinado
assunto. (Pratt Fagan, 2000). - Bibliotecários. (Chu Rosenthal, 1996)
49A Relevância Ou Não Dos Documentos (2-3)
- O julgamento será binário?
- Relevante e não relevante
- Relevante, pouco relevante e irrelevante
- Níveis de relevância (Su et al, 1998 Gwidka
Chignell, 1999) - Haverá apenas um objetivo para cada consulta?
50A Relevância Ou Não Dos Documentos (2-3)
SPC - Sociedade de Proteção ao Crédito SPC - Só
para contrariar
- O julgamento será binário?
- Relevante e não relevante
- Relevante, pouco relevante e irrelevante
- Níveis de relevância (Su et al, 1998 Gwidka
Chignell, 1999) - Considerar apenas um objetivo para cada consulta?
51A Relevância Ou Não Dos Documentos (3-3)
- Que instruções dar aos juizes? (Hawking et al,
2000) - Não considerem a avaliação do documento anterior
na avaliação atual - Não considerem a qualidade do documento, vejam
apenas se trata do assunto questionado - Não importa a veracidade das informações
52Avaliação De Sistemas De RI Reflexões
- É possível realizar uma avaliação conjunta de RI
tomando por base os critérios das já existentes
e/ou atualizando-os para as necessidades atuais - É necessário criar uma base de consultas e
documentos relevantes para português
53Avaliação De Sistemas De RI Reflexões
- Para quaisquer das tarefas de RI é possível fazer
avaliações mais detalhadas individuais e
participar de avaliações conjuntas como o TREC e
CLEF - É necessário criar uma base de consultas e
documentos relevantes para português
54Como Criar Esta Base Cooperativamente?
- Definir como criar os tópicos
- Que assuntos
- Por exemplo 20 consultas, avaliando os primeiros
30 resultados de 5 mb - Definir o processo de medir relevância
- Definir um processo de adicionar novos tópicos
nas avaliações seguintes - Compatível com o TREC?
55O Que Vamos Avaliar Cooperativamente
- Sugestões sob o ponto de vista de uma base da
web - Recuperação de informação na web
- Recuperação de informação multilíngüe
- Filtering
- Question answering
- Information extraction
- Sumarização de documentos da web
56Referências
- (Bruza et al, 2000) Peter Bruza Robert McArthur
Simon Dennis. Interactive Internet Search
keyword, directory and query reformulation
mechanisms compared. www.guidebeam.com/sigir00.pdf
- (CNET.com) CNET.com. Search Engines Shoot-out.
http//www.cnet.com/software/0-352106-7-276936.htm
l?tagtxt - (Chu Rosenthal, 1996). Heting Chu Marilyn
Rosenthal. Search Engines the World Wide Web A
comparative study and evaluation methodology.
ASIS 1996. http//www.asis.org/annual-96/Electroni
cProceedings/chu.html - (Consumidor S.A) http//server.digipronto.com.br/i
dec.org.br/consumidorsa/arquivo/jun99/aval.htm
57Referências
- (Cooper, 1968) W. S. Cooper. Expected search
length A single measure of retrieval
effectiveness based on weak ordering action of
retrieval systems. Journal of the American
Society for Information Science, 19, 30-41. 1968. - (Greisdorf Spink, 2001) Howard Greisdorf
Amanda Spink. Median Measure an approach to IR
systems evaluation. Information Processing and
Management 37, 843-857. 2001. - (Gwizdka Chignell,1999) Jacek Gwizdka Mark
Chignell. Towards Information Retrieval Measures
for Evaluation of Web Search Engines.
http//www.imedia.mie.utoronto.ca/jacekg/pubs/web
IR_eval1_99.pdf
58Referências
- (Hawking et al, 1999) David Hawking Nick
Craswell Donna Harman. Results and Challenges in
Web Search Evaluation. http//www8.org/w8-papers/2
c-search-discover/results/results.html - (Hawking et al, 2000) David Hawking Nick
Craswell Peter Bailey Kathy Griffiths.
Measuring Search Engine Quality. Journal of
Information Retrieval. http//www.wkap.nl/journalh
ome.htm/1386-4564. - (Hawking et al, 2001)David Hawking Nick
Craswell Kathleen Griffiths. Which search engine
is best at finding online services?
http//citeseer.nj.nec.com/455030.html - (Joachims, 2002) Thorsten Joachims. Evaluating
Search Engines using Clickthrough Data. 2002.
http//www.cs.cornell.edu/People/tj/publications/j
oachims_02b.pdf
59Referências
- (Li et al, 2001) Longzhuang Li Yi Shang Wei
Zhang. Relevance evaluation of search
enginesquery results. http//www10.org/cdrom/post
ers/1017.pdf - (Moreira) Wálter Moreira. Eficácia dos mecanismos
de busca brasileiros na internet.
http//intermega.globo.com/biblio_fespsp/artigos.h
tm - (Notess, 1999) Greg R. Notess. Comparing Internet
Search Engines. http//www.csu.edu.au/special/onli
ne99/proceedings99/103a.htm - (Notess, 2000) Greg R. Notess. Seacrh Engine
Statistics Dead links report. http//www.notess.c
om/search/stats/deads.shtml.
60Referências
- (Notess, 2002) Greg R. Notess. Seacrh Engine
Statistics Unique Hits Report.
http//www.notess.com/search/stats/unique.html. - (Pratt Fagan, 2000) Wanda Pratt Lawrence
Fagan. The usefulness of dynamically categorizing
search results. Journal of the American Medical
Informatics Association, Vol 7, 6, 2000. - (Rijsbergen, 1979) C. J. van RIJSBERGEN.
Information Retrieval. 1979. Disponível em
http//www.dcs.gla.ac.uk/Keith/Preface.html. - (Robertson Teather, 1974) S.E. Robertson D.
Teather. A statistical analysis of retrieval
tests a Bayesian approach. Journal of
Documentation, 30, 273-282. 1974.
61Referências
- (Saracevic, 1995) T. Saracevic. (1995).
Evaluation of evaluation in information
retrieval. Proceedings og SIGIR 95, 138-146.
http//www.scils.rutgers.edu/muresan/Docs/sigirSa
racevic1995.pdf - (Su et al, 1998) L. T. Su H. Chen X. Dong.
Evaluation of Web-based search engines from the
end-users perspective a pilot study.
Proceedings of the Annual Conference for the
American Society for Information Science,
348-361. - (Swets, 1963) J. A. Swets. Information Retrieval
Systems. Science, 141, 245-250. 1963. - (Wishard, 1998) Lisa Wishard. Precision Among
Internet Search Engines An Earth Sciences Case
Study. http//www.library.ucsb.edu/istl/98-spring/
article5.html
62Referências
- (Wu Sonnenwald, 1999) Mei-Mei Wu Diane H.
Sonnenwald. Reflections in Information Retrieval
Evaluation. Proceedings of the 1999 EBTI, ECAI,
SEER PNC Joint Meeting, 63-81.
http//pnclink.org/events-report/1999/Proceedings/
wu-mm.pdf
63Lista de mecanismos de busca
- Brasil
- www.todobr.com.br
- www.cade.com.br
- Portugal
- www.paginasamarelas.pt
- www.gertrudes.pt
- www.sapo.pt
- www.aeiou.pt
- Genéricas
- www.google.com
- www.altavista.com.br
- www.fast.no