Avalia

About This Presentation

Title:

Avalia

Description:

Avalia o De Sistemas De Recupera o De Informa o (RI): Panor mica E Reflex es Rachel Virg nia Xavier Aires 27 de junho de 2002 – PowerPoint PPT presentation

Number of Views:150

Avg rating:3.0/5.0

Slides: 64

Provided by: Rache96

Category:

more less

Transcript and Presenter's Notes

Title: Avalia

1
Avaliação De Sistemas De Recuperação De
Informação (RI)

Panorâmica E Reflexões

Rachel Virgínia Xavier Aires 27 de
junho de 2002
2
Avaliação De Sistemas De RI Panorâmica

O que avaliar
Como avaliar
Avaliação de máquinas de busca
Planejamento de uma avaliação de máquinas de busca

3
O Que Avaliar

Qual o objetivo da avaliação?
Fazer uma avaliação do sistema
Fazer uma avaliação dos usuários
Fazer uma avaliação do sistema pensando nos
usuários

4
Avaliando O Sistema (1-5)

Que forma de indexação funciona melhor?
Qual algoritmo de RI é melhor?

O Que Avaliar
5
Avaliando O Sistema (2-5)

As avaliações são feitas com um conjunto de
documentos, um conjunto de consultas e um
conjunto de respostas
A comparação em geral é feita através de duas
medidas recall e precision (ambas serão
explicadas em como avaliar)

O Que Avaliar
6
Avaliando O Sistema (3-5)

Exemplos de avaliação deste tipo são as
avaliações do TREC
Estas iniciativas são importantes para melhorar a
qualidade sob o ponto de vista técnico de RI
Exemplos de iniciativas semelhantes são as do
japão e china

O Que Avaliar
7
Avaliando O Sistema (4-5)

Críticas
Credibilidade
Ambiente de laboratórios X ambiente real
Relevância dos julgamentos (em como avaliar)
Generalidade
As consultas são representativas?
Coleções de texto pequenas e mais voltadas para
ciência e tecnologia

O Que Avaliar
8
Avaliando O Sistema (5-5)

Críticas
Utilidade
Alguns sistemas tem de ser avaliados segundo
outros critérios
A precisão está relacionada a visão do usuário de
um bom sistema?
Comprovação teórica
Recall e precision têm algum significado para o
usuário?
Diferenças estatísticas entre estas medidas são
significante em contextos e situações reais?

O Que Avaliar
9
Avaliando Os Usuários (1-3)

Comportamento (processo de explorar a informação)
e satisfação dos usuários na busca
Eficiência do sistema
Se as necessidades do usuário foram atendidas
Se a informação recuperada é útil ou não
Se a interface é amigável

O Que Avaliar
10
Avaliando Os Usuários (2-3)

Estas avaliações promoveram avanços
Para conhecer as necessidades dos usuários
Novos sistemas de RI, como os que passaram a
incluir interfaces de interação gráfica
Novas informações sobre que recursos podem ajudar
o usuário a encontrar recursos relevantes
E principalmente serviram para mostrar que
relevância é um conceito dinâmico e situacional

O Que Avaliar
11
Avaliando Os Usuários (3-3)

Problemas
Os pesquisadores deste tipo de avaliação são
experientes em teorias e métodos e raramente em
tecnologia não sabem como fazer sistemas de
acordo com seus resultados ou traduzi-los de
forma que outros possam fazer
É difícil comparar ou resumir os resultados
porque são utilizados dados, métodos e níveis de
análise diferentes
São estudos em geral focados em públicos
específicos
Não estão relacionados a públicos grandes e
diferenciados
As análises levam de meses a anos

O Que Avaliar
12
Avaliando O Sistema Considerando Os Usuários (1-2)

Questões entre estes dois paradigmas (Saracevic,
1995)
Quanto sucesso teve e tem a RI em resolver o
problema da explosão de informação?
Quão bem a RI dá suporte às pessoas em situações
difíceis quando têm de escolher entre diversas
opções?
Como toda esta informação, associada a tecnologia
de RI existente, afeta nosso trabalho, lazer,
sociedade, cultura?

O Que Avaliar
13
Avaliando O Sistema Considerando Os Usuários (2-2)

Estas questões devem ser respondidas já que o
propósito geral de uma avaliação é aumentar as
chances de um determinado sistema de RI ser
adotado e utilizado.
Só é possível respondê-las com análises de
sistemas associadas a análises de usuários e
unindo as pesquisas de laboratório as situações
reais, contextos, indivíduos e organizações.

O Que Avaliar
14
Avaliação De Sistemas De RI Reflexões

O que avaliar
Como avaliar
Avaliação de máquinas de busca
Planejamento de uma avaliação de máquinas de busca

15
Como Avaliar

Nem uma técnica proporciona por si só uma
avaliação completa.
Nem todos os critérios e medidas são necessários
para todos os contextos.
Como a performance é medida através de
benchmarks, a performance é válida apenas para o
ambiente em que foi medida.

16
Como Avaliar

É difícil construir corpora.
Benchmarks pra web ainda estão sendo construídos.
Não existem banchmarks para várias línguas. Como
é o caso do português.

17
Precision e Recall(precisão e revocação)
Como Avaliar
18
Precision E Recall No TREC

Sumário estatístico número de tópicos, número de
documentos recuperados, número de documentos
relevantes.
Recall-precision precisão média em 11 níveis de
recall (de 0 a 1, de 0.1 em 0.1).
Precisão média quando 5, 10, .., 100, 1000
documents são recuperados.
Recall-precision para cada tópico e a média de
recall-precision para cada um dos sistemas para
aquele tópico.

Como Avaliar
19
Dificuldades em medir

Eficiência está relacionada à relevância dos
documentos recuperados
Não é fácil de calcular este número
O que é relevante?
Vai usar uma medida binária (sim/não) ou não?
A forma não binária é mais natural

Como Avaliar
20
Dificuldades em medir

A relevância é
Subjetiva depende do julgamento
Situacional relacionada as necessidades atuais
do usuário
Cognitiva
Dinâmica

Como Avaliar
21
Fallout

Problemas com precision e recall
Número de documentos irrelevantes não é
considerado.
Como medir o recall se não existir documento
relevante no conjunto de documentos?
Como medir precision se nenhum documento for
recuperado?

Como Avaliar
22
Outras Medidas

Diferença simétrica normalizada.
Fornece a diferença proporcional entre o conjunto
de documentos relevantes e irrelevantes
recuperados por um sistema. Quanto menor a
diferença, melhor o sistema em recuperar todos os
documentos relevantes para uma dada consulta.

Como Avaliar
23
Medidas subjetivas De relevância

Novelty Proporção de items relevantes
recuperados que o usuário não conhecia.
Habilidade de encontrar nova informação sobre um
tópico.
Coverage Proporção de items relevantes
recuperados que usuário já conhecia.
Quando o usuário quer encontrar documentos que
ele já conhecia.

Como Avaliar
24
Particularidades da avaliação de sistemas RI na
web
Precision A / AC Recall A / AB
Como Avaliar
Na Web não temos B Difícil obter A e C
25
Avaliação De Sistemas De RI Reflexões

O que avaliar
Como avaliar
Avaliação de máquinas de busca
Planejamento de uma avaliação de máquinas de busca

26
Particularidades Da Avaliação De Máquinas De Busca

O que é mais importante recall ou precision?
Devido a generalidade desta aplicação o recall e
precision realmente não servem como medidas
únicas

27
Particularidades Da Avaliação De Máquinas De Busca

Apesar das dificuldades em definir os número de
documentos relevantes recuperados e não
recuperados a maioria dos estudos compara
máquinas de busca utilizando recall e/ou
precision
Por exemplo, olhando as 2 primeiras páginas de
resultados (Gwizdka Chignell,1999)

28
Medidas Utilizadas

Composição dos índices freqüência de atualização
e tamanho
Capacidade de busca o que a máquina de busca
permite usar
Performance além de precision e recall usam
tempo de resposta
Apresentação da saída
Esforço do usuário quão difícil é para um
usuário comum utilizar a máquina de busca

Particularidades da avaliação de máquinas de busca
29
Medidas Sugeridas Por Gwizdka Chignell (1-5)

Sugerem que não se considere tempo de resposta.
Pois apesar de ser uma medida importante é uma
medida muito instável.
Falam de documentos relevantes, documentos
indiretamente relevantes e não relevantes.
Propõe uma medida de precisão que considere a
posição do item relevante (se entre os 10
primeiros tem um peso maior).

Particularidades da avaliação de máquinas de busca
30
Medidas Sugeridas Por Gwizdka Chignell (2-5)

Definem 4 tipos de precisão que variam de acordo
com a forma que a relevância é utilizada full
precision, best precision, useful precision e
objective precision.

Particularidades da avaliação de máquinas de busca
31
Medidas Sugeridas Por Gwizdka Chignell (3-5)

Full precision - considera a pontuação associada
a cada hit
Best precision - considera apenas os hits mais
relevantes
Useful precision - considera apenas os hits mais
relevantes e os que contém links para os mais
relevantes
Objective precision - não requer julgamentos de
relevância. É baseada na presença ou ausência de
termos requisitados e na distinção entre links
bons e ruins

Particularidades da avaliação de máquinas de busca
32
Medidas Sugeridas Por Gwizdka Chignell (4-5)

A precisão é medida para os 20 primeiros itens
recuperados

Particularidades da avaliação de máquinas de busca
33
Medidas Sugeridas Por Gwizdka Chignell (5-5)

Propõe uma medida de esforço baseada na medida de
tamanho da busca (número de documentos
irrelevantes antes de um documento relevante)
diferencia as paginas indiretamente relevantes.
Número de links ruins e de links duplicados.

Particularidades da avaliação de máquinas de busca
34
Clickthrough Data

Avaliação baseada totalmente nos cliques de
usuários. Não requer julgamentos ou feedback por
parte do usuário.
Se o usuário clica em mais documentos de uma
máquina de busca do que nos de outra tal máquina
retornou resultados mais relevantes (Joachims,
2002).

Particularidades da avaliação de máquinas de busca
35
Avaliação De Sistemas De RI Reflexões

O que avaliar
Como avaliar
Avaliação de máquinas de busca
Planejamento de uma avaliação de máquinas de busca

36
Planejamento De Uma Avaliação De Máquinas De Busca

O que interessa verificar sobre uma máquina de
busca? Exemplos
Qual é a melhor máquina de busca sobre medicina?
Qual a melhor máquina de busca para encontrar
artigos científicos?
Para diferentes necessidades, diferentes medidas
e formas de proceder a avaliação

37
Questões Tradicionais Ainda Não Respondidas Para
Máquinas De Busca Para Português

Qual a melhor para as perguntas mais freqüentes?
Qual o tamanho estimado do índice de cada uma das
máquinas de busca?
Como o índice vem sendo alterado ao longo do
tempo (volume, que tipo de conteúdo, etc)?

38
Questões Tradicionais Ainda Não Respondidas Para
Máquinas De Busca Para Português

Qual a freqüência com que seus índices são
atualizados (freshness)?
Como é a intersecção (overlap) entre as máquinas
de busca?
Qual a freqüência de links que não existem mais?

39
Questões Interessantes Sobre As Máquinas De Busca
Para Português

É fácil encontrar artigos?
Como é seu desempenho na busca por serviços
on-line?
Dão suporte a estudantes em suas pesquisas para o
colégio?
Qual a melhor para perguntas que estão freqüentes
em um determinado período?
Islã, tiazinha, etc

40
O Que Definir

Que mecanismos de busca avaliar
Que consultas utilizar
Como selecionar as consultas
Filtrar ou não as consultas
Quantas consultas
Como julgar a relevância dos resultados

41
Que Mecanismos De Busca Avaliar (1-2)

Somente máquinas de busca ou máquinas de busca e
diretórios?
Só serviços de busca gratuitos?
Somente máquinas de busca genéricas ou também
máquinas especializadas em um determinado
assunto?
Os meta searchers devem ser avaliados ou não,
somente quando possuem também algum mecanismo de
busca próprio?

42
Que Mecanismos De Busca Avaliar (2-2)

Avaliar apenas as máquinas de busca que só
indexam páginas em português ou também as que
indexam várias línguas incluindo o português?
Quantas máquinas de busca avaliar?
Quais máquinas avaliar?
www.cade.com.br, www.todobr.com.br, www.sapo.pt,
www.tumba.pt, www.google.com

43
Que Consultas Utilizar (1-2)

Selecionando dentre as consultas mais freqüentes
do log de uma máquina de busca ou dentre todas
Retirando uma amostra aleatória
Removendo os assuntos que não se quer avaliar e
então retirar uma amostra
Escolher entre as consultas sobre um dado assunto
Escolher uma amostra seguindo proporções
Uma determinada porcentagem de questões com
apenas 2 palavras, com apenas 3, com frases
Questões em linguagem natural

44
Que Consultas Utilizar (2-2)

Elaborar uma lista de consultas manualmente.
Para por exemplo, avaliar o desempenho das
máquinas de busca para pesquisa científica.
Solicitar que bibliotecários elaborem uma lista
de consultas para representar diferentes
necessidades de usuários.
Traduzir listas de consultas utilizadas em outros
estudos, por exemplo CLEF.

45
Filtrar Ou Não As Consultas
SPC CEE CET SdPM

Nem sempre é possível interpretar os objetivos
por trás de uma consulta.
Utilizar juízes humanos para escolher dentre as
consultas quais possuem pelo menos um objetivo
possível.
ou
Coletar consultas com um grupo pequeno de
usuários e solicitar que explicitem o objetivo.

46
Filtrar Ou Não As Consultas

Nem sempre é possível interpretar os objetivos
por trás de uma consulta.
Utilizar juízes humanos para escolher dentre as
consultas quais possuem pelo menos um objetivo
possível.
ou
Coletar consultas com um grupo pequeno de
usuários e solicitar que explicitem o objetivo.

47
Quantas Consultas

Quantas consultas para avaliar a precisão?
03 (Pratt Fragan, 2000 Notess, 2000), 04
(Notess, 2002)
07 (Consumidor S.A Moreira)
15 (Gwizdka Chignell 1999 Notess, 1999)
18 (Bruza et al, 2000), 20 (CNET.com), 50
(Hawking et al, 1999)
Acima de 50 (Hawking et al, 2001 Li et al, 2001)
Quantas consultas para avaliar critérios que
devem ser avaliados com uma freqüência maior? Por
exemplo, freshness.

48
A Relevância Ou Não Dos Documentos (1-3)

Dentre os documentos retornados como resposta,
quantos julgar?
Os primeiros 10 (CNET.com Chu Rosenthal, 1996
Hawking et al, 2001), 20 (Gwizdka Chignell,
1999 Hawking et al, 1999 Li et al, 2001 Su et
al, 1998) de cada máquina (1ª e 2ª páginas de
resultados)?
Quem irá julgar a relevância?
O grupo que está realizando a avaliação (Chu
Rosenthal, 1996) pesquisadores da área.
Pessoas que não são de RI nem de computação. Por
exemplo, usuários interessados em um determinado
assunto. (Pratt Fagan, 2000).
Bibliotecários. (Chu Rosenthal, 1996)

49
A Relevância Ou Não Dos Documentos (2-3)

O julgamento será binário?
Relevante e não relevante
Relevante, pouco relevante e irrelevante
Níveis de relevância (Su et al, 1998 Gwidka
Chignell, 1999)
Haverá apenas um objetivo para cada consulta?

50
A Relevância Ou Não Dos Documentos (2-3)
SPC - Sociedade de Proteção ao Crédito SPC - Só
para contrariar

O julgamento será binário?
Relevante e não relevante
Relevante, pouco relevante e irrelevante
Níveis de relevância (Su et al, 1998 Gwidka
Chignell, 1999)
Considerar apenas um objetivo para cada consulta?

51
A Relevância Ou Não Dos Documentos (3-3)

Que instruções dar aos juizes? (Hawking et al,
2000)
Não considerem a avaliação do documento anterior
na avaliação atual
Não considerem a qualidade do documento, vejam
apenas se trata do assunto questionado
Não importa a veracidade das informações

52
Avaliação De Sistemas De RI Reflexões

É possível realizar uma avaliação conjunta de RI
tomando por base os critérios das já existentes
e/ou atualizando-os para as necessidades atuais
É necessário criar uma base de consultas e
documentos relevantes para português

53
Avaliação De Sistemas De RI Reflexões

Para quaisquer das tarefas de RI é possível fazer
avaliações mais detalhadas individuais e
participar de avaliações conjuntas como o TREC e
CLEF
É necessário criar uma base de consultas e
documentos relevantes para português

54
Como Criar Esta Base Cooperativamente?

Definir como criar os tópicos
Que assuntos
Por exemplo 20 consultas, avaliando os primeiros
30 resultados de 5 mb
Definir o processo de medir relevância
Definir um processo de adicionar novos tópicos
nas avaliações seguintes
Compatível com o TREC?

55
O Que Vamos Avaliar Cooperativamente

Sugestões sob o ponto de vista de uma base da
web
Recuperação de informação na web
Recuperação de informação multilíngüe
Filtering
Question answering
Information extraction
Sumarização de documentos da web

56
Referências

(Bruza et al, 2000) Peter Bruza Robert McArthur
Simon Dennis. Interactive Internet Search
keyword, directory and query reformulation
mechanisms compared. www.guidebeam.com/sigir00.pdf
(CNET.com) CNET.com. Search Engines Shoot-out.
http//www.cnet.com/software/0-352106-7-276936.htm
l?tagtxt
(Chu Rosenthal, 1996). Heting Chu Marilyn
Rosenthal. Search Engines the World Wide Web A
comparative study and evaluation methodology.
ASIS 1996. http//www.asis.org/annual-96/Electroni
cProceedings/chu.html
(Consumidor S.A) http//server.digipronto.com.br/i
dec.org.br/consumidorsa/arquivo/jun99/aval.htm

57
Referências

(Cooper, 1968) W. S. Cooper. Expected search
length A single measure of retrieval
effectiveness based on weak ordering action of
retrieval systems. Journal of the American
Society for Information Science, 19, 30-41. 1968.
(Greisdorf Spink, 2001) Howard Greisdorf
Amanda Spink. Median Measure an approach to IR
systems evaluation. Information Processing and
Management 37, 843-857. 2001.
(Gwizdka Chignell,1999) Jacek Gwizdka Mark
Chignell. Towards Information Retrieval Measures
for Evaluation of Web Search Engines.
http//www.imedia.mie.utoronto.ca/jacekg/pubs/web
IR_eval1_99.pdf

58
Referências

(Hawking et al, 1999) David Hawking Nick
Craswell Donna Harman. Results and Challenges in
Web Search Evaluation. http//www8.org/w8-papers/2
c-search-discover/results/results.html
(Hawking et al, 2000) David Hawking Nick
Craswell Peter Bailey Kathy Griffiths.
Measuring Search Engine Quality. Journal of
Information Retrieval. http//www.wkap.nl/journalh
ome.htm/1386-4564.
(Hawking et al, 2001)David Hawking Nick
Craswell Kathleen Griffiths. Which search engine
is best at finding online services?
http//citeseer.nj.nec.com/455030.html
(Joachims, 2002) Thorsten Joachims. Evaluating
Search Engines using Clickthrough Data. 2002.
http//www.cs.cornell.edu/People/tj/publications/j
oachims_02b.pdf

59
Referências

(Li et al, 2001) Longzhuang Li Yi Shang Wei
Zhang. Relevance evaluation of search
enginesquery results. http//www10.org/cdrom/post
ers/1017.pdf
(Moreira) Wálter Moreira. Eficácia dos mecanismos
de busca brasileiros na internet.
http//intermega.globo.com/biblio_fespsp/artigos.h
tm
(Notess, 1999) Greg R. Notess. Comparing Internet
Search Engines. http//www.csu.edu.au/special/onli
ne99/proceedings99/103a.htm
(Notess, 2000) Greg R. Notess. Seacrh Engine
Statistics Dead links report. http//www.notess.c
om/search/stats/deads.shtml.

60
Referências

(Notess, 2002) Greg R. Notess. Seacrh Engine
Statistics Unique Hits Report.
http//www.notess.com/search/stats/unique.html.
(Pratt Fagan, 2000) Wanda Pratt Lawrence
Fagan. The usefulness of dynamically categorizing
search results. Journal of the American Medical
Informatics Association, Vol 7, 6, 2000.
(Rijsbergen, 1979) C. J. van RIJSBERGEN.
Information Retrieval. 1979. Disponível em
http//www.dcs.gla.ac.uk/Keith/Preface.html.
(Robertson Teather, 1974) S.E. Robertson D.
Teather. A statistical analysis of retrieval
tests a Bayesian approach. Journal of
Documentation, 30, 273-282. 1974.

61
Referências

(Saracevic, 1995) T. Saracevic. (1995).
Evaluation of evaluation in information
retrieval. Proceedings og SIGIR 95, 138-146.
http//www.scils.rutgers.edu/muresan/Docs/sigirSa
racevic1995.pdf
(Su et al, 1998) L. T. Su H. Chen X. Dong.
Evaluation of Web-based search engines from the
end-users perspective a pilot study.
Proceedings of the Annual Conference for the
American Society for Information Science,
348-361.
(Swets, 1963) J. A. Swets. Information Retrieval
Systems. Science, 141, 245-250. 1963.
(Wishard, 1998) Lisa Wishard. Precision Among
Internet Search Engines An Earth Sciences Case
Study. http//www.library.ucsb.edu/istl/98-spring/
article5.html

62
Referências

(Wu Sonnenwald, 1999) Mei-Mei Wu Diane H.
Sonnenwald. Reflections in Information Retrieval
Evaluation. Proceedings of the 1999 EBTI, ECAI,
SEER PNC Joint Meeting, 63-81.
http//pnclink.org/events-report/1999/Proceedings/
wu-mm.pdf

63
Lista de mecanismos de busca