Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie

Description:

Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie Mieczys aw K opotek, Arkadiusz Dzier anowski, Marcin Brz ska, Mariusz Kujawiak – PowerPoint PPT presentation

Number of Views:231
Avg rating:3.0/5.0
Slides: 24
Provided by: max9259
Category:

less

Transcript and Presenter's Notes

Title: Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie


1
Procesy decyzyjne w aktywnym wyszukiwaniu
informacji w Internecie
  • Mieczyslaw Klopotek, Arkadiusz Dzierzanowski,
  • Marcin Brzóska, Mariusz Kujawiak

2
Problemy zwiazane z wyszukiwaniem informacji w WWW
  1. Nadmiarowosc i nieaktualnosc informacji.
  2. Rozproszona struktura WWW.
  3. Zbyt duza ilosc dokumentów.
  4. Róznorodnosc zródel informacji.
  5. Dynamiczny rozwój sieci Internet.

3
Wyszukiwarki
- oparte na analizie tresci strony - oparte na
analizie topologii sieci - oparte na zasadzie
aukcji miejsc - oparte na katalogach
4
Meta i multiwyszukiwarki
Serwisy typu "lista strony WWW na których
zgromadzone zostaly odnosniki do wybranych,
standardowych wyszukiwarek Serwisy poszukujacy
pojedynczo uzyskane w ten sposób odnosniki sa
odpowiednio porzadkowane i wyswietlane zazwyczaj
przy zachowaniu podzialu na poszczególne
wyszukiwarki. Serwisy poszukujace równolegle
lacza sie jednoczesnie z wieloma serwisami i na
biezaco pobieraja z nich dane.
5
Osobiste narzedzia wyszukiwawcze
Narzedzia takie odwiedzajac strony zaproponowane
przez uzytkownika wyszukuja przydatne dla niego
informacje
Narzedzie takie zainstalowane w komputerze,
korzysta z wielu indekserów jednoczesnie, a
nastepnie przetwarza uzyskane wyniki, usuwa
duplikaty i wyswietla jednolita liste zgodnie z
przyjetymi przez uzytkownika zasadami.
6
Wspomaganie decyzji (nawigacyjnych) w osobistych
narzedziach wyszukiwawczych
  • Oparte na powiazaniach pomiedzy dokumentami
  • PageRank
  • PHITS
  • Oparte na zawartosci dokumentów
  • PLSA
  • TFIDF
  • Hybrydowe
  • PLSAPHITS

7
PageRank
  • Popularny dzieki wyszukiwarce internetowej
    Google.com.
  • Google traktuje odsylacz ze strony A do strony B
    jako glos udzielony stronie B przez strone A.

8
PHITS
  • Algorytm korzysta z macierzy A, która zawiera
    dane dotyczace cytowania jednego dokumentu przez
    inny tzn. Aij jest niezerowe jesli dokument di
    jest cytowany przez dokument dj, lub równowaznie
    jesli dj zawiera odsylacz do dokumentu di.
  • Wyrózniamy dwa rodzaje dokumentów
  • authoritatives
  • hubs
  • PHITS modeluje linki wchodzace do dokumentu,
    czyli cytowania zewnetrzne dokumentu.

9
PLSA
  • Macierz termów i dokumentów N zliczajaca slowa,
    tj. Nij oznacza, jak czesto term (pojedyncze
    slowo lub fraza) ti wystepuje w dokumencie d.
  • Dokument dj. jest reprezentowany jako wypukla
    kombinacja czynników o wagach mieszaniny
    P(zkdj), tzn. prawdopodobienstwa predykcji termu
    w poszczególnych dokumentach sa ograniczone do
    formy funkcyjnej
  • P(ti dj) Sk P(tizk)P(zkdj),

10
TFIDF
  • Waga dokumentów oparta na statystycznej wadze
    termów TFIDF (term frequency inverse document
    frequency).
  • Wyrazona jest ona nastepujacym wzorem
  • tfidfij tfij / idfj tfij / log2(N/dfj)
  • tfij to liczba wystapien termu j w dokumencie
    i,
  • dfj liczba dokumentów zawierajacych term j,
  • N ogólna liczba dokumentów.
  • Z punktu widzenia tego algorytmu duzego znaczenia
    nabierze term czesto wystepujacy w jednym z
    dokumentów, a rzadko w innych.

11
TFIDF
  • Majac dany zbiór termów Zw1,w2,w3, po
    wyliczeniu wag dla poszczególnych wyrazów,
    obliczamy calkowita wage dokumentu z
    nastepujacego wzoru
  • Si waga dokumentu i,
  • Di calkowita liczba termów w dokumencie i,
  • N calkowita liczba termów,
  • Wj waga termu j,
  • Dij liczba wystapien termu j w dokumencie i

12
PLSAPHITS
  • Poniewaz zarówno PLSA i PHITS jest oparte na
    podobnym rozkladzie, mozna zdefiniowac prostszy
    wspólny model dla prawdopodobienstwa hiperlaczy i
    termów w dokumentach
  • Zaleta takiego polaczenia jest mozliwosc
    wykorzystanie zawartego tekstu i powiazania
    dokumentów.
  • Zastosowanie tego modelu umozliwia precyzyjne
    okreslanie dokumentów najbardziej do siebie
    podobnych poprzez zawartosc merytoryczna tego
    dokumentu jak równiez powiazanie z innymi
    dokumentami przez zawarte w tresci hiperlacza.

13
Przyklady wykorzystania algorytmu TFIDF
  • Witryna http//onet.pl - ilosc stron 322
  • slowa kluczowe pilka nozna

14
Przyklady wykorzystania algorytmów (1)
Wprowadzenie pomocniczej miary quasi
statystycznej dla algorytmu opartego na
powiazaniach pomiedzy stronami, pozwala na
wziecie pod uwage takze zawartosci merytorycznej
dokumantu.
15
Rozklad procentowy jakosci stron
Witryna http//allegro.pl - ilosc stron 150 slowo
kluczowe komputer
Przed filtrowaniem stron WWW
Po filtrowaniu stron WWW
16
Przyklady wykorzystania algorytmów (2)
  • Witryna http//www.ii.ap.siedlce.pl - ilosc stron
    54
  • slowa kluczowe studia

17
Przyklady wykorzystania algorytmów (1)
Witryna http//allegro.pl - ilosc stron 134
slowo kluczowe komputer
18
Struktura dzialania metawyszukiwarki MetaSzukacz
19
Metawyszukiwarka MetaSzukacz
Akcja na przycisku Szukaj rozsyla zapytanie do
wybranych wyszukiwarek
Pole do wprowadzenia zapytania do wyszukiwarek
Wybór wyszukiwarek z których beda pobierane opisy
dokumentów
20
Prezentacja wyników w MetaSzukaczu
Mapa rozmieszczenia dokumentów z pomoca algorytmu
WEBSOM
Informacje o wybranym dokumencie w mapie
Wybór algorytmu decyzyjnego który wskazuje
nastepny podobny dokument
Zawartosc merytoryczna wybranego dokumentu
Legenda mapy okreslajaca waznosc dokumentu
21
Szybkosc przekazywania wyników
22
Zaleznosc przetwarzania danych przez poszczególne
algorytmy
23
Subiektywna ocena algorytmów nawigacji dla
zapytania metawyszukiwarki
Write a Comment
User Comments (0)
About PowerShow.com