Title: Wprowadzenie do budowy uslug informacyjnych
1Wprowadzenie do budowy uslug informacyjnych
Uniwersytet Lódzki Katedra Informatyki
W. Bartkiewicz
Wyklad 1. Zagadnienia wstepne
2Literatura
- Manning C.D., Raghavan P, Shütze H., An
introduction to information retrieval, Cambridge
University Press, 2007. - Baeza-Yates R., Ribeiro-Neto B., Modern
information retrieval, Addison Wesley, 1999. - Weiss S.M., Indurkhya N., Zhang T., Damerau F.J.,
Text mining. Predictive methods for analyzing
unstructured information, Springer. 2005. - Baldi P., Frasconi P., Smyth P., Modeling the
Internet and the Web, Wiley, 2003. - Chen Ch., Information visualization. Beyond the
horizon, Springer, 2006. - Chakrabarti S., Mining the Web. Discovering
Knowledge from Hypertext Data, Morgan Kaufmann,
2005.
3Literatura
- Klopotek M.A., Inteligentne wyszukiwarki
internetowe, Akademicka Oficyna Wydawnicza Exit,
2001. - Wakulicz-Deja A., Podstawy systemów wyszukiwania
informacji, Akademicka Oficyna Wydawnicza PLJ,
1995. - Abiteboul S., Buneman P., Suciu D., Dane w sieci
WWW od relacji do modelu semistrukturalnego i
XML, Mikom, 2001. - Garcia-Molina H., Ullman J.D., Widom J.,
Implementacja systemów baz danych, WNT, 2003.
4Informacja vs dane
- Uslugi informacyjne programy przetwarzajace
informacje, dla dostarczenia funkcji wyzszego
rzedu. - Informacja to zinterpretowane dane.
- Dane przeznaczone sa do przetwarzania
maszynowego - Zródla danych maja scisle okreslona strukture,
- Relacyjne bazy danych, pliki rekordów itp.,
- Znany musi byc ich schemat semantyka kazdego
elementu danych jest scisle okreslona. - Ale informacja przeznaczona jest dla czlowieka.
- Ludzie doskonale przetwarzaja informacje
niestrukturalna, majaca postac ogólnie nazywana
dokumentem, - Dokumenty teksty, strony webowe i multimedia
(grafika, dzwiek, film), - Dane (informacje) niestrukturalne nie maja
okreslonego schematu informacji.
5Zródla strukturalne i niestrukturalne w 1996
Zródlo Manning, Raghavan, Shütze, An
Introduction to Information Retrieval
6Zródla strukturalne i niestrukturalne w 2006
Zródlo Manning, Raghavan, Shütze, An
Introduction to Information Retrieval
7Informacja vs dane
- Nawet jesli przechowywane dane maja charakter
strukturalny, to dla uslug informacyjnych
wyzszego rzedu dostepne sa czesto w postaci
niestrukturalnej informacji. - Dokumenty slabo ustrukturalizowane.
- Strony HTML,
- Teksty podzielone na rozdzialy, z wyodrebnionym
tytulem, autorami, bibliografia, streszczeniem,
itp. - Dokumenty semistrukturalne.
- XML.
8Uslugi informacyjne
- Ludzkosc gromadzila informacje niemal od zarania
swoich dziejów. Poczatkowo oczywiscie informacja
zapisywana byla na róznego rodzaju nosnikach
tradycyjnych tabliczkach glinianych,
papirusach, pergaminie, papierze, itp. oraz
gromadzona w recznie obslugiwanych zbiorach
archiwach oraz bibliotekach. - Dla sprawnego zarzadzania czesto obszernymi
zasobami informacji, niezbedne bylo wiec
wypracowanie najrozmaitszych metod organizowania,
porzadkowania i wyszukiwania poszczególnych
zapisków (dokumentów). - Tak wiec, co dzis moze wydawac sie nieco
zaskakujace, korzeni wspólczesnej informatyki w
duzej mierze szukac nalezy w archiwistyce i
bibliotekoznawstwie.
9Uslugi informacyjne
- Aby umozliwic odnalezienie niezbednej informacji
w obszernej przestrzeni informacyjnej, stosuje
sie zazwyczaj róznego rodzaju systemy
klasyfikujace (katalogujace), pozwalajace na
uporzadkowanie informacji w obrebie calej
kolekcji lub pojedynczego dokumentu. - Jedna z pierwszych metod organizacji informacji
byla alfabetyzacja, czyli klasyfikowanie
fragmentów informacji zgodnie porzadkiem
alfabetycznym. - Alfabetyzacja zostala prawdopodobnie po raz
pierwszy zastosowana przez greckich bibliotekarzy
juz w trzecim stuleciu p.n.e. w slynnej
bibliotece Aleksandryjskiej w Egipcie.
10Uslugi informacyjne
- Plaskie struktury organizacji informacji sa
zazwyczaj niewystarczajace przy duzych rozmiarach
przestrzeni informacyjnej. - Aby sprawnie lokalizowac poszczególne jej
elementy stosuje sie na ogól pewne hierarchie
informacyjne, pozwalajace na stopniowa
klasyfikacje dokumentu do coraz bardziej
szczególowych podgrup na kolejnych poziomach. - Równiez w przypadku organizacji hierarchicznej
informacji, poczatków nalezy szukac w
starozytnosci. - Podzial tekstu na ksiegi, te z kolei na rozdzialy
stosowany byl powszechnie w literaturze
antycznej. - Pewne elementy klasyfikacji informacji w ramach
hierarchii tematycznych wskazuje sie dla
przykladu w Historii naturalnej Pliniusza
Starszego (zmarl w 79 roku n.e.), czy tez w
Nocach Attyckich Aulusa Gelliusa (okolo 160
roku n.e.)
11Uslugi informacyjne
- W pelniejszym jednak zakresie o systemach
klasyfikacji tematycznej w duzych kolekcjach
dokumentów, mozna mówic jednak dopiero w czasach
zdecydowanie pózniejszych. - Jako jeden z pierwszych przykladów wymienia sie
tu system klasyfikacyjny wymyslony przez Tomasza
Jeffersona, na potrzeby jego biblioteki w
Monticello, która stala sie pózniej zalazkiem
slynnej Biblioteki Kongresu Stanów Zjednoczonych.
- W drugiej polowie dziewietnastego wieku natomiast
opracowany zostal przez Melvila Deweya System
Klasyfikacji Dziesietnej, który stanowi do dzis
podstawe klasyfikacji tematycznej w wielu
bibliotekach - Organizowanie informacji systemy klasyfikacji,
oparte na róznorodnych strukturach
hierarchicznych, stosowane jest równiez we
wspólczesnych zasobach informacyjnych.
12Uslugi informacyjne
- Alternatywna metoda wspomagania przeszukiwania
duzych zasobów informacyjnych, równiez stosowana
do dzis, jest tworzenie róznego rodzaju indeksów.
- Poczatkowo, w starozytnym Rzymie przez indeks
rozumiano dolaczany do zwoju papirusu pokrowiec,
zawierajacy tytul i czasami nazwisko autora.
Pozwalal on na okreslenie zawartosci bez
koniecznosci przegladania samego zwoju. - Stad tez samo slowo indeks zaczelo oznaczac po
prostu tytul pracy. Stopniowo, mniej wiecej w
ciagu I wieku n.e., znaczenie slowa indeks
rozszerzone zostalo na spis tresci, czasami
równiez z krótkimi streszczeniami poszczególnych
rozdzialów.
13Uslugi informacyjne
- Indeks w obecnym tego slowa znaczeniu, skladajacy
sie z slów kluczowych oraz informacji o ich
polozeniu w dokumencie (lub w obrebie calej
kolekcji) pojawia jednak sie dopiero po
wynalezieniu druku. - W starozytnych tekstach, zapisywanych na
rulonach, trudno bylo nawet okreslic liczbowe
wskazniki polozenia. Nie bylo przeciez stron,
niepraktycznie byloby równiez poslugiwac sie
numerem wiersza. - Dopiero w przypadku dokumentów drukowanych w
setkach i tysiacach egzemplarzy, mozemy mówic o
powtarzalnosci dokumentu. Kopie przepisywane
recznie, jesli chodzi o polozenie poszczególnych
fragmentów tekstu, mogly róznic sie miedzy soba
dosyc wyraznie. - Indeksy we wspólczesnym tego slowa znaczeniu
rozwinely sie wiec w okresie miedzy druga polowa
XV wieku, a wiekiem XVII, w którym kompilowane
byly juz dosyc powszechnie. - Poczatkowo slowa kluczowe w indeksie porzadkowane
byly jedynie wedlug pierwszej litery, pelna
alfabetyzacja stala sie obowiazujaca w XVIII
wieku.
14Uslugi informacyjne
- Wyszukiwanie informacji
- Przegladanie i nawigacja w obszernych, zlozonych
przestrzeniach informacyjnych - Filtrowanie i rekomendacja
- Organizowanie skojarzeniowe zbiorów informacji
- Wizualizacja zasobów informacyjnych
- Zaawansowane uslugi informacyjne
- Ekstrakcja wiedzy i informacji
- Wnioskowanie w oparciu o baze informacji. Systemy
odpowiedzi na zapytania, rozumowania opartego na
przypadkach - Sumaryzacja (streszczanie) dokumentów i zbiorów
informacji - Generowanie powiazan miedzy dokumentami
- Automatyczne tlumaczenie
15Technologie
- Wyszukiwanie informacji
- Klasyfikacja dokumentów
- Grupowanie dokumentów
- Eksploracja tekstu
- Eksploracja sieci web
16Wyszukiwanie informacji Skanowanie tekstu
- Wyszukiwanie pelnotekstowe znajdowanie
wszystkich dokumentów, które zawieraja podany
przez uzytkownika lancuch znaków. - Dokladne i przyblizone algorytmy dopasowania
wzorca. - Jako opis dokumentu tworzy sie specjalne drzewo
indeksujace, tzw. drzewo przedrostkowe i
przyrostkowe (wiele rodzajów np. trie, PAT,
Patricia, itp.), pozwalajace na szybkie
wyszukiwanie wzorca tekstowego. - Wady
- Dotyczy wylacznie dokumentów tekstowych i do
pewnego stopnia HTML. - Nawet dla dokumentów tekstowych z powodu
heterogenicznego charakteru Internetu, trudno
czasami pobrac tekst (rózne formaty). - Tekst moze byc niedostepny podczas wyszukiwania.
- Opiera sie wylacznie na dopasowaniu wzorca. Brak
mozliwosci zastosowania podejscia semantycznego.
17Wyszukiwanie informacji Wyszukiwanie oparte na
cechach
- Zamiast indeksowac caly tekst zapamietujemy pewne
cechy dokumentu, oddajace w pewien sposób jego
tresc. - W duzym stopniu eliminuje to wady podejscia
pelnotekstowego. - Proces pozyskiwania cech dokumentów nazywamy
indeksowaniem. - Typowe cechy wszystkie rodzaje dokumentów.
- Slowa kluczowe (termy) pojedyncze slowa lub
grupy slów. Dotyczy nie tylko dokumentów
tekstowych! - Kategorie tematyczne.
- Kategorie taksonomiczne (hierarchie tematów).
- Dokumenty tekstowe
- Analiza wspólautorstwa.
- Analiza cytowania.
- Dokumenty HTML analiza polaczen (linków).
- Cechy specyficzne dokumentów multimedialnych.
- Cechy calych dokumentów i indeksowanie pól
strukturalnych.
18Wyszukiwanie informacji Ocena dzialania
- Dokladnosc wyszukiwania Odsetek wszystkich
wyszukanych dokumentów relewantnych. - Zmiana parametrów metod wyszukiwania pozwala
zwykle zwiekszac dokladnosc, ale kosztem
umieszczenia w zbiorze wynikowym wielu dokumentów
nierelewantnych. - Precyzja wyszukiwania Odsetek dokumentów
relewantnych w zbiorze wynikowym.
Relewantny Nierelewantny
Wyszukany tp fp
Nie wyszukany fn tn
- Dokladnosc R tp/(tp fn)
- Precyzja P tp/(tp fp)