Wprowadzenie do budowy uslug informacyjnych - PowerPoint PPT Presentation

1 / 18

About This Presentation

Title:

Wprowadzenie do budowy uslug informacyjnych

Description:

Title: Sieci neuronowe w prognozowaniu podejmowanie decyzji i analiza niepewno ci Author: Witold Bartkiewicz Last modified by: usr Created Date – PowerPoint PPT presentation

Number of Views:117

Avg rating:3.0/5.0

Slides: 19

Provided by: Witol6

Category:

more less

Transcript and Presenter's Notes

Title: Wprowadzenie do budowy uslug informacyjnych

1
Wprowadzenie do budowy uslug informacyjnych
Uniwersytet Lódzki Katedra Informatyki
W. Bartkiewicz
Wyklad 1. Zagadnienia wstepne
2
Literatura

Manning C.D., Raghavan P, Shütze H., An
introduction to information retrieval, Cambridge
University Press, 2007.
Baeza-Yates R., Ribeiro-Neto B., Modern
information retrieval, Addison Wesley, 1999.
Weiss S.M., Indurkhya N., Zhang T., Damerau F.J.,
Text mining. Predictive methods for analyzing
unstructured information, Springer. 2005.
Baldi P., Frasconi P., Smyth P., Modeling the
Internet and the Web, Wiley, 2003.
Chen Ch., Information visualization. Beyond the
horizon, Springer, 2006.
Chakrabarti S., Mining the Web. Discovering
Knowledge from Hypertext Data, Morgan Kaufmann,
2005.

3
Literatura

Klopotek M.A., Inteligentne wyszukiwarki
internetowe, Akademicka Oficyna Wydawnicza Exit,
2001.
Wakulicz-Deja A., Podstawy systemów wyszukiwania
informacji, Akademicka Oficyna Wydawnicza PLJ,
1995.
Abiteboul S., Buneman P., Suciu D., Dane w sieci
WWW od relacji do modelu semistrukturalnego i
XML, Mikom, 2001.
Garcia-Molina H., Ullman J.D., Widom J.,
Implementacja systemów baz danych, WNT, 2003.

4
Informacja vs dane

Uslugi informacyjne programy przetwarzajace
informacje, dla dostarczenia funkcji wyzszego
rzedu.
Informacja to zinterpretowane dane.
Dane przeznaczone sa do przetwarzania
maszynowego
Zródla danych maja scisle okreslona strukture,
Relacyjne bazy danych, pliki rekordów itp.,
Znany musi byc ich schemat semantyka kazdego
elementu danych jest scisle okreslona.
Ale informacja przeznaczona jest dla czlowieka.
Ludzie doskonale przetwarzaja informacje
niestrukturalna, majaca postac ogólnie nazywana
dokumentem,
Dokumenty teksty, strony webowe i multimedia
(grafika, dzwiek, film),
Dane (informacje) niestrukturalne nie maja
okreslonego schematu informacji.

5
Zródla strukturalne i niestrukturalne w 1996
Zródlo Manning, Raghavan, Shütze, An
Introduction to Information Retrieval
6
Zródla strukturalne i niestrukturalne w 2006
Zródlo Manning, Raghavan, Shütze, An
Introduction to Information Retrieval
7
Informacja vs dane

Nawet jesli przechowywane dane maja charakter
strukturalny, to dla uslug informacyjnych
wyzszego rzedu dostepne sa czesto w postaci
niestrukturalnej informacji.
Dokumenty slabo ustrukturalizowane.
Strony HTML,
Teksty podzielone na rozdzialy, z wyodrebnionym
tytulem, autorami, bibliografia, streszczeniem,
itp.
Dokumenty semistrukturalne.
XML.

8
Uslugi informacyjne

Ludzkosc gromadzila informacje niemal od zarania
swoich dziejów. Poczatkowo oczywiscie informacja
zapisywana byla na róznego rodzaju nosnikach
tradycyjnych tabliczkach glinianych,
papirusach, pergaminie, papierze, itp. oraz
gromadzona w recznie obslugiwanych zbiorach
archiwach oraz bibliotekach.
Dla sprawnego zarzadzania czesto obszernymi
zasobami informacji, niezbedne bylo wiec
wypracowanie najrozmaitszych metod organizowania,
porzadkowania i wyszukiwania poszczególnych
zapisków (dokumentów).
Tak wiec, co dzis moze wydawac sie nieco
zaskakujace, korzeni wspólczesnej informatyki w
duzej mierze szukac nalezy w archiwistyce i
bibliotekoznawstwie.

9
Uslugi informacyjne

Aby umozliwic odnalezienie niezbednej informacji
w obszernej przestrzeni informacyjnej, stosuje
sie zazwyczaj róznego rodzaju systemy
klasyfikujace (katalogujace), pozwalajace na
uporzadkowanie informacji w obrebie calej
kolekcji lub pojedynczego dokumentu.
Jedna z pierwszych metod organizacji informacji
byla alfabetyzacja, czyli klasyfikowanie
fragmentów informacji zgodnie porzadkiem
alfabetycznym.
Alfabetyzacja zostala prawdopodobnie po raz
pierwszy zastosowana przez greckich bibliotekarzy
juz w trzecim stuleciu p.n.e. w slynnej
bibliotece Aleksandryjskiej w Egipcie.

10
Uslugi informacyjne

Plaskie struktury organizacji informacji sa
zazwyczaj niewystarczajace przy duzych rozmiarach
przestrzeni informacyjnej.
Aby sprawnie lokalizowac poszczególne jej
elementy stosuje sie na ogól pewne hierarchie
informacyjne, pozwalajace na stopniowa
klasyfikacje dokumentu do coraz bardziej
szczególowych podgrup na kolejnych poziomach.
Równiez w przypadku organizacji hierarchicznej
informacji, poczatków nalezy szukac w
starozytnosci.
Podzial tekstu na ksiegi, te z kolei na rozdzialy
stosowany byl powszechnie w literaturze
antycznej.
Pewne elementy klasyfikacji informacji w ramach
hierarchii tematycznych wskazuje sie dla
przykladu w Historii naturalnej Pliniusza
Starszego (zmarl w 79 roku n.e.), czy tez w
Nocach Attyckich Aulusa Gelliusa (okolo 160
roku n.e.)

11
Uslugi informacyjne

W pelniejszym jednak zakresie o systemach
klasyfikacji tematycznej w duzych kolekcjach
dokumentów, mozna mówic jednak dopiero w czasach
zdecydowanie pózniejszych.
Jako jeden z pierwszych przykladów wymienia sie
tu system klasyfikacyjny wymyslony przez Tomasza
Jeffersona, na potrzeby jego biblioteki w
Monticello, która stala sie pózniej zalazkiem
slynnej Biblioteki Kongresu Stanów Zjednoczonych.
W drugiej polowie dziewietnastego wieku natomiast
opracowany zostal przez Melvila Deweya System
Klasyfikacji Dziesietnej, który stanowi do dzis
podstawe klasyfikacji tematycznej w wielu
bibliotekach
Organizowanie informacji systemy klasyfikacji,
oparte na róznorodnych strukturach
hierarchicznych, stosowane jest równiez we
wspólczesnych zasobach informacyjnych.

12
Uslugi informacyjne

Alternatywna metoda wspomagania przeszukiwania
duzych zasobów informacyjnych, równiez stosowana
do dzis, jest tworzenie róznego rodzaju indeksów.
Poczatkowo, w starozytnym Rzymie przez indeks
rozumiano dolaczany do zwoju papirusu pokrowiec,
zawierajacy tytul i czasami nazwisko autora.
Pozwalal on na okreslenie zawartosci bez
koniecznosci przegladania samego zwoju.
Stad tez samo slowo indeks zaczelo oznaczac po
prostu tytul pracy. Stopniowo, mniej wiecej w
ciagu I wieku n.e., znaczenie slowa indeks
rozszerzone zostalo na spis tresci, czasami
równiez z krótkimi streszczeniami poszczególnych
rozdzialów.

13
Uslugi informacyjne

Indeks w obecnym tego slowa znaczeniu, skladajacy
sie z slów kluczowych oraz informacji o ich
polozeniu w dokumencie (lub w obrebie calej
kolekcji) pojawia jednak sie dopiero po
wynalezieniu druku.
W starozytnych tekstach, zapisywanych na
rulonach, trudno bylo nawet okreslic liczbowe
wskazniki polozenia. Nie bylo przeciez stron,
niepraktycznie byloby równiez poslugiwac sie
numerem wiersza.
Dopiero w przypadku dokumentów drukowanych w
setkach i tysiacach egzemplarzy, mozemy mówic o
powtarzalnosci dokumentu. Kopie przepisywane
recznie, jesli chodzi o polozenie poszczególnych
fragmentów tekstu, mogly róznic sie miedzy soba
dosyc wyraznie.
Indeksy we wspólczesnym tego slowa znaczeniu
rozwinely sie wiec w okresie miedzy druga polowa
XV wieku, a wiekiem XVII, w którym kompilowane
byly juz dosyc powszechnie.
Poczatkowo slowa kluczowe w indeksie porzadkowane
byly jedynie wedlug pierwszej litery, pelna
alfabetyzacja stala sie obowiazujaca w XVIII
wieku.

14
Uslugi informacyjne

Wyszukiwanie informacji
Przegladanie i nawigacja w obszernych, zlozonych
przestrzeniach informacyjnych
Filtrowanie i rekomendacja
Organizowanie skojarzeniowe zbiorów informacji
Wizualizacja zasobów informacyjnych
Zaawansowane uslugi informacyjne
Ekstrakcja wiedzy i informacji
Wnioskowanie w oparciu o baze informacji. Systemy
odpowiedzi na zapytania, rozumowania opartego na
przypadkach
Sumaryzacja (streszczanie) dokumentów i zbiorów
informacji
Generowanie powiazan miedzy dokumentami
Automatyczne tlumaczenie

15
Technologie

Wyszukiwanie informacji
Klasyfikacja dokumentów
Grupowanie dokumentów
Eksploracja tekstu
Eksploracja sieci web

16
Wyszukiwanie informacji Skanowanie tekstu

Wyszukiwanie pelnotekstowe znajdowanie
wszystkich dokumentów, które zawieraja podany
przez uzytkownika lancuch znaków.
Dokladne i przyblizone algorytmy dopasowania
wzorca.
Jako opis dokumentu tworzy sie specjalne drzewo
indeksujace, tzw. drzewo przedrostkowe i
przyrostkowe (wiele rodzajów np. trie, PAT,
Patricia, itp.), pozwalajace na szybkie
wyszukiwanie wzorca tekstowego.
Wady
Dotyczy wylacznie dokumentów tekstowych i do
pewnego stopnia HTML.
Nawet dla dokumentów tekstowych z powodu
heterogenicznego charakteru Internetu, trudno
czasami pobrac tekst (rózne formaty).
Tekst moze byc niedostepny podczas wyszukiwania.
Opiera sie wylacznie na dopasowaniu wzorca. Brak
mozliwosci zastosowania podejscia semantycznego.

17
Wyszukiwanie informacji Wyszukiwanie oparte na
cechach

Zamiast indeksowac caly tekst zapamietujemy pewne
cechy dokumentu, oddajace w pewien sposób jego
tresc.
W duzym stopniu eliminuje to wady podejscia
pelnotekstowego.
Proces pozyskiwania cech dokumentów nazywamy
indeksowaniem.
Typowe cechy wszystkie rodzaje dokumentów.
Slowa kluczowe (termy) pojedyncze slowa lub
grupy slów. Dotyczy nie tylko dokumentów
tekstowych!
Kategorie tematyczne.
Kategorie taksonomiczne (hierarchie tematów).
Dokumenty tekstowe
Analiza wspólautorstwa.
Analiza cytowania.
Dokumenty HTML analiza polaczen (linków).
Cechy specyficzne dokumentów multimedialnych.
Cechy calych dokumentów i indeksowanie pól
strukturalnych.

18
Wyszukiwanie informacji Ocena dzialania

Dokladnosc wyszukiwania Odsetek wszystkich
wyszukanych dokumentów relewantnych.
Zmiana parametrów metod wyszukiwania pozwala
zwykle zwiekszac dokladnosc, ale kosztem
umieszczenia w zbiorze wynikowym wielu dokumentów
nierelewantnych.
Precyzja wyszukiwania Odsetek dokumentów
relewantnych w zbiorze wynikowym.

Relewantny Nierelewantny
Wyszukany tp fp
Nie wyszukany fn tn