Title: Zgodovina zbirk celotnih besedil
1Zgodovina zbirk celotnih besedil
Gutenberg Etexts, Project Tulip, NCSTRL
2Hocete zbirko? Ni problem.
- Kako zgraditi srednjeveliko zbirko polnih
dokumentov v polprofesionalne namene? Kaj
potrebujemo? - Osnovno racunalniško znanje,
- obicajen PC, povezan v Internet,
- dobro razumevanje oblikovanja in rabe
metapodatkov, - izkušnje s konkretno programsko opremo in 1 teden
casa, ali - poljubno programsko opremo in 1 mesec casa.
3Hocete zbirko? Ni problem.
- Kaj je srednjeveliko?
- 10.000 - 100.000 dokumentov velikosti clanka.
- Kaj je polprofesionalno?
- Raba v akademskem okolju ali v zakljuceni
uporabniški skupini, - manjše število socasnih uporabnikov,
- ni konec sveta, ce obcasno ne dela.
- Zgraditi zbirko za profesionalno rabo?
- Potrebujemo gt1 leto in dobro ekipo. Ekipa se bo
ukvarjala pretežno s poslovnimi in promocijskimi
vprašanji. - Vse to drži pod pogojem, da imamo na voljo
podatke v e-obliki.
4Ali zbirke polnih dokumentov delujejo?
- Delujejo!
- Knjižnice obstajajo tisocletja, racunalniške
zbirke dokumentov (npr. d-knjižnice) pa 10 - 20
let. - V vecini primerov enako dobro opravljajo svoje
osnovno poslanstvo, povezano s strokovnim
gradivom. - Enakovrednost seveda ne velja za vse vrste
gradiva in dejavnosti knjižnice, predvsem
dejavnosti, kjer je potreben medcloveški odnos.
5Ali zbirke polnih dokumentov delujejo?
- Hitrost sporocanja se je z e-objavljanjem in
e-dostopom dramaticno povecala. - Spletne zbirke imajo lahko bistveno vecje izrazne
možnosti od zbirk gradiva v klasicnih knjižnicah
- zaradi novih nacinov povezovanja enot gradiva
in zaradi vecjih izraznih možnosti e-dokumentov. - Zbirke e-dokumentov lahko rešujejo gradivo, npr.
zbirke obcutljivega rokopisnega gradiva.
6Ali zbirke polnih dokumentov delujejo?
- E-zbirke dokumentov zaenkrat(?) ne nadomešcajo
vseh knjižnicnih zbirk - njihova moc še vedno
prevladuje drugje, predvsem na strokovnih
podrocjih. - Posebno vrednost imajo zbirke e-dokumentov v
nekaterih ne-knjižnicnih okoljih - zbirke
posnetkov artefaktov v muzejih in galerijah. - Gotovo so zelo primerne za nebesedilno gradivo,
še posebej tisto s casovno komponento - glasbo,
filme, simulacije, vizualizacije, 3D objekte...
7Ali zbirke polnih dokumentov delujejo?
- Velike zbirke polnih dokumentov (kot osnova
d-knjižnic) so prva velika prelomnica v
znanstvenem informiranju, ki ni nastala kot
posledica gašenja informacijske eksplozije. - V trenutku, ko so sovpadle
- tehnologije e-produkcije dokumentov,
- digitalizacije in
- spletna infrastruktura kot nacin distribucije
- je bilo najnujnejše znanje, potrebno za gradnjo
zbirk in iskalnikov že popolnoma razvito.
8Velikostni razredi zbirk
enota št. nicel št. bajtov primer
bajt 0 1 ena crka v ASCII
6 beseda v ASCII
100 stavek v ASCII
kilobajt 3 1000 pol tipkane strani v ASCII
10.000 sekunda skromnega zvocnega posnetka, zelo drobna slicica
30.000 skenirana, komprimirana knjižna stran
100.000 majhna slicica
500.000 roman v ASCII
megabajt 6 1.000.000 dolg roman v ASCII
2.000.000 kratka pesem v MP3, fotografija srednje locljivosti
5.000.000 Biblija
10.000.000 simfonija v MP3, fotografija dobre locljivosti
20.000.000 skenirana knjiga nizke locljivosti, komprimirana
50.000.000 dve uri radijskega programa, 30 sek. HD videa
500.000.000 Oxford English Dictionary
9Velikostni razredi zbirk
enota št. nicel št. bajtov primer
gigabajt 9 1.000.000.000 knjižna polica v ASCII
10.000.000.000 celovecerni film v HD locljivosti
100.000.000.000 nadstropje knjižnice
terabajt 12 1.000.000.000.000 knjižnica z milijonom knjig, prenosni disk za v srajcni žep (2009)
20.000.000.000.000 ameriška Kongresna knjižnica v ASCII
petabajt 15 1.000.000.000.000.000 ameriška Nacionalna knjižnica v ASCII
10Memex
- Vannevar Bush, profesor na MIT in najvišji
svetovalec za znanost v ameriški vojski med 2.
svetovno vojno. - Julija 1945 je objavil clanek, v katerem je
opisal bodoce osebno informacijsko orodje
Memex. - Memex naj bi bila mehanicna naprava, ki bi
vsebovala osebno knjižnico clankov in knjig,
zapiske, korespondenco, vse na mikrofilmih. - Memex bi imel tipkovnico, na katero bi lastnik
vtipkal kodo knjige, mehanski sistem pa bi
prinesel pod zaslon njene mikrofilmane strani.
11Memex
- Memex bi na mehanicni osnovi omogocal
postavljanje kazalcev iz dokumenta na dokument. - Kazalce je imenoval information trails.
- Kazalci bi omogocali dodajanje opomb posameznika
ali skupine in "hitro" preiskovanje in
prikazovanje mikrofilmov. - Trdil je, da bi Memex brez težav obvladoval
mikrofilmano knjižnico z 1 milijonom knjig in
osebne opombe k njim. - Naprave s približno takimi lastnostmi in tako
velike knjižnice v eni napravi ni bilo do pojava
spleta in spletno dostopnih zbirk.
12Memex
13Memex
- V. Bush je sicer vedel za digitalne racunalnike,
vendar si jih ni predstavljal v tej vlogi. - Bush si (tudi zato) ni zamislil iskanja po
prostem tekstu - Memex je temeljil na klasicnem
"rocnem" indeksiranju.
14J. C. R. Licklider
- J. C. R. Licklider, vodja informatike na
ameriškem ministrstvu za obrambo. - Leta 1960 govori o bodoci tesni povezanosti
"možganov in elektronskih možganov" (danes bi
rekli "ljudi in racunalnikov"). - Povezanost naj bi bila podprta z "mrežo miselnih
centrov", ki bodo imeli funkcije današnjih
knjižnic in velike sposobnosti shranjevanja in
iskanja informacij. - Licklider že pricakuje razvoj in veliko vlogo
podrocja, ki ga danes imenujemo Information
Retrieval shranjevanje in iskanje informacij.
15Project Gutenberg Etexts
- Najstarejši projekt velike zbirke polnih besedil.
- Zanimivo že na zacetku povezan z internetno
tehnologijo. - Gutenberg Etexts bi danes lahko imenovali
digitalna knjižnica. - Nastal leta 1971 Materials Research Lab na
University of Illinois dodelila Michaelu Hartu
uporabo racunalnika v vrednosti 100.000.000 . - Razloga
- na univerzi premalo zaposlenih in študentov, ki
bi znali izkoristiti obstojeco opremo, - Hart je imel dobre zveze.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
15
16Project Gutenberg Etexts
- Hart je bil preprican, da se tako velike donacije
ne da porabiti z razvojem programske opreme,
ampak s ponudbo informacij. - Zamislil si je veliko javno, omrežno dostopno
zbirko e-dokumentov. - Na veliko število naslovov poslal poziv za
sodelovanje - tipkanje literarnih in referencnih
del, ki niso vec pod zašcito avtorskega prava. - Odziv je bil zelo velik.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
16
17Project Gutenberg Etexts
- Ker so bile l. 1971 racunalniške kapacitete
uporabnikov zelo skromne je bilo osnovno pravilo
vkljucevanje besedil v najenostavnejšem formatu -
ASCII. - V casu nastanka projekta so bile obvladljive
velikosti datotek, ki jih je bilo mogoce
prenašati tudi na disketah, nekaj deset Kb. - Dokument v projektu sme biti zapisan le z
velikimi in malimi crkami, odpadejo celo poševne
in poudarjene crke.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
17
18Project Gutenberg Etexts
- ASCII je bil v 70-ih in 80-ih letih edini format,
ki je bil berljiv na vsej obstojeci strojni
opremi. - ASCII je bil dolgo edini format, ki ga je bilo
mogoce varno in dovolj hitro prenašati po
Internetu. - Projekt šele v zadnjih desetletjih vkljucuje tudi
multimedijske podatke. - Trenutno se vsak teden vkljuci v zbirko gt100
novih del. - Velikost 17.000 knjig (marec 2006).
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
18
19Project Gutenberg Etexts
- Velik problem nacrtovanja zbirk so stalne
spremembe obdobja, v katerem neko delo postane
javno. - Leta 2003 so v projektu nacrtovali vkljucevanje
del, ki bodo postala javna do leta 2006. - Dela dostopna na http//www.gutenberg.org/in
številnih zrcalnih spletišcih. - Project Gutenberg ni cisto prava d-knjižnica.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
19
20arXiv
- Prvi arhiv nastane na zacetku 90-ih.
- V njem prednjacijo predtiski.
- Dokumente v njem je na zacetku prispevala skupina
200 fizikov ozke usmeritve vendar svetovne
razprostranjenosti. - V nekaj mesecih se je clanstvo 5-krat povecalo.
- V nekaj letih je clanstvo naraslo na nekaj
desettisoc, število dokumentov na nekaj stotisoc
in iskalnih zahtev na nekaj stotisoc/dan. - 26. 11. 2009 je v zbirki 572.963 dokumentov.
21arXiv
22Project Tulip
- Na zacetku 90-ih je bil cas zrel za izbruh zbirk
polnih dokumentov. - Videti je bilo, da velike, strašno uporabne
d-knjižnice, cakajo za prvim vogalom. - Znali smo
- graditi zbirke,
- znali smo indeksirati (rocno in avtomatsko),
- znali smo graditi iskalnike (Boolove in
ne-Boolove), - relativno uspešno prenašati podatke po Internetu.
- Nismo znali
- zanesljivo prenašati podatkov po Internetu,
- enostavno prikazovati poljubnih dokumentov na
poljubnih zaslonih.
23Project Tulip
- V založbi Elsevier Science Publishers se je
nekaterim zdelo, da bi v splošni ocaranosti z
idejo d-knjižnic znalo biti kaj vec. - D-knjižnice bi lahko pospešile ali pa ogrozile
vlogo založnikov. - Pri Elsevier so hoteli stvar razumeti in biti
pripravljeni nanjo. - V projektu Tulip so preizkusili težave pri
gradnji in ponudbi d-knjižnice v akademskem
okolju. - Izbrali so 43 (kasneje 83) revij s podrocja
fizike in znanosti o materialih, ter 9 ameriških
univerz z najrazvitejšimi oddelki za
racunalništvo.
24Project Tulip
- The Universities involved in TULIP
- University of California (all campuses)
- Berkeley
- Davis
- Irvine
- Los Angeles
- Riverside
- Santa Barbara
- Santa Cruz
- San Diego
- San Francisco
- Carnegie Mellon University (Pittsburgh, PA)
- Cornell University (Ithaca, NY)
- Georgia Institute of Technology (Atlanta, GA)
- University of Michigan (Ann Arbor, MI)
- Massachusetts Institute of Technology (Cambridge,
MA) - University of Tennessee (Knoxville, TN)
- Virginia Polytechnic Institute and State
University (Blacksburg, VA) - University of Washington (Seattle, WA)
25Project Tulip
- Projekt je trajal od 1991 do 1995.
- Preverjal je tehnicno izvedljivost
- omrežne distribucije informacij med inštitucijami
z zelo razlicnimi nivoji razvoja
infrastrukture,(omrežna distribucija pošiljanje
informacij po internetu od Elsevier k fakultetam,
med fakultetami in od fakultet k uporabnikom), - gradnje primerljivih zbirk z heterogeno opremo,
ki je bila na voljo na fakultetah. - Preverjal je organizacijske in ekonomske novosti
- nove oblike narocnin in nove poslovne modele, ki
bi nastopili z d-knjižnicami, - ceno informacij, ki izvira iz novih nacinov
distribucije in rabe.
26Project Tulip
- Preverjal je nove nacine rabe informacij
- pripravljenost uporabnikov za e-dostop,
- zadovoljstvo uporabnikov,
- nacine rabe novih orodij
- Uraden sklep
- Vsi udeleženci projekta Tulip so se veliko
naucili, - projekt je prinesel znanje, potrebno v dolgem
prehodu na tehnologijo digitalnih knjižnic. - Neuradno
- Projekt Tulip je bil veliko razocaranje.
27Projekt Tulip
- Podatki v projektu
- Elsevier je razrezal obstojece številke revij in
liste skeniral. - Na skenih so opravili postopke OCR.
- Skene in besedila so namestili na strežniku, od
koder so jih s FTP crpale fakultete. - Na fakultetah so podatke uredili v zbirke in
zgradili iskalnike. - V kampusih so študenti in osebje uporabljali te
zbirke za zadovoljevanje realnih informacijskih
potreb.
28Projekt Tulip
- Gradnja d-knjižnic se je izkazala za mnogo težjo
in dražjo, kot je bilo pricakovati. Zakaj? - prenos s FTP je bil premalo zanesljiv, in
fakultete so dobivale okvarjene podatke, - programska oprema za gradnjo in rabo zbirk je
bila premalo zmogljiva celo za nekaj deset revij, - prikaz na zaslonih je bil prepocasen in
racunalniki dostopni le na nekaj mestih v
kampusih, - nabor informacij je bil premajhen nihce ni
mogel zadostiti informacijski potrebi le v
d-knjižnici. - Študenti in ucitelji so naceloma dobro sprejeli
novost, vendar je skoraj niso uporabljali.
29Projekt Tulip dragocena lekcija
- Iz rezultatov projekta smo se veliko naucili.
- D-knjižnica ne more uspeti,
- ce ni ustrezne organizacije in osebja, ki je
zaposleno prav v ta namen, - ce ne poznamo potreb in zahtev uporabnikov,
- ce ni na voljo ustrezne infrastrukture na vseh
nivojih omrežnem, strežniškem, programskem in
odjemalskem (npr dovolj številni Pcji in
tiskalniki), - ce ni stalnega razvoja, prilagojenega konkretnim
potrebam dokoncna d-knjižnica na kljuc ne
obstaja, - ce ne izvajamo agresivne promocije in
izobraževanja uporabnikov
30Projekt Tulip dragocena lekcija
- Brez obsežnih sprememb produkcije revij je razvoj
e-revij in gradnja zbirk polnih dokumentov
predraga celo za najmocnejše založnike. - Uporabniki raje uporabljajo (l. 1995) velike
klasicne knjižnice, kot male d-knjižnice.
Kriticna masa e-oblik informacij je še dalec (l.
1995). - Brezpapirno delovno mesto in brezpapirni študij
je utopija.
31Projekt Tulip dragocena lekcija
- Zakaj so se d-knjižnice kljub vsemu razvile?
- Spletna infrastruktura, ki je kmalu zatem
zamenjala dotedanje internetne oblike širjenja in
prikazovanja informacij, je bila veliko bolj
prilagodljiva. - Razvili in standardizirali so se novi nacini
oblikovanja dokumentov oznacevalni jeziki, ki
so omogocali takojšnje tiskanje in spletno
postavitev istega dokumenta. - Nadaljeval se je hiter razvoj procesorjev in
pomnilniških medijev. - Osebna racunalniška oprema je postala standarden
spremljevalec v intelektualnem okolju.
32Iz poslovnega v akademsko okolje
- Rezultati projekta Tulip so verjetno upocasnili
razvoj ideje d-knjižnice v poslovnem
(založniškem) okolju. - Pobudo je prevzelo akademsko okolje.
- Sredi 90-ih so se zaceli projekti organiziranja
in ponudbe tistih zvrsti dokumentov, pri katerih
je zašcita intelektualne lastnine bolj sprošcena - raziskovalna porocila,
- magisteriji in doktorati,
- predtiski raziskovalnih clankov.
33NCSTRL
- NCSTRL (http//www.ncstrl.org/)Networked
Computer Science Technical Report Library,
zacetek leta 1995. - Na zacetku 40 ameriških univerz z mocnimi oddelki
za racunalništvo, kasneje gt100 partnerjev in vec
kot polovica med njimi ne-ameriških univerz. - Gradnja d-knjižnice tehnicnih in raziskovalnih
porocil the oddelkov. - Po 20 letih NCSTRL ugasne in podatki se prenesejo
drugam.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
33
34NCSTRL
- Za vzdrževanje zbirk so bile najbolj
zainteresirane in zato zadolžene ustanove, kjer
so dela nastajala. - Dokumenti na razlicnih strežnikih so razlicno
organizirani enoten iskalni in bralni vmesnik
lahko te razlike skrije. - Vsaka sodelujoca inštitucija v partnerskem
konzorciju naj opravi toliko dela, kot zmore
glede na svoje tehnicne in kadrovske zmožnosti
ostalo naj prepusti drugim.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
34
35NCSTRL
- Nauk projektaPojem dokument v d-knjižnici
zajema razlicne pojavne oblike - golo besedilo (za avtomatsko indeksiranje),
- HTML (za branje na spletu),
- Postscript oz. danes PDF (za branje in tiskanje),
- bitna slika (za listanje strani po ikonah ali za
predstavitev starejših dokumentov).
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
35
36NCSTRL
- Iskanje v sistemu je potekalo paralelno.
- Iskalec je zastavil iskalno zahtevo na enem
strežniku, ki jo je poslal ostalim, zbral
rezultate in jih prikazal iskalcu. - Nauk projekta
- Paralelni iskalniki dobro delujejo le pri majhnem
številu sodelujocih zbirk. - Paralelni iskalnik deluje tako hitro kot
najpocasnejši med strežniki.
37NCSTRL
Listanje po spletišcu NCSTRL. Viden je del
seznama dokumentov s Cornell Uni. in del seznama
sodelujocih inštitucij, od koder so zadetki
iskanja.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
37
38NCSTRL
Iskanje po spletišcu NCSTRL. Zelo enostaven
iskalnik, ki pa omogoca vzporedno iskanje po
zbirkah vseh sodelujocih inštitucij.
39NCSTRL
Iskanje po spletišcu NCSTRL. Rezultati iskanja z
iskalno zahtevo digital libraries.
40NCSTRL
Tehnicno porocilo s spletišca Univerze
Berkeley.Dokument je mogoce priklicati kot sliko
v formatih tiff ali gif, kot golo besedilo ali v
formatu pdf.
41NCSTRL
NCSTRL Tehnicno porocilo s spletišca Uni.
Berkeley. Prikaz starejšega dokumenta kot serije
slicic strani, ki jih je mogoce izbirati.
42NCSTRL
NCSTRL Tehnicno porocilo s spletišca Uni.
Berkeley. Med slicicami strani je bila za prikaz
izbrana 4. stran.