Zgodovina zbirk celotnih besedil - PowerPoint PPT Presentation

About This Presentation
Title:

Zgodovina zbirk celotnih besedil

Description:

Zgodovina zbirk celotnih besedil Gutenberg Etexts, Project Tulip, NCSTRL – PowerPoint PPT presentation

Number of Views:86
Avg rating:3.0/5.0
Slides: 43
Provided by: Jure152
Category:

less

Transcript and Presenter's Notes

Title: Zgodovina zbirk celotnih besedil


1
Zgodovina zbirk celotnih besedil
Gutenberg Etexts, Project Tulip, NCSTRL
2
Hocete zbirko? Ni problem.
  • Kako zgraditi srednjeveliko zbirko polnih
    dokumentov v polprofesionalne namene? Kaj
    potrebujemo?
  • Osnovno racunalniško znanje,
  • obicajen PC, povezan v Internet,
  • dobro razumevanje oblikovanja in rabe
    metapodatkov,
  • izkušnje s konkretno programsko opremo in 1 teden
    casa, ali
  • poljubno programsko opremo in 1 mesec casa.

3
Hocete zbirko? Ni problem.
  • Kaj je srednjeveliko?
  • 10.000 - 100.000 dokumentov velikosti clanka.
  • Kaj je polprofesionalno?
  • Raba v akademskem okolju ali v zakljuceni
    uporabniški skupini,
  • manjše število socasnih uporabnikov,
  • ni konec sveta, ce obcasno ne dela.
  • Zgraditi zbirko za profesionalno rabo?
  • Potrebujemo gt1 leto in dobro ekipo. Ekipa se bo
    ukvarjala pretežno s poslovnimi in promocijskimi
    vprašanji.
  • Vse to drži pod pogojem, da imamo na voljo
    podatke v e-obliki.

4
Ali zbirke polnih dokumentov delujejo?
  • Delujejo!
  • Knjižnice obstajajo tisocletja, racunalniške
    zbirke dokumentov (npr. d-knjižnice) pa 10 - 20
    let.
  • V vecini primerov enako dobro opravljajo svoje
    osnovno poslanstvo, povezano s strokovnim
    gradivom.
  • Enakovrednost seveda ne velja za vse vrste
    gradiva in dejavnosti knjižnice, predvsem
    dejavnosti, kjer je potreben medcloveški odnos.

5
Ali zbirke polnih dokumentov delujejo?
  • Hitrost sporocanja se je z e-objavljanjem in
    e-dostopom dramaticno povecala.
  • Spletne zbirke imajo lahko bistveno vecje izrazne
    možnosti od zbirk gradiva v klasicnih knjižnicah
    - zaradi novih nacinov povezovanja enot gradiva
    in zaradi vecjih izraznih možnosti e-dokumentov.
  • Zbirke e-dokumentov lahko rešujejo gradivo, npr.
    zbirke obcutljivega rokopisnega gradiva.

6
Ali zbirke polnih dokumentov delujejo?
  • E-zbirke dokumentov zaenkrat(?) ne nadomešcajo
    vseh knjižnicnih zbirk - njihova moc še vedno
    prevladuje drugje, predvsem na strokovnih
    podrocjih.
  • Posebno vrednost imajo zbirke e-dokumentov v
    nekaterih ne-knjižnicnih okoljih - zbirke
    posnetkov artefaktov v muzejih in galerijah.
  • Gotovo so zelo primerne za nebesedilno gradivo,
    še posebej tisto s casovno komponento - glasbo,
    filme, simulacije, vizualizacije, 3D objekte...

7
Ali zbirke polnih dokumentov delujejo?
  • Velike zbirke polnih dokumentov (kot osnova
    d-knjižnic) so prva velika prelomnica v
    znanstvenem informiranju, ki ni nastala kot
    posledica gašenja informacijske eksplozije.
  • V trenutku, ko so sovpadle
  • tehnologije e-produkcije dokumentov,
  • digitalizacije in
  • spletna infrastruktura kot nacin distribucije
  • je bilo najnujnejše znanje, potrebno za gradnjo
    zbirk in iskalnikov že popolnoma razvito.

8
Velikostni razredi zbirk
enota št. nicel št. bajtov primer
bajt 0 1 ena crka v ASCII
6 beseda v ASCII
100 stavek v ASCII
kilobajt 3 1000 pol tipkane strani v ASCII
10.000 sekunda skromnega zvocnega posnetka, zelo drobna slicica
30.000 skenirana, komprimirana knjižna stran
100.000 majhna slicica
500.000 roman v ASCII
megabajt 6 1.000.000 dolg roman v ASCII
2.000.000 kratka pesem v MP3, fotografija srednje locljivosti
5.000.000 Biblija
10.000.000 simfonija v MP3, fotografija dobre locljivosti
20.000.000 skenirana knjiga nizke locljivosti, komprimirana
50.000.000 dve uri radijskega programa, 30 sek. HD videa
500.000.000 Oxford English Dictionary
9
Velikostni razredi zbirk
enota št. nicel št. bajtov primer
gigabajt 9 1.000.000.000 knjižna polica v ASCII
10.000.000.000 celovecerni film v HD locljivosti
100.000.000.000 nadstropje knjižnice
terabajt 12 1.000.000.000.000 knjižnica z milijonom knjig, prenosni disk za v srajcni žep (2009)
20.000.000.000.000 ameriška Kongresna knjižnica v ASCII
petabajt 15 1.000.000.000.000.000 ameriška Nacionalna knjižnica v ASCII
10
Memex
  • Vannevar Bush, profesor na MIT in najvišji
    svetovalec za znanost v ameriški vojski med 2.
    svetovno vojno.
  • Julija 1945 je objavil clanek, v katerem je
    opisal bodoce osebno informacijsko orodje
    Memex.
  • Memex naj bi bila mehanicna naprava, ki bi
    vsebovala osebno knjižnico clankov in knjig,
    zapiske, korespondenco, vse na mikrofilmih.
  • Memex bi imel tipkovnico, na katero bi lastnik
    vtipkal kodo knjige, mehanski sistem pa bi
    prinesel pod zaslon njene mikrofilmane strani.

11
Memex
  • Memex bi na mehanicni osnovi omogocal
    postavljanje kazalcev iz dokumenta na dokument.
  • Kazalce je imenoval information trails.
  • Kazalci bi omogocali dodajanje opomb posameznika
    ali skupine in "hitro" preiskovanje in
    prikazovanje mikrofilmov.
  • Trdil je, da bi Memex brez težav obvladoval
    mikrofilmano knjižnico z 1 milijonom knjig in
    osebne opombe k njim.
  • Naprave s približno takimi lastnostmi in tako
    velike knjižnice v eni napravi ni bilo do pojava
    spleta in spletno dostopnih zbirk.

12
Memex
13
Memex
  • V. Bush je sicer vedel za digitalne racunalnike,
    vendar si jih ni predstavljal v tej vlogi.
  • Bush si (tudi zato) ni zamislil iskanja po
    prostem tekstu - Memex je temeljil na klasicnem
    "rocnem" indeksiranju.

14
J. C. R. Licklider
  • J. C. R. Licklider, vodja informatike na
    ameriškem ministrstvu za obrambo.
  • Leta 1960 govori o bodoci tesni povezanosti
    "možganov in elektronskih možganov" (danes bi
    rekli "ljudi in racunalnikov").
  • Povezanost naj bi bila podprta z "mrežo miselnih
    centrov", ki bodo imeli funkcije današnjih
    knjižnic in velike sposobnosti shranjevanja in
    iskanja informacij.
  • Licklider že pricakuje razvoj in veliko vlogo
    podrocja, ki ga danes imenujemo Information
    Retrieval shranjevanje in iskanje informacij.

15
Project Gutenberg Etexts
  • Najstarejši projekt velike zbirke polnih besedil.
  • Zanimivo že na zacetku povezan z internetno
    tehnologijo.
  • Gutenberg Etexts bi danes lahko imenovali
    digitalna knjižnica.
  • Nastal leta 1971 Materials Research Lab na
    University of Illinois dodelila Michaelu Hartu
    uporabo racunalnika v vrednosti 100.000.000 .
  • Razloga
  • na univerzi premalo zaposlenih in študentov, ki
    bi znali izkoristiti obstojeco opremo,
  • Hart je imel dobre zveze.

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
15
16
Project Gutenberg Etexts
  • Hart je bil preprican, da se tako velike donacije
    ne da porabiti z razvojem programske opreme,
    ampak s ponudbo informacij.
  • Zamislil si je veliko javno, omrežno dostopno
    zbirko e-dokumentov.
  • Na veliko število naslovov poslal poziv za
    sodelovanje - tipkanje literarnih in referencnih
    del, ki niso vec pod zašcito avtorskega prava.
  • Odziv je bil zelo velik.

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
16
17
Project Gutenberg Etexts
  • Ker so bile l. 1971 racunalniške kapacitete
    uporabnikov zelo skromne je bilo osnovno pravilo
    vkljucevanje besedil v najenostavnejšem formatu -
    ASCII.
  • V casu nastanka projekta so bile obvladljive
    velikosti datotek, ki jih je bilo mogoce
    prenašati tudi na disketah, nekaj deset Kb.
  • Dokument v projektu sme biti zapisan le z
    velikimi in malimi crkami, odpadejo celo poševne
    in poudarjene crke.

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
17
18
Project Gutenberg Etexts
  • ASCII je bil v 70-ih in 80-ih letih edini format,
    ki je bil berljiv na vsej obstojeci strojni
    opremi.
  • ASCII je bil dolgo edini format, ki ga je bilo
    mogoce varno in dovolj hitro prenašati po
    Internetu.
  • Projekt šele v zadnjih desetletjih vkljucuje tudi
    multimedijske podatke.
  • Trenutno se vsak teden vkljuci v zbirko gt100
    novih del.
  • Velikost 17.000 knjig (marec 2006).

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
18
19
Project Gutenberg Etexts
  • Velik problem nacrtovanja zbirk so stalne
    spremembe obdobja, v katerem neko delo postane
    javno.
  • Leta 2003 so v projektu nacrtovali vkljucevanje
    del, ki bodo postala javna do leta 2006.
  • Dela dostopna na http//www.gutenberg.org/in
    številnih zrcalnih spletišcih.
  • Project Gutenberg ni cisto prava d-knjižnica.

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
19
20
arXiv
  • Prvi arhiv nastane na zacetku 90-ih.
  • V njem prednjacijo predtiski.
  • Dokumente v njem je na zacetku prispevala skupina
    200 fizikov ozke usmeritve vendar svetovne
    razprostranjenosti.
  • V nekaj mesecih se je clanstvo 5-krat povecalo.
  • V nekaj letih je clanstvo naraslo na nekaj
    desettisoc, število dokumentov na nekaj stotisoc
    in iskalnih zahtev na nekaj stotisoc/dan.
  • 26. 11. 2009 je v zbirki 572.963 dokumentov.

21
arXiv
22
Project Tulip
  • Na zacetku 90-ih je bil cas zrel za izbruh zbirk
    polnih dokumentov.
  • Videti je bilo, da velike, strašno uporabne
    d-knjižnice, cakajo za prvim vogalom.
  • Znali smo
  • graditi zbirke,
  • znali smo indeksirati (rocno in avtomatsko),
  • znali smo graditi iskalnike (Boolove in
    ne-Boolove),
  • relativno uspešno prenašati podatke po Internetu.
  • Nismo znali
  • zanesljivo prenašati podatkov po Internetu,
  • enostavno prikazovati poljubnih dokumentov na
    poljubnih zaslonih.

23
Project Tulip
  • V založbi Elsevier Science Publishers se je
    nekaterim zdelo, da bi v splošni ocaranosti z
    idejo d-knjižnic znalo biti kaj vec.
  • D-knjižnice bi lahko pospešile ali pa ogrozile
    vlogo založnikov.
  • Pri Elsevier so hoteli stvar razumeti in biti
    pripravljeni nanjo.
  • V projektu Tulip so preizkusili težave pri
    gradnji in ponudbi d-knjižnice v akademskem
    okolju.
  • Izbrali so 43 (kasneje 83) revij s podrocja
    fizike in znanosti o materialih, ter 9 ameriških
    univerz z najrazvitejšimi oddelki za
    racunalništvo.

24
Project Tulip
  • The Universities involved in TULIP
  • University of California (all campuses)
  • Berkeley
  • Davis
  • Irvine
  • Los Angeles
  • Riverside
  • Santa Barbara
  • Santa Cruz
  • San Diego
  • San Francisco
  • Carnegie Mellon University (Pittsburgh, PA)
  • Cornell University (Ithaca, NY)
  • Georgia Institute of Technology (Atlanta, GA)
  • University of Michigan (Ann Arbor, MI)
  • Massachusetts Institute of Technology (Cambridge,
    MA)
  • University of Tennessee (Knoxville, TN)
  • Virginia Polytechnic Institute and State
    University (Blacksburg, VA)
  • University of Washington (Seattle, WA)

25
Project Tulip
  • Projekt je trajal od 1991 do 1995.
  • Preverjal je tehnicno izvedljivost
  • omrežne distribucije informacij med inštitucijami
    z zelo razlicnimi nivoji razvoja
    infrastrukture,(omrežna distribucija pošiljanje
    informacij po internetu od Elsevier k fakultetam,
    med fakultetami in od fakultet k uporabnikom),
  • gradnje primerljivih zbirk z heterogeno opremo,
    ki je bila na voljo na fakultetah.
  • Preverjal je organizacijske in ekonomske novosti
  • nove oblike narocnin in nove poslovne modele, ki
    bi nastopili z d-knjižnicami,
  • ceno informacij, ki izvira iz novih nacinov
    distribucije in rabe.

26
Project Tulip
  • Preverjal je nove nacine rabe informacij
  • pripravljenost uporabnikov za e-dostop,
  • zadovoljstvo uporabnikov,
  • nacine rabe novih orodij
  • Uraden sklep
  • Vsi udeleženci projekta Tulip so se veliko
    naucili,
  • projekt je prinesel znanje, potrebno v dolgem
    prehodu na tehnologijo digitalnih knjižnic.
  • Neuradno
  • Projekt Tulip je bil veliko razocaranje.

27
Projekt Tulip
  • Podatki v projektu
  • Elsevier je razrezal obstojece številke revij in
    liste skeniral.
  • Na skenih so opravili postopke OCR.
  • Skene in besedila so namestili na strežniku, od
    koder so jih s FTP crpale fakultete.
  • Na fakultetah so podatke uredili v zbirke in
    zgradili iskalnike.
  • V kampusih so študenti in osebje uporabljali te
    zbirke za zadovoljevanje realnih informacijskih
    potreb.

28
Projekt Tulip
  • Gradnja d-knjižnic se je izkazala za mnogo težjo
    in dražjo, kot je bilo pricakovati. Zakaj?
  • prenos s FTP je bil premalo zanesljiv, in
    fakultete so dobivale okvarjene podatke,
  • programska oprema za gradnjo in rabo zbirk je
    bila premalo zmogljiva celo za nekaj deset revij,
  • prikaz na zaslonih je bil prepocasen in
    racunalniki dostopni le na nekaj mestih v
    kampusih,
  • nabor informacij je bil premajhen nihce ni
    mogel zadostiti informacijski potrebi le v
    d-knjižnici.
  • Študenti in ucitelji so naceloma dobro sprejeli
    novost, vendar je skoraj niso uporabljali.

29
Projekt Tulip dragocena lekcija
  • Iz rezultatov projekta smo se veliko naucili.
  • D-knjižnica ne more uspeti,
  • ce ni ustrezne organizacije in osebja, ki je
    zaposleno prav v ta namen,
  • ce ne poznamo potreb in zahtev uporabnikov,
  • ce ni na voljo ustrezne infrastrukture na vseh
    nivojih omrežnem, strežniškem, programskem in
    odjemalskem (npr dovolj številni Pcji in
    tiskalniki),
  • ce ni stalnega razvoja, prilagojenega konkretnim
    potrebam dokoncna d-knjižnica na kljuc ne
    obstaja,
  • ce ne izvajamo agresivne promocije in
    izobraževanja uporabnikov

30
Projekt Tulip dragocena lekcija
  • Brez obsežnih sprememb produkcije revij je razvoj
    e-revij in gradnja zbirk polnih dokumentov
    predraga celo za najmocnejše založnike.
  • Uporabniki raje uporabljajo (l. 1995) velike
    klasicne knjižnice, kot male d-knjižnice.
    Kriticna masa e-oblik informacij je še dalec (l.
    1995).
  • Brezpapirno delovno mesto in brezpapirni študij
    je utopija.

31
Projekt Tulip dragocena lekcija
  • Zakaj so se d-knjižnice kljub vsemu razvile?
  • Spletna infrastruktura, ki je kmalu zatem
    zamenjala dotedanje internetne oblike širjenja in
    prikazovanja informacij, je bila veliko bolj
    prilagodljiva.
  • Razvili in standardizirali so se novi nacini
    oblikovanja dokumentov oznacevalni jeziki, ki
    so omogocali takojšnje tiskanje in spletno
    postavitev istega dokumenta.
  • Nadaljeval se je hiter razvoj procesorjev in
    pomnilniških medijev.
  • Osebna racunalniška oprema je postala standarden
    spremljevalec v intelektualnem okolju.

32
Iz poslovnega v akademsko okolje
  • Rezultati projekta Tulip so verjetno upocasnili
    razvoj ideje d-knjižnice v poslovnem
    (založniškem) okolju.
  • Pobudo je prevzelo akademsko okolje.
  • Sredi 90-ih so se zaceli projekti organiziranja
    in ponudbe tistih zvrsti dokumentov, pri katerih
    je zašcita intelektualne lastnine bolj sprošcena
  • raziskovalna porocila,
  • magisteriji in doktorati,
  • predtiski raziskovalnih clankov.

33
NCSTRL
  • NCSTRL (http//www.ncstrl.org/)Networked
    Computer Science Technical Report Library,
    zacetek leta 1995.
  • Na zacetku 40 ameriških univerz z mocnimi oddelki
    za racunalništvo, kasneje gt100 partnerjev in vec
    kot polovica med njimi ne-ameriških univerz.
  • Gradnja d-knjižnice tehnicnih in raziskovalnih
    porocil the oddelkov.
  • Po 20 letih NCSTRL ugasne in podatki se prenesejo
    drugam.

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
33
34
NCSTRL
  • Za vzdrževanje zbirk so bile najbolj
    zainteresirane in zato zadolžene ustanove, kjer
    so dela nastajala.
  • Dokumenti na razlicnih strežnikih so razlicno
    organizirani enoten iskalni in bralni vmesnik
    lahko te razlike skrije.
  • Vsaka sodelujoca inštitucija v partnerskem
    konzorciju naj opravi toliko dela, kot zmore
    glede na svoje tehnicne in kadrovske zmožnosti
    ostalo naj prepusti drugim.

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
34
35
NCSTRL
  • Nauk projektaPojem dokument v d-knjižnici
    zajema razlicne pojavne oblike
  • golo besedilo (za avtomatsko indeksiranje),
  • HTML (za branje na spletu),
  • Postscript oz. danes PDF (za branje in tiskanje),
  • bitna slika (za listanje strani po ikonah ali za
    predstavitev starejših dokumentov).

dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
35
36
NCSTRL
  • Iskanje v sistemu je potekalo paralelno.
  • Iskalec je zastavil iskalno zahtevo na enem
    strežniku, ki jo je poslal ostalim, zbral
    rezultate in jih prikazal iskalcu.
  • Nauk projekta
  • Paralelni iskalniki dobro delujejo le pri majhnem
    številu sodelujocih zbirk.
  • Paralelni iskalnik deluje tako hitro kot
    najpocasnejši med strežniki.

37
NCSTRL
Listanje po spletišcu NCSTRL. Viden je del
seznama dokumentov s Cornell Uni. in del seznama
sodelujocih inštitucij, od koder so zadetki
iskanja.
dr. Jure Dimec. Zbirke celotnih besedil (2009 /
10). Zgodovinski razvoj z. c. b.
37
38
NCSTRL
Iskanje po spletišcu NCSTRL. Zelo enostaven
iskalnik, ki pa omogoca vzporedno iskanje po
zbirkah vseh sodelujocih inštitucij.
39
NCSTRL
Iskanje po spletišcu NCSTRL. Rezultati iskanja z
iskalno zahtevo digital libraries.
40
NCSTRL
Tehnicno porocilo s spletišca Univerze
Berkeley.Dokument je mogoce priklicati kot sliko
v formatih tiff ali gif, kot golo besedilo ali v
formatu pdf.
41
NCSTRL
NCSTRL Tehnicno porocilo s spletišca Uni.
Berkeley. Prikaz starejšega dokumenta kot serije
slicic strani, ki jih je mogoce izbirati.
42
NCSTRL
NCSTRL Tehnicno porocilo s spletišca Uni.
Berkeley. Med slicicami strani je bila za prikaz
izbrana 4. stran.
Write a Comment
User Comments (0)
About PowerShow.com