Text Encoding Initiative - PowerPoint PPT Presentation

1 / 48
About This Presentation
Title:

Text Encoding Initiative

Description:

Title: Walkmanboken Subject: r framtidens bok elektronisk? Author: Mats Dahlstr m Last modified by: MAD Created Date: 7/5/1995 2:07:50 PM Document presentation format – PowerPoint PPT presentation

Number of Views:273
Avg rating:3.0/5.0
Slides: 49
Provided by: MatsDa6
Category:

less

Transcript and Presenter's Notes

Title: Text Encoding Initiative


1
Text Encoding Initiative
Mats Dahlström Digitalisering av kulturarvet
Januari 2008
2
TEI bakgrund
  • Behov av uniformt system för textkodning och
    utbyte inom humaniora
  • Till 80-talet användes proprietära
    representationssystem
  • Behov av
  • Återanvändbarhet
  • Interoperabilitet
  • Plattforms, hård- och mjukvaruoberoende
  • Portabilitet
  • Kollaborationsmöjligheter
  • Ett verktyg för flera discipliner / vetenskaper
    inom humaniora
  • TEI-konsortiet lthttp//www.tei-c.orggt

3
TEI utveckling
  • 1986 SGML / ISO
  • 1987 Poughkeepsie principles
  • 1990 P1 (SGML)
  • 1992 P2
  • 1994 P3 600 element
  • 1995 TeiLite 121 element
  • 1999 P3rev
  • 2000 TEI Consortium
  • 2001 P4 XML (viss SGML)
  • 2001 TeixLite XML
  • 2005 XML Schema
  • 2005-2008(?) P5 (ingen SGML) -500 element

4
Hur används TEI?
  • För kodning av
  • texter på olika språk, av olika ålder och epoker,
    i olika litterära och bibliografiska genrer
    (texttyper)
  • såväl continuous material som discontinuous
    material (t.ex. lexika och korpora)

5
Varför så omfattande?
  • TEI uppbyggt kring riktlinjer, regler och
    rekommendationer istället för standard eftersom
  • Textkodning innebär representation och tolkning
  • Frihet för forskaren att uttrycka sin teori om
    texten genom att göra olika val
  • Riktlinjerna att betrakta som referensmanual

6
Vad innehåller TEI?
  • Inte en enda given DTD, utan en mängd
    DTD-fragment (tag sets), som kan kombineras
  • Vissa nödvändiga (required), andra grundläggande
    (basic) och vissa valfria (optional)

7
Sugen på pizza?
  • Core tag sets
  • Base tag sets
  • Additional tag sets

http//www.tei-c.org/pizza.html
8
Core tag set
  • Nödvändigt
  • Innefattar bl.a. ltteiHeadergt (kapitel 5 i
    Guidelines)
  • Jämförbart med titelsidan i tryckt bok
  • Gemensamma element för alla TEI-dokument (kapitel
    6)

9
Base tag sets
  • Prose
  • Verse
  • Drama
  • Speech
  • Dictionaries
  • Terminology
  • General base
  • Mixed base

10
Additional tag sets
  • Urvalsförfarande och ej nödvändiga
  • Länkar
  • Figurer
  • Analyselement (mycket enkla)
  • Textkritiska möjligheter (apparat)
  • Namn och datum

11
(No Transcript)
12
Prologen
  • XML-deklaration
  • lt?xml version1.0 encodingISO-8859-1
    standaloneno?gt
  • Dokumenttypsdeklaration
  • lt!DOCTYPE TEI.2 PUBLIC -//TEI P4//DTD Main
    Document Type//EN
  • http//www.adm.hb.se/mg/dig/XMLLab/masterx.dtdgt

13
  • ltTEI.2gt
  • ltteiHeadergt Metadata lt/teiHeadergt
  • lttextgt
  • ltfrontgt Preliminärer, t.ex. titelsidans text
    och förord lt/frontgt
  • ltbodygt Huvudtexten lt/bodygt
  • ltbackgt Subsidiärer, t.ex. appendix, epilog
    och liknande lt/backgt
  • lt/textgt
  • lt/TEI.2gt

14
I ett TEI-dokument ingår alltid
  • rotelementet exv. lttei.2gt
  • teiHeader
  • text
  • body
  • Dessa kan inte innehålla text (PCDATA)

15
TEI Lite
  • Den mest populära DTDn är TEI Lite
  • 121 fasta element
  • Med bara 20 av elementen täcks 90 av
    TEI-användarnas behov i 90 av fallen
  • 80 av projekten
  • TeixLite den XML-kompatibla versionen
  • http//www.tei-c.org/Lite/

16
TEI Lite prolog, t.ex.
  • lt?xml version"1.0"?gt
  • lt!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML
    ver. 1//EN" "teixlite.dtd"gt

17
med rotelement, header och text
  • lt?xml version"1.0"?gt
  • lt!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML
    ver. 1//EN" "teixlite.dtd"gt
  • ltTEI.2gt
  • ltteiHeadergt...ltteiHeadergt
  • lttextgt...lttextgt
  • ltTEI.2gt

18
lttextgt
  • lttextgt
  • ltfrontgt...lt/frontgt
  • ltbodygt...lt/bodygt
  • ltbackgt...lt/backgt
  • lt/textgt

19
ltgroupgt
  • ltgroupgt
  • lttextgt...lt/textgt
  • lttextgt...lt/textgt
  • lttextgt...lt/textgt
  • lt/groupgt
  • lttextgt innehåller ingen text, utan andra element

20
TEIs textstruktur
er
21
ltbodygt
  • body kan inte innehålla text, dvs PCDATA
    (parsed character data).
  • I normalfallet innehåller body ett antal
    avsnitt, innehållna i ett antal div-element,
    vilka i sin tur vanligen innehåller ett antal
    stycken.
  • Kap. 35 i Guidelines specificerar vilka element
    som är tillåtna, eller nödvändiga, i vilka
    element.

22
ltfrontgt
  • Preliminärer ss titelsidor, förordstexter osv
    dvs den explicita informationen i förlagan
  • ltfrontgt
  • lttitlePagegt
  • ltdocTitlegt
  • lttitlePart type"main"gt
  • ...
  • lt/titlePartgt
  • ltdocAuthorgt...lt/docAuthorgt
  • ltdocDategt...lt/docDategt
  • ltdocEditiongt...lt/docEditiongt
  • ltdocImprintgt...lt/docImprintgt
  • ltepigraphgt...lt/epigraphgt
  • lt/docTitlegt
  • lt/titlePagegt
  • lt/frontgt

23
sektionsindelning av textltdivgt
  • lttextgt
  • ltfrontgt lt!-- titlepage etc here --gt lt/frontgt
  • ltbodygt
  • ltheadgtBok 1lt/headgt
  • ltdiv type"chapter" n"1" id"b0101"gt
  • ltheadgtKapitel 1lt/headgt
  • lt! resten av kapitel 1 --gt
  • lt/divgt
  • ltdiv type"chapter" n"2" id"b0102"gt
  • ltheadgtKapitel 2lt/headgt
  • lt!-- resten av kapitel 2 --gt
  • lt/divgt
  • lt/bodygt
  • lt/textgt

24
Attribut i ltdivgt
  • Elementet div är mångtydigt, vi vet inte
    (utifrån uppmärkningen blott och bart) vad för en
    typ av avsnitt det handlar om. . .
  • Vi kan också vilja indikera en kapitelnumrering.
    . .

25
//...// ltdiv typechapter n2gt ltpgt//...//lt/pgt
ltpgt//...//lt/pgt ltdiv typechapter
n3gt ltpgt//...//lt/pgt ltpgt//...//lt/pgt
26
sektionsindelning av textltdivgt
  • lttextgt
  • ltfrontgt lt!-- titlepage etc here --gt lt/frontgt
  • ltbodygt
  • ltdiv1 type"book" n"1" id"b0100"gt
  • ltheadgtBok 1lt/headgt
  • ltdiv2 type"chapter" n"1"
    id"b0101"gt
  • ltheadgtKapitel 1lt/headgt
  • lt! resten av kapitel 1 --gt
  • lt/div2gt
  • ltdiv2 type"chapter" n"2"
    id"b0102"gt
  • ltheadgtKapitel 2lt/headgt
  • lt!-- resten av kapitel 2 --gt
  • lt/div2gt
  • lt/div1gt
  • lt/bodygt
  • lt/textgt

27
Globala attribut
  • Kan tilldelas alla element
  • id för unik identifikation
  • n för (icke-unikt) namn eller nummer
  • rend för återgivning
  • lang för språk

28
under ltdivgt
  • Prose stycken (ltpgt)
  • Verse rader (ltlgt), ibland grupperade hierarkiskt
    (ltlggt)
  • Drama repliker (ltspgt) som innehåller t.ex. ltpgt,
    ltlgt och ltstagegt

29
prosaexempel ltpgt
  • ltpgt Skulle vi ha valt HTML som märkspråk för
    textkodningen hade du visserligen fått en
    snabbare och mer direkt väg från uppmärkning till
    publicering. Men den hade också varit mindre ut-
    och påbyggbar. lt/pgt

30
poesiexempel 1
  • Summer grass
  • all that's left
  • of warriors' dreams.

31
poesiexempel 1
  • ltlg type'haiku'gt
  • ltlgtSummer grass mdashlt/lgt
  • ltlgtall that's leftlt/lgt
  • ltlgtof warriors' dreams.lt/lgt
  • lt/lggt

32
poesiexempel 2
  • This Be The Verse
  • They fuck you up, your mum and dad.
  • They may not mean to, but they do.
  • They fill you with the faults they had
  • And add some extra, just for you.

33
poesiexempel 2
  • ltlg type"poem"gt
  • ltheadgtThis Be The Verselt/titlegt
  • ltlg type"stanza"gt
  • ltlgtThey fuck you up, your mum and dad.lt/lgt
  • ltlgtThey may not mean to, but they do.lt/lgt
  • ltlgtThey fill you with the faults they hadlt/lgt
  • ltlgtAnd add some extra, just for you.lt/lgt
  • lt/lggt
  • lt! ytterligare strofer --gt
  • lt/lggt

34
Anförande
35
Anförande
  • Använd attributet who för att ange vem som talar
  • Anföranden kan nästas i andra anföranden ...
  • .. men inte över styckegränser (överlappning!)

36
Namn och andra refereringar
  • Elementet ltrsgt (referring string) kan användas
    för namn eller referens

37
Namn och andra refereringar
  • Elementet ltrsgt (referring string) kan användas
    för namn eller referens

38
Både ltnamegt och ltrsgt
Mr. Joseph Andrews, the hero of our ensuing
history, was esteemed to be ...
39
Både ltnamegt och ltrsgt
ltpgtltnamegtMr. Joseph Andrewslt/namegt, ltrsgtthe hero
of our ensuing historylt/rsgt, was esteemed to be
...
40
sid- och radbrytningar
  • And bathed every veyne in swich licour
  • Of which vertu engendred is the flour
  • ------------------------
  • s. 23
  • Whan Zephirus eek with his sweete breeth

41
sid- och radbrytningar
  • ltpb /gt sidbrytning
  • ltlb /gt radbrytning
  • And bathed every veyne in swich licourltlb /gt
  • Of which vertu engendred is the flourltlb /gt
  • ltpb ed"riverside" n"23" /gt
  • Whan Zephirus eek with his sweete breethltlb /gt

42
ltdategt
  • attribut kan precisera ltdategt och ltdateRangegt
  • dito med lttimegt, lttimeRangegt och ltnumgt


43
Överlappande hierarkier
  • Välformad XML
  • Men dokument är komplexa saker och flera
    parallella hierarkier kan identifieras, t.ex.
  • kapitel/ sektion / stycke / fras
  • ark / blad / sida / kolumn
  • Repliker och versrader

44
(Å) Peer, du lyver! (P) Nei, jeg gjør ei! (Å)
Nå, så bann på det er sant! (P) Hvorfor banne?
(Å) Tvi, du tør ei! Alt i hop er tøv og tant!
45
  • ltsp who"A"gtPeer, du lyver!lt/spgtltsp who"P"gtNei,
    jeg gjoslashr ei!ltml/gtlt/spgtltsp
    who"A"gtNaring, saring bann paring det er
    sant!ltml/gtlt/spgtltsp who"P"gtHvorfor
    banne?lt/spgtltsp whoA"gtTvi, du toslashr
    ei!ltml/gtAlt i hop er toslashv og
    tant.ltml/gtlt/spgt

46
to get lthigt or not
  • Återge emfatiskt markerade ord med lthigt när du
    inte kan eller vill specificera anledningen till
    emfasen.
  • Men om du kan identifiera varför ordet är
    betonat, bör du tillgripa ett mer specifikt
    element, t.ex. ltemphgt, ltforeigngt, lttitlegt, lttermgt

47
Validering
  • Hur vet vi att vi använt TEI Lite, eller vår egen
    TEI-tillämpning, på ett syntaktiskt korrekt sätt?
  • Online XML-validatorer Brown University
    http//www.stg.brown.edu/service/xmlvalid/
  • Editorer med inbyggd validering JEDIT, OXYGEN m
    fl
  • Hur vet vi att vi använt TEI Lite, eller vår egen
    TEI-tillämpning, på ett semantiskt korrekt sätt?
  • Genom dokumentation!

48
Behovspröva alltid
  • Är det motiverat med textdigitalisering och
    sofistikerad uppmärkning? Varför? Vilka
    alternativ finns?
  • Är det motiverat med just TEI? Varför? Vilka
    alternativ finns?
  • Är det motiverat med TEI Lite, eller behöver jag
    producera ngn annan delmängd av TEI för mina
    ändamål?

Lavagnino 2006
Write a Comment
User Comments (0)
About PowerShow.com