5 - PowerPoint PPT Presentation

1 / 43
About This Presentation
Title:

5

Description:

La TEI (Text encoding initiative) est un framework/cadre de description pour ... l'utilisation d'un l ment existant ou ajout , c'est- -dire son propre guide de ... – PowerPoint PPT presentation

Number of Views:55
Avg rating:3.0/5.0
Slides: 44
Provided by: lespetit
Category:

less

Transcript and Presenter's Notes

Title: 5


1
5 à 7 ADBSLa DTD TEI principes et
fonctionnement pour la création de contenu
éditorial
  • 24 Janvier 2008

Gautier Poupeau, Unilog Managementgautier.poupeau
_at_logicacmg.unilog.com
2
Introduction
La DTD TEI principes et fonctionnement pour
la création de contenu éditorial
Le schéma
Le framework
3
Introduction essai de définition
  • La TEI (Text encoding initiative) est un
    framework/cadre de description pour créer des
    schémas/grammaires utilisés pour encoder des
    textes de nature très diverse en vue de leur
  • échange
  • exploitation, cest-à-dire
  • les publier
  • y effectuer des recherches
  • les traiter

encoder des textes
4
Quest-ce-quun texte ?
Un texte est la représentation sur un support
dune construction logique de phrases formant une
unité.
  • Un texte comprend différents éléments plus ou
    moins implicites que le lecteur prend compte dans
    le processus de lecture pour le comprendre et
    lappréhender
  • un support
  • un contexte
  • une présentation
  • une structure

5
Quest-ce-que lencodage ?
  • Lencodage ou le balisage consiste à rendre
    explicite lensemble des caractéristiques et
    phénomènes dun texte en vue de leur exploitation
    par les machines.
  • Lencodage permet
  • la caractérisation de parties dun texte de
    manière formalisée
  • la mise en lumière de la structure logique et
    hiérarchique dun texte.
  • Lencodage facilite la réutilisation du texte
    dans différents contextes par différents
    utilisateurs.

6
XML une syntaxe pour encoder les textes
XML (eXtensible Markup Language) est un langages
à balises issu de SGML.
Exemple ltetatcivil id"1"gt ltnomdefamillegtPoup
eault/nomdefamillegt ltprenomgtGautierlt/prenomgt ltd
atedenaissancegt1980/05/19lt/datedenaissancegt lt/eta
tcivilgt
Des éléments ou balises complétés par des
attributs semboîtent pour mettre en lumière la
structure dun texte. Le fichier XML forme un
arbre avec une racine et des nœuds. Chaque
élément précise le rôle ou la caractéristique
tenu par la portion dinformations entourée dans
le contexte du texte.
7
Avantages de XML
  • XML est une recommandation du W3C
  • XML est indépendant dun logiciel, dun éditeur,
    dune plate-forme, dun système dexploitation
  • XML nest pas un format binaire, aucun logiciel
    particulier nest requis pour lire du XML
  • XML est relativement facile à utiliser
  • De plus en plus dapplications supportent le XML
  • XML est extensible
  • ..Mais XML est extensible !!

8
Permettre linteropérabilité les schémas XML
Un schéma permet de déterminer le nom des
éléments et des attributs, leurs significations
et leurs règles dutilisation. Un schéma peut
être comparé à une grammaire.
  • Trois langages pour décrire un schéma
  • DTD (Document type definition) issu pour SGML
  • XML schema (XSD), recommandation du W3C
  • Relax NG, norme OASIS et ISO

9
Les problèmes de XML et des schémas XML
  • Les schémas sont majoritairement spécialisés et
    limités à un type de textes
  • EAD pour les inventaires darchives
  • Docbook pour la documentation technique
  • XHTML pour les pages Web
  • Les schémas peuvent savérer incomplet pour
    encoder certains besoins particuliers.
  • Les schémas évoluent et peuvent perdre la
    compatibilité descendante.
  • Lutilisation dun même schéma peut différer
    dun utilisateur à un autre ce qui nest pas
    forcément documenté.
  • Les schémas sont définis suivant un des trois
    langages (DTD, XML schema, Relax NG)
  • Construire un schéma est un travail complexe,
    long et fastidieux et na de sens que dans la
    mesure où il est partagé par une large
    communauté.
  • Les schémas existants ne permettent pas
    dencoder à la fois la structure logique et la
    structure physique dun texte.
  • La syntaxe XML est-elle pérenne ? Quen est-il
    de JSON, par exemple ?

10
Lapproche de la TEI
  • Une communauté partageant les mêmes buts et
    objets détudes détermine les besoins dencodage
    liés à leur discipline. Elle établit un compromis
    sur les éléments et leurs règles dutilisation.
  • La consolidation des éléments déterminés par les
    différentes communautés constitue un guide qui
    sattache à repérer, organiser, définir et
    normaliser les différentes informations/éléments
    dun texte guidelines for Electronic Text
    encoding and interchange (aujourdhui la 5ème
    version dite P5).
  • Une application est mise à disposition pour
    construire son schéma personnalisée à partir des
    guidelines.

11
Conséquences de lapproche de la TEI
  • La syntaxe XML nest quun moyen dencoder un
    texte suivant la TEI (sous-entendu les
    guidelines).
  • La TEI est indépendante du langage de définition
    du schéma XML (DTD, XML schema, Relax NG).
  • La TEI ne se limite pas à un type de textes et,
    de par sa maturité (20 ans), répond à lensemble
    des besoins des chercheurs en sciences humaines
    et même plus.
  • La TEI comprend 450 éléments !!
  • Et la TEI est extensible

Conclusion le schéma nest quune conséquence
du guidelines. Un texte encodé en TEI est validé
selon un schéma qui respecte le guidelines de la
TEI.
12
Le consortium TEI
  • Pour maintenir, développer et faire connaître la
    TEI, une fondation à but non lucrative a été
    fondée en 1999.
  • Elle est basée à
  • Oxford University
  • Brown University
  • University of Virginia
  • LORIA/ATILF/INIST (Nancy)
  • Deux instances composent le TEI Consortium
  • TEI council, chargé des développements du
    guidelines
  • TEI board, chargé de gérer le consortium.
  • Deux éditeurs sont chargés de mettre au point et
    consolider le guidelines
  • Lou Burnard, Oxford University
  • Syd Bauman, Brown University
  • Toutes les institutions ou personnes peuvent
    adhérer au consortium pour supporter la TEI. Le
    consortium organise une fois par an une réunion
    rassemblant les membres, occasion pour présenter
    les projets, les nouveaux développements et
    rencontrer les différents acteurs de la TEI.

13
Organisation de la TEI les modules (1)
Les 450 éléments de la TEI sont réparties en 21
chapitres qui décrivent et définissent un
ensemble cohérent déléments, appelé module.
Nom du module Identification Exemples
Analysis Analyse et interprétation ltcgt, ltwgt, ltmgt
Certainty Certitude et incertitude ltcertaintygt
Core Eléments communs à tous les textes ltbiblgt, lthigt, ltlistgt, ltitemgt, ltpgt, ltnotegt, ltlgt, ltlb/gt, ltpb/gt
Corpus Métadonnées pour les corpus linguistiques lttextDescgt
Dictionaries Dictionnaires imprimés ltentrygt, ltetymgt, ltdefgt
Drama Texte dramatique ltrolegt, ltcastListgt, ltactorgt
Figures Tableaux, formules et images ltfiguregt, lttablegt, ltrowgt, ltcellgt
Gaiji Documentation des caractères et des glyphes ltchargt, ltggt
Header Métadonnées communes ltteiHeadergt, lttitleStmtgt, ltseriesStmtgt
iso-fs Analyse des traits structurelles
Linking Lien, segmentation et alignement ltlinkgt, ltseggt
14
Organisation de la TEI les modules (2)
Nom du module Identification Exemples
Msdescription Description des manuscrits ltmsDescriptiongt, ltbindingDescgt, ltfiliationgt
Namesdates Noms, dates, personnes et lieux ltpersNamegt, ltdategt, ltgeogNamegt, ltorgNamegt
Nets Graphes, réseaux et arbres ltrootgt, lttreegt
Spoken Transcription de corpus oraux ltincidentgt, ltpausegt, ltugt
Tagdocs Documentation des éléments (de la TEI)
Tei Infrastructure de la TEI ltteigt, ltteicorpusgt
Textcrit Apparat critique ltlistWitgt, ltwitnessgt, ltappgt, ltrdggt
Textstructure Structure par défaut des textes lttextgt, ltfrontgt, ltbodygt, ltbackgt, ltdivgt
Transcr Transcription des sources primaires ltdamagegt, lthandShiftgt, ltrestoregt
Verse Texte versifié ltrhymegt, ltcaesuragt
En fonction du texte encodé, lutilisateur
choisit les modules qui lui sont utiles pour
construire son schéma. Seul le module tei est
obligatoire. Mais il faut au minimum les modules
tei, core, header et textstructure pour encoder
un texte simple.
15
Organisation de la TEI les classes
  • En plus de lorganisation sous formes de modules,
    les différentes éléments de la TEI sont réparties
    dans des classes. Elles déterminent
  • Les attributs partagés par un ensemble
    déléments
  • Le comportement de lélément, cest-à-dire
    lendroit où il peut être placé.
  • Les éléments héritent des règles attribuées à
    leur classe ou à leur super-classe.
  • Un élément peut appartenir à une ou plusieurs
    classes.
  • Lutilisation des classes nest pas requise pour
    mettre au point un schéma simple.

16
Organisation de la TEI un exemple pour les
classes déléments
ltbodygt
ltdivgt
ltlemgt
model.common
model.inter
ltfiguregt
lttablegt
ltcitgt
model.pLike
ltsourceDescgt
model.listLike
ltlistBiblgt
ltabgt
ltpgt
model.bibLike
ltbiblgt
17
Organisation de la TEI un exemple pour les
classes dattributs
_at_xmlid
_at_xmllang
_at_xmlbase
att.global
_at_n
_at_rend
ltbiblgt
_at_rendition
_at_type
att.type
_at_subtype
att.declarable
_at_default
18
ODD (One document does it all) (1)
  • Pour définir un schéma XML à partir du guidelines
    de la TEI, un format, appelé ODD, a été mis au
    point.
  • Un fichier ODD est un document XML dérivé de la
    TEI qui permet de déterminer
  • les modules utilisés
  • le comportement dun élément, cest-à-dire
    changer sa ou ses classes
  • Il offre aussi la possibilité daller plus loin
    dans la personnalisation
  • changer le nom dun élément
  • déterminer les éléments utilisés ou non dans un
    module
  • ajouter un attribut et le rattacher à une classe
  • ajouter un nouvel élément en le reliant à une
    classe, un module et/ou même un élément
  • contraindre la valeur dun élément ou dun
    attribut
  • documenter lutilisation dun élément existant
    ou ajouté, cest-à-dire son propre guide de
    balisage

19
ODD (One document does it all) (2)
ODD permet donc de construire son propre schéma
issu de la TEI adapté à vos besoins précis. Tous
les changements par rapport à la TEI canonique
, c'est à dire les éléments et les attributs,
leurs noms, leurs comportements et leurs
sémantiques, seront indiqués dans ce fichier ODD.
20
Roma une interface Web pour construire son
schéma
Roma est une interface Web mis au point par le
consortium qui permet de construire son fichier
ODD, et donc son schéma suivant le guidelines de
la TEI. http//tei.oucs.ox.ac.uk/Roma/
21
Roma page daccueil
22
Roma les schémas prédéterminés
23
Roma les métadonnées de la personnalisation
24
Roma interface en français
25
Roma choisir la langue des éléments et de la
documentation
26
Roma choix des modules
27
Roma Module ajouté
28
Roma Description du module
29
Roma ajouter un élément
30
Roma modification des classes dattributs
31
Roma sanity checker
32
Roma génération de la documentation
33
Roma génération du schéma
34
Roma sauver votre personnalisation sous forme
de fichier ODD
35
Un exemple pas à pas dutilisation de la TEI
Je souhaite encoder des textes simples du type
rapport, article, monographies
36
Quest-ce-quon encode ?
  • Extensibilité de XML est infinie d'une partie à
    une lettre à l'intérieur d'un mot
  • Il est essentiel de faire des choix, car il est
    impossible de tout encoder.
  • Il faut déterminer toutes les informations
    possibles quil est utile, souhaitable dencoder
  • Questions essentielles
  • Pourquoi encoder ce document ?
  • A quoi va servir l'encodage ?
  • Quelles informations sont utiles par rapport au
    but poursuivi ?
  • Quelle est la nature du document ?
  • Comment fonctionne-t-il ?

37
Les macro-structures
  • Les éléments de structure générale dun fichier
    TEI
  • ltteigt, ltteiHeadergt, lttextgt
  • Les éléments qui composent le texte
  • ltfrontgt, ltbodygt, ltbackgt
  • Lélément  magique  de structuration du texte
  • ltdivgt

38
Les micro-structures
  • Les éléments dun texte
  • Les mises en valeur lthigtlt/higt
  • Les images ltfiguregtltfigDescgtlt/figDescgtltgraphic/gt
    lt/figuregt
  • Les citations ltqgtlt/qgt ou ltquotegtlt/quotegt
  • Les notes ltnotegtlt/notegt
  • Les mots étrangers ltforeigngtlt/foreigngt
  • Les listes ltlistgtltitemgtlt/itemgtlt/listgt
  • Les tableaux lttablegtltrowgtltcellgtlt/cellgtlt/rowgtlt/ta
    blegt
  • Les éléments de la bibliographie
  • Une bibliographie ltlistBiblgt
  • La référence bibliographique ltbiblgt
  • Les éléments de la référence bibliographiques
    ltauthorgt, ltbiblgt, ltbiblScopegt, ltpublishergt

39
Utilisation de Roma pour construire mon schéma
40
La structure générale dun fichier TEI
  • ltTEIgt
  • ltteiHeadergt
  • ltfileDescgt
  • lttitleStmtgtlttitlegtLe titrelt/titlegtlt/titleStmtgt
  • ltpublicationStmtgtltpgtÉditeurlt/pgtlt/publicationStm
    tgt
  • ltsourceDescgtltpgtSource du fichier
    numériquelt/pgtlt/sourceDescgt
  • lt/fileDescgt
  • lt/teiHeadergt
  • lttextgt
  • ltfrontgtlt/frontgt
  • ltbodygt
  • ltdivgtlt/divgt (la balise magique !!)
  • ltdiv type"partie"gt
  • ltpgt
  • Mon texte avec une lthi renditalicgtemphaselt
    /higt.
  • lt/pgt
  • lt/divgt
  • lt/bodygt
  • ltbackgtlt/backgt

41
Exemple dune référence bibliographique
ltbiblgt ltauthorgtGautier Poupeault/authorgt, lttitle
level"a"gtL'édition électronique de sources
historiques. Nouvelles approches de
l'indexationlt/titlegt, dans lttitle
level"m"gtIndexer les ltforeigngtexemplalt/foreigngt
médiévauxlt/titlegt sous la direction de
Marie-Anne Polo de Beaulieu, lttitle
level"j"gtCahier du centre de recherches
historiqueslt/titlegt, n 35, avril 2005,
ltbiblScope type"page"gtpp. 71-78lt/biblScopegt lt/bi
blgt
42
Exemples dutilisation de la TEI
  • La plateforme Cyberdocs utilisée pour la mise en
    ligne des thèses, par exemple Université de
    Lyon 2
  • Un exemple dédition critique accompagné de la
    numérisation de loriginal Le cartulaire de
    Nesle
  • Autre exemples dédition critique Les comptes
    des consuls de Montferrand ou les chroniques
    latines de Saint-Denis
  • Un exemple de numérisation en mode texte les
    cartulaires numérisés dIle-de-France
  • Un répertoire de manuscrits le Miroir des
    classiques
  • Une plate-forme de publication et de traitement
    de textes encodés en XML Telma

43
Des questions ???
Merci pour votre attention !! Des questions ?
Write a Comment
User Comments (0)
About PowerShow.com