Pr - PowerPoint PPT Presentation

About This Presentation
Title:

Pr

Description:

Ajout interlin aire : Flaubert - Proust. Balise Interligne. Elle permet d'indiquer quel ... 10. ajout en marge : Flaubert - Proust. Non g r actuellement. 1. ... – PowerPoint PPT presentation

Number of Views:19
Avg rating:3.0/5.0
Slides: 19
Provided by: tpaq
Category:
Tags: ajout

less

Transcript and Presenter's Notes

Title: Pr


1
un outil daide à la transcription
Thomas PALFRAY Stéphane NICOLAS Thierry
PAQUET Laboratoire dInformatique, Traitement
de lInformation et des Systèmes EA
4108 Université de ROUEN Faculté des
sciences 76800 Saint-Etienne du Rouvray
2
un outil daide à la transcription
  • Les ambitions dOPTIMA
  • Valorisation des grands corpus modernes
  • Transcription de lavant texte, réputé illisible
  • Conception des outils numériques fondamentaux
  • Transcription
  • Classement

3
Transcription ?
  • Un résultat visible
  • lisible
  • une explicitation
  • sans interprétation
  • une preuve

4
Transcription ?
  • Une source numérique rendue accessible au
    classement
  • accès aux parties de documents
  • décrire le contenu au-delà du visuel
  • penser la transcription comme une base de données

5
Expression des besoins
1- Un langage pour décrire les contenus textuels
et graphiques 2- Une interface daide à
lencodage 3- Visualisation des images Haute
Définition 4- Visualisation des transcriptions
(diplomatique?)
6
1. Langage dencodage
  • Définition informatique dune transcription
  • Repose sur XML langage des BD semi-structurées
  • HNML GustaveML besoins spécifiques
  • DTD établie début 2008
  • Dernières modifications aout 2008

7
1. Langage dencodage
Ajout interlinéaire Flaubert - Proust Balise
Interligne Elle permet d'indiquer quel interligne
est utilisé (Supérieur ou Inférieur). Pour un
interligne situé dans le corps de texte, on
utilise le mot du corps de texte pour indiquer à
la visualisation diplomatique ou débute
l'interligne. Exemple l'interligne débute
après le i de "villa" Codage viltint
pl"top"gtde Cale o locolt/intgtlla
8
1. Langage dencodage
bloc de texte Proust Balise Bloc On utilise le
type bloc de texte pour délimiter les blocs
composant le document. Le transcripteur indique
les positions successives des points entourant le
bloc. La forme est de type polyèdre, ainsi,
quelque soit la forme du bloc, on peut délimiter
celui-ci et le visualiser sur la diplomatique.
Codage ltBloc type"txt"gt    coordonnées des
points du bloc lt/Blocgt
9
1. Langage dencodage
bloc image Braudel Balise bloc On utilise un
type de bloc particulier, appelé bloc "Image". Le
transcripteur indique ainsi que le contenu de ce
bloc n'est pas un texte, mais un tampon que l'on
ne peut rendre avec une transcription. La portion
d'image ainsi délimitée est ajoutée à la
visualisation diplomatique du document transcrit.
Codage ltBloc type"img"gt    coordonnées des
points du bloc lt/Blocgt
10
1. Langage dencodage
ajout en marge Flaubert - Proust Non géré
actuellement
11
1. Langage dencodage
lt!DOCTYPE transcription lt!ELEMENT transcription
(Image)gt lt!ELEMENT Image (Bloc)gt lt!ATTLIST
Image titre CDATA REQUIRED coefDimensionLargeur
CDATA REQUIRED coefDimensionHauteur CDATA
REQUIREDgt lt!ELEMENT Bloc Point,Textegt lt!ATTLIST
Point X CDATA REQUIRED Y CDATA
REQUIREDgt lt!ATTLIST Bloc idBloc CDATA REQUIRED
type (img,txt) REQUIREDgt lt!ELEMENT Texte
(auteurcsstylolbpdplprpustrnlblstrbloc
koverwriteintnrbsphyphenindexpfracracab
brhyptitrervPCDATA)gt lt!ELEMENT auteur
(ANY)gt lt!ATTLIST auteur name (CDATA)
REQUIREDgt lt!ELEMENT cs (ANY)gt lt!ELEMENT stylo
(ANY)gt lt!ATTLIST stylo p (encre,stylo,crayon,impri
me) REQUIRED c (CDATA) REQUIREDgt lt!ELEMENT lb
(ANY)gt lt!ELEMENT p (ANY)gt lt!ATTLIST p indent
(CDATA) REQUIREDgt lt!ELEMENT dp (ANY)gt lt!ELEMENT
lp (ANY)gt lt!ELEMENT rp (ANY)gt
lt!ELEMENT Svg (PCDATA)gt gt
12
2. Interface daide à lencodage
1. Saisie du texte et aide à lencodage
13
3. Visualisation des images HD
  • Fonctionnalités images
  • zoom
  • rotation
  • saisie de blocs
  • mesure

14
4. Visualisation des transcriptions
  • Faire passer un système décriture non standard
    dans un système dédition électronique normalisé
  • Transcription diplomatique ?
  • linéarisée
  • diplomatique horizontale
  • diplomatique horizontale avec éléments
    graphiques
  • diplomatique inclinée régulière
  • diplomatique inclinée régulière avec éléments
    graphiques
  • Très dépendant de lutilisateur et du corpus
  • Accepter une certaine distorsion

15
4. Visualisation des transcriptions
16
Choix Technologiques
Plateforme Java - dev indépendant de la
machine - permet la manipulation des images
HD - pas de technologies Web - IHM en SWING -
rendu codé en SVG et visualisé avec BATIK (Apache)
17
Bilan et Perspectives
  • Format de Transcription Numérique achevé
    (version 1)
  • Saisie du balisage achevée (version 1)
  • Sauvegarde en cours de validation
  • Visualisation diplomatique 40 achevé
  • Test et validation à continuer !!
  • Utilisateurs bTesteurs

18
Bilan et Perspectives
  • - Un outil numérique ambitieux au regard du temps
    disponible (1 an)
  • Un prototype en passe dêtre achevé grâce à des
    échanges réguliers
  • A transformer en une réelle application
    informatique validée
  • Génie Logiciel Cycle de production industrielle
  • Transcrire la masse?
Write a Comment
User Comments (0)
About PowerShow.com