Silfide : ressources, outils et normalisation - PowerPoint PPT Presentation

1 / 27
About This Presentation
Title:

Silfide : ressources, outils et normalisation

Description:

Serveur Interactif pour la Langue Fran aise, son Identit , sa Diffusion, son Etude. Projet ... stage Paul allume une cigarette /stage remarque : d claration des ... – PowerPoint PPT presentation

Number of Views:33
Avg rating:3.0/5.0
Slides: 28
Provided by: laurent90
Category:

less

Transcript and Presenter's Notes

Title: Silfide : ressources, outils et normalisation


1
Silfide ressources, outils et normalisation
  • Laurent Romary
  • Laboratoire Loria
  • Nancy

2
Silfide - présentation
  • Serveur Interactif pour la Langue Française, son
    Identité, sa Diffusion, son Etude
  • Projet commun lancé au début de 1996
  • CNRS (Centre National de la Recherche
    Scientifique)
  • AupelfUref (Association des Universités
    Partiellement ou Entièrement de Langue Française)
  • Équipes  Loria, INaLF, CLIPS, LIMSI, LPL

3
Principaux objectifs
  • coordonner les efforts de la communauté
    académique dans le domaine des ressources
    linguistiques
  • développer et promouvoir des actions de
    normalisation
  • procurer un accès libre aux ressources et aux
    services associés

4
Contexte
  • Ressources linguistiques
  • Textes (littérature,théâtre, poésie, journaux,
    etc.)
  • Transcriptions (e.g. dialogues)
  • Dictionnaires, lexiques
  • Utilisateurs
  • Lexicographes, linguistes, informaticiens
  • Outils divers (e.g. étiqueteurs
    morpho-syntaxiques)

5
Un constat
  • coût intellectuel et financier de la création des
    données
  • quelle documentation associée à ces données ?
  • comment utiliser ces données (outils) ?
  • Normaliser pour mieux utiliser et partager nos
    données.

6
TEI (Text Encoding Initiative)
  • Origine réunion de novembre 1987 au Vassar
    College (Poughkeepsie, New York)
  • Directives de codage des textes électroniques sur
    la base de SGML
  • Institutions scientifiques 
  • ACH, ALLC, ACL
  • Guidelines for Electronic Text Encoding and
    Interchange (TEI P3)
  • eds.  Michael Sperberg-McQueen et Lou Burnard

7
TEI - Contenu
  • Recommandations
  • norme SGML (Standard Generalized Markup Language)
  • modularité de la DTD TEI
  • un jeu de balises "noyau" (core tag set)
    en-tête, divisions, paragraphes etc.
  • des ensembles de balises de base (base tag sets)
    prose, poésie en vers, dictionnaires, etc.
  • des jeux de balises additionnelles (additional
    tag sets) liens hypertextuels etc.
  • Conséquence une famille de DTD TEI

8
TEI - Documentation des textes
  • Identification et suivi des textes
  • cf. catalogage des documents électroniques (ex.
    Silfide)
  • cf. échange des documents électroniques
  • Comment en-tête TEI (TeiHeader)
  • aspects bibliographiques du document source
    (auteur, éditeur, édition, etc.)
  • aspects propres au document électronique (aspects
    bibliographiques, codage, historique des
    révisions etc.)

9
TEI - Pièces de théâtre
  • interventions et indications scéniques
  • ltsp whoPgt
  • ltspeakergtPaullt/speakergt
  • ltpgtIl fait chaud aujourdhuilt/pgt
  • lt/spgt
  • ltstagegtPaul allume une cigarettelt/stagegt
  • remarque 
  • déclaration des personnages dans une ltcastListgt

10
TEI - Transcriptions de loral
  • tours de parole, segments
  • ltu whoSgt
  • ltseggtFrance Telecom, bonjour.lt/seggt
  • ltseggtQue désirez-vous?lt/seggt
  • lt/ugt
  • remarque 
  • possibilités de coder les pauses, transitions,
    superpositions, bruits, difficultés de
    transcription etc.

11
TEI - Dictionnaires
  • structure minimale dune entrée 
  • mot-vedette, indications grammaticales,
    définition, exemples
  • ltentrygt
  • ltformgt
  • ltorthgttablelt/orthgt
  • lt/formgt
  • ltgramGrpgtltposgtn.f.lt/posgtltgramGrpgt
  • ltdefgtPièce de mobilierlt/defgt
  • lteggtUne table de cuisinelt/eggt
  • lt/entrygt

12
Silfide - du point de vue de lutilisateur
  • pas de balise SGML
  • un scénario en deux temps 
  • Sélection de ressources  construction dun
    corpus de travail (panier)
  • Requêtes sur le contenu  utilisation doutils en
    ligne sur ce corpus

13
Sélection des ressources
14
Et XML arriva...
  • Où linternet donne raison à la démarche de la TEI

15
Un rapide état des lieux - 1
  • XML
  • Une recommandation du W3C simplifiant SGML
  • Un gain en souplesse et en puissance
  • Document bien formé/valide
  • Des interfaces de programmation
  • API DOM modèle arborescent
  • API SAX accès par évènements

16
Un rapide état des lieus - 2
  • Des recommandations associées
  • Xpath
  • Un langage généralisé d accès à la structure
    d un document XML/body//div/qlande
  • , XSL
  • Un langage de transformation et de présentation
  • Un système à base de règle exprimées en XML
  • Les bases d une BD orientée XML?

17
Mise en réseau de serveurs Silfide
Serveur 2
DB2
http
Serveur 1
DB1
Serveur 4
Point d accès local
DB4
Client (navigateur)
Serveur 3
DB3
18
Usage généralisé de XML
  • Informations utilisateurs
  • Gestion de l espace de travail
  • Paramètres de session
  •  Panier 
  • Requêtes
  • Listes de résultats

19
Silfide et XML
ltSWSgt
Server 2
DB2
ltXQLgt
Server 1
DB1
Server 4
Local access point
ltXRSgt
DB4
User Client
Server 3
DB3
20
Bilan apports d XML
  • Uniformisation des formats
  • Contenus  utiles  (adapter la TEI)
  • Gestion des échanges
  • Fractionnement et recomposition
  • Utilisation des documents par parties
  • E.g.  entrée d un dictionnaire
  • Résultat gtgt document
  • Applications  commandes en  pipe  (cf. HCRC)

21
Bilan apports d XML - 2
  • De premiers composants réutilisables
  • Parseurs XML
  • Interpréteur de requêtes sur des documents
    structurés
  • Au delà?

22
Et maintenant ?
  • Pistes de développement des efforts de
    normalisation

23
Développements en cours - 1
  • Ressources primaires
  • Initiative INaLF-Loria de rétro-conversion de
    textes issus de Frantext
  • Théâtre, poésie etc.
  • Des bases éditoriales codifiées et simplifiées
    (en-tête minimal)
  • Une prise de conscience du besoin de
    normalisation IRESCO, Paris IV, etc.

24
Développements en cours - 2
  • Annotation externe
  • Cf. CES/Eagles - avènement de Xpath
  • Exemple alignement de textes multilingues
  • Annotation de la référence
  • MLIS/Mate une initiative européenne dans le
    domaine de l étude du dialogue

25
Développements en cours - 3
  • Ressources pour l Informatique linguistique
  • Terminologie/lexicographie multilingue
  • MARTIF (ISO 12200, expérimenté dans MLIS/Dhydro)
  • Lexique syntaxique
  • TAGML

26
Perspectives
  • Stabiliser une  couche basse 
  • API d accès aux mots d un texte
  • Entrées/Sorties d étiqueteurs morpho-syntaxiques
  • Architectures de ressources lexico-grammaticales

27
Moyens
  • Accroître la normalisation des données et des
    interfaces
  • Des rencontres régulières (au delà de cette
    journée  découverte )
  • Un vrai GT sur ce thème
  • Aboutir à une base commune pour
  • Échanger des données primaires
  • Échanger des composants
  • Évaluer nos systèmes
Write a Comment
User Comments (0)
About PowerShow.com