XML - PowerPoint PPT Presentation

1 / 31
About This Presentation
Title:

XML

Description:

Donn es linguistiques en format num rique en grande quantit . Besoin ... Pr senter l'information, pour faciliter la navigation et la consultation ... – PowerPoint PPT presentation

Number of Views:20
Avg rating:3.0/5.0
Slides: 32
Provided by: todirasam
Category:
Tags: xml | appliquent

less

Transcript and Presenter's Notes

Title: XML


1
XML
  • Amalia Todirascu-Courtier
  • todiras_at_umb.u-strasbg.fr

2
Corpus éléctroniques
  • Données linguistiques en format numérique en
    grande quantité
  • Besoin de
  • Structurer l'information, pour faciliter
    l'accessibilité
  • Présenter l'information, pour faciliter la
    navigation et la consultation
  • Intégration des divers sources d'information
  • Reutilisation des données
  • Textes structure, contexte et interpretation
  • gt Annoter pour faciliter l'interpretation

3
SGML XML
  • Un langage structuré pour annoter les documents
  • SGML (Standard Generalized Markup Language)
    pour annoter les corpus
  • Proposé par Text Encoding Initiative (TEI)
    http//www.tei-c.org/
  • HTML présentation structurée des documents
  • XML annotation du contenu du document
  • HTML et XML normes définies par le World Wide
    Web consortium (W3C) http//www.w3c.org
  • XHTML le langage du Web

4
HTML
  • HTML Hyper Text Markup Language
  • 1990 sur les ordinateurs du CERN
  • Aujourdhui, les mises à jour du langage sont
    faites par le W3C (World Wide Web Consortium
    http//www.w3.org)
  • Actuellement, version 4.01
  • Langage de description de documents
  • Permet de spécifier lapparence dun document

5
Notion de balise
  • Une balise permet de distinguer un document HTML
    dun fichier texte
  • Les balises sont insérées dans le corps du
    document
  • Elles permettent de contrôler le formatage et la
    présentation dun document
  • Mise en forme des paragraphes, insertion
    dimages, insertion de liens hypertexte, tableaux
  • Quatre balises sont obligatoires dans un document
    HTML
  • lthtmlgt, ltheadgt, ltbodygt, lttitlegt

6
Notion de balise (II)?
 
 
  • Une balise est encadrée par ltgt et peut avoir
    aussi une balise de fin lt/gt
  • Les balises peuvent être imbriquées mais elles
    doivent être fermées dans lordre inverse des
    balises douverture
  • Par exemple
  • ltfont size"1"gtltbgtltigttextelt/igtlt/bgtlt/fontgt

7
Notion de balise (III)?
  • Une balise peut avoir trois formes
  • ltnombalisegt
  • ltbrgt passage à la ligne
  • ltnombalisegt lt/nombalisegt
  • ltbgttexte à mettre en graslt/bgt
  • ltnombalise attribut1"valeur_1"
    attributn"valeur_n"gt
  • texte
  • lt/nombalisegt
  • ltbody bgcolor"80fff" text"red"gt
  • le fond de la page sera de couleur bleu clair

8
Notion de balise (IV)?
  • Où trouver la définition de chaque balise et de
    ses attributs?
  • http//www.w3.org, suivre le lien "HTML"
  • Validation du code html
  • http//validator.w3.org/

9
Architecture dun fichier HTML
  • Deux parties sont obligatoires
  • Lentête
  • Informations générales sur le document
  • Renseigne sur le contenu
  • Contient le titre de la page
  • Sert aux moteurs de recherche pour lindexation
    des pages
  • Précède toujours le corps du document
  • Le corps
  • Contient le texte du document avec les balises de
    mise en forme, les liens vers dautres documents,
    les images ? ce qui est affiché à lécran par
    le navigateur
  • Les navigateurs ont besoin de ces deux parties
    pour pouvoir interpréter le document

10
Un document HTML
  • lt!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01
    Transitional//EN "http//www.w3.org/TR/html4/loos
    e.dtd"gt
  • lthtmlgt
  • ltheadgt
  • lttitlegtNom de la pagelt/titlegt
  • lt/headgt
  • ltbodygt
  • lth1gt Un titre lt/h1gt
  • Texte du document
  • lt/bodygt
  • lt/htmlgt

11
Catégories de balises HTML
  • Mise en forme
  • ltBgt - gras
  • ltIgt - italique
  • ltFONTgt - police, taille
  • structuration
  • ltPgt - paragraphe
  • ltA HREF"url"gt - lien vers un autre document
  • ltOLgt, ltULgt - listes
  • ltTABLEgt - tableau

12
Limites du HTML
  • la liste de balises et des attributs est fermée
  • pas de possibilité de définir ses propres balises
  • les balises permettent la mise en forme ou la
    structuration, mais nous n'avons pas acces au
    contenu

13
Pourquoi XML?
  • Structurer l'information
  • Identification du contenu des données
  • Structure hiérarchique des documents
  • Format simple (fichier texte)
  • Accessibilité
  • divers types de présentation de données (XSL)
  • Liens avec dautres documents
  • interopérabilité des données
  • re-utiliser les XML dans d'autres applications
  • possibilité de vérifier si le document est
    valide DTD, XML schémas
  • définitions partagées

14
Les balises XML
  • La balise un élément qui marque un segment de
    texte
  • Transparent à l'utilisateur
  • Traitement automatique du document (indexation,
    recherche optimisée d'information)
  • Les balises HTML pour la présentation des
    documents
  • Les balises XML pour l'identification des
    éléments pertinents pour le contenu du document

15
Quelques exemples de balisage XML
  • ltpersonnegtGoriotlt/personnegt payait encore
    ltloyergtdouze cents francslt/loyergt de pension.
  • Sur le tapis, sur les meubles de sa chambre
    d'hôtel, à ltvillegtBrightonlt/villegt, s'étalaient
    ltjournalgtle Timeslt/journalgt, ltjournalgtle Daily
    Telegraphlt/journalgt, ltjournalgtle Daily
    Newslt/journalgt. Dix heures sonnaient à peine, et
    le docteur avait eu le temps de faire le tour de
    la ville, de visiter un hôpital, de rentrer à son
    hôtel et de lire dans ltjournalgtles principaux
    journaux de ltlieugtLondreslt/lieugt lt/journalgtle
    compte rendu in extenso d'un ltarticlegtmémoire
    qu'il avait présenté l'avant-veille ltcongresgtau
    grand Congrès international d'Hygiènelt/congresgt,
    sur un ltthemegt compte-globules du sang
    lt/themegt dont il était l'inventeurlt/articlegt.

16
Les balises XML (II)
  • Syntaxe
  • ltnom_balisegttextelt/nom_balisegt
  • ltnom_balise/gt - la balise vide
  • ltnom_balise attr1 "val1" ... attrn"valn"gttextelt/
    nom_balisegt
  • Règles de syntaxe
  • Plusieurs balises imbriquées possibles
  • Toujours une balise ouverte doit être fermée
  • Les balises XML sont définies par l'utilisateur
    (en fonction de l'application)

17
Les élements XML
  • Un élément XML les balises la séquence de
    texte qui a été balisée
  • Un élément XML peut contenir d'autres éléments
    XML
  • Structure hiérarchique du XML
  • Une balise peut contenir des attributs avec leurs
    valeurs
  • Un choix de l'utilisateur de définir des
    sous-éléments ou des attributs

18
Comment décider entre un élément et un attribut
XML?
  • Définir plutôt des éléments
  • Quand les données sont structurées
  • Quand le texte encadré par les balisés est long
  • Quand les données changent souvent
  • Définir plutôt des attributs
  • Texte de petite taille
  • Liste de valeurs prédefines
  • Visibilité plutôt des éléments
  • Container- Contenu éléments
  • Définir des attributs ou des élements en fonction
    de l'application

19
Exemple
  • ltpersonne name jeangtJean a achété
  • ltvoiture couleur bleu  type peugeot206 gtune
    Peugeot 206 bleuelt/voituregt pour ses
  • ltage value32gt32 anslt/agegt
  • lt/personnegt
  • DTD
  • ltELEMENT! personne (voitureage)/gt
  • ltATTLIST personne name (PCDATA)/gt
  • ltELEMENT! agegt
  • ltATTLIST age value (PCDATA) /gt
  • ltELEMENT! voituregt
  • ltATTLIST voiture couleur (PCDATA) type (PCDATA)/gt

20
La structure d'un document XML
  • La premiere ligne
  • lt?xml version"1.0"?gt
  • lt?xml version"1.0" encoding"ISO-8859-1"
    standalone"yes"?gt
  • Une suite d'élements XML prédéfinis par
    l'utilisateur
  • Commentaires lt!-- This is a comment --gt

21
  • représenter les éléments du document comme un
    arbre
  • chaque noeud est un élément XML
  • Un noeud peut avoir des noeuds enfants texte ou
    éléments XML
  • les noeuds sans enfants sont représentés sur une
    seule ligne

22
Document Type Definition (DTD)
  • Un fichier externe qui contient les définitions
    des utilisateurs (éléments et entités XML)
  • Référence à la DTD dans le prolog du document
    XML
  • lt!ELEMENT slideshow (slide)gt
  • lt!ELEMENT slide (title, item)gt
  • lt!ELEMENT title (PCDATA)gt
  • lt!ELEMENT item (PCDATA item) gt

23
Outils pour interpréter XML
  • Outils pour vérifier si le document est valide
    (par rapport à la DTD et au XML schéma)
  • Xerces (Java, C, Perl)
  • JAXB
  • on peut utiliser le modèle DOM ou SAX
  • DOM Data Object Model
  • SAX Simple API for XML

24
Liens utils
  • Java Web Services Developper Packaging Tutorial
    (http//java.sun.com)
  • http//www.apache.org (parseurs XML disponibles
    dans plusieurs languages - Xerces)
  • http//www.w3c.org (specifications de XML)

25
Le langage XSLT
  • Extended Stylesheet Transformation Language
  • Le principe de feuille de style les mêmes
    données, mais présentées différement
  • Un vrai langage de transformation
  • Présentation des données en XML sous forme HTML
  • Extraction seulement des textes annotés
  • Des règles de trasformation qui s'appliquent sur
    la structure arborescente d'un arbre XML

26
Un programme XSLT
  • Un document XML qui contient des instructions
    XSLT
  • La structure du programme XSLT
  • lt?xml version"1.0" encoding"iso-8859-1"?gt
  • ltxslstylesheet version"1.0" xmlnsxsl"http//ww
    w.w3.org/1999/XSL/Transform"gt
  • ...
  • lt/xslstylesheetgt

27
Les règles XSLT
  • Sélectionner et modifier les éléments XML
  • La règle xsltemplate s'applique à un élément XML
  • L'attribut match cherche l'élément avec un nom
    donné
  • La règle apply-templates s'applique sur les
    enfants du noeud
  • ltxsltemplate match"voiture"gt
  • ltAutogt ltxslapply-templates/gt lt/Autogt
  • lt/xsltemplate gt

28
Les règles XSLT (II)
  • ltxslcopygt - une copie de l'élément courant dans
    le fichier résultat
  • ltxslelementgt - créer un nouveau élément dans le
    fichier résultat
  • Structures conditionnelles ltxslifgt
  • Boucle ltxslfor-eachgt - applique le même
    traitement à chaque noeud
  • ltxslvalue-of selectnom_attributgt

29
Exemples
  • ltxsltemplate match"Order"gt
  • Order is ltxslvalue-of select"_at_Name"/gt
  • ltxslapply-templates select"Family"/gtltxsltextgt
  • lt/xsltextgt
  • lt/xsltemplategt
  • Sortie Order is GAVIIFORMES
  • ltxsltemplate match"Species"gt
  • ltxslchoosegt
  • ltxslwhen test"name(..)'SubFamily'"gt
  • ltxslvalue-of select"."/gtltxsltextgt
    lt/xsltextgtltxslvalue-of select"_at_Scientific_Name"
    /gt
  • lt/xslwhengtlt/xslchoosegt
  • lt/xsltemplategt

30
Exemples (II)
  • ltxsltemplate match"person"gt ltpgt ltxslvalue-of
    select"_at_given-name"/gt ltxsltextgt lt/xsltextgt
    ltxslvalue-of select"_at_family-name"/gt lt/pgt
    lt/xsltemplategt
  • Sortie
  • ltpgt
  • Jean
  • Martin
  • lt/pgt

31
Conclusion
  • XML un language universel
  • Des outils de traitement de XML disponibles en
    plusieurs langages
  • Des définitions partagées (DTD)
  • XSLT un langage simple mais puissant pour
    extraire les données
  • XML adapté pour la représentation des corpus
    linguistiques
Write a Comment
User Comments (0)
About PowerShow.com