Presse Electronique sur la Toile : Analyse Typologique des Pages dAccueil des Sites de Presse - PowerPoint PPT Presentation

1 / 24
About This Presentation
Title:

Presse Electronique sur la Toile : Analyse Typologique des Pages dAccueil des Sites de Presse

Description:

M moire de Ma trise des Sciences du Langage, mention Industries de la Langue ... mais aussi de cer-taines cat gories (morpho-syntaxiques, syntaxiques et s man ... – PowerPoint PPT presentation

Number of Views:115
Avg rating:3.0/5.0
Slides: 25
Provided by: bay86
Category:

less

Transcript and Presenter's Notes

Title: Presse Electronique sur la Toile : Analyse Typologique des Pages dAccueil des Sites de Presse


1
Presse Electronique sur la Toile Analyse
Typologique des Pages dAccueildes Sites de
Presse
Mémoire de Maîtrise des Sciences du Langage,
mention Industries de la Langue ILPGA , Univ.
de la Sorbonne Nouvelle - Paris III Christelle
URIE Sous la direction de Serge FLEURY
2
Sommaire
  • Introduction
  • Les projets TyPText TyPWeb
  • Constitution du corpus
  • Analyse du corpus
  • exploration visuelle
  • analyse des données textuelles
  • analyse des données structurelles
  • Particularités de la presse en ligne
  • Bilan de létude
  • Conclusion et Perspectives

3
Introduction
  • Point de départ
  • Un intérêt personnel pour les documents
    électroniques
  • Le constat de similitudes entre 2 genres a priori
    distincts
  • Une question
  • Est-il possible de dégager une typologie des
    pages daccueil des sites de presse ?
  • Objectif
  • Sur la base du postulat "type magazine" versus
    "type journal", voir si les éléments
    (syntaxiques, morpho- syntaxiques, sémantiques,
    structurels) composant ces "textes" permettent de
    dégager des courants

4
Les projets TyPText et TyPWeb
  • TyPText "Typage et Profilage des Textes"
  • Est appelé profilage de textes "le bilan
    quantitatif fondé sur des indices linguistiques
    demploi de vocabulaire, mais aussi de cer-taines
    catégories (morpho-syntaxiques, syntaxiques et
    séman-tiques) et de patrons syntaxiques dans les
    parties dun corpus pour regrouper ensuite ces
    sous-parties en sous-ensembles homo-gènes sur ces
    points" Habert et al., 2000.
  • TyPWeb
  • Le projet TyPWeb vise à mettre en place une
    méthodologie pour fournir une typologie des sites
    personnel et marchands afin dana-lyser le
    rapport entre structure des sites et pratiques de
    navi-gation. Le projet porte sur lanalyse des
    sites sur les plans textuel, structurel et
    hypertextuel pour, à la fois, donner sens au
    parcours et montrer comment la structure et les
    contenus conditionnent la visite.

5
Constitution du corpus (1)
  • Définition dun corpus
  • Un corpus est une "collection de données
    langagières qui sont sélectionnées et organisées
    selon des critères linguistiques et
    extra-linguistiques explicites pour servir
    déchantillons demplois déterminés dune
    langue 
  • Habert, 2001.
  • Notre corpus
  • sélection de 30 pages daccueil de sites de
    presse divers
  • sauvegarde via un navigateur
  • normalisation via les outils TyPWeb
  • constitution de sous-corpus spécialisés

6
Constitution du corpus (2)
  • Constitution du corpuset Chaîne de traitement
    TyPWeb

7
Exploration visuelle
  • Un tableau contrasté une grande diversité et
    par conséquent des oppositions et similitudes
    entre titres concernant
  • lusage des couleurs, la diversité typographique,
    les illustrations,
  • la topographie, la structure de la page,
  • la taille de la page et son contenu textuel,
  • la ressemblance avec les versions imprimées,
  • ? Une première approche qui laisse entrevoir des
    carac-téristiques et spécificités propres à
    certains ensemblesde pages (volume rédactionnel,
    importance de limage, richesse du codage de
    formatage, éléments structurels)

8
Analyse des données textuelles
  • Etude quantitative
  • Etude morpho-syntaxique
  • les catégories N et V
  • les conjonctions de Coord. et de Sub.
  • les pronoms
  • la terminaison verbale "- ez"
  • Etude sémantique

9
Analyse des données textuelles Etude
quantitative
  • Quelques chiffres
  • moyenne du nombre docc. par page ? 602
    minima 22 (Elle, Le 15-25 ans)

    maxima 1641 (Le Monde)

? Une première analyse qui confirme les tendances
générales observées lors de lexploration
visuelle des pages magazines
lt-textegt
journaux lttextegt
10
Analyse des données textuelles Etude
morpho-syntaxique (1)
  • Les catégories N et V
  • part de la catégorie N
  • mag ? 52,47 (max. 65 min. 41,11)
  • journ ? 52,7 (max. 60,60 min. 44,29)
  • part de la catégorie V
  • mag ? 12,55 (max. 18,33 (30,71) min.
    5,56 (0))
  • journ ? 11,04 (max. 17,79 min. 9,09)
  • ? Pas de différence significative entre magazines
    et journaux mais des divergences entre titres du
    même "type".

11
Analyse des données textuelles Etude
morpho-syntaxique (2)
  • Quelques explications
  • multiplicité des N
  • les liens hypertextes
  • noms de rubriques (N seul)
  • noms de villes (journaux régionaux)
  • chiffres étiquetés N (date, heure, informations
    boursières)
  • taille des corpus
  • style décriture
  • phrases complexes VS phrases nominales
  • ( V et GN complexes Dét. N A)

12
Analyse des données textuelles Etude
morpho-syntaxique (3)
  • Les conjonctions de Coord. et de Sub.
  • la coordination
  • mag ? 2,93
  • journ ? 2,13
  • ? Coordination de GN
  • la subordination
  • mag ? 0,923 (0,537 )
  • journ ? 0,286
  • ? Des résultats inattendus
  • Quelques explications la taille des corpus et
    des journaux spécialisés contenant peu de
    parties rédigées
  • Peu présente dans notre corpus

13
Analyse des données textuelles Etude
morpho-syntaxique (4)
  • Les pronoms
  • 4 catégories de pronoms
  • Quel contexte syntaxico-sémantique pour VOUS ?
  • ? situation "formelle" vs situation plus
    "personnelle"
  • ( journaux)
    ( magazines)

14
Analyse des données textuelles Etude
morpho-syntaxique (5)
  • La terminaison verbale "- ez" et limpératif
  • Quels usages de limpératif ?
  • ? invites à lexploration du site ("cliquez
    ici","découvrez","visitez")
  • demande davis, de prise de contact
  • offres des services ("recherchez","achetez")
  • propositions dabonnement, de newsletters...

15
Analyse des données textuelles Etude sémantique
  • Par recherche de mots-clés en corpus
  • recherche de grandes thématiques via des
    formes-pôles dans un corpus lemmatisé
  • Par examen des méta-balises Description et
    Keywords
  • un corpus spécialisé
  • recherche de motifs correspondant aux mêmes
    formes-pôles
  • ? Des résultats divergents
  • page vs site une difficulté propre aux corpus
    web

16
Analyse des données structurelles
  • Éléments textuels et formatage
  • Quelques éléments particuliers
  • les images, les scripts, les formulaires
  • et les méta-balises
  • Les liens
  • les liens, les liens externes, les mailtos et
    les ancres

17
Analyse des données structurelles Éléments
textuels et formatage
  • Fréquence moyenne dapparition des éléments par
    page
  • (cf. tableau p. 100)

18
Analyse des données structurelles Quelques
éléments particuliers
  • Fréquence moyenne dapparition des éléments
    par page

(cf. tableau p. 107)
19
Analyse des données structurelles Les liens
  • Fréquence moyenne dapparition des
    éléments par page / nb de titres concernés
  • Notion de connexité
  • 2 types de liens
  • la redondance
  • des liens au sens peu explicite
  • des liens externes relativement peu nombreux

cf. tableau p. 117
20
Particularités de la presse en ligne (1)
  • Des dimensions de la presse optimisées par
    lInternet
  • Documentation (stockage, archivage, indexation,
    diversification des ressources)
  • Communication (interactivité)
  • Transaction (abonnement, services divers,
    achaten ligne)
  • Actualisation de linformation
  • Le Web un nouvel espace rédactionnel et des
    spécificités décriture (mise en page, formatage
    HTML, hypertextes)

21
Particularités de la presse en ligne (2)
  • Les relations entre version imprimée et
    version électronique
  • des différences spatio- temporelles
  • une complémentarité difficile à déterminer
  • Magazine et journal des différences qui
    disparaissent sur le Web
  • la périodicité
  • les illustrations et lesthétisme
  • la publicité
  • la spécialisation et la personnalisationde
    linformation

22
Bilan
  • A priori
  • 2 "types" inscrits dans deux genres distincts
    définis sur la base dun ensemble de critères
    (format, aspect visuel, périodicité, contenu
    informationnel, fonction)
  • journal et magazine
  • A posteriori
  • une démarche inductive qui a permis une nouvelle
    classification sur la base dindices textuels
    (quantitatifs, syntaxiques, morpho-syntaxiques)
    et structurels (formatage, liens) les mêmes
    "types" 2 "types" intermédiaires

23
Conclusion et Perspectives
  • Conclusion
  • le dressement dune typologie une tâche dune
    grande complexité
  • des difficultés propres aux corpus issus de Web
  • les limites de notre objet détude létude
    typologiquedes pages daccueil des sites
    constitue une première étape dans le classement
    typologique des sites mêmes
  • Perspectives
  • élargir et diversifier le corpus
  • procéder à une analyse morpho-syntaxique plus
    fine
  • effectuer une comparaison entre les versions en
    ligne des titres de presse traditionnelle et les
    titres exclusive-ment présents sur le Web
  • travail en équipe pluridisciplinaire

24
Merci.
Write a Comment
User Comments (0)
About PowerShow.com