Title: Presse Electronique sur la Toile : Analyse Typologique des Pages dAccueil des Sites de Presse
1Presse Electronique sur la Toile Analyse
Typologique des Pages dAccueildes Sites de
Presse
Mémoire de Maîtrise des Sciences du Langage,
mention Industries de la Langue ILPGA , Univ.
de la Sorbonne Nouvelle - Paris III Christelle
URIE Sous la direction de Serge FLEURY
2Sommaire
- Introduction
- Les projets TyPText TyPWeb
- Constitution du corpus
- Analyse du corpus
- exploration visuelle
- analyse des données textuelles
- analyse des données structurelles
- Particularités de la presse en ligne
- Bilan de létude
- Conclusion et Perspectives
3Introduction
- Point de départ
- Un intérêt personnel pour les documents
électroniques - Le constat de similitudes entre 2 genres a priori
distincts -
- Une question
- Est-il possible de dégager une typologie des
pages daccueil des sites de presse ? - Objectif
- Sur la base du postulat "type magazine" versus
"type journal", voir si les éléments
(syntaxiques, morpho- syntaxiques, sémantiques,
structurels) composant ces "textes" permettent de
dégager des courants
4Les projets TyPText et TyPWeb
- TyPText "Typage et Profilage des Textes"
- Est appelé profilage de textes "le bilan
quantitatif fondé sur des indices linguistiques
demploi de vocabulaire, mais aussi de cer-taines
catégories (morpho-syntaxiques, syntaxiques et
séman-tiques) et de patrons syntaxiques dans les
parties dun corpus pour regrouper ensuite ces
sous-parties en sous-ensembles homo-gènes sur ces
points" Habert et al., 2000. - TyPWeb
- Le projet TyPWeb vise à mettre en place une
méthodologie pour fournir une typologie des sites
personnel et marchands afin dana-lyser le
rapport entre structure des sites et pratiques de
navi-gation. Le projet porte sur lanalyse des
sites sur les plans textuel, structurel et
hypertextuel pour, à la fois, donner sens au
parcours et montrer comment la structure et les
contenus conditionnent la visite.
5Constitution du corpus (1)
- Définition dun corpus
- Un corpus est une "collection de données
langagières qui sont sélectionnées et organisées
selon des critères linguistiques et
extra-linguistiques explicites pour servir
déchantillons demplois déterminés dune
langue - Habert, 2001.
- Notre corpus
- sélection de 30 pages daccueil de sites de
presse divers - sauvegarde via un navigateur
- normalisation via les outils TyPWeb
- constitution de sous-corpus spécialisés
6Constitution du corpus (2)
- Constitution du corpuset Chaîne de traitement
TyPWeb
7Exploration visuelle
- Un tableau contrasté une grande diversité et
par conséquent des oppositions et similitudes
entre titres concernant - lusage des couleurs, la diversité typographique,
les illustrations, - la topographie, la structure de la page,
- la taille de la page et son contenu textuel,
- la ressemblance avec les versions imprimées,
- ? Une première approche qui laisse entrevoir des
carac-téristiques et spécificités propres à
certains ensemblesde pages (volume rédactionnel,
importance de limage, richesse du codage de
formatage, éléments structurels)
8Analyse des données textuelles
- Etude quantitative
- Etude morpho-syntaxique
- les catégories N et V
- les conjonctions de Coord. et de Sub.
- les pronoms
- la terminaison verbale "- ez"
- Etude sémantique
9Analyse des données textuelles Etude
quantitative
- moyenne du nombre docc. par page ? 602
minima 22 (Elle, Le 15-25 ans)
maxima 1641 (Le Monde)
? Une première analyse qui confirme les tendances
générales observées lors de lexploration
visuelle des pages magazines
lt-textegt
journaux lttextegt
10Analyse des données textuelles Etude
morpho-syntaxique (1)
- Les catégories N et V
- part de la catégorie N
- mag ? 52,47 (max. 65 min. 41,11)
- journ ? 52,7 (max. 60,60 min. 44,29)
-
- part de la catégorie V
- mag ? 12,55 (max. 18,33 (30,71) min.
5,56 (0)) - journ ? 11,04 (max. 17,79 min. 9,09)
- ? Pas de différence significative entre magazines
et journaux mais des divergences entre titres du
même "type".
11Analyse des données textuelles Etude
morpho-syntaxique (2)
- Quelques explications
- multiplicité des N
- les liens hypertextes
- noms de rubriques (N seul)
- noms de villes (journaux régionaux)
- chiffres étiquetés N (date, heure, informations
boursières) - taille des corpus
- style décriture
- phrases complexes VS phrases nominales
- ( V et GN complexes Dét. N A)
12Analyse des données textuelles Etude
morpho-syntaxique (3)
- Les conjonctions de Coord. et de Sub.
- la coordination
- mag ? 2,93
- journ ? 2,13
- ? Coordination de GN
- la subordination
- mag ? 0,923 (0,537 )
- journ ? 0,286
- ? Des résultats inattendus
- Quelques explications la taille des corpus et
des journaux spécialisés contenant peu de
parties rédigées - Peu présente dans notre corpus
13Analyse des données textuelles Etude
morpho-syntaxique (4)
- Les pronoms
- 4 catégories de pronoms
-
- Quel contexte syntaxico-sémantique pour VOUS ?
- ? situation "formelle" vs situation plus
"personnelle" - ( journaux)
( magazines)
14Analyse des données textuelles Etude
morpho-syntaxique (5)
- La terminaison verbale "- ez" et limpératif
- Quels usages de limpératif ?
- ? invites à lexploration du site ("cliquez
ici","découvrez","visitez") - demande davis, de prise de contact
- offres des services ("recherchez","achetez")
- propositions dabonnement, de newsletters...
15Analyse des données textuelles Etude sémantique
- Par recherche de mots-clés en corpus
- recherche de grandes thématiques via des
formes-pôles dans un corpus lemmatisé - Par examen des méta-balises Description et
Keywords - un corpus spécialisé
- recherche de motifs correspondant aux mêmes
formes-pôles - ? Des résultats divergents
- page vs site une difficulté propre aux corpus
web
16Analyse des données structurelles
- Éléments textuels et formatage
- Quelques éléments particuliers
- les images, les scripts, les formulaires
- et les méta-balises
- Les liens
- les liens, les liens externes, les mailtos et
les ancres
17Analyse des données structurelles Éléments
textuels et formatage
- Fréquence moyenne dapparition des éléments par
page
18Analyse des données structurelles Quelques
éléments particuliers
- Fréquence moyenne dapparition des éléments
par page
(cf. tableau p. 107)
19Analyse des données structurelles Les liens
- Fréquence moyenne dapparition des
éléments par page / nb de titres concernés - Notion de connexité
- 2 types de liens
- la redondance
- des liens au sens peu explicite
- des liens externes relativement peu nombreux
cf. tableau p. 117
20Particularités de la presse en ligne (1)
- Des dimensions de la presse optimisées par
lInternet - Documentation (stockage, archivage, indexation,
diversification des ressources) - Communication (interactivité)
- Transaction (abonnement, services divers,
achaten ligne) - Actualisation de linformation
- Le Web un nouvel espace rédactionnel et des
spécificités décriture (mise en page, formatage
HTML, hypertextes)
21Particularités de la presse en ligne (2)
- Les relations entre version imprimée et
version électronique - des différences spatio- temporelles
- une complémentarité difficile à déterminer
- Magazine et journal des différences qui
disparaissent sur le Web - la périodicité
- les illustrations et lesthétisme
- la publicité
- la spécialisation et la personnalisationde
linformation
22Bilan
- A priori
- 2 "types" inscrits dans deux genres distincts
définis sur la base dun ensemble de critères
(format, aspect visuel, périodicité, contenu
informationnel, fonction) - journal et magazine
- A posteriori
- une démarche inductive qui a permis une nouvelle
classification sur la base dindices textuels
(quantitatifs, syntaxiques, morpho-syntaxiques)
et structurels (formatage, liens) les mêmes
"types" 2 "types" intermédiaires
23Conclusion et Perspectives
- Conclusion
- le dressement dune typologie une tâche dune
grande complexité - des difficultés propres aux corpus issus de Web
- les limites de notre objet détude létude
typologiquedes pages daccueil des sites
constitue une première étape dans le classement
typologique des sites mêmes - Perspectives
- élargir et diversifier le corpus
- procéder à une analyse morpho-syntaxique plus
fine - effectuer une comparaison entre les versions en
ligne des titres de presse traditionnelle et les
titres exclusive-ment présents sur le Web - travail en équipe pluridisciplinaire
24Merci.