Title: La documentation audiovisuelle lheure du numrique
1La documentation audiovisuelle à lheure du
numérique
Raphaël Troncy
Institut National de lAudiovisuel Direction
Recherche et Expérimentation Tel
01-49-80-20-93 E-mail rtroncy_at_ina.fr
2Objectifs de lexposé
- Prendre la mesure de lapport du numérique pour
la documentation audiovisuelle (ce que ça change
!) - Situer lapport des nouvelles technologies dans
les pratiques concrètes de la documentation - Amorcer une réflexion sur lévolution du rôle des
documentalistes
3Plan de lexposé
- De lanalogique au numérique de nouvelles
possibilités - La création de descriptions de documents
audiovisuels automatique ou manuelle ? - La représentation et la manipulation de ces
descriptions lapport XML - Et demain ?
4Le document AV analogique
- Un support denregistrement
Dispositif de reconstruction de la lecture
- Un support de restitution
- Un média hautement temporel
5Le document AV analogique (suite)
- Documents temporels
- Regarder 10 min prend 10 min
- Pour trouver une information située à la 10ème
minute, il faut regarder les 9 premières - ? pas daccès direct à linformation
- Pour retrouver une information
- Localiser explicitement le contenu
- Caractériser ce contenu
- ? nécessité dune description (ou indexation)
6Utiliser lAV analogique regarder, retrouver
7La convergence numérique
- Convergence actuelle des industries de contenu
AV, de télécommunication et dinformatique - Numérisation de la chaîne de production AV, de la
création à la distribution - Nouveaux outils grand public pour
lenregistrement, le montage, la manipulation et
la visualisation des données AV numériques
8La numérisation quest-ce que cest ?
- Numériser les contenus audiovisuels les
transformer en données informatiques - Offre de nouvelles possibilités
- on peut stocker ces contenus dans des bases de
données - on peut les échanger sur des réseaux
- on peut automatiser laccès aux contenus
9Automatisation de laccès (1)
- Exemple Description de Journal Télévisé en
analogique - 002532 TRAv public le long de la route du
tour. Famille avec table, tente et enfant. Jeune
femme "Mon mari est un vrai passionné de vélo." - 002714 Buffet campagnard et barbecue "On
s'est réuni tout le village" - 002925 Homme néerlandais attablé au bord de la
route, derrière lui une banderole "ALLEE le tour"
10Automatisation de laccès (2)
- Exemple Description de Journal Télévisé en
numérique - Sujet 33 (durée 000223) TRAv public le long
de la route du tour. Famille avec table, tente et
enfant. Jeune femme Mon mari est un vrai
passionné de vélo - Voir le passage
- Sujet 34 (durée 000158) Buffet campagnard et
barbecue On s'est réuni tout le village - Voir le passage
11De lanalogique au numérique
- Situation analogique
- les index ne sont pas exploités par le dispositif
de lecture (index et contenu sont sur des
supports différents) - ils ne servent quà la recherche dinformation
- impossibilité, en pratique, de naviguer dans un
document audiovisuel - Situation numérique
- on assiste à une destruction (uniformisation) du
support - le programme de lecture peut utiliser les
descriptions des contenus pour proposer
différentes exploitations du contenu audiovisuel
12Utiliser lAV numérique
naviguer
documents AV
descriptions
composer
rechercher
.
13Naviguer grâce aux descriptions
descriptions Texteloc 153 char Imageloc 1201
mn
14Composer grâce aux descriptions
Magazines disponibles
Mag 1
Mag 2
15Chaîne de traitement documentaire dans un
contexte massivement analogique
Base documentaire
Indexation
Notices
Magasin
Archivage des supports
Phase amont alimentation de la base documentaire
16Chaîne de traitement documentaire dans un
contexte massivement analogique
Base documentaire
Traduction
Requête
Résultat
Magasin
Exploitation
Phase aval interrogation de la base documentaire
17Chaîne documentaire numérique
18De lindexation à la description
- Index
- Pointer vers, montrer où se trouve un contenu
- Les index ne servent quà la recherche
dinformation - Description
- Souvent structurée
- Les descriptions servent à rendre possible des
usages de lAV (recherche structurée plus fine,
composition de nouveaux documents, parcours de
navigation )
19Descriptions les problèmes clefs
- Créer les descriptions
- Automatique ? Manuelle ?
- Représenter ces descriptions
- Quel format documentaire ?
- Manipuler ces descriptions
- Génie documentaire
20Plan de lexposé
- De lanalogique au numérique de nouvelles
possibilités - La création de descriptions de documents
audiovisuels (exemple concret lINA) - La représentation et la manipulation de ces
descriptions - Et demain ?
21Créer des descriptions différents modes
dobtention
- Indexation automatique
- Permet le traitement de grands volumes de données
- Annotation manuelle
- Permet linterprétation des éléments abstraits
proches de lusage visé - Environnement de travail
- Permet de concilier la valeur ajoutée de
lannotation aux outils automatiques
22Créer des descriptions le problème fondamental
- Objectif
- Déterminer des descripteurs représentant le
contenu - Problème fondamental
- Les documents audiovisuels ne sont pas
alphabétiques - Le flux AV ne se construit pas à partir dunités
discrètes dénombrables dont la combinatoire
détermine les possibilités de formulation - Les descripteurs ne sont pas donnés avec le
document, il faut les extraire ou les interpréter
23Indexation automatique
- Objectif
- Extraire automatiquement des descripteurs du
contenu - Problème
- La détermination dun descripteur pertinent
dépend du contexte dutilisation du document - Les algorithmes dextraction restent trop près de
la nature physique des documents pour être
exploitables - Enjeu
- Mapper les résultats danalyse sur des
descripteurs utiles
24Indexation automatique
- Segmentation temporelle plans, scènes
- Segmentation spatiale détection de visage,
reconnaissance de visage - Transcription automatique de la parole
- Alignement AV/ transcription
- Reconnaissances dincrustation
- Etc.
25Segmentation de la vidéo
- Permet un accès non linéaire à la vidéo
- Détection des cut
- Basée sur le calcul de similarités entre images
successives utilisant - la couleur
- le mouvement
- les résultats des algorithmes de compression
(MPEG)
26Segmentation de la vidéo (suite)
- Détection des transitions progressives
- Fondus, volets, etc.
- Basées sur des modèles statistiques doccurrence
des différents types de transition
27Exemple de segmentation en plan
28Conclusion sur la segmentation de la vidéo
- L évaluation et la comparaison des résultats
nécessite une vérité terrain - Les performances des algorithmes sont bonnes
pour les cut typiquement - 5 d oublis
- 15 de fausse détection
- Résultats moins bon pour les transitions
progressives, particulièrement les fondus
29Reconnaissance dévénements
- Caractérisation des plans par
- Détection des visages
- Extraction des textes incrustés
- Détection des flashs
- Permet daméliorer la segmentation en plan
- Indication sur lapparition dun personnage
important à lécran
30Détection des visages
- Permet de
- Caractériser les plans en gros plan, plan moyen,
etc. - Donner des indications pour lannotation
- Algorithmes basés sur
- Des analyses de limage à différentes résolutions
- La couleur
- Un modèle de la forme du visage
31Détection des visages (suite)
- Reconnaissance des visages mettre un nom sur le
visage - Base de connaissance contenant tous les visages !
- Mise en correspondance probabiliste
- Conclusion
- Méthode efficace avec des visages vus de face
- 20 d oublis
- 3 de fausse détection
- Algorithmes devant être améliorés en utilisant la
redondance dapparition des visages dans la vidéo
32Exemple de détection de visages
33Extraction de textes
- Informations complémentaires dans les J.T., les
émissions sportives, etc. - Localisation basée sur lapparition et la
disparition brutale du texte au milieu dun plan. - Lecture par des techniques dOCR après séparation
du fond
34Exemple de détection de textes
35Analyse du mouvement
- Segmentation spatio-temporelle
- Identification de régions en translation,
rotation, etc. dans limage - Analyse des mouvements de caméra
- Panoramique, zoom, travelling, etc.
- Indices de mouvement
- Permet de caractériser les plans par la direction
et la vitesse du mouvement principal - Création de mosaïque
- Résumé du mouvement de la caméra, dun objet
36Exemple de détection de régions en mouvement
37Exemple de mosaïque (mouvement de caméra)
38Extraction dimages clés
- Permet dobtenir la représentation du contenu
dun plan avec un nombre limité dimages. - Basée sur les changements de couleurs ou de
mouvements dominants dans les images dun même
plan.
39Extraction dimages clés (suite)
- Exemple de 9 plans résumés par 12 images clés
40Structuration de la vidéo
- Environ 1000 plans par heure de vidéo
- Difficile de naviguer rapidement dans 1000 images
clés ! - ?nécessité de retrouver (ou définir) une
structure moins fine de la vidéo (scène,
séquence, unité narrative, etc.) - Permet de retrouver plus facilement des
événements importants ou de saisir lessence du
contenu du document
41Structuration de la vidéo (suite)
- Structuration obtenue en créant
- des résumés de vidéo montage de différents
plans représentatifs, i.e. contenant - beaucoup de mouvement et de contraste,
- fortement colorés, etc.
- des classes de plans similaires contraintes par
le temps - classification basée sur la colorimétrie
- permet par exemple de regrouper les champs,
contre-champs.
42Structuration de la vidéo (suite)
- Structuration obtenue en créant
- des séquences en utilisant un modèle de structure
de documents basé sur des règles de montage
connues - transitions (fondus, etc.),
- rythme des changement de plan,
- musique
- ou en utilisant un modèle de la structure du
document - exemple J.T. composé de séquences plateau et de
reportages en alternance
43Analyse de lAudio
- Analyse du son
- Segmentation en zones de silence, parole ou
musique - Permet de
- caractériser le contexte audio dun ensemble
dimages - détecter des changement de scènes
- améliorer les performances de la transcription
automatique
44Analyse de l Audio (suite)
- Analyse de la parole
- Techniques éprouvées
- basées sur les modèles de Markov cachés et un
apprentissage - capable de reconnaître des milliers de mots
- Permet
- dobtenir une transcription avec de bons
résultats - de retrouver les mots importants (issus dun
dictionnaire) dans la bande son word spotting - de localiser les changements de locuteur
45Analyse de lAudio (suite)
46Solutions industrielles
- MediaSite (Informedia) http//www.mediasite.net/in
fo/fprod.htm
47Indexation automatique
- Segmentation temporelle plans, scènes
- Segmentation spatiale détection de visage,
reconnaissance de visage - Transcription automatique de la parole
- Alignement AV/ transcription
- Reconnaissances dincrustation
- Etc.
48Le contexte numérique à lINA
Captation 24/24, 365j/an 19 chaînes de TV 17
chaînes de Radio
Gravure3 DVD/Jour/Chaîne
Traitement documentaire
Station de Lecture AudioVisuelle
grilles de programmes
49Documenter un flux audiovisuel
- Le flux capté est découpé en émission
- Un traitement différencié selon le genre AV
- Les documents AV peuvent se regrouper en
collection si chacun des numéros est diffusable
isolément mais partage une thématique et une mise
en forme commune - Intérêt factoriser les connaissances à inclure
dans les descriptions
? fabriquer de véritables modèles décrivant une
classe de documents
50La description du contenu AV
- Un processus en 3 étapes
- identification ou catalogage du document
utilisation de méta-données classiques - localisation dentités spatio-temporelles
pertinentes pour une application donnée
utilisation de dates ou de coordonnées
cartésiennes - caractérisation sémantique et symbolique de ces
entités utilisation de listes dautorités, de
thésaurus ou du texte libre
51La description du contenu AV
rendre compte dune structure logique
- Localisation
- repérer et dater des événements
- Caractérisation
- typer ces entités selon un genre AV
- donner une thématique générale
- décrire la scène (qui, quand, où, quoi, )
décrire la sémantique du contenu
52Annotation manuelle les mots pour le dire...
- Objectif
- déterminer ce qui fait sens dans le document
(zone spatio/temporelle) et expliciter ce sens - Problème
- Un contenu AV ne prescrit pas de signification
l AV est une analogie du réel - Paraphraser le contenu AV dans une langue/langage
pour spécifier une signification mais les mots
spécifient un sens possible, mais jamais
exactement le même - Enjeu
- Développer les terminologies permettant de
spécifier des significations associées au contenu
AV
53La description documentaire, aujourdhui à lINA
- Notices contenant de nombreux champs contrôlés
- Utilisation de listes dautorités pour typer la
structure documentaire - Utilisation de mots-clés issus dun thésaurus et
du texte libre pour décrire le contenu - Utilisation dimagettes représentatives des
séquences
54Typologie INA 1/3
Les 45 genres possibles dans la typologie INA (3
qui ne sont plus utilisés) ? mais tous ne sont
pas de même niveau !
55Typologie INA 2/3
Les 43 thèmes possibles dans la typologie INA
(4 qui ne sont plus utilisés)
56Typologie INA 3/3
- Un système à facettes composé de genres et de
thèmes - Les documents sont caractérisés par des
combinaisons de valeurs - Documentaire Théâtre ? émission sur le théâtre
- Retransmission Théâtre ? diffusion d'une pièce
- Combinaisons impossibles
- Documentaire et Reportage
- Retransmission et Téléfilm
- Usages
- 0 à 4 genres 1 ou plusieurs thématiques
57Dautres informations
- Des rôles pour les personnes
- journaliste, monteur, présentateur, interprète,
chef d'orchestre - Des descripteurs du signal
- signal audio ambiance, spectre auditif
- signal vidéo texture, couleur
- Des descripteurs liés à la production
- montage vidéo (fondu, insert) et audio (parole,
musique, bruit) - tournage prise de son, prise de vue (angle
caméra, cadrage) - post-production incrustation, effets spéciaux
58Un exemple de notice
- Titre propre FACTUEL ETAPE DU JOUR
- Titre collection STADE 2
- Canal de diffusion 2
- Date de diffusion 11.07.1999
- Heure de diffusion 19.04.00
- Durée 000130
- Thématique SPORTS
- Genre MAGAZINES
- Auteurs JOU, FERNANDEZ MARTIAL
- Descripteurs FRANCE MOSELLE METZ CYCLISME
COURSE CYCLISTE (TOUR DE FRANCE) COUREUR
CYCLISTE ETAPE (8EME) COURSE CONTRE LA MONTRE - Résumé
- Résumé de la 8ème étape du Tour de France, un
contre la montre individuel autour de Metz (56,5
km). LANCE ARMSTRONG (US Postal) l'a remporté et
a ainsi revêtu le maillot jaune. 2ème ALEX
ZULLE (Banesto) 3ème CHRISTOPHE MOREAU
(Festina). - Séquences
- Départ de LAURENT DUFAUX (Saeco).
- Sur la route, JAAN KIRSIPUU (Casino) avec le
maillot jaune. - LANCE ARMSTRONG en course RAL. Il rejoint
ABRAHAM OLANO (Once) parti 2 minutes avant lui et
le dépasse. L'Espagnol est de plus en plus
distancé par l'Américain. - RAL visage ARMSTRONG en plein effort.
- ALEX ZULLE (Banesto) en route.
- Arrivée de CHRISTOPHE MOREAU.
59Indexation automatique et manuelle
- Développer une coopération
- Conjuguer les différentes extractions
automatiques - Paramétrer les algorithmes dextraction par les
connaissances contextuelles et lobjectif visé - Préparer lannotation manuelle par lindexation
automatique - fournir des fonctionnalités de navigation et de
parcours du document pour aller plus vite à
linterprétation utile
60Les apports mutuels
- Problème audiovisuel
- Pas dappréhension globale pas de possibilité
de feuilleter le document - Apport de lindexation automatique
- Des outils pour feuilleter le document AV
- Apport de lannotation manuelle
- Une signification associée au contenu
61Plan de lexposé
- De lanalogique au numérique de nouvelles
possibilités - La création de descriptions de documents
audiovisuels - La représentation et la manipulation de ces
descriptions lapport XML ! - Et demain ?
62Génie documentaire
- Enjeux
- Décrire la structure des documents et les
informations quils contiennent - Manipuler le contenu des documents à partir des
descriptions
63Génie documentaire
- Documents textuels
- Enrichir le document déléments documentaires
ajoutés au sein même du document - Manipuler le document décrit à travers sa
description
- Documents audiovisuels
- Constituer une description, séparée techniquement
du document décrit - Manipuler la description et le document décrit
séparément
SGML la genèse XML un standard largement
adopté
64XML langage extensible de marquage
- Un ensemble de balises nommées
- Chaque balise ouvrante a sa correspondante
fermante - Un ensemble dattributs / valeurs pour chaque
balise - Des règles prescrivent lordre et lemboîtement
des balises - ? Les documents deviennent structurés
65Structure des balises
- La structure prescrit comment organiser les
balises entre elles celles-ci forment un arbre - La structure est une grammaire du document
- Le contrôle de cette structure seffectue avec
les DTDs (et maintenant avec les schémas XML !)
- ltT1gt
- du texte
- ltT2gt
- encore du texte
- lt\T2gt
- encore et toujours du texte
- lt\T1gt
66Terminologie des balises
- ltentêtegt
- lttitregt un titre lt\titregt
- ltauteurgt un auteur lt\auteurgt
- lt\entêtegt
- ltcorpsgt
- ltchapitregt
- ltsectiongt
- ltparagraphe
- contenu "péroraison" type "pastiche"gt
- du texte
- lt\paragraphegt
- lt\sectiongt
- lt\chapitregt
- La grammaire du document prescrit comment
ordonner les balises, mais pas ce qu elles
signifient - Les balises sont des entités linguistiques
renvoyant à des significations prescrites par la
langue - Recourir à la terminologie pour fixer le choix et
le sens des labels - Plusieurs terminologies sont simultanément
possibles
67Laudiovisuel
lttitregt le titre lt/titregt ltmorceau-anthologiegt ltl
octimegt 1400 -- 1800 lt/loctimegt lttitregt scène
de la douche lt/titregt lt/morceau-anthologiegt ltauteu
rgt toto lt/auteurgt ltscènegt cest une
scène ltloctimegt 12 43 -- 1350 lt/loctimegt
ltobjet-saillantgt un objet ltlocspacegt xd1yd2
lt/locspacegt lt/objet-saillantgt lt/scènegt
image
68XML pour laudiovisuel
- XML un méta langage pour produire dautres
langages - Utiliser les DTD de XML pour proposer les
structures de description - Profiter des outils XML documentaires
- Utiliser XML pour définir un nouveau langage
documentaire permettant de déclarer les
structures que lon veut
69La saga MPEG
- MPEG-1 et 2
- Normes de codage et compression du flux
- MPEG-4
- Norme permettant linteractivité et le débit
variable - MPEG-7
- Norme portant sur la description du contenu
audiovisuel et multimédia - MPEG-21
- Norme portant sur la description des données
juridiques
70MPEG-1 2
- Normes définissant un encodage correspondant à
une compression du signal - Lunité de manipulation définie sur limage est
le pixel - Lunité est asémantique la nature physique du
pixel est arbitraire par rapport à une
signification associée à limage et au flux - Le codage fait appel à des vecteurs
mouvements qui ne correspondent pas à un
mouvement sémantique sur limage
71MPEG-4
- Norme finalisée récemment
- Mobilisation du monde industriel
- Concept de base objet audiovisuel
- Le flux est composé dobjets audiovisuels dont on
spécifie les relations spatio-temporelles - On peut mélanger des objets de codage et
dorigine différente - Images naturelles et images de synthèse
- Associer des actions possibles à un objet
- Associer des descriptions à un objet
- Lobjet possède un sens correspondant aux
relations quil entretient avec les autres objets
et aux actions et descriptions qui lui sont
associées - Lobjet peut avoir un sens ou un contenu
sémantique il ne la pas forcément, mais ce
nest pas exclu comme pour le pixel
72MPEG-7 Multimedia Content Description Interface
- Contenu audiovisuel photos, vidéos, paroles,
audio, graphiques, modèles 3D, audio synthétique. - MPEG-7 est destiné à lidentification des
contenus, plutôt quà la reproduction
(MPEG-1,2,4) - Une description MPEG-7 peut vivre indépendamment
du contenu décrit - La description MPEG-7 est indépendante du
codage/format du contenu - MPEG-7 veut enrichir la description textuelle des
contenus par - Des approches permettant lindexation automatique
- Des approches permettant denrichir une
description textuelle déléments perceptifs liés
au contenu
73MPEG-7, le nouveau langage de description
multimédia ?
- Standard ISO depuis décembre 2001
- Éléments principaux
- Descripteurs (Ds) et Schémas de Description (DSs)
- DDL (XML Schema extensions)
- Concerne tous types de média
Part 5 - MDS
74Structure et sémantique (1/2)
- Unité de base le segment
- bornes temporelles ou masque
- Décomposition possible
75Structure et sémantique (2/2)
- Sémantique
- entités
- attributs
- relations
- Classification Schemes (CS)
- relations thésauriques
76Exemple (1/3)
77Exemple (2/3)
T. Lhermitte
ltPersongt ltName xmllang"en"gt
ltGivenNamegtThierrylt/GivenNamegt
ltFamilyNamegtLhermittelt/FamilyNamegt lt/Namegt
ltAffiliationgt ltOrganizationgt
ltNamegtIndependent cinema companylt/Namegt
lt/Organizationgt lt/Affiliationgt lt/Persongt
78Exemple (3/3)
Motion
ltSegment xsitype"MovingRegionType"gt
ltTextAnnotationgt ltFreeTextAnnotation
xmllang"en"gtPersonlt/FreeTextAnnotationgt
lt/TextAnnotationgt ltMediaTimegt
ltMediaTimePointgt 000015 lt/MediaTimePointgt
ltMediaDurationgt 000030 lt/MediaDurationgt
lt/MediaTimegt ltParametricObjectMotion
model"Translational"gt lt/ParametricObjectMo
tiongt lt/Segmentgt
79Description sémantique
80Découpage dun JT
81Plan de lexposé
- De lanalogique au numérique de nouvelles
possibilités - La création de descriptions de documents
audiovisuels - La représentation et la manipulation de ces
descriptions - Et demain ?
82Enjeux technologiques
- Possibilité danalyse automatique, ou
semi-automatique - Outil de maintien de la cohérence sémantique, la
machine a accès au sens des descriptions - Possibilité de raisonnement intelligent sur
les descriptions - Mise au point dune chaîne dindexation et de
manipulation des contenus prenant en compte tous
ces éléments !
83Enjeux professionnels
- La chaîne dindexation et dexploitation des
contenus AV change - Renforcement du rôle des documentalistes
- Moins dindexation automatique
- Plus de travail documentaire relié à une
exploitation - Exemple offrir des corpus thématiques
- Rôle des documentalistes vis-à-vis des autres
métiers impliqués