UE 503.b cours n

About This Presentation

Title:

UE 503.b cours n

Description:

C'est quoi le multim dia (d finitions) ? Comment il est n et comment il prosp re ... affect divers ' services ' de synchronisation et de positionnement ... – PowerPoint PPT presentation

Number of Views:26

Avg rating:3.0/5.0

Slides: 30

Provided by: sid57

Category:

more less

Transcript and Presenter's Notes

Title: UE 503.b cours n

1
UE 503.bcours n5

Analyse multimédia

Par Sahbi SIDHOM MCF. Université Nancy
2 Equipe de recherche SITE LORIA sahbi.sidhom_at_lo
ria.fr
2
Cours n5

Cest quoi le multimédia (définitions) ?
Comment il est né et comment il prospère
(évolutions) ?
Comment il évolue (actuellement) ?
A.6. Vidéo numérique
Cest quoi lanalyse du multimédia ?
Comment analyser un document multimédia ?
Comment se retrouve la culture multimédia dans
lentreprise (besoins, intérêts, etc.) ?
Quels sont les outils (technologiques) visant à
favoriser la diffusion et lappropriation de la
culture multimédia en entreprise ?

3
A.6. Vidéo numérique

Sur limage numérique, lorsquun rayon lumineux
frappe notre rétine, des terminaisons nerveuses
spécialisées (ou bâtonnets) réagissent à la
quantité de lumière alors que dautres cellules
(ou cônes) réagissent sélectivement au rouge, au
vert et au bleu, permettant ainsi la perception
des couleurs grâce à lanalyse colorimétrique de
la lumière blanche.
Nos yeux décomposent donc la lumière en intensité
et en couleurs, ce qui signifie la décomposition
en informations de luminance et de chrominance
? cette 1ere étape est réalisée quasiment à
lidentique par une caméra vidéo (analogique ou
numérique)
? par dautres moyens, la lumière issue de
lobjectif est décomposée, grâce à un procédé de
filtrage, en ses 3 composantes primaires RVB.
? chaque composante est ensuite envoyée sur un
capteur qui réagit à lénergie lumineuse reçue
(en émettant des électrons) le signal lumineux
est alors transformé en signal électrique
analogue.
Dans les années 1950, les 1eres caméras vidéo
utilisaient des tubes cathodiques à balayage pour
convertir lénergie lumineuse en énergie
électrique que des images en NB, plus
exactement en niveaux de gris.

4
vision humaine

De forme approximativement sphérique, l'oeil est
l'organe de base de la vision. Il comporte un
ensemble d'éléments destinés à recevoir le
rayonnement incident, former l'image des objets
perçus et traiter (transférer) les informations
recueillies au cerveau.
L'iris il fonctionne comme un diaphragme en
dosant la quantité de lumière qui pénètre dans
l'oeil. Son ouverture centrale est la pupille.
Le cristallin il fonctionne comme une lentille à
focale variable, grâce à sa capacité de modifier
sa courbure.
La rétine c'est sur elle que se forment les
images provenant de l'extérieur. La rétine
contient deux types de cellules photosensibles
les cônes et les bâtonnets.
La macula appelée également tache jaune,
contient en son centre une petite dépression, la
fovéa. Cette dernière est la zone d'acuité
maximum de l'oeil.
Le nerf optique il conduit les informations au
cerveau, en passant par un relais très important,
le corps genouillé latéral, chargé d'effectuer
une première analyse des données.

5
cellules sensibles

La rétine de l'oeil contient deux types de
cellules sensibles les cônes et les bâtonnets.
Les bâtonnets sont responsables de la vision
nocturne (vision scotopique) et possèdent un
maximum de sensibilité vers 510 nm. Leur
sensibilité est liée à un colorant, la
rhodopsine, qui blanchit à la lumière du jour,
expliquant par là leur insensibilité la journée.
Les bâtonnets ne fournissent qu'une réponse
photométrique et ne permettent donc pas de
déterminer les couleurs la nuit, tous les chats
sont gris.
Les cônes fournissent une réponse photométrique
et chromatique, grâce à des pigments dont les
maximums d'absorption se situent dans le bleu, le
vert ou le rouge. C'est là la base de la vision
des couleurs et son aspect trichromatique.

6
Quand limage réelle sintroduit dans lœil

Des quantités de rayons lumineux diffusés par les
objets extérieurs pénètrent dans lœil jusquà la
rétine située au fond de celui-ci
Un rayon lumineux traverse tout dabord à la
vitesse de 300 000 km/s la cornée, principale
lentille de lœil et qui assure 80 de la
réfraction de la lumière.
La rétine est parfois considérée comme une partie
de cerveau car elle se situe à lextrémité du
nerf optique conduisant une quantité
dinformations au cerveau. Les 800 000 fibres du
nerf optique transmettent un tel flux
dinformations au cerveau quelles sont
considérées comme le canal de communication le
plus dense de lunivers ! aucun appareil
technologique négalise cette merveille du corps
humain.
le rayon lumineux arrive dans le nerf optique
sous forme chimique il est entièrement décodé
de sorte à parvenir jusquau cerveau en une
fraction de seconde.
Si le rayon vient de lœil gauche, il passera
principalement dans lhémisphère droite du
cerveau, via les fibres du nerf optique, et
vice-versa. Au centre du cerveau, non loin de
lhypothalamus, se trouve le chiasma optique ,
faisceau de fibres nerveuses qui assurent la
liaison entre les informations provenant des
moitiés gauches et droites de chacune des
deux rétines. Ce centre permet la formation dune
image CONTINUE au niveau de la frontière
entre les 2 champs de vision.

7
Signal vidéo

Sur un récepteur de télévision, une image est
obtenue par balayage électronique successif des
lignes de luminophores constituant lécran.
Un écran au standard PAL ou SECAM comprend 625
lignes, alors quun écran au standard NTSC nen
possède que 525.
On sait que, pour donner à lœil humain une
impression déclairement continu à laide dune
source lumineuse émettant de façon discontinue
(vidéo projecteur, projecteur de cinéma, écran
TV, ), il faut au moins 40 éclats par seconde
Une fréquence de 20 à 40 éclats provoque une
impression de scintillement
Une fréquence au-dessous de 20 éclats,
léclairement paraît saccadé
Pour obtenir une impression de continuité
parfaite avec 25 images/s, on divise chaque image
en 2 demi-images projetées successivement,
provoquant ainsi 50 sensations différentes par
seconde.

NTSC
standard de diffusion TV du continent
nord-américain et du Japon, la fréquence du
courant électrique est 60Hz, la fréquence
daffichage est de 30 images/s (exactement 29,97
im/s) sur 525 lignes.
PAL
standard de diffusion TV couleur, qui a été mis
point en Allemagne vers 1960. Son principal
avantage relativement au standard américain dont
il est très proche, est de remédier aux erreurs
de phase dont souffre ce dernier.
SECAM
standard français, il comporte 625 lignes et 25
images/s. la fréquence du courant électrique
distribué en Europe est en effet de 50Hz.
Standard CCIR 601
comité international des radiocommunications.
Cet organisme a été remplacé par le secteur de
radiocommunication de lunion internationale des
télécommunications (UIT) standard concernant la
vidéo numérique.

Image en continuité parfaite
Les demi-images ou trames sont obtenues par
balayage des seules lignes paires dans un 1er
temps, puis des lignes impaires dans un 2e temps.
? limage complète est obtenue par entrelacement
des 2 trames.
Exemple
le signal vidéo analogique est donc découpé en
25 ou 29,97 images/s (en. frames), elles-mêmes
divisées en 25 x 2 50 ou en 29,97 x 2 59,94
trames (en. fields) , celles-ci étant à leur tour
analysées en 312,5 ou 262,5 lignes.

Trame impaire
image
Trame paire
10

Ce découpage est essentiel car il constitue un
échantillonnage préalable du signal en lignes et
trames.
Cela signifie que, pour numériser le signal
vidéo, il suffira d échantillonner la ligne qui
constitue la 3e dimension du signal.

11
Échantillonnage vidéo

Échantillonner la ligne
en vidéo analogique, lunité minimale est la
ligne, car le signal est conçu pour piloter en
continu les déplacements du triple faisceau
délectrons (RVB) et NON pour exprimer la couleur
spécifique de chaque point de limage.
Résolution verticale
le nombre de lignes sur un écran (résolution
verticale) est exactement déterminé par chaque
standard

PAL et SECAM distinguent 625 lignes dont 576
seulement sont destinées au balayage réel de
limage, le reste étant affecté à divers
services de synchronisation et de
positionnement des faisceaux (changement de ligne
et de trame)
NTSC naffecte quant à lui que 480 lignes sur
525 à laffichage de limage

Résolution horizontale
la résolution horizontale quant à elle nest pas
un paramètre fixe du signal vidéo analogique
elle dépend de la bande passante allouée à la
vidéo et à la qualité du moniteur sur laquelle
elle viendra safficher.
Limage télévisée standard obéit à un ratio de
43 (ie. largeur de limage est 1,33 fois plus
grande que sa hauteur), on peut estimer le
nombre de points par ligne (ie. estimer la
largeur de limage en nombre de points)
PAL, SECAM
Limage ayant une hauteur de 575 lignes, sa
largeur sera
575 x 1,33 768 points
NTSC
Limage ayant une hauteur de 480 lignes, sa
largeur sera de 640 points.
La résolution théorique du standard NTSC est à
lorigine du célèbre affichage VGA de 640 x 480
sur les moniteurs informatiques.

Au cours des années 1970, les industriels
commencent à prendre conscience de lavenir de la
vidéo en passant par le numérique.
En conséquence, ils commencent à sintéresser aux
techniques de numérisation applicables au secteur
des télécommunications, télédiffusions,
télédétections, etc.
Pour éviter lanarchie dans les formats
propriétaires, en 1982, le standard CCIR 601 a
été adapté par lUIT pour la télévision numérique
Le nombre de points actifs par ligne est de 720
(pour tous les autres standards)
Le nombre total des points par ligne (ppl) est de
858 ppl en NTSC (525 lignes / 59,94 trames par
seconde)
864 ppl en PAL et SECAM (575 lignes / 50 trames
par seconde).

14
Exemples

Dans le standard PAL, à raison de 625 lignes par
image, de 864 points par ligne et de 25
images/seconde, on obtient
625 lignes/image x 864 points/ligne x 25
images/s
13 500 000 points/s
Dans le standard NTSC, on obtient exactement le
même nombre de points par seconde
858 points/ligne x 525 lignes/s x 30 images/s x
1000/1001
13 500 000 points/s
? si 1 seconde de vidéo correspond à 13 500 000
points et
si lon veut conserver toute linformation
concernant ces points
alors il est nécessaire de les décrire
individuellement.
? pour 1 seconde vidéo, on doit définir 13 500
000 échantillons la fréquence déchantillonnage
requise dans ces conditions est donc de 13,5 MHz
Quantifier directement les valeurs RVB issues des
capteurs CCD (l'acronyme de "Charged Coupled
Device ou capteurs de lumière qui constituent
la "pellicule numérique"), soit 3
valeurs/échantillon avec un codage de 8
bits/valeur, le débit nécessaire au transport du
signal numérique serait
13 500 000 échantillons/s x 3 valeurs/échantillon
8 bits/s 40 Mo/s

15
Questions

Q1
Appréhender la quantité de mémoire totale
nécessaire au stockage dun film standard de 90
minutes ?
Q2
si un DVD 5 (simple face, simple couche) a une
capacité de 4,7 Go, combien il faudra prévoir ?

16
Compression vidéo

Dans de nombreuses séquences vidéos, de
nombreuses scènes sont fixes ou bien changent
très peu, c'est ce que l'on nomme la redondance
temporelle.
Exemple
Lorsque seules les lèvres de l'acteur bougent,
il suffit donc de décrire seulement le changement
d'une image à l'autre.
Le groupe MPEG (Moving Pictures Experts Group) a
été établi en 1988 dans le but de développer des
standards internationaux de compression,
décompression, traitement et codage d'image
animées et de données audio.
Il existe plusieurs standards MPEG de 1 à 7

17
CoDec (pour COmpression / DECompression)

Problème Une image d'une vidéo non compressée
occupe une taille d'environ 1 Mo. Afin d'obtenir
une vidéo paraissant fluide il est nécessaire
d'avoir une fréquence d'au moins 25 ou 30 images
par seconde, ce qui produit un flux de données
d'environ 30 Mo/s, soit plus de 1.5 Go par
minute. Il est évident que ce type de débit est
peu compatible avec les espaces de stockage des
ordinateurs personnels ni même avec les
connexions réseau de particuliers ou de petites
ou moyennes entreprises.
Solution Afin de pallier cette difficulté, il
est possible de recourir à des algorithmes
permettant de réduire significativement les flux
de données en compressant / décompressant les
données vidéos. On appelle ces algorithmes CoDec
(pour COmpression / DECompression).

18
Le M-JPEG(Motion JPEG )

La première idée qui vient à l'esprit après
s'être interessé à la compression d'images est
d'appliquer ce type de méthode à une succession
d'images numériques (animation ou vidéo). Le
principe du Motion JPEG (noté MJPEG ou M-JPEG, à
ne pas confondre avec le MPEG) consiste à
appliquer successivement l'algorithme de
compression JPEG aux différentes images d'une
séquence vidéo.
Etant donné que le M-JPEG code séparément chaque
image de la séquence il permet d'accéder
aléatoirement à n'importe quelle partie d'une
vidéo. Ainsi son débit de 8 à 10 Mbps le rend
utilisable dans les studios de montage numérique.

19
Le MPEG(Moving Pictures Experts Group)

Dans de nombreuses séquences vidéos, de
nombreuses scènes sont fixes ou bien changent
très peu, c'est ce que l'on nomme la redondance
temporelle.
Lorsque seules les lèvres de l'acteur bougent,
presque seuls les pixels de la bouche vont être
modifiés d'une image à l'autre, il suffit donc de
ne décrire seulement le changement d'une image à
l'autre. C'est là la différence majeure entre le
MPEG (Moving Pictures Experts Group) et le
M-JPEG. Cependant cette méthode aura beaucoup
moins d'impact sur une scène d'action.

20
Standards et normes vidéos

le MPEG-1, développé en 1988, est un standard
pour la compression des données vidéos et des
canaux audio associés (jusqu'à 2 canaux pour une
écoute stéréo). Il permet le stockage de vidéos à
un débit de 1.5Mbps dans une qualité proche des
cassettes VHS sur un support CD appelé VCD (Vidéo
CD).
le MPEG-2, un standard dédié originalement à la
télévision numérique (HDTV) offrant une qualité
élevé à un débit pouvant aller jusqu'à 40 Mbps,
et 5 canaux audio surround. Le MPEG-2 permet de
plus une identification et une protection contre
le piratage. Il s'agit du format utilisé par les
DVD vidéos.
le MPEG-4, un standard destiné à permettre le
codage de données multimédia sous formes d'objets
numériques, afin d'obtenir une plus grande
interactivité, ce qui rend son usage
particulièrement adapté au Web et aux
périphériques mobiles.
le MPEG-7, un standard visant à fournir une
représentation standard des données audio et
visuelles afin de rendre possible la recherche
d'information dans de tels flux de données. Ce
standard est ainsi également intitulé Multimedia
Content Description Interface.
le MPEG-21, en cours d'élaboration, dont le but
est de fournir un cadre de travail (en anglais
framework) pour l'ensemble des acteurs du
numériques (producteurs, consommateurs, ...) afin
de standardiser la gestion de ces contenus, les
droits d'accès, les droits d'auteurs, ...

21
Caractéristiques du MPEG-1

La norme MPEG-1 représente chaque image comme un
ensemble de blocs
16 x 16. Elle permet d'obtenir une résolution
de
352x240 à 30 images par seconde en NTSC
352x288 à 25 images par seconde en PAL/SECAM
Le MPEG-1 permet d'obtenir des débits de l'ordre
de 1.2 Mbps (exploitable sur un lecteur de
CD-ROM).
Le MPEG-1 permet d'encoder une vidéo grâce à
plusieurs techniques
Intra coded frames (Frames I, correspondant à un
codage interne) les images sont codées
séparément sans faire référence aux images
précédentes
Predictive coded frames (Frames P ou codage
prédictif) les images sont décrites par
différence avec les images précédentes
Bidirectionally predictive coded frames (Frames
B) les images sont décrites par différence avec
l'image précédente et l'image suivante
DC Coded frames les images sont décodées en
faisant des moyennes par bloc

22
Frames I

Ces images sont codées uniquement en utilisant
le codage JPEG, sans se soucier des images qui
l'entourent.
De telles images sont nécessaires dans une vidéo
MPEG car ce sont elles qui assurent la cohésion
de l'image (puisque les autres sont décrites par
rapport aux images qui les entourent), elles sont
utiles notamment pour les flux vidéo qui peuvent
être pris en cours de route (télévision), et sont
indispensables en cas d'erreur dans la réception.
Il y en a donc une ou deux par seconde dans une
vidéo MPEG.

23
Frames P

Ces images sont définies par différence par
rapport à l'image précédente. L'encodeur
recherche les différences de l'image par rapport
à la précédente et définit des blocs, appelés
macroblocs (16x16 pixels) qui se superposeront à
l'image précédente.
L'algorithme compare les deux images bloc par
bloc et à partir d'un certain seuil de
différence, il considère le bloc de l'image
précédente différent de celui de l'image en cours
et lui applique une compression JPEG.
C'est la recherche des macroblocs qui déterminera
la vitesse de l'encodage, car plus l'algorithme
cherche des "bons" blocs, plus il perd de
temps... Par rapport aux frames-I (compressant
directement), les frames-P demandent d'avoir
toujours en mémoire l'image précédente.

24
Frames B

De la même façon que les frames P, les frames B
sont travaillées par différences par rapport à
une image de référence, sauf que dans le cas des
frames B cette différence peut s'effectuer soit
sur la précédente (comme dans les cas des frames
P) soit sur la suivante, ce qui donne une
meilleure compression, mais induit un retard
(puisqu'il faut connaître l'image suivante) et
oblige à garder en mémoire trois images (la
précédente, l'actuelle et la suivante).

25
Frames D

Ces images donnent une résolution de très basse
qualité mais permettent une décompression très
rapide, cela sert notamment lors de la
visualisation en avance rapide car le décodage
"normal" demanderait trop de ressources
processeur.
Dans la pratique
Afin d'optimiser le codage MPEG, les séquences
d'images sont dans la pratique codées suivant une
suite d'images I, B, et P (D étant comme on l'a
dit réservé à l'avance rapide) dont l'ordre a été
déterminé expérimentalement. La séquence type
appelée GOP (Group Of Pictures ou en français
groupes d'images) est la suivante IBBPBBPBBPBBI
Une image I est donc insérée toutes les 12 frames.

26
Formats vidéos

Le format DivX est un format de
compression/décompression vidéo permettant
d'obtenir des vidéos compressées très peu
volumineuses avec une perte de qualité très
raisonnable. Ainsi le format DivX permet de
stocker un film complet sur un CD-ROM de 650 ou
700 Mo
Le format XviD est une implémentation OpenSource
du codec Divx, développée à partir de 2001, à
l'occasion du passage du format DivX original
(porté par le groupe Project Mayo) à un format
propriétaire. Le format XviD propose ainsi une
compression de très bonne qualité.
Le format VP3 est un format alternatif Open
Source développé par la société On2. La qualité
des vidéos est moindre qu'en DivX mais le format
VP3 est avant tout destiné à une utilisation en
streaming.

Le format 3ivX est un format de compression vidéo
alternatif permettant une compression MPEG-4 dans
des fichiers Apple QuickTime (extension .mov), ce
qui le rend particulièrement apprécié des
utilisateurs de Mac. Le format 3ivX souffre
toutefois d'une qualité bien moindre que le
format DivX.
Le format MKV (Matroska Video) est un format
vidéo entièrement libre. Plus exactement il
s'agit d'un conteneur (d'où le nom Matroska, en
référence aux poupées russes) permettant de
contenir de la vidéo (DivX, Xvid,RV9, etc.), du
son (MP3, MP2, AC3, Ogg, AAC, DTS, PCM), ainsi
que des sous-titres (SRT, ASS, SSA, USF, etc.)
dans un même fichier.
Le format MKV est basé sur une structure dérivée
de XML, appelée EBML (Extensible Binary Meta
Language). Ainsi grâce au format Matroska, il est
notamment possible de réaliser des fonctions de
chapitrage, de créer des menus, de faire des
recherches dans le fichier, de sélectionner une
source sonore ou bien de choisir un sous-titrage.

28
DivX et légalité

Le format DivX et le concept de légalité (à
partir des versions 4 et supérieures) ainsi que
les autres formats vidéos ne sont pas illégaux en
soi, mais leur utilisation peut l'être en raison
du droit d'auteur qui s'applique sur les oeuvres
compressées.
Ainsi les articles L122-5-2 et L211-3 du code de
la propriété intellectuelle autorisent la copie
privée d'une oeuvre à partir d'un original acquis
légalement (par exemple un DVD de location), pour
un usage privé et dans un cercle familial. Une
taxe a ainsi été appliquée aux supports de
stockage (CD-R) afin de compenser le manque à
gagner des artistes provoqué par le droit à la
copie privée.
En contrepartie la diffusion (mise en partage sur
Internet, envoi par messagerie ou tout autre
moyen ou via un logiciel d'échange de fichiers)
et le téléchargement d'oeuvres protégées par le
droit d'auteur sont interdits par la loi et le
cas échéant sanctionnés pour contrefaçon.

29
Histoire du format DivX

Le format DivX a été mis au point en 1999 par un
développeur français de 27 ans, du nom de Jérome
ROTA, à partir du codec MPEG-4 v.3 de Microsoft.
En effet le codec MPEG-4 fourni en standard avec
la version Bêta du lecteur multimédia Windows
Media Player était parfaitement opérationnel mais
à la sortie de la version officielle, celui-ci ne
fonctionnait plus correctement, c'est la raison
pour laquelle Jérôme ROTA décida de le corriger
ainsi que d'y ajouter la possibilité de
compresser le son au format MP3 et mit au point
ce qui allait devenir le format "DivX -)" (avec
un D et un X majuscules), un clin d'oeil au
système divx (Digital Video Express) dont
l'objectif était de protéger les DVD contre les
copies illégales mais qui ne vit jamais le jour
dans la mesure où les DVD ainsi protégés
devenaient illisibles au bout de quelque temps.
Le codec, jusqu'à sa version 3.11 alpha, était un
projet OpenSource (appelé OpenDivX et porté par
le Project Mayo) basé sur un "hack" du codec de
Microsoft. En 2001, Jérôme ROTA fonda
l'entreprise DivX Networks afin de produire un
nouveau codec propriétaire entièrement réécrit
afin de s'affranchir de la dépendance des droits
vis-à-vis de la firme Microsoft, ce qui déboucha
sur la version 4 du codec, baptisée DivX4.
Lors du passage à la version 5 du codec (nommée
DivX5), le codec de compression DivX est devenu
payant (DivX) ou bien contient un spyware dans
sa version gratuite (DivXTM).