Title: Introduction au cours
1Introduction au cours Modèles stochastiques en
traitement dimage
- J. ZERUBIA INRIA Sophia Antipolis
Remerciements X. Descombes, I. Jermyn, les
post-docs, doctorants et stagiaires de Master
Recherche du projet ARIANA (INRIA/I3S)
20. Images déconvolution
30. Images segmentation
40. Buts
- Définitions que sont les champs de Markov ?
- Exemples comment sont-ils utilisés pour la
compréhension des images ? - Algorithmes comment peut-on extraire
linformation désirée des modèles ?
5Partie I définitions
6I. Modèles Probabilistes dImages
- Une image étant donnée (observation), on veut
connaître quelque chose sur la scène (variable
cachée). - Exemple on veut savoir sil y avait une
personne dans la scène, et si oui, où ? - La théorie des probabilités décrit le
raisonnement dans les situations de connaissance
incomplète.
7I. Théorème de Bayes
- On veut connaître la probabilité de la scène
connaissant limage. - Le théorème de Bayes/Laplace transforme la
probabilité de limage sachant la scène en la
probabilité de la scène sachant limage. - K représente toute la connaissance que lon a
avant de voir limage
8I . Théorème de Bayes
- La probabilité de limage sachant la scène et K
(la formation de limage) a souvent un modèle
physique, appelée la vraisemblance. - La probabilité de la scène avant davoir vu
limage (mais avec la connaissance K) appelée
la probabilité a priori. - On doit construire des modèles pour les deux
(vraisemblance et a priori).
9I. Les espaces dimages
- Une image est une fonction dun domaine D ½ ZN
vers un espace C. - Les signaux acoustiques N 1.
- Les images standard N 2.
- Les images IRM N 3.
- Les séquences vidéo N 3 2 1 .
10I. Les espaces dimages
- La dimension de C
- Images monochromatiques 1.
- Images en couleur 3.
- Images multi- ou hyper-spectrales de 10 à plus
de 200. - D est envisagé comme plongé dans RN. Cela veut
dire que les notions de géométrie peuvent être
appliquées si N gt 1.
11I. Les espaces de scène sémantique
- Information sur le monde 3D
- Distances et positions des objets dans une photo
- Types de végétation dans une image aérienne
- Position dune tumeur dans une image médicale
- Géométrie des bâtiments dans un plan.
- Paramètres de la caméra.
- Jugements plus subjectifs
- Émotion dun visage
- Style darchitecture.
12I. Les espaces de scène mathématique
- Une fonction de D vers un autre espace
- Restauration CD
- Segmentation LD où L est un ensemble
(étiquettes dinterprétation) - Une région 0,1D.
13I. Probabilités sur ces espaces
- Lespace des images est énorme.
- 10157826 images possibles de 256 x 256 pixels.
- Il faut donc essayer de simplifier
14I. Simplification des probabilités
- Les probabilités se simplifient quand quelques
variables sont indépendantes les unes des autres. - Les champs de Markov sont une façon (mais pas la
seule) de définir des probabilités simplifiées,
mais néanmoins utiles.
15I. Exemple indépendance
- Si la scène est décrite par une fonction sur D,
la probabilité peut se factoriser sur les pixels
- Dans ce cas, on peut traiter chaque pixel
séparément (problème à une dimension).
16I. Champs de Markov (MRFs)
- Un champ de Markov sur un ensemble D est une
probabilité sur lespace de fonctions CD de D
vers un autre espace C satisfaisant les 2
conditions ci-dessous. - Positivité .
- On peut savoir tout ce qui est possible de la
valeur de fp sachant seulement les valeurs des
voisins fN(p)-p.
17I. Champs de Markov (MRFs)
- Voisinage pour chaque point , il y a un
sous-ensemble t.q.
18I. Interprétation comme un graphe
- Un graphe non-orienté G est
- Un ensemble V (noeuds)
- Un sous-ensemble t.q.
- Etant donné un champs de Markov, on définit un
graphe de la façon suivante
19I. Cliques
- Un sous-ensemble est une clique ssi
. - On définit comme lensemble de
toutes les cliques dans le graphe G.
20I. Distributions de Gibbs
- Pour une fonction ? Q(G) CD ! R, la
probabilité suivante est appelée une distribution
de Gibbs
21I. Distribution de Gibbs
- U est appelé lénergie. Z est appelé le fonction
de partition. - Pour une distribution de Gibbs, lestimée MAP
prend une forme simple
22I. Théorème de Hammersley-Clifford
- 1971. Très important parce quil permit la
construction facile de champs de Markov. - Pour chaque fonction , est un champs de
Markov. - Pour chaque champs de Markov Pr, on peut trouver
une fonction t.q. - Conclusion GIBBS MRF
23I. Estimées
- Utilité ?fonction de coût
- Utilité moyenne
- Estimée
24I. Estimées MAP
25I. Estimées MPM
26I. Estimées champs moyen
- Erreur quadratique moyenne.
27Partie II exemples
28II. Exemple 1 bruit
- La lumière reflétée par la scène est bruitée
avant dattendre la caméra - Conditions atmosphériques
- Bruit photonique et électronique dans la caméra.
- On veut connaître limage originale avant
laddition de bruit. On connaît limage bruitée.
29II. Exemple 1 modélisation
- On veut modéliser deux choses
- La formation de limage à partir de la scène
- La scène limage originale est inconnue.
- Le domaine D est lensemble de pixels dans
limage. - La scène prend des valeurs dans R (image
monochromatique).
30II. Exemple 1 formation
- On suppose que le bruit est
- Additif le bruit sajoute au signal
- Stationnaire la probabilité dune configuration
de bruit est la même pour toutes les translations
possibles - Blanc le bruit en un point est indépendant du
bruit aux autres points - Gaussien le niveau de bruit en chaque point est
distribué selon une loi gaussienne.
31II. Exemple 1 formation
- Le bruit est un champs de Markov trivial. Toutes
les variables sont indépendantes. - Le graphe na pas darcs
32II Exemple 1 la Scène
- Quest-ce que lon sait de la scène ?
- Peut-être rien Pr(S) constant.
- Les estimées par le MAP, MPM et la moyenne sont
en accord S I. - On na rien fait. Pas très satisfaisant !
33II. Exemple 1 la Scène
- En fait, on sait beaucoup plus de choses sur la
scène. - Une hypothèse souvent utilisée est que la scène
est plus lisse que limage. - Deux pixels voisins ont généralement des valeurs
proches.
34II. Exemple 1 la Scène
- On utilise un voisinage à 4 ou 8 voisins
- Le modèle est stationnaire ( est constant).
- Z est une fonction de .
35II. Exemple 1 difficultés
- Le modèle de la scène nest pas très bon
- Le terme quadratique est trop fort
- Les images ont des discontinuités.
- On ne connait pas ou .
- On doit
- Soit les estimer
- Soit les intégrer (marginaliser).
36II. Exemple 2 classification
- On suppose que, dans la scène, il y a des classes
différentes. - Les classes sont indexées par les éléments dun
ensemble L. - On veut assigner une de ces étiquettes à chaque
point dans le domaine de limage. - Donc la scène est une fonction de D vers L.
37II. Exemple 2 images satellitaires
- Une des tâches importantes dans le traitement
dimages satellitaires est didentifier les
diverses classes de couverture du terrain. - Zones urbaines ou suburbaines
- Forêts
- Aéroports
- Routes.
38II. Exemple 2 la Scène
- Comme toujours, le graphe est formé par les
pixels dans D. - Deux modèles sont les plus fréquents
- Indépendant chaque étiquette ne dépend pas de
ses voisins (classification pixélique) - Modèle de Potts chaque pixel essaie davoir la
même étiquette de ses 4 ou 8 voisins
(classification contextuelle).
39II. Exemple 2 formation
- Normalement, on fait lhypothèse suivante (
est le sous-ensemble qui a l comme cible) - Pour chaque étiquette, on a un modèle dimages
qui ne contient que cette classe.
40II. Exemple 2 formation niveaux de gris
- Chaque classe a un niveau de gris moyen et une
variance. - Cela veut dire que
41II. Exemple 2 la Scène indépendant
- Chaque pixel est distribué selon la même loi
. - Cela veut dire que
42II. Exemple 2 la Scène indépendant
- Si
- Si lon connaît les valeurs
-
-
- Lestimée MAP devient
43II. Exemple 2 difficultés
- Le problème est que chaque pixel prend sa
décision seul. - Lestimée est trop rugueuse.
- Il faut régulariser la solution en utilisant une
probabilité a priori plus compliquée.
44II. Exemple 2 la Scène Potts
- Le modèle de Potts favorise les configurations
qui contiennent des voisins avec la même
étiquette.
45II. Exemple 2 la Scène Potts
- Le modèle de Potts rend la solution plus lisse et
plus homogène.
46Partie III algorithmes
47III. Solutions
- On ne veut pas seulement modéliser. Il faut aussi
calculer la valeur des paramètres des modèles
choisis. - Les modèles ne sont pas simples souvent ils
demandent de grandes ressources en temps de
calcul et en espace mémoire. - Les espaces sont énormes et il y a beaucoup de
minima locaux. - Exemple le recuit simulé peut prendre des
heures dans des cas compliqués. Pour pallier ce
problème si les images sont très grandes, on peut
paralléliser.
48III. Simulation
- Objet synthétiser des configurations de champs
markoviens suivant une certaine distribution de
Gibbs. - Problème Z nest pas calculable.
- On utilise des algorithmes de relaxation
itératifs qui convergent vers la distribution - Metropolis (1953)
- Echantillonneur de Gibbs (Geman et Geman 1984).
49III. Simulation MCMC
- Markov Chain Monte Carlo.
- Soit une configuration dépendant du temps
. - Construire une chaîne de Markov.
La chaîne visite plus souvent les régions de
forte probabilité
50III. Simulation Metropolis
- Tirer une nouvelle configuration F(t) avec
probabilité - Accepter la nouvelle configuration avec
probabilité
51III. Echantillonneur de Gibbs
- Passage de F(t-1) à F(t)
- Choix dun point p dans le domaine D
- Perturbation de la valeur F(t-1)p.
- Le choix dun point p est fait
- Soit par échantillonnage
- Soit par balayage déterministe.
52III. Échantillonneur de Gibbs
- Tirage dune nouvelle valeur daprès la
distribution conditionnelle locale - Zp est la fonction de partition locale.
53III. Utilisation des échantillonneurs
- Synthèse de textures
- Estimée du MAP optimisation globale.
- Échantillonneur à température variable recuit
simulé. - Estimée moyenne
54III. Recuit Simulé relaxation stochastique
- Introduction dun facteur de température T
- Quand , devient uniforme.
- Quand , se concentre sur les maxima
globaux de . - Engendrer une séquence de configurations avec
.
55III. Recuit Simulé descente de température
- On prouve la convergence vers le minimum global
si - Le plus souvent
pour aller plus vite. - Convergence entre 300 et 1000 itérations.
56III. Algorithmes sous-optimaux ICM (Besag
1986)
- Choix dun point p balayage déterministe.
- Remise à jour de p par la valeur qui provoque la
plus forte augmentation de probabilité (modes).
57III. Algorithmes sous-optimaux ICM
- Caractéristiques
- Algorithme déterministe
- Convergence vers un minimum local
- Initialisation et mode de balayage influent sur
le résultat - Convergence en 10 à 30 itérations
- Très utilisé.
- Cf. gradient.
58III. Algorithmes sous-optimaux HCF (Chou et
Brown 1988)
- High Confidence First.
- Mesure de stabilité de la valeur fp à un point
p ( est lénergie de la configuration
courante) - Les points sont classés dans une pile
dinstabilité.
59III. Algorithmes sous-optimaux HCF (Chou et
Brown 1988)
- A chaque itération, le point p0 le plus instable
(sommet de la pile) est remis à jour. - p0 devient stable.
- Les stabilités des points de N(p0) sont
ré-évaluées. - La pile est réordonnée. Répétez.
- Caractéristiques
- Algorithme déterministe
- Convergence en 1 à 5 itérations (après avoir
fait un ICM en général).
60III. Variantes
- Algorithmes multi-grilles
- Pyramide sur les étiquettes
- Pyramide sur les données.
- Algorithmes multi-échelles
- Pyramide sur étiquettes
- Données mono-résolution.
61IV. Paramètres
- Tous les modèles ont des paramètres.
- Pour les estimer, deux approches
- Etre bayésien marginaliser
- Estimation.
62IV. Marginalisation des paramètres
- Lapproche la plus correcte.
- Souvent très difficile ou impossible.
- Principe on marginalise toutes les quantités
par lesquelles on nest pas intéressé.
63IV. Paramètres estimation
- Maximisation de la vraisemblance
- Normalement on ne connaît pas S
- Algorithme EM (Dempster, 1977)
- Pas-E évaluation de lespérance pour
- Pas-M maximisation par rapport à
.