Title: Le traitement de l
1Le traitement de linformation a-t-il un
fondement scientifique ?
- Guillaume Deffuant
- Cemagref
2- Information de Shannon et traitement de
linformation selon G. Miller (1956) - Système de traitement de linformation de Newell
et Simon (1972), quelle information? Kolmogorov ? - Atomisme logique de Russell comme matrice de la
notion dinformation - Piste pour un nouveau départ pour une véritable
théorie de linformation, à partir de
lapprentissage actif.
3Problème de Shannon en nombre de questions
?
A
B
- Un individu A tire un objet i parmi N avec la
probabilité pi. - Un individu B doit deviner quel objet a été tiré
en posant un minimum de questions du type
est-ce que lobjet appartient à tel groupe ? . - Comment définir ces groupes dobjet de manière à
minimiser (en moyenne) le nombre de questions à
poser pour le retrouver ?
4Code de Shannon-Fano
1
0.30
1
0.25
0
0.20
1
0.10
1
0
0.07
1
0
0
0.05
1
0
0.03
0
5Le code de Fano-Shannon est optimal
- Soit L un code (ensemble de groupes dobjets).
Chaque objet i peut être identifié par L(i)
questions. - Nombre moyen de questions
- Code de Fano est tel que
6Théorème (Shannon)
- Nombre moyen minimal de questions L satisfait
- Où H(P) est lentropie de la distribution
7Entropie
- Pour N objets, entropie maximale lorsque les N
objets sont équiprobables, minimale lorsque lun
dentre eux a une probabilité 1.
8Dispositif de Shannon
Canal de communication
B
A
- A tire continûment des objets selon P et les
transmet à B par un canal de capacité C (symboles
par unité de temps) avec un code binaire. - Théorème en moyenne on transmet au plus C/H(P)
objets par unité de temps. - NB. Le code doit être prefix free
9Entropie physique
- Ensemble de N particules identiques, dont la
distribution détats est donnée par - Lentropie du système est
- Si la distribution est concentrée en un point, S
est nulle (système ordonné). S est maximale pour
une distribution uniforme sur tous les états
(système désordonné).
10Critiques de lInformation de Shannon
- Linformation nest pas définie pour un message
particulier. - Deux logiques
- Quantité dinformation nombre moyen de symboles
binaires du codage optimal transmis - Diminution dincertitude par la transmission de
symboles. Incertitude initiale H(P), finale 0.
Lien avec lentropie physique. - Risque dassimiler information et variance
(incertitude), ce qui est un contresens.
11Traitement de linformation de Shannon
12le 7 nombre magique de Miller (1956)
- Application directe de linformation de Shannon
un sujet est considéré comme un canal, qui a une
certaine capacité. - Test sur différents signaux perceptifs que le
sujet doit reconnaître. On regarde combien de
fois le sujet se trompe (canal bruité). - Les sujets ne se trompent jamais lorsque seuls 4
signaux sont possibles, très fréquemment
lorsquils ont plus de 10. La limite est donc de
lordre de 2.5 bits (7 possibles équiprobables) - Stimuli multi-dimensionnels les capacités
augmentent, mais pas comme la somme des
dimensions - -gt La capacité dun canal est le maximum de
symboles transmis par unité de temps, pas le fait
de devenir bruité.
13Exemples
147 chunks de la mémoire à court terme
- Le nombre ditems (chunks) que lon retient à
court terme est de lordre de 7. - Miller fait un calcul dinformation comme si les
éléments composants les objets étaient
équiprobables.
15Conclusion
- Traitement de linformation défini de manière
très pauvre (le sujet est un canal !) - Lutilisation des concepts de Shannon pose des
difficultés
16Système de traitement de linformation
Environnement
- Le STI (Newell et Simon 1972) est défini par
- un ensemble de symboles
- un ensemble de traitements élémentaires
dinformation - un interpréteur
- un lien avec des objets
17Symboles et mémoire
- Il y a un ensemble d'éléments, appelés symboles
- Une structure de symboles est un ensemble
d'occurrences de symboles reliés par un ensemble
de relations. - Le STI contient une mémoire, capable de retenir
des structures de symboles
18Traitements de linformation et processeur
- Un traitement élémentaire d'information est une
fonction qui a des symboles en entrées et en
sorties - Un processeur est un composant du STI qui
contient - Un ensemble de traitements élémentaires
d'information - Une mémoire court-terme qui maintient les
symboles utilisés par les traitements - Un interpréteur qui détermine le déclenchement de
la séquence de traitements à effectuer en
fonction des symboles présents dans la mémoire
court-terme.
19Lien aux objets
- Un symbole, ou une structure de symboles désigne
un objet si il existe des traitements
d'informations qui le prennent en entrée et soit - Affectent l'objet
- Produisent des structures de symboles en sortie
qui dépendent de l'objet. - Un objet peut désigner (au moins) 3 choses
- une structure de symboles en mémoire dun des TEI
- un process que les TEI sont capables dexécuter
- des stimuli extérieurs sensibles.
- Des stimuli extérieurs sont lus et mis en mémoire
sous forme de structures de symboles - Des réponses à des stimulis extérieurs sont
traduites également sous forme de structures de
symboles
20Quelle information ?
- Pas celle de Shannon voir papier de 75, qui
abandonne dailleurs le terme système de
traitement dinformation pour système de
symboles physiques - Celle de Kolmogorov ?
21Information (complexité) de Kolmogorov
- A veut communiquer à B une chaîne de caractères
finie x, de la manière la plus efficace possible. - A transmet z E(x) à B
- B fait lopération x D(z)
- La chaîne est quelconque (elle nest pas issue
dun tirage selon une distribution P) - Objectif minimiser la taille de z
22Information ou complexité de Kolmogorov
- Complexité de x Longueur de la chaîne de
symboles z minimale pour produire x à laide
dune machine de Turing universelle - La complexité est maximale pour une chaîne
aléatoire. - La plupart des chaînes ont une complexité proche
de leur taille
23Lien entropie complexité de Kolmogorov
- Pour une distribution P récursive, sur les
chaînes de taille n on a - Où cp ne dépend pas de n.
- La complexité de K moyenne de chaînes tirées
selon P tend vers lentropie.
24Non calculabilité de K
- Soit un programme Q de taille f tel que, pour
toute chaîne x - Q(x) 1 si x est aléatoire (i.e. K(x) l(x))
, 0 sinon. - Soit un programme Q qui teste toutes les chaînes
de taille n gtgt f, et qui imprime la première qui
est aléatoire. - Alors l(Q) f log(n) lt n Ce qui est
contraire à lhypothèse.
25Discussion sur information K
- Peut être associée à une instance de chaîne de
caractère Gros progrès par rapport à Shannon - Non calculable, mais lien direct à la machine de
Turing et à des traitements élémentaires
dinformation au sens de lIPS - Cependant, difficile didentifier lapport
conceptuel à lIPS. - Difficile de lier traitement de linformation et
computation symbolique, car on parle aussi de
traitement neuronal de linformation.
26Conclusion
- Le modèle de Newell et Simon définit clairement
un système de traitement de linformation - Il ne définit pas linformation, peut être récuse
le terme par la suite.
27Atomisme logique
- Bertrand Russell (dans les années 1910 1920)
- Schématiquement
- Le monde est composé déléments simples en
relations - Un fait atomique est une relation n-aire entre n
éléments simples. - Une proposition atomique décrit un fait atomique
par un prédicat n-aire, appliqué aux n noms des
éléments simples concernés. - Les propositions complexes sont des compositions
de propositions atomiques.
28Discussions et débats
- Application dabord aux mathématiques, puis à la
physique. Les faits atomiques sont des sense
data , des sensations élémentaires. - Possibilité de repousser lanalyse indéfiniment
vers des éléments plus simples ? - Indépendance des faits atomiques entre eux
(affirmée par Wittgenstein dans le tractatus) - Base de la philosophie analytique.
29Retour vers Newell et Simon
- Distinction entre symboles et structures de
symboles rappelle celle entre propositions
atomiques et propositions complexes, - Implicitement, un lien entre les stimuli externes
et les symboles du type de celui entre faits
atomiques et propositions atomiques nest-il pas
nécessaire pour que le système fonctionne ? - Miller et sa volonté de se ramener au plus simple
dans le calcul de linformation indique peut-être
un attracteur vers cette vision.
30Traitement neuronal de linformation
- On garde la vision dun monde composé de
déléments simples et de faits atomiques - On abandonne le traitement symbolique, avec des
prédicats en correspondance directe avec les
relations entre les éléments simples.
31Castoriadis
- La mode est actuellement au langage de
linformation . On nous dit que le vivant
cueille des informations dans la nature et les
traite de diverses façons. Ce langage doit être
impitoyablement condamné. On a jamais vu des
informations pousser dans les champs au printemps
ou à lautomne. Le vivant crée de linformation
pour lui. Rien nest information que pour un soi,
qui peut transformer, ou ne pas transformer, le X
dun choc extérieur en information. Les ondes
radio noffrent aucune information aux vivants
terrestres, et le théorème de Weierstrass-Stone
aucune information à ma boulangère - Carrefour du labyrinthe V p. 260
32Nécessaire relation système et événements
- Linformation se définit dans une interaction
entre le système et des événements extérieurs - Le type du système et son état déterminent la
nature de cette interaction - Cette approche est compatible avec lontologie
faible de latomisme logique - La configuration la plus élémentaire de ce type
se trouve en statistiques et en apprentissage
artificiel
33Information de Fisher
- On dispose de n tirages x1, x2, ,xn selon une
distribution f(x,q0). - On estime selon un maximum de vraisemblance.
- Linformation de Fisher I(q0) vérifie
34Information de Fisher
- Le calcul sécrit
- Si I(q0) est élevée, la distribution change
significativement autour de q0. La prise en
compte dune nouvelle donnée a des chances de
modifier significativement la fonction.
35Discussion
- Information de Fisher homogène à linverse dune
variance, alors que linformation de Shannon est
homogène à une variance. - Modèle prototypique de connaissance par
lexpérience. Information gain de connaissance
apporté par une nouvelle expérience.
Linformation dépend du système considéré
(ensemble de fonctions a priori) - De manière générale lapprentissage,
linformation peut être caractérisée par des
changement de lensemble dhypothèses (mondes
possibles) en cours, provoqué par un événement.
36Chercher linformation
- La relation la plus importante à linformation
est active le système va chercher linformation
qui est importante pour lui - Théorie de linformation dans le cadre de
lapprentissage actif.
37Expériences de Bach y Rita
38Perception d un monde extérieur
- Cest la possibilité détablir activement des
corrélations qui permet la perception dun monde
extérieur, et ses objets. - Cest ainsi quest dépassé le stade des sense
data de Russell.
39Démarche scientifique expérimentale
- Les sciences modernes sont nées de lalliance
entre théorie et expérience contrôlée, guidée par
la théorie. - Exemple de lexpérience de Pascal sur le Puy de
Dôme.
40Conclusion
- Une théorie de linformation, et a fortiori, du
traitement de linformation, restent à faire. - Elle devra prendre en compte une interaction
entre un système et des événements extérieurs,
dans une double vision pour le système et pour
lobservateur scientifique - Il est vraisemblable quelle aboutira à
abandonner les termes information et
traitement de linformation