Title: Des agents intelligents dans un environnement de communication multim
1Des agents intelligents dans un environnement de
communication multimédia vers la conception de
services adaptatifs
- Romaric CHARTON
- Directeurs de thèse Anne BOYER et Jean-Paul
HATON - Directeur entreprise Michel LEDERMAN
- Mardi 2 décembre 2003
2Les services de communication multimédia
- Service "Ce que l'on fait pour être utile, à
titre onéreux ou non" (Larousse 1998). - Mon étude services réalisés sur des supports et
réseaux informatiques - qui utilisent des médias de communication divers
- le téléphone,
- la messagerie électronique,
- le web, etc.
- pour permettre de
- passer une commande en ligne,
- rechercher une information,
- gérer un portefeuille de titres boursiers, etc.
3Positionnement des travaux
Fournir des services adaptatifs
Nature des services
Acteurs
Adaptation
Évaluation
4Plan de l'exposé
- Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
5Partie 1 - Contexte et problématique
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
6Collaboration avec la société DIALOCA
1
- Création
- octobre 1996 à Paris
- Domaine
- Gestion de la relation client et langage naturel
- Clients
- Danone, Ministère de l'Intérieur, PSA, CNP,
TopTrades, etc. - Large palette d'applications
- Multimédia, interactives et grand public
- accès au web par téléphone,
- support de bornes interactives et de centres
d'appels, - gestion de télé-réunions ...
- Plate-forme UniMédia
7Déroulement d'un service sur la plate-forme
UniMédia
1
Applications
PMMU
Administration
8Objectifs de la collaboration
1
- Objectifs (utiliser des méthodes IA)
- Faciliter la conception et le déroulement des
applications - Adapter leur exécution au comportement de
l'utilisateur et à ses préférences
Comportement d'un agent
Applications existantes (scripts statiques)
Plate-forme UniMédia
9Pourquoi une approche agent ?
1
- Besoin de propriétés
- autonomie
- prise de décisions
- communiquer
- gérer des connaissances
- gérer des ressources
Comportement
10Utilité et évaluation des services
1
Nombreux indices possibles ? difficile à définir
- Problème Comment mesurer la satisfaction de
l'utilisateur ?
- Approximation une valeur numérique associée
actions de l'utilisateur - ? Idée que l'agent estime son utilité à partir de
ses perceptions des autres ...
11Systèmes Multi-Agents (Ferber 1995)
1
Réaliser un service de façon collective
12Communication et hétérogénéité
1
- Difficultés de l'interaction Homme-SMA
(Grislin-LeSturgeon et Peninou 1998) - comment déterminer ce que A veut ?
- comment prévoir son comportement ?
- que préfère-t-il ? ...
13Problématique générale
1
Applicative Comment faciliter la conception et le
contrôle de services adaptatifs ?
Scientifique Comment coordonner un ensemble
d'agents hétérogènes pour réaliser
coopérativement une tâche ?
- Difficultés à prendre en compte
- Interaction avec des agents humains
- Applications réelles ? environnements incertains
- Réponse à des besoins industriels
14Partie 2 - Approche Théorique
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
15Les Systèmes Multi-Agents hétérogènes (h-SMA)
2
- Ensemble A d'agents de nature très différente
humains, logiciels, etc. - Partition selon la nature des agents et de leur
environnement - Partition selon l'influence et le degré de
connaissance que l'on a sur les agents
16Une solution au problème de l'hétérogénéité
2
Introduire un agent coordinateur pour amener A et
B à coopérer en modifiant leurs interactions.
Langage L B
Langage L A
Agent A Besoins
Agent B Capacités
Agent C Coordinateur
Coordination colle qui lie des activités
(Gelernter et Carriero 1992)
17Comment obtenir le comportement du coordinateur ?
2
18D'un coordinateur à base de scripts ...
2
19... à des schémas d'interaction
2
20Comment structurer les relations ?
2
Organisation agencement de relations entre
composants ou individus qui produit une unité, ou
système, dotée de qualités inconnues au niveau
des composants ou individus. (Ferber 1995)
21Structures organisationnelles et classes de
service
2
22Partie 3 - Les services de recherche
d'informations
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
23Assistance à la recherche d'information
3
Source
Coordinateur
Utilisateur
Source
Source
- Contraintes
- Utilisateurs occasionnel, novice
- Sources d'informations non propriété, coût
- Objectif
- Améliorer la qualité du service fourni par
rapport à la recherche classique
24Exemple de problème le choix d'un vol
3
Client
25Rôle de l'agent coordinateur
3
- Ses buts
- Construire une requête correspondant le plus au
besoin de l'utilisateur - Fournir des résultats appropriés à l'utilisateur
- Maximiser son utilité
- Maximiser la satisfaction de l'utilisateur
- Minimiser les coûts liés à la source d'information
- A tout moment, il peut
- Poser une question à l'utilisateur au sujet de la
requête - Envoyer la requête à la source d'information
- Proposer des résultats à l'utilisateur en nombre
limité
En retour, il perçoit les réponses des autres
agents valeurs, résultats, sélections, rejets
26Coordination et stratégies de coordination
3
Coordination Contrôle d'une séquence
d'interactions (questions-réponses) Réussie
Sélection d'un résultat Absence de résultat
constatée au niveau de la source
Stratégie de coordination Façon de choisir les
actions pour coordonner la suite des interactions.
- Problème Comment obtenir le comportement de
coordination adéquat ?
Solution proposée Trouver une stratégie de
coordination optimale
27Caractéristiques du coordinateur
3
- Gérer l'incertitude et les connaissances
incomplètes - Utilisateurs
- Mauvaise compréhension des questions
- Connaissance partielle de leurs besoins
- Environnement
- Bruits pendant la communication
- Capteurs imparfaits
- Proposition
- Modéliser la coordination avec un Processus de
Décision Markovien - Calculer un comportement stochastique de
coordination
28Processus de Décision Markovien (MDP)
3
- Récompense R S ? A ? S ? IR
- Décider selon une politique
- ? S ? A ? 01
Calculer une stratégie de coordination revient
à Calculer une politique stochastique
29Un MDP pour contrôler les interactions
3
Environnement du coordinateur
- Définir
- S L'espace d'états
- A Les actions du coordinateur
- T Les transitions
- R Les récompenses
Utilisateur
Source
Suite d'interactions (MDP à contrôler)
T
S, R
A
Coordinateur
30Etats Comment décrire les requêtes et les
objets ?
3
- Approche de remplissage de formulaire (Goddeau et
al. 1996) - ? Référentiel construit sur un ensemble
d'attributs - Ref At 1, , At m
- Exemple de référentiel
- Départ Londres, Genève, Paris, Berlin,
- Arrivée Pékin, Moscou, New-York,
- Classe Première, Affaire, Économique, ...
31Espace d'états S
3
Utilisateur
Source
Coordinateur
32Abstraction des états (S ? S)
3
- Taille de l'espace d'états S (2 n 1) (2i) m
- n nombre total d'objets de la source
d'information - m nombre d'attributs
- i nombre moyen de valeurs par attribut
? Taille de l'espace d'états abstrait S 4 ? 3m
33Actions du coordinateur
3
Utilisateur
Source
Coordinateur
34Récompenses
3
Utilisateur
Source
Coordinateur
35Exemple de coordination pour la réservation de
vol
3
État s Abstraction s Action du coordinateur Réponses Récompense
lt?, ?, ? ?gt lt?, ?, ? ?gt Demander ville départ Paris 0
ltParis, ?, ? ?gt ltA, ?, ? ?gt Envoyer la requête 1700 vols - R Overnum
ltParis, ?, ? nr Max premiers vols gt ltA, ?, ? gt Demander destination Moscou 0
ltParis, Moscou, ? ?gt ltA, A, ? ?gt Demander classe de vol Ne sait pas 0
ltParis, Moscou, F ?gt ltA, A, F ?gt Envoyer la requête 4 vols 0
ltParis, Moscou, F 4 volsgt ltA, A, F gt Demander une sélection Sélection 2 R Sélection
Coordinateur
Utilisateur
Source
Légende
36Calculer la stratégie de coordination
3
- Problème Deux parties du modèle restent
inconnues ! - T f (utilisateur, source d'information)
- R f (utilisateur, source d'information)
? Apprendre la stratégie de coordination par
renforcement
37Apprentissage par Renforcement (Sutton et Barto
1998)
3
Transition
Observation
Système Dynamique
Action
38Architecture du coordinateur
3
Agent Coordinateur
Module de Décision (Q-Learning)
Module de Représentation (état réel)
Gestionnaire d'Interactions
Agent Utilisateur
Agent Source d'Information
39Gestion des préférences des utilisateurs
3
- Ensemble de profils Prof prof 0 , prof 1 ,
... , profn - avec un profil par défaut prof 0 pour les
nouveaux utilisateurs.
- Un profil prof i
- mémorise, pour chaque attribut At i , la
probabilité p ( v k prof i , At j ) que cet
utilisateur préfère la valeur v k - est initialisé avec des distributions uniformes
- est mis à jour à la sélection d'une proposition
40Partie 4 -Mise en œuvre
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
41Modélisation d'UniMédia
4
- Objectif Se doter d'un modèle conceptuel pour
fournir les services dans les h-SMA - Proposition Une modélisation agent à 4 niveaux
Utilisation sur les services Dialoca pour
des applications de l'équipe MAIA (Diatélic,
Cycab, ...)
42Implantation de la maquette SmallMu
4
Objectifs Pouvoir travailler sur un agent
logiciel contrôlé reproduisant ou émulant les
fonctionnalités nécessaires
- Réalisation
- Une bibliothèque fournissant un corps d'agent
capable d'accueillir - un cerveau pour le comportement,
- des membres pour percevoir et agir.
- Un ensemble de membres dédiés à l'environnement
multimédia - Reconnaissance et synthèse de parole,
- E-Mail,
- SMS (émulé)
Utilisation Prototype de coordinateur pour la
réservation de vol
43Expérimentations sur l'application de
réservation de vol
4
- Entraînement du coordinateur avec
- 3 attributs (villes de départ/arrivée et classe)
- 4 attributs ( période de la journée de départ)
- 5 attributs ( la compagnie aérienne)
Croissance de la complexité en fonction du nombre
des attributs
Nb. d'attributs (m) Nb. états abstraits (4.3 m) Nb. d'actions (3.m2) Nb. de Q-Valeurs ((12.m8).3 m)
3 108 11 1 188
4 324 14 4 536
5 972 17 16 524
44Résultats d'apprentissagetaux de coordinations
réussies
4
- 3 et 4 attributs 99 de coordinations réussies
(proche de l'optimum) - 5 attributs 90 de réussite (plus de temps
nécessaire pour converger)
45Résultats d'apprentissagelongueur moyenne de
coordination
4
- 3 et 4 attributs longueur minimale de la
coordination atteinte - 5 attributs coordination plus longue
46Critique des comportements obtenus
4
- Grand nombre d'interactions nécessaires
- besoin d'une phase d'apprentissage préalable
- Problème difficulté d'obtenir un corpus de
traces d'interaction réelles - utilisation d'un utilisateur simulé avec un
comportement naïf
Constats stratégie optimale obtenue /
adaptation au comportement simulé - manque de
richesse dans les stratégies de coordination
Futur Simulateur d'utilisateurs réels ?
comportements plus intéressants
47Partie 5 Conclusion et perspectives
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
48Conclusion
5
Rattachement à un mouvement récent utilisant
l'apprentissage par renforcement pour des
applications réelles avec des humains.
- Aspect stratégie de coordination
- Apports
- Possibilité d'apprendre ces stratégies par
renforcement en utilisant des MDP - Réponse aux besoins du plus grand nombre comme du
particulier avec les profils - Limites
- Observabilité partielle de l'utilisateur au
travers des perceptions de l'agent - Baisse des performances pour des tâches plus
complexes
- Aspect modélisation logicielle
- Apports
- Passage à une approche "orientée utilisateur"
pour les services - Solution incrémentale
49Perspectives
5
- Utiliser d'autres modèles/méthodes probabilistes
- Apprendre à partir de politiques pré-établies
- Apprendre en généralisant le modèle (DynaQ,
Classifieurs) - Approche POMDP (Q-learning modifié, Gradient de
Baxter)
- Pour résoudre des tâches plus complexes
- Reformuler l'espace d'états abstrait pour mieux
guider le processus dans l'espace réel. - Décomposition hiérarchique (H-MPD et H-POMDP)
avec une gestion des dépendances entre les
attributs - Passage à plusieurs sources et aux autres classes
de services - Composition de services (plusieurs coordinateurs)
50Références
5
- (Ferber 1995) Ferber J., Les Systèmes
Multi-Agents. Vers une intelligence collective.
Interéditions, 1995. - (Gelernter et Carriero 1992) Gelernter D. et
Carriero N., Coordination Languages and Their
Significance. Communications of the ACM, n35(2),
pp. 96-107, 1992. - (Grislin-LeSturgeon et Peninou 1998) Grislin-Le
Sturgeon E. et Péninou A., Les interactions
Homme-SMA réflexions et problématiques de
conception. Systèmes Multi-Agents de
l'interaction à la Socialité. Dans JFIADSMA'98,
Hermès, pp. 133-145, 1998. - (Goddeau et al. 1996) Goddeau D., Meng H.,
Polifroni J., Seneff S., Busayapongchaiy S., A
Form-Based Dialogue Manager For Spoken Language
Applications, In Proceedings of ICSLP'96,
Philadelphia, 1996. - (Larousse 1998) Le petit Larousse 1998,
Larousse-Bordas, 1998. - (Russell et Norvig 1995) Russell S. et Norvig P.,
Artificial Intelligence A Modern Approach, The
Intelligent Agent Book. Prentice Hall Series in
Artificial Intelligence, 1995. - (Sutton et Barto 1998) R. S. and Barto A. G.
Reinforcement Learning An Introduction. MIT
Press Cambridge MA, 1998. - (Watkins 1989) Watkins C., Learning from Delayed
Rewards. PhD Thesis of the King's College,
University of Cambridge, England, 1989.
51Merci de votre attention
- Avez-vous des questions ?
52Suppléments
53Utilité et évaluation des services
1
Nombreux indices possibles ? difficile à définir
- Un choix classique U R - C
- R Réussite de la tâche accomplie du point de
vue du concepteur - C Coûts d'utilisation des ressources (propres
ou détenues par des tiers)
- Notre choix, moins courant, mais plus "orienté"
vers les services adaptatifs - R Réussite de la tâche accomplie du point de
vue des utilisateurs
- Problème Comment quantifier la satisfaction de
l'utilisateur ?
- Approximation une valeur numérique associée
actions de l'utilisateur - ? Idée que l'agent estime son utilité à partir de
ses perceptions des autres ...
54Typologie des Interactions (Ferber 1995)
1
buts incompatibles
Encombrement
Antagonisme
ressources insuffisantes
Interaction
Indifférence
Collaboration simple
Coopération
buts compatibles
Collaboration Coordonnée
capacités individuelles insuffisantes
55Formalisation et interactions
1
- Méthodologies et formalismes pour la conception
de SMA - AOP (Kendall et al. 1999)
- AUML (Odell et al. 1999)
- GAIA (Wooldridge et al. 2000)
- MASE (Wood et DeLoach 2000)
- TROPOS (Giunchiglia, et al. 2002)
- RIO (Mathieu et al. 2003)
- ...
- Langages et protocoles d'interaction
- Graphes de transition (Winograd et Florès 1986)
- Langage d'interaction COOL (Barbuceanu et Fox
1995) - Réseaux de Pétri (El Fallah-Seghrouchini et al.
1995) - ...
56h-SMA Partitions sur l'ensemble des agents
2
Agents contrôlés A C Agents partiellement contrôlés A PC Agents non contrôlés A NC
Agents Logiciels A L Programmes connus Programmes avec lesquels il est possible de communiquer de façon privilégiée Autres agents logiciels
Agents Physiques A P Robots et autres équipements asservis Equipements partiellement asservis et éventuellement des collaborateurs humains spécialistes Autres intervenants humains des utilisateurs le concepteur, etc.
57Fournir un service
2
Objets ressources
Coordinateur de service
Utilisateurs
Interactions
Agents Fournisseurs
Interactions
construire et réaliser un service utile
satisfaction à maximiser
coûts à minimiser
58Rôle et comportement typique
2
- Comportement typique associé à un rôle r dans un
service sous la forme d'un graphe G (S, G), où - S l'ensemble des états s 0 , ... , s n
possibles du comportement (abstractions des états
réels des agents qui jouent ces rôles). - G transitions du comportement entre deux états
(perception, action, ...)
Schéma d'interaction Ensemble de graphes de
comportements G i (S i , G i) reliés entre eux
au niveau des états par des liens d'interaction
où une transition a Î G i peut provoquer une
transition b Î G j . Exemple de lien (a, b)
demander de l'aide ? réception d'une demande
59Planification
2
- A partir d'un modèle du monde connu
- structure, lois d'évolution, etc.
- actions disponibles et leurs effets
- En fonction
- d'un état initial (avec connaissance complète,
certaine ou non) - d'un état but (conditions de succès)
- des contraintes (temps, autres ressources ...)
- Déterminer un plan a priori (ou en situation)
- Quelle est la séquence dactions à réaliser pour
atteindre le but ? - Types de planification
- classique, conditionnelle/probabiliste, réactive,
sous contraintes, multi-agent, etc.
60Un environnement complexe
2
- Critères de Wooldridge
- Virtuel capteurs / actionneurs logiciels
- Incomplet vue partielle, locale mais à accès
global - Indéterministe effet des actions non garanti
- Non épisodique prise en compte de l'historique
- Très dynamique marchés, bases de données,
Internet - Continu grande latitude d'action
61Surveillance et correction de service
2
- Observation du modèle de normalité trajectoires
de fonctionnements normaux
Modèle de normalité
Trajectoire observée
- Observation d'un cas particulier
Système de diagnostic
Risques de problème
- Diagnostic détection danomalies
Réparation
- Réparation par planification
62Correction de trajectoire d'un agent
2
Espace de projection des états possibles de
lagent
63Diagnostic et réparation indirecte
2
Influence
Influence
A1
A2
A3
Observé mais non contrôlé
Observé et contrôlé
Anomalie sur A1 ? Correction sur le comportement
de A2 ou A3 pour ramener A1 dans une bonne
trajectoire
64Influences et traces de comportements
2
- Dans un déroulement normal, les différents
comportements suivis par chaque agent se
synchronisent. - Une action produite par le comportement d'un
agent peut produire un effet sur le comportement
d'un autre agent. - Lobservation des comportements donne des traces
de processus, des trajectoires visibles ...
Utilisables !
65Utilisation de l'influence pour réparer
2
- Quand on observe une anomalie sur les agents
(t-1), on influe par une correction g sur les
agents contrôlés. L'effet de g se produit sur les
agent contrôlés (t) qui influent à leur tour sur
les agents non contrôlés (t1) - Pour un utilisateur, les corrections g doivent
lamener dans un état de satisfaction.
66Construction progressive de la requête
3
Précision de la requête
Totalement spécifiée
Suffisamment spécifiée
Partiellement spécifiée
Nombre d'Interactions
Totalement inconnue
67Attributs
3
- Un attribut At est un triplet ltN, D, Qgt où
- N est le nom de l'attribut
- D v 1 ... v k est le domaine des
valeurs possibles - Q est un ensemble de questions qui peuvent être
posées - demander la valeur de l'attribut
- proposer une valeur pour l'attribut,
- demander confirmation de la valeur d'attribut.
Exemple d'attribut Nom Départ Domaine Paris,
Londres, Rome, Luxembourg, Berlin, Madrid,
Genève, Bruxelles Questions - Valuation Quelle
est votre ville de départ ? - Proposition
Souhaitez vous partir de ville ? -
Confirmation Êtes vous sûr de vouloir partir de
ville ?
68Ensemble des Actions
3
Code Conditions Description de l'action Origine des paramètres
askvalue ea s '?' Demander à l'utilisateur la valeur de l'attribut At s. -
propose ea s ¹ 'A' Proposer à l'utilisateur une valeur pour At s. Préférences de l'utilisateur
confirm ea s 'A' Demander à l'utilisateur de confirmer la valeur de At s dans la requête s U. Etat de la requête s U
rqte qr '?' Envoyer la requête s U vers la source d'informations. Etat de la requête s U
select qr '' ou '' si la requête est pleinement contrainte Demander à l'utilisateur la sélection d'une entrée dans la liste des résultats Rep Etat des réponses s I
69Mise à jour de la représentation
3
- Comment mettre à jour la représentation des
interactions selon les réponses des autres agents
? - Quelles sont les observations possibles ?
- Mise à jour confiée à la fonction Update (S ? O ?
Ac ? S) - Mise à jour de la requête partielle (au niveau
d'un attribut At i) - Mise à jour des résultats d'une requête
70Mise à jour de l'état d'affectation d'un attribut
At i
3
(ea i , val i ) t-1 ac t-1 o t (ea i , val i ) t
(A, v) confirm oui (A, v)
(A, v) confirm nsp F
(A, v) confirm non ?
? askvalue v (A, v)
? askvalue nsp F
? propose v oui (A, v)
? propose v nsp F
? propose v non ?
F propose v oui (A, v)
F propose v nsp F
F propose v non F
71Observations possibles pour le coordinateur
3
Observation Origine Action contexte Interprétation de l'observation
une valeur utilisateur askvalue Valeur d'attribut valide donnée par l'utilisateur
oui utilisateur propose, confirm Réponse positive de l'utilisateur à une demande simple
non utilisateur propose, confirm Réponse négative de l'utilisateur à une demande simple
une table source d'informations rqte Résultats donnés par la source d'informations
un numéro utilisateur select L'utilisateur a sélectionné une proposition
refus utilisateur select L'utilisateur a refusé une proposition
stop utilisateur askvalue, propose, confirm, select Arrêt par l'utilisateur (déconnexion)
nsp utilisateur askvalue, propose, confirm, select L'utilisateur indique qu'il ne sait pas répondre
aberrant utilisateur askvalue, propose, confirm, select Observation aberrante ou inattendue (ignorée)
72Treillis d'états abstraits S avec deux attributs
3
73Une trace dans l'espace d'états abstraits
3
ltA, ? ?gt ltA, ?, 0gt ltA, ? gt ltA, ? gt
ltA, A ?gt ltA, A, 0gt ltA, A gt ltA, A gt
ltF, ? ?gt ltF, ?, 0gt ltF, ? gt ltF, ? gt
ltF, A ?gt ltF, A, 0gt ltF, A gt ltF, A gt
lt?, ? ?gt lt?, ? 0gt lt?, ? gt lt?, ? gt
lt?, A ?gt lt?, A, 0gt lt?, A gt lt?, A gt
ltA, F ?gt ltA, F, 0gt ltA, F gt ltA, F gt
lt?, F ?gt lt?, F, 0gt lt?, F gt lt?, F gt
ltF, F ?gt ltF, F, 0gt ltF, F gt ltF, F gt
74Q-Learning (Watkins 1989)
3
- Méthode d'Apprentissage par Renforcement
- Peut être utilisé "en ligne"
75Q-Learning Algorithme général
3
4. On recommence au premier point.
76Sélection des actions
3
- L'algorithme du Q-Learning n'impose pas de façon
pour choisir les actions à effectuer. - Besoin d'un compromis Exploitation / Exploration
- ? Fonction de sélection de type Boltzmann
Exemple pour un état s donné
Q(a 0) Q(a 1) Q(a 2) Q(a 3)
5 -1 -4 3
77Profils des utilisateurs
3
- Utilisateurs
- occasionnels ? satisfaire le plus grand nombre
(profil moyen) - fréquents ? gestion de profils individuels
spécialisés - Profil
- Comportement adapté pour le service
- Modélisation des préférences
78Fonctions
3
- Génération des récompenses Reward S ? O ? Ac ?
IR - Mise à jour de la représentation Update S ? O
? Ac ? S - Abstraction de la représentation Abstract S ?
S - Apprentissage et décision Q-Learning S ? IR ?
A - Spécialisation de l'action Specif A ? S ?
Prof ? Ac - Gestion des préférences Prefere Prof ? S ?
Prof
79Architecture Fonctionnelle du Coordinateur
3
Q-Learning
a t
r t
s t
MDP
Abstract
tt1
tt1
profil t
Prefere
Reward
Specif
s t
ac t
tt1
Update
Environnement
o t
80Architecture Agent d'UniMédia
4
Service
Source d'informations
Modélisation des services
Client
Coordinateur
Modélisation des agents
Agent
Modélisation des ressources
Ressource
Synthèse vocale
Reco vocale
Media
81Le niveau média
4
- Les canaux médias
- Vus comme des vecteurs de linformation
- Caractéristiques variées
- mode de transmission,
- topologie,
- adressage,
- délais de transmission ...
- ? Besoin de saffranchir de leur spécificité
Hypothèse Ils offrent des "prises" sur
lesquelles les ressources peuvent se positionner
82Le niveau ressource
4
Définition Dispositif matériel, une partie
logicielle ou corporelle utilisé par lagent pour
réaliser sa tâche de façon interne ou externe
dans lenvironnement multimédia (au travers des
prises et des canaux)
- Exemple
- Les capteurs et effecteurs de l'agent,
- Des outils de traitement dinformation.
- Proposition d'utiliser des Modèles de Ressource
- Abstraction des fonctionnalités (opérateurs
conditions ? actions) - Description des caractéristiques
- Moyens d'accès à la ressource (identification,
authentification ...) - Moyens de contrôle de la ressource (protocoles /
langages utilisés) - Capacité, Coût dutilisation, Disponibilité,
Sécurité, confiance, Fiabilité, robustesse, etc.
83Descripteurs de ressources XML
4
- RESSOURCE
- MEDIA
- TYPE
- PROTOCOL
- OPLIST
- OPERATOR
- OPNAME
- PRECOND
- EFFECT
84Treillis d'opérateurs
4
Opérateur universel
Descripteur de ressource
Opérateur abstrait
Opérateur abstrait
Opérateur réel
Opérateur réel
Opérateur réel
classification
Opérateur absurde
85Le niveau agent
4
- Agents intelligents réactifs
- De nature hétérogène
- Humains (clients, télé-opérateurs ...)
- Logiciels (Agent SGBD, Web ...)
- Contrôlés
- Partiellement contrôlés (comme des applications
tiers) - Qui jouent un rôle donné dans le service dont le
comportement peut être défini à partir - De buts et de contraintes assignés
- Dun modèle à priori, enrichi dobservations
86Le niveau service
4
Rôle R1
Rôle R2
Rôle R3
- Représentation par les graphes de service
Schémas dinteraction mettant en œuvre les rôles
des agents - Vision globale du service
87Implantation du coordinateur
4
Corps d'agent SmallMu
Base de données
Utilisateur
88Quantité de code Maquette SmallMu et Prototype
de Coordinateur
4
- Représente environs 12 000 lignes de code en
langage Java
SmallMu (Noyau) 2100
SmallMu (Ressources) 3000
Bibliothèques Cartographie et Représentation 3270
Bibliothèques Probabilités et Apprentissage par Renforcement 1730
Modules du Coordinateur 2260
89Résultats d'apprentissage 3-5 attributs(Somme
des récompenses / 1000 itérations)
4
- 3 attributs Forme exponentielle classique
- 4 attributs Croissance et maximum moins marqués
- 5 attributs Dégradation des performances
90Démonstration 3 attributs
4
91Démonstration 5 attributs
4
92Apprentissage par Renforcement
3
- Jusqu'à présent Apprentissage par renforcement
- Optimisation
- Robotique mobile
- Application à des cas abstraits
- Mouvement récent
- utilisation dans le cas d'applications réelles
avec l'intervention d'humains (Singh al. 2002)
93Intégration à Unimédia - 1
5
- Agents A C ? Applications (scripts)
- Agents A PC ? Applications Tiers
- Agents A NC ? Utilisateurs
- Ressources ? Pilotes et Moteurs
- Opérateurs ? Modèles
94Intégration à Unimédia - 2
5
- Agent ? Unimédia "Light"
- Communication inter-agent / médias
- Besoins langage, connaissances communes
95Société d'agents média
5
Agent A
SmallMu A
Agent C
Pilote 3A
SmallMu C
Pilote 1C
Pilote 1A
Pilote 2A
Pilote 2C
Agent D
Agent B
Pilote 2D
Pilote B1
SmallMu B
Pilote B2
SmallMu D
Pilote 1D
96Références additionnelles
5
- (Barbuceanu et Fox 1995) Barbuceanu M. et Fox M.
S., COOL A language for describing coordination
in multiagent systems. In Proceedings of
ICMAS'95, 1995. - (Chalupsky et al. 1992) Chalupsky H., Finin T.,
Fritzson R., McKay D., Shapiro S. et Wiederhold
G., An overview of KQML A knowledge query and
manipulation language. TR, KQML Advisory Group,
April 1992. - (El Fallah-Seghrouchini et al. 1999) El
Fallah-Seghrouchini A., Haddad S. et Mazouzi H.,
A Formal study of interaction in Multi-Agent
Systems, In Proceedings of CATA'99, Cancun,
Mexique, 1999. - (Levin et al. 1998) Levin E, Pieraccini R. and
Eckert W. Using Markov Decision Process for
Learning Dialogue Strategies. In Proceedings of
ICASSP'98, Seattle, USA, 1998. - (Mathieu et al. 2003) Mathieu P., Routier J.-C.
et Secq Y., RIO Rôles, Interactions et
Organisations. Dans MFI'03. Lille, mai, 2003. - (Odell et al. 1999) Odell J., Parunak H. V. D.,
et Bauer B., Extending UML for Agents, In
Proceedings of the AOIS Workshop of AAAI 2000,
pp. 3-17, Austin, Texas, 2000. - (Levin et al. 1998) Levin E, Pieraccini R. and
Eckert W. Using Markov Decision Process for
Learning Dialogue Strategies. In Proceedings of
ICASSP'98, Seattle, USA, 1998. - (Mathieu et al. 2003) Mathieu P., Routier J.-C.
et Secq Y., RIO Rôles, Interactions et
Organisations. Dans MFI'03. Lille, mai, 2003. - (Odell et al. 1999) Odell J., Parunak H. V. D.,
et Bauer B., Extending UML for Agents, In
Proceedings of the AOIS Workshop of AAAI 2000,
pp. 3-17, Austin, Texas, 2000. - (Singh et al. 2002) Singh S., Litman D., Kearns
M. et Walker M., Optimizing dialogue management
with Reinforcement Learning Experiments with the
NJFun System. In JAIR, Vol. 16, pp. 105-133,
2002. - (Winograd et Florès 1986) Winograd T. et Florès
F., Understanding computers and cognition A new
foundation for design. Ablex Publishing Corp,
Norwood, New Jersey, 1986 - (Young 1999) Young S., Probabilistic Methods in
Spoken Dialog Systems. In Royal Society, London,
September 1999.
97Coupures
- plus largement
- e-services (Hewlett Packard),
- Web services, etc.
Fonction de comportement Situation ? Action
- (commun à tous les agents jouant le même rôle)