Des agents intelligents dans un environnement de communication multim - PowerPoint PPT Presentation

1 / 97
About This Presentation
Title:

Des agents intelligents dans un environnement de communication multim

Description:

Des agents intelligents dans un environnement de communication multim dia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de th se : Anne ... – PowerPoint PPT presentation

Number of Views:60
Avg rating:3.0/5.0
Slides: 98
Provided by: chartonrsP
Category:

less

Transcript and Presenter's Notes

Title: Des agents intelligents dans un environnement de communication multim


1
Des agents intelligents dans un environnement de
communication multimédia vers la conception de
services adaptatifs
  • Romaric CHARTON
  • Directeurs de thèse Anne BOYER et Jean-Paul
    HATON
  • Directeur entreprise Michel LEDERMAN
  • Mardi 2 décembre 2003

2
Les services de communication multimédia
  • Service "Ce que l'on fait pour être utile, à
    titre onéreux ou non" (Larousse 1998).
  • Mon étude services réalisés sur des supports et
    réseaux informatiques
  • qui utilisent des médias de communication divers
  • le téléphone,
  • la messagerie électronique,
  • le web, etc.
  • pour permettre de
  • passer une commande en ligne,
  • rechercher une information,
  • gérer un portefeuille de titres boursiers, etc.

3
Positionnement des travaux
Fournir des services adaptatifs
Nature des services
Acteurs
Adaptation
Évaluation
4
Plan de l'exposé
  • Contexte et problématique

1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
5
Partie 1 - Contexte et problématique
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
6
Collaboration avec la société DIALOCA
1
  • Création
  • octobre 1996 à Paris
  • Domaine
  • Gestion de la relation client et langage naturel
  • Clients
  • Danone, Ministère de l'Intérieur, PSA, CNP,
    TopTrades, etc.
  • Large palette d'applications
  • Multimédia, interactives et grand public
  • accès au web par téléphone,
  • support de bornes interactives et de centres
    d'appels,
  • gestion de télé-réunions ...
  • Plate-forme UniMédia

7
Déroulement d'un service sur la plate-forme
UniMédia
1
Applications
PMMU
Administration
8
Objectifs de la collaboration
1
  • Objectifs (utiliser des méthodes IA)
  • Faciliter la conception et le déroulement des
    applications
  • Adapter leur exécution au comportement de
    l'utilisateur et à ses préférences

Comportement d'un agent
Applications existantes (scripts statiques)
Plate-forme UniMédia
9
Pourquoi une approche agent ?
1
  • Besoin de propriétés
  • autonomie
  • prise de décisions
  • communiquer
  • gérer des connaissances
  • gérer des ressources

Comportement
10
Utilité et évaluation des services
1
Nombreux indices possibles ? difficile à définir
  • Problème Comment mesurer la satisfaction de
    l'utilisateur ?
  • Approximation une valeur numérique associée
    actions de l'utilisateur
  • ? Idée que l'agent estime son utilité à partir de
    ses perceptions des autres ...

11
Systèmes Multi-Agents (Ferber 1995)
1
Réaliser un service de façon collective
12
Communication et hétérogénéité
1
  • Difficultés de l'interaction Homme-SMA
    (Grislin-LeSturgeon et Peninou 1998)
  • comment déterminer ce que A veut ?
  • comment prévoir son comportement ?
  • que préfère-t-il ? ...

13
Problématique générale
1
Applicative Comment faciliter la conception et le
contrôle de services adaptatifs ?
Scientifique Comment coordonner un ensemble
d'agents hétérogènes pour réaliser
coopérativement une tâche ?
  • Difficultés à prendre en compte
  • Interaction avec des agents humains
  • Applications réelles ? environnements incertains
  • Réponse à des besoins industriels

14
Partie 2 - Approche Théorique
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
15
Les Systèmes Multi-Agents hétérogènes (h-SMA)
2
  • Ensemble A d'agents de nature très différente
    humains, logiciels, etc.
  • Partition selon la nature des agents et de leur
    environnement
  • Partition selon l'influence et le degré de
    connaissance que l'on a sur les agents

16
Une solution au problème de l'hétérogénéité
2
Introduire un agent coordinateur pour amener A et
B à coopérer en modifiant leurs interactions.
Langage L B
Langage L A
Agent A Besoins
Agent B Capacités
Agent C Coordinateur
Coordination colle qui lie des activités
(Gelernter et Carriero 1992)
17
Comment obtenir le comportement du coordinateur ?
2
18
D'un coordinateur à base de scripts ...
2
19
... à des schémas d'interaction
2
20
Comment structurer les relations ?
2
Organisation agencement de relations entre
composants ou individus qui produit une unité, ou
système, dotée de qualités inconnues au niveau
des composants ou individus. (Ferber 1995)
21
Structures organisationnelles et classes de
service
2
22
Partie 3 - Les services de recherche
d'informations
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
23
Assistance à la recherche d'information
3
Source
Coordinateur
Utilisateur
Source
Source
  • Contraintes
  • Utilisateurs occasionnel, novice
  • Sources d'informations non propriété, coût
  • Objectif
  • Améliorer la qualité du service fourni par
    rapport à la recherche classique

24
Exemple de problème le choix d'un vol
3
Client
25
Rôle de l'agent coordinateur
3
  • Ses buts
  • Construire une requête correspondant le plus au
    besoin de l'utilisateur
  • Fournir des résultats appropriés à l'utilisateur
  • Maximiser son utilité
  • Maximiser la satisfaction de l'utilisateur
  • Minimiser les coûts liés à la source d'information
  • A tout moment, il peut
  • Poser une question à l'utilisateur au sujet de la
    requête
  • Envoyer la requête à la source d'information
  • Proposer des résultats à l'utilisateur en nombre
    limité

En retour, il perçoit les réponses des autres
agents valeurs, résultats, sélections, rejets
26
Coordination et stratégies de coordination
3
Coordination Contrôle d'une séquence
d'interactions (questions-réponses) Réussie
Sélection d'un résultat Absence de résultat
constatée au niveau de la source
Stratégie de coordination Façon de choisir les
actions pour coordonner la suite des interactions.
  • Problème Comment obtenir le comportement de
    coordination adéquat ?

Solution proposée Trouver une stratégie de
coordination optimale
27
Caractéristiques du coordinateur
3
  • Gérer l'incertitude et les connaissances
    incomplètes
  • Utilisateurs
  • Mauvaise compréhension des questions
  • Connaissance partielle de leurs besoins
  • Environnement
  • Bruits pendant la communication
  • Capteurs imparfaits
  • Proposition
  • Modéliser la coordination avec un Processus de
    Décision Markovien
  • Calculer un comportement stochastique de
    coordination

28
Processus de Décision Markovien (MDP)
3
  • Récompense R S ? A ? S ? IR
  • Décider selon une politique
  • ? S ? A ? 01

Calculer une stratégie de coordination revient
à Calculer une politique stochastique
29
Un MDP pour contrôler les interactions
3
Environnement du coordinateur
  • Définir
  • S L'espace d'états
  • A Les actions du coordinateur
  • T Les transitions
  • R Les récompenses

Utilisateur
Source
Suite d'interactions (MDP à contrôler)
T
S, R
A
Coordinateur
30
Etats Comment décrire les requêtes et les
objets ?
3
  • Approche de remplissage de formulaire (Goddeau et
    al. 1996)
  • ? Référentiel construit sur un ensemble
    d'attributs
  • Ref At 1, , At m
  • Exemple de référentiel
  • Départ Londres, Genève, Paris, Berlin,
  • Arrivée Pékin, Moscou, New-York,
  • Classe Première, Affaire, Économique, ...

31
Espace d'états S
3
Utilisateur
Source
Coordinateur
32
Abstraction des états (S ? S)
3
  • Taille de l'espace d'états S (2 n 1) (2i) m
  • n nombre total d'objets de la source
    d'information
  • m nombre d'attributs
  • i nombre moyen de valeurs par attribut

? Taille de l'espace d'états abstrait S 4 ? 3m
33
Actions du coordinateur
3
Utilisateur
Source
Coordinateur
34
Récompenses
3
Utilisateur
Source
  • Elles sont obtenues

Coordinateur
35
Exemple de coordination pour la réservation de
vol
3
État s Abstraction s Action du coordinateur Réponses Récompense
lt?, ?, ? ?gt lt?, ?, ? ?gt Demander ville départ Paris 0
ltParis, ?, ? ?gt ltA, ?, ? ?gt Envoyer la requête 1700 vols - R Overnum
ltParis, ?, ? nr Max premiers vols gt ltA, ?, ? gt Demander destination Moscou 0
ltParis, Moscou, ? ?gt ltA, A, ? ?gt Demander classe de vol Ne sait pas 0
ltParis, Moscou, F ?gt ltA, A, F ?gt Envoyer la requête 4 vols 0
ltParis, Moscou, F 4 volsgt ltA, A, F gt Demander une sélection Sélection 2 R Sélection
Coordinateur
Utilisateur
Source
Légende
36
Calculer la stratégie de coordination
3
  • Problème Deux parties du modèle restent
    inconnues !
  • T f (utilisateur, source d'information)
  • R f (utilisateur, source d'information)

? Apprendre la stratégie de coordination par
renforcement
37
Apprentissage par Renforcement (Sutton et Barto
1998)
3
Transition
Observation
Système Dynamique
Action
38
Architecture du coordinateur
3
Agent Coordinateur
Module de Décision (Q-Learning)
Module de Représentation (état réel)
Gestionnaire d'Interactions
Agent Utilisateur
Agent Source d'Information
39
Gestion des préférences des utilisateurs
3
  • Ensemble de profils Prof prof 0 , prof 1 ,
    ... , profn
  • avec un profil par défaut prof 0 pour les
    nouveaux utilisateurs.
  • Un profil prof i
  • mémorise, pour chaque attribut At i , la
    probabilité p ( v k prof i , At j ) que cet
    utilisateur préfère la valeur v k
  • est initialisé avec des distributions uniformes
  • est mis à jour à la sélection d'une proposition

40
Partie 4 -Mise en œuvre
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
41
Modélisation d'UniMédia
4
  • Objectif Se doter d'un modèle conceptuel pour
    fournir les services dans les h-SMA
  • Proposition Une modélisation agent à 4 niveaux

Utilisation sur les services Dialoca pour
des applications de l'équipe MAIA (Diatélic,
Cycab, ...)
42
Implantation de la maquette SmallMu
4
Objectifs Pouvoir travailler sur un agent
logiciel contrôlé reproduisant ou émulant les
fonctionnalités nécessaires
  • Réalisation
  • Une bibliothèque fournissant un corps d'agent
    capable d'accueillir
  • un cerveau pour le comportement,
  • des membres pour percevoir et agir.
  • Un ensemble de membres dédiés à l'environnement
    multimédia
  • Reconnaissance et synthèse de parole,
  • E-Mail,
  • SMS (émulé)

Utilisation Prototype de coordinateur pour la
réservation de vol
43
Expérimentations sur l'application de
réservation de vol
4
  • Entraînement du coordinateur avec
  • 3 attributs (villes de départ/arrivée et classe)
  • 4 attributs ( période de la journée de départ)
  • 5 attributs ( la compagnie aérienne)

Croissance de la complexité en fonction du nombre
des attributs
Nb. d'attributs (m) Nb. états abstraits (4.3 m) Nb. d'actions (3.m2) Nb. de Q-Valeurs ((12.m8).3 m)
3 108 11 1 188
4 324 14 4 536
5 972 17 16 524
44
Résultats d'apprentissagetaux de coordinations
réussies
4
  • 3 et 4 attributs 99 de coordinations réussies
    (proche de l'optimum)
  • 5 attributs 90 de réussite (plus de temps
    nécessaire pour converger)

45
Résultats d'apprentissagelongueur moyenne de
coordination
4
  • 3 et 4 attributs longueur minimale de la
    coordination atteinte
  • 5 attributs coordination plus longue

46
Critique des comportements obtenus
4
  • Grand nombre d'interactions nécessaires
  • besoin d'une phase d'apprentissage préalable
  • Problème difficulté d'obtenir un corpus de
    traces d'interaction réelles
  • utilisation d'un utilisateur simulé avec un
    comportement naïf

Constats stratégie optimale obtenue /
adaptation au comportement simulé - manque de
richesse dans les stratégies de coordination
Futur Simulateur d'utilisateurs réels ?
comportements plus intéressants
47
Partie 5 Conclusion et perspectives
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
48
Conclusion
5
Rattachement à un mouvement récent utilisant
l'apprentissage par renforcement pour des
applications réelles avec des humains.
  • Aspect stratégie de coordination
  • Apports
  • Possibilité d'apprendre ces stratégies par
    renforcement en utilisant des MDP
  • Réponse aux besoins du plus grand nombre comme du
    particulier avec les profils
  • Limites
  • Observabilité partielle de l'utilisateur au
    travers des perceptions de l'agent
  • Baisse des performances pour des tâches plus
    complexes
  • Aspect modélisation logicielle
  • Apports
  • Passage à une approche "orientée utilisateur"
    pour les services
  • Solution incrémentale

49
Perspectives
5
  • Utiliser d'autres modèles/méthodes probabilistes
  • Apprendre à partir de politiques pré-établies
  • Apprendre en généralisant le modèle (DynaQ,
    Classifieurs)
  • Approche POMDP (Q-learning modifié, Gradient de
    Baxter)
  • Pour résoudre des tâches plus complexes
  • Reformuler l'espace d'états abstrait pour mieux
    guider le processus dans l'espace réel.
  • Décomposition hiérarchique (H-MPD et H-POMDP)
    avec une gestion des dépendances entre les
    attributs
  • Passage à plusieurs sources et aux autres classes
    de services
  • Composition de services (plusieurs coordinateurs)

50
Références
5
  • (Ferber 1995) Ferber J., Les Systèmes
    Multi-Agents. Vers une intelligence collective.
    Interéditions, 1995.
  • (Gelernter et Carriero 1992) Gelernter D. et
    Carriero N., Coordination Languages and Their
    Significance. Communications of the ACM, n35(2),
    pp. 96-107, 1992.
  • (Grislin-LeSturgeon et Peninou 1998) Grislin-Le
    Sturgeon E. et Péninou A., Les interactions
    Homme-SMA réflexions et problématiques de
    conception. Systèmes Multi-Agents de
    l'interaction à la Socialité. Dans JFIADSMA'98,
    Hermès, pp. 133-145, 1998.
  • (Goddeau et al. 1996) Goddeau D., Meng H.,
    Polifroni J., Seneff S., Busayapongchaiy S., A
    Form-Based Dialogue Manager For Spoken Language
    Applications, In Proceedings of ICSLP'96,
    Philadelphia, 1996.
  • (Larousse 1998) Le petit Larousse 1998,
    Larousse-Bordas, 1998.
  • (Russell et Norvig 1995) Russell S. et Norvig P.,
    Artificial Intelligence A Modern Approach, The
    Intelligent Agent Book. Prentice Hall Series in
    Artificial Intelligence, 1995.
  • (Sutton et Barto 1998) R. S. and Barto A. G.
    Reinforcement Learning An Introduction. MIT
    Press Cambridge MA, 1998.
  • (Watkins 1989) Watkins C., Learning from Delayed
    Rewards. PhD Thesis of the King's College,
    University of Cambridge, England, 1989.

51
Merci de votre attention
  • Avez-vous des questions ?

52
Suppléments
53
Utilité et évaluation des services
1
Nombreux indices possibles ? difficile à définir
  • Un choix classique U R - C
  • R Réussite de la tâche accomplie du point de
    vue du concepteur
  • C Coûts d'utilisation des ressources (propres
    ou détenues par des tiers)
  • Notre choix, moins courant, mais plus "orienté"
    vers les services adaptatifs
  • R Réussite de la tâche accomplie du point de
    vue des utilisateurs
  • Problème Comment quantifier la satisfaction de
    l'utilisateur ?
  • Approximation une valeur numérique associée
    actions de l'utilisateur
  • ? Idée que l'agent estime son utilité à partir de
    ses perceptions des autres ...

54
Typologie des Interactions (Ferber 1995)
1
buts incompatibles
Encombrement
Antagonisme
ressources insuffisantes
Interaction
Indifférence
Collaboration simple
Coopération
buts compatibles
Collaboration Coordonnée
capacités individuelles insuffisantes
55
Formalisation et interactions
1
  • Méthodologies et formalismes pour la conception
    de SMA
  • AOP (Kendall et al. 1999)
  • AUML (Odell et al. 1999)
  • GAIA (Wooldridge et al. 2000)
  • MASE (Wood et DeLoach 2000)
  • TROPOS (Giunchiglia, et al. 2002)
  • RIO (Mathieu et al. 2003)
  • ...
  • Langages et protocoles d'interaction
  • Graphes de transition (Winograd et Florès 1986)
  • Langage d'interaction COOL (Barbuceanu et Fox
    1995)
  • Réseaux de Pétri (El Fallah-Seghrouchini et al.
    1995)
  • ...

56
h-SMA Partitions sur l'ensemble des agents
2
Agents contrôlés A C Agents partiellement contrôlés A PC Agents non contrôlés A NC
Agents Logiciels A L Programmes connus Programmes avec lesquels il est possible de communiquer de façon privilégiée Autres agents logiciels
Agents Physiques A P Robots et autres équipements asservis Equipements partiellement asservis et éventuellement des collaborateurs humains spécialistes Autres intervenants humains des utilisateurs le concepteur, etc.
57
Fournir un service
2
Objets ressources
Coordinateur de service
Utilisateurs
Interactions
Agents Fournisseurs
Interactions
construire et réaliser un service utile
satisfaction à maximiser
coûts à minimiser
58
Rôle et comportement typique
2
  • Comportement typique associé à un rôle r dans un
    service sous la forme d'un graphe G (S, G), où
  • S l'ensemble des états s 0 , ... , s n
    possibles du comportement (abstractions des états
    réels des agents qui jouent ces rôles).
  • G transitions du comportement entre deux états
    (perception, action, ...)

Schéma d'interaction Ensemble de graphes de
comportements G i (S i , G i) reliés entre eux
au niveau des états par des liens d'interaction
où une transition a Î G i peut provoquer une
transition b Î G j . Exemple de lien (a, b)
demander de l'aide ? réception d'une demande
59
Planification
2
  • A partir d'un modèle du monde connu
  • structure, lois d'évolution, etc.
  • actions disponibles et leurs effets
  • En fonction
  • d'un état initial (avec connaissance complète,
    certaine ou non)
  • d'un état but (conditions de succès)
  • des contraintes (temps, autres ressources ...)
  • Déterminer un plan a priori (ou en situation)
  • Quelle est la séquence dactions à réaliser pour
    atteindre le but ?
  • Types de planification
  • classique, conditionnelle/probabiliste, réactive,
    sous contraintes, multi-agent, etc.

60
Un environnement complexe
2
  • Critères de Wooldridge
  • Virtuel capteurs / actionneurs logiciels
  • Incomplet vue partielle, locale mais à accès
    global
  • Indéterministe effet des actions non garanti
  • Non épisodique prise en compte de l'historique
  • Très dynamique marchés, bases de données,
    Internet
  • Continu grande latitude d'action

61
Surveillance et correction de service
2
  • Observation du modèle de normalité trajectoires
    de fonctionnements normaux

Modèle de normalité
Trajectoire observée
  • Observation d'un cas particulier

Système de diagnostic
  • Comparaison au modèle

Risques de problème
  • Diagnostic détection danomalies

Réparation
  • Réparation par planification

62
Correction de trajectoire d'un agent
2
Espace de projection des états possibles de
lagent
63
Diagnostic et réparation indirecte
2
Influence
Influence
A1
A2
A3
Observé mais non contrôlé
Observé et contrôlé
Anomalie sur A1 ? Correction sur le comportement
de A2 ou A3 pour ramener A1 dans une bonne
trajectoire
64
Influences et traces de comportements
2
  • Dans un déroulement normal, les différents
    comportements suivis par chaque agent se
    synchronisent.
  • Une action produite par le comportement d'un
    agent peut produire un effet sur le comportement
    d'un autre agent.
  • Lobservation des comportements donne des traces
    de processus, des trajectoires visibles ...
    Utilisables !

65
Utilisation de l'influence pour réparer
2
  • Quand on observe une anomalie sur les agents
    (t-1), on influe par une correction g sur les
    agents contrôlés. L'effet de g se produit sur les
    agent contrôlés (t) qui influent à leur tour sur
    les agents non contrôlés (t1)
  • Pour un utilisateur, les corrections g doivent
    lamener dans un état de satisfaction.

66
Construction progressive de la requête
3
Précision de la requête
Totalement spécifiée
Suffisamment spécifiée
Partiellement spécifiée
Nombre d'Interactions
Totalement inconnue
67
Attributs
3
  • Un attribut At est un triplet ltN, D, Qgt où
  • N est le nom de l'attribut
  • D v 1 ... v k est le domaine des
    valeurs possibles
  • Q est un ensemble de questions qui peuvent être
    posées
  • demander la valeur de l'attribut
  • proposer une valeur pour l'attribut,
  • demander confirmation de la valeur d'attribut.

Exemple d'attribut Nom Départ Domaine Paris,
Londres, Rome, Luxembourg, Berlin, Madrid,
Genève, Bruxelles Questions - Valuation Quelle
est votre ville de départ ? - Proposition
Souhaitez vous partir de ville ? -
Confirmation Êtes vous sûr de vouloir partir de
ville ?
68
Ensemble des Actions
3
Code Conditions Description de l'action Origine des paramètres
askvalue ea s '?' Demander à l'utilisateur la valeur de l'attribut At s. -
propose ea s ¹ 'A' Proposer à l'utilisateur une valeur pour At s. Préférences de l'utilisateur
confirm ea s 'A' Demander à l'utilisateur de confirmer la valeur de At s dans la requête s U. Etat de la requête s U
rqte qr '?' Envoyer la requête s U vers la source d'informations. Etat de la requête s U
select qr '' ou '' si la requête est pleinement contrainte Demander à l'utilisateur la sélection d'une entrée dans la liste des résultats Rep Etat des réponses s I
69
Mise à jour de la représentation
3
  • Comment mettre à jour la représentation des
    interactions selon les réponses des autres agents
    ?
  • Quelles sont les observations possibles ?
  • Mise à jour confiée à la fonction Update (S ? O ?
    Ac ? S)
  • Mise à jour de la requête partielle (au niveau
    d'un attribut At i)
  • Mise à jour des résultats d'une requête

70
Mise à jour de l'état d'affectation d'un attribut
At i
3
(ea i , val i ) t-1 ac t-1 o t (ea i , val i ) t
(A, v) confirm oui (A, v)
(A, v) confirm nsp F
(A, v) confirm non ?
? askvalue v (A, v)
? askvalue nsp F
? propose v oui (A, v)
? propose v nsp F
? propose v non ?
F propose v oui (A, v)
F propose v nsp F
F propose v non F
71
Observations possibles pour le coordinateur
3
Observation Origine Action contexte Interprétation de l'observation
une valeur utilisateur askvalue Valeur d'attribut valide donnée par l'utilisateur
oui utilisateur propose, confirm Réponse positive de l'utilisateur à une demande simple
non utilisateur propose, confirm Réponse négative de l'utilisateur à une demande simple
une table source d'informations rqte Résultats donnés par la source d'informations
un numéro utilisateur select L'utilisateur a sélectionné une proposition
refus utilisateur select L'utilisateur a refusé une proposition
stop utilisateur askvalue, propose, confirm, select Arrêt par l'utilisateur (déconnexion)
nsp utilisateur askvalue, propose, confirm, select L'utilisateur indique qu'il ne sait pas répondre
aberrant utilisateur askvalue, propose, confirm, select Observation aberrante ou inattendue (ignorée)
72
Treillis d'états abstraits S avec deux attributs
3
73
Une trace dans l'espace d'états abstraits
3
ltA, ? ?gt ltA, ?, 0gt ltA, ? gt ltA, ? gt
ltA, A ?gt ltA, A, 0gt ltA, A gt ltA, A gt
ltF, ? ?gt ltF, ?, 0gt ltF, ? gt ltF, ? gt
ltF, A ?gt ltF, A, 0gt ltF, A gt ltF, A gt
lt?, ? ?gt lt?, ? 0gt lt?, ? gt lt?, ? gt
lt?, A ?gt lt?, A, 0gt lt?, A gt lt?, A gt
ltA, F ?gt ltA, F, 0gt ltA, F gt ltA, F gt
lt?, F ?gt lt?, F, 0gt lt?, F gt lt?, F gt
ltF, F ?gt ltF, F, 0gt ltF, F gt ltF, F gt
74
Q-Learning (Watkins 1989)
3
  • Méthode d'Apprentissage par Renforcement
  • Peut être utilisé "en ligne"

75
Q-Learning Algorithme général
3
4. On recommence au premier point.
76
Sélection des actions
3
  • L'algorithme du Q-Learning n'impose pas de façon
    pour choisir les actions à effectuer.
  • Besoin d'un compromis Exploitation / Exploration
  • ? Fonction de sélection de type Boltzmann

Exemple pour un état s donné
Q(a 0) Q(a 1) Q(a 2) Q(a 3)
5 -1 -4 3
77
Profils des utilisateurs
3
  • Utilisateurs
  • occasionnels ? satisfaire le plus grand nombre
    (profil moyen)
  • fréquents ? gestion de profils individuels
    spécialisés
  • Profil
  • Comportement adapté pour le service
  • Modélisation des préférences

78
Fonctions
3
  • Génération des récompenses Reward S ? O ? Ac ?
    IR
  • Mise à jour de la représentation Update S ? O
    ? Ac ? S
  • Abstraction de la représentation Abstract S ?
    S
  • Apprentissage et décision Q-Learning S ? IR ?
    A
  • Spécialisation de l'action Specif A ? S ?
    Prof ? Ac
  • Gestion des préférences Prefere Prof ? S ?
    Prof

79
Architecture Fonctionnelle du Coordinateur
3
Q-Learning
a t
r t
s t
MDP
Abstract
tt1
tt1
profil t
Prefere
Reward
Specif
s t
ac t
tt1
Update
Environnement
o t
80
Architecture Agent d'UniMédia
4
Service
Source d'informations
Modélisation des services
Client
Coordinateur
Modélisation des agents
Agent
Modélisation des ressources
Ressource
Synthèse vocale
Reco vocale
Media
81
Le niveau média
4
  • Les canaux médias
  • Vus comme des vecteurs de linformation
  • Caractéristiques variées
  • mode de transmission,
  • topologie,
  • adressage,
  • délais de transmission ...
  • ? Besoin de saffranchir de leur spécificité

Hypothèse Ils offrent des "prises" sur
lesquelles les ressources peuvent se positionner
82
Le niveau ressource
4
Définition Dispositif matériel, une partie
logicielle ou corporelle utilisé par lagent pour
réaliser sa tâche de façon interne ou externe
dans lenvironnement multimédia (au travers des
prises et des canaux)
  • Exemple
  • Les capteurs et effecteurs de l'agent,
  • Des outils de traitement dinformation.
  • Proposition d'utiliser des Modèles de Ressource
  • Abstraction des fonctionnalités (opérateurs
    conditions ? actions)
  • Description des caractéristiques
  • Moyens d'accès à la ressource (identification,
    authentification ...)
  • Moyens de contrôle de la ressource (protocoles /
    langages utilisés)
  • Capacité, Coût dutilisation, Disponibilité,
    Sécurité, confiance, Fiabilité, robustesse, etc.

83
Descripteurs de ressources XML
4
  • RESSOURCE
  • MEDIA
  • TYPE
  • PROTOCOL
  • OPLIST
  • OPERATOR
  • OPNAME
  • PRECOND
  • EFFECT

84
Treillis d'opérateurs
4
Opérateur universel
Descripteur de ressource
Opérateur abstrait
Opérateur abstrait
Opérateur réel
Opérateur réel
Opérateur réel
classification
Opérateur absurde
85
Le niveau agent
4
  • Agents intelligents réactifs
  • De nature hétérogène
  • Humains (clients, télé-opérateurs ...)
  • Logiciels (Agent SGBD, Web ...)
  • Contrôlés
  • Partiellement contrôlés (comme des applications
    tiers)
  • Qui jouent un rôle donné dans le service dont le
    comportement peut être défini à partir
  • De buts et de contraintes assignés
  • Dun modèle à priori, enrichi dobservations

86
Le niveau service
4
Rôle R1
Rôle R2
Rôle R3
  • Représentation par les graphes de service
    Schémas dinteraction mettant en œuvre les rôles
    des agents
  • Vision globale du service

87
Implantation du coordinateur
4
Corps d'agent SmallMu
Base de données
Utilisateur
88
Quantité de code Maquette SmallMu et Prototype
de Coordinateur
4
  • Représente environs 12 000 lignes de code en
    langage Java

SmallMu (Noyau) 2100
SmallMu (Ressources) 3000
Bibliothèques Cartographie et Représentation 3270
Bibliothèques Probabilités et Apprentissage par Renforcement 1730
Modules du Coordinateur 2260
89
Résultats d'apprentissage 3-5 attributs(Somme
des récompenses / 1000 itérations)
4
  • 3 attributs Forme exponentielle classique
  • 4 attributs Croissance et maximum moins marqués
  • 5 attributs Dégradation des performances

90
Démonstration 3 attributs
4
91
Démonstration 5 attributs
4
92
Apprentissage par Renforcement
3
  • Jusqu'à présent Apprentissage par renforcement
  • Optimisation
  • Robotique mobile
  • Application à des cas abstraits
  • Mouvement récent
  • utilisation dans le cas d'applications réelles
    avec l'intervention d'humains (Singh al. 2002)

93
Intégration à Unimédia - 1
5
  • Agents A C ? Applications (scripts)
  • Agents A PC ? Applications Tiers
  • Agents A NC ? Utilisateurs
  • Ressources ? Pilotes et Moteurs
  • Opérateurs ? Modèles

94
Intégration à Unimédia - 2
5
  • Agent ? Unimédia "Light"
  • Communication inter-agent / médias
  • Besoins langage, connaissances communes

95
Société d'agents média
5
Agent A
SmallMu A
Agent C
Pilote 3A
SmallMu C
Pilote 1C
Pilote 1A
Pilote 2A
Pilote 2C
Agent D
Agent B
Pilote 2D
Pilote B1
SmallMu B
Pilote B2
SmallMu D
Pilote 1D
96
Références additionnelles
5
  • (Barbuceanu et Fox 1995) Barbuceanu M. et Fox M.
    S., COOL A language for describing coordination
    in multiagent systems. In Proceedings of
    ICMAS'95, 1995.
  • (Chalupsky et al. 1992) Chalupsky H., Finin T.,
    Fritzson R., McKay D., Shapiro S. et Wiederhold
    G., An overview of KQML A knowledge query and
    manipulation language. TR, KQML Advisory Group,
    April 1992.
  • (El Fallah-Seghrouchini et al. 1999) El
    Fallah-Seghrouchini A., Haddad S. et Mazouzi H.,
    A Formal study of interaction in Multi-Agent
    Systems, In Proceedings of CATA'99, Cancun,
    Mexique, 1999.
  • (Levin et al. 1998) Levin E, Pieraccini R. and
    Eckert W. Using Markov Decision Process for
    Learning Dialogue Strategies. In Proceedings of
    ICASSP'98, Seattle, USA, 1998.
  • (Mathieu et al. 2003) Mathieu P., Routier J.-C.
    et Secq Y., RIO Rôles, Interactions et
    Organisations. Dans MFI'03. Lille, mai, 2003.
  • (Odell et al. 1999) Odell J., Parunak H. V. D.,
    et Bauer B., Extending UML for Agents, In
    Proceedings of the AOIS Workshop of AAAI 2000,
    pp. 3-17, Austin, Texas, 2000.
  • (Levin et al. 1998) Levin E, Pieraccini R. and
    Eckert W. Using Markov Decision Process for
    Learning Dialogue Strategies. In Proceedings of
    ICASSP'98, Seattle, USA, 1998.
  • (Mathieu et al. 2003) Mathieu P., Routier J.-C.
    et Secq Y., RIO Rôles, Interactions et
    Organisations. Dans MFI'03. Lille, mai, 2003.
  • (Odell et al. 1999) Odell J., Parunak H. V. D.,
    et Bauer B., Extending UML for Agents, In
    Proceedings of the AOIS Workshop of AAAI 2000,
    pp. 3-17, Austin, Texas, 2000.
  • (Singh et al. 2002) Singh S., Litman D., Kearns
    M. et Walker M., Optimizing dialogue management
    with Reinforcement Learning Experiments with the
    NJFun System. In JAIR, Vol. 16, pp. 105-133,
    2002.
  • (Winograd et Florès 1986) Winograd T. et Florès
    F., Understanding computers and cognition A new
    foundation for design. Ablex Publishing Corp,
    Norwood, New Jersey, 1986
  • (Young 1999) Young S., Probabilistic Methods in
    Spoken Dialog Systems. In Royal Society, London,
    September 1999.

97
Coupures
  • plus largement
  • e-services (Hewlett Packard),
  • Web services, etc.

Fonction de comportement Situation ? Action
  • (commun à tous les agents jouant le même rôle)
Write a Comment
User Comments (0)
About PowerShow.com