Title: Multimodale Systeme
1- Multimodale Systeme
- Joulavskaia Natalie
- Nikoulina Irina
2Gliederung
- Motivation
- Begriffsdefinitionen
- Eingabegeräte
- Geschichteüberblick
- Frühere multimodale Systeme
- Entwicklung des Eingabesystems
- VIENA offene Eingabe
- CARE Konzept
- CARE und VIENA
- VIENA/MEA
- Multimodale Systeme/Ansätze
3Motivation
Definitionen
- Modalität (oder Modus)
- Multimodalität
- Multimodale Systeme
- Multimodales Parsing/ Multimodales Generierung
4Motivation
Eingabegeräte
- Erfassung von Gesten
- - video-basiert
- - basiert auf Sensoren
- Erfassung von Blickrichtungen
- - Eyertracker
- Erfassung von der Sprache
- - Mikrophon
- - Tastatur
5Motivation
Geschichteüberblick
1970 1984 1986 1991 1993 1993 1994 1995 SCHOLAR Tutorsystem Südafrika Put-That-There XTRA Interface, Steuerformularhilfe CUBRICON Militärisch, Karten AIMI Militärisches Interface ALFresco Bilder, Hypertext, NLP Edward Sinn Zweck von M4K GEORAL Touristik, Karte
6Frühere multimodale Systeme
Merkmale
- Frühere Systeme für Sprache Gestik
- - SCHOLAR (Corbonell 70)
- - Put-That-There (Bolt 80)
- - XTRA (Allgayer et. Al. 1989)
- - CUBRICON (Neal/Shapiro 91)
- Merkmale
- - die Integration von Gesten erfolgt durch
das Auftreten von sprachlichen
Referenzausdrücken - - kein allgemeiner wohldefinierter
multimodaler Integrationsmechanismus - - Beschränkung auf Zeigegesten
7Frühere multimodale Systeme
Wie hat sich das Eingabesystem entwickelt?
- 1. Sequentielle Analyse/
- Zusammenführung von Sprach- und
Gesteneingaben - Put-That-There System (Bolt, 1980)
CUBRICON (Neal Skapira, 1991) - Parallele Verarbeitung
- (Koors, Sparrell Thorisson, 1993 Bos,
Huls Claasen, 1994 Nigay Coutaz, 1995) - Offene Eingabe wurde von den früheren Ansätzen
nicht benutzt/ - keine Auflösung von Redundanzen und
Inkonsistenzen
8VIENA -Virtuelle Entwurfsumgebung und
Agenten(WachsmuthCao, 1995)
VIENA
- Sprachlich-gestische interaktive Manipulation
eines 3-d virtuellen Büroraums
9VIENA
- Manipulierbarer virtueller Raum im VIENA-Projekt
10VIENA offene Eingabe
Eingabearchitektur von VIENA
11VIENA offene Eingabe
Ziel der MEA
- Ziel der multimodalen Eingabearchitektur
- Entwicklung eines allgemeinen Verfahrens zur
Integration Benutzereingaben
12CARE
Beschreibung
- CARE-Konzept Entwicklung und Bewertung von den
Aspekten der multimodalen Interaktion - - CARE wurde entwickelt ca. 1995 von Coutaz/
Nigay/ - Salber am IMAG, Frankreich
- - Besteht aus einem theoretischen Framework
und einer formalen Schreibweise - - Bezieht sich auf Ein- und Ausgabe
- - Beschreibt Relationen zwischen Modalitäten
- Die CARE-Properties
- 1. Komplementarität
(Complementary) - 2. Zuweisung
(Assignment) - 3. Redundanz
(Redundancy) - 4. Äquivalenz
(Equivalence)
13CARE
Formale Schreibweise
äquivalente Modalitäten bezüglich eines
Zielzustandes
14CARE
Beispiele
-
- - Welche Eigenschaft dient welchem Ziel?
- Beispiele
- - schnelle Integration durch Äquivalenz
- ( Tastatur lt-gt Sprache)
- - intuitive Bedienung durch Redundanz
- - VIENA analysiert mit den CARE-Properties
15CARE
Grafische Notation
16CARE
Die von MEA-unterstützten Eigenschaften(Beispiele)
17CARE
CARE Integrationsverfahren
18Universität Bielefeld AG Wissensbasierte Systeme
(WachsmuthFröhlich)
- Forschungsfokus Gestenerkennung für
Mensch-Maschine-Schnittstellen - - multimodale Integration
von Gestik und Sprache - Problem zeitliche Kopplung der Modalitäten
- Verzögerungen bei der
Vorverarbeitung zeitlich gestreut - rhythmische Natur menschlicher Kommunikation
- neuartige Methode zur Konzeption eines MES
- Basis zeitgetaktete Multiagentensystem mit
Integration der - Sensordaten in einer multimodaler
EDS
19VIENA
- Gesteneingabe Nintendo-Datenhandschuh
- Spracheingabe Mikrofon
- Dragon Dictate (Version 1.2b) Spracherkenner
20VIENA
- Instruktionen werden mit gesprochener Sprache
eingegeben und durch Zeigegesten ergänzt
21VIENA
- put ltGestegt this computer on ltGestegt that
table - Zeigegeste werden durch Handschuhzeigen auf
Objekte oder Positionen eingegeben
22VIENA / MEA
- Realisierung der Aufnahme und Verarbeitung
der - Eingabeinformationen durch multiple
Software-Agenten -
- Agent autonomer Berechnungsprozess
- Agentur
23Agentensystem
- sense-compute-act-Zyklus
- sense Aufnahme von Nachrichtendaten
- compute Berechnung der jeweiligen
- Funktion
- act Senden technischer Kommandos
- Das Verarbeitungsmodell von
Agentensystemen - ist ereignisgetrieben
24Architektur der VIENA-System
VIENA / Architektur
25Architektur / MEA
- multimodale Eingabe-Agentur
- listener (speech, type, gesture)
- Parser
- Koordinator
26Integrationsprobleme
- Probleme bei der Koordinieren und Integrieren
der perzipierten Sprach- und Gesteneingaben - Segmentierungsproblem
- Wie sind die Prozesseinheiten zu
determinieren, die das System in einem Zyklus
verarbeitet? - Korrespondenzproblem
- Wie sind die Querbezüge zwischen den
Modalitäten zu determinieren?
27Segmentierung
Segmentierung
- 3-Zustands-Rhythmus-Modell
- (swing-subside-wait)
28Segmentierung
- Segmentierungsprozess 4 Schritte
- sense registriert Nachrichten von listener-
Agenten - buffer extrahiert und akkumuliert sie in EDS
- compute interpretiert in EDS akkumulierten
Daten - act bestimmt Agenten und übergibt die Aufgaben
an sie - Sense und buffer im Wechsel bis der Zeitzyklus
abgeschlossen ist - Compute und act am Ende jeden Zeitzyklus
29Korrespondenz
- Korrespondenz
- compute Auflösung der Korrespondenzen zwischen
verbaler und gestischer Information in der EDS
und eine Gesamtaufgabenbeschreibung - 2 Fälle
- Zeitzyklus-interne Interpretation
- Zeitzyklusüberspannende Interpretation
- separate Analyse der Sprach- und Gestenmodalität
- Berechnung wahrscheinlichsten Korrespondenzen
- Überprüfung der resultierenden Repräsentation auf
Vollständigkeit
30Integration
- Tatsächliche multimodale Integration
Herstellung der Korrespondenzen zwischen
Gestenperzepten und Gestenplätzen innerhalb des 2
sek. Intervals - Gestenplatz zeitgestempelter
Informationsplatzhalter, die Spracheingabe
ergänzen - bilden Ankerpunkte für den Aufbau von
Querreferenzen zw. Sprach- und Gestikereignissen - zwei Gestenplätze ein Gestenperzept
- die Auflösung durch zeitliche Nähe und den
Vergleich der Ambiguitätswerten -
31Kfz-Bordsystem
- Multimodale Benutzung adaptiver Kfz-Bordsysteme
- zunehmende Komplexität moderner Kfz-Bordsysteme
- Bedarf an verbesserten MMS
- Komplexität der Bordsysteme verbergen
- einfache und intuitive Bedingung
ermöglichen
32Kfz-Bordsystem
- Inhalt des Handbuchs in multimedialer Form
präsentiert - Abfragen von Nachrichten unterschiedlicher Art
- die Funktionen des Bordsystems sollen mittels
Sprache , Gestik und mechanischem Bedienelement
angesprochen werden können
33Kfz-Bordsystem
- Statische Einhand-Gesten
- Ausführung horizontal über den Mittelkonsole
34Multimodale Systeme/ Ansätze