Spraaksignaalverwerking - PowerPoint PPT Presentation

1 / 18
About This Presentation
Title:

Spraaksignaalverwerking

Description:

... oscillogram spraaksignaalanalyse op IFA ontwikkeld vrij software pakket praat downloadable voor 6 verschillende platforms zie http:/www.fon.hum.uva.nl ... – PowerPoint PPT presentation

Number of Views:32
Avg rating:3.0/5.0
Slides: 19
Provided by: Louis128
Category:

less

Transcript and Presenter's Notes

Title: Spraaksignaalverwerking


1
Spraaksignaalverwerking
  • Louis C.W. Pols
  • Institute of Phonetic Sciences (IFA)
  • Amsterdam Center for Language and Communication
    (ACLC)
  • Universiteit van Amsterdam

TNO-FEL Signaalverwerkingscolloquium, Den Haag 10
okt. 2002
2
overzicht
  • spraak is een
  • akoestisch signaal (pitch, duur, luidheid,
    timbre, richting)
  • met een talige, emotionele, en communicatieve
    functie
  • geproduceerd door sprekers t.b.v. luisteraars,
    (daarnaast mens-machine communicatie)
  • spectro-temporele analyse (m.b.v. praat)
  • bron-filtermodel
  • oscillogram, spectrogram, spectrum, pitch contour
  • spraakcodering, -synthese, en -herkenning
    sprekerherkenning/verificatie taalherkenning
    multimedia multiling. dialoog informatie
    extractie

3
spraak heeft vele facetten
  • betekenisvol geluid, maar vaak slordige uitspraak
  • talige structuur, maar vaak grammaticaal slordig
  • prosodie (zinsmelodie) i.p.v. leestekens
    spreektempo
  • man, vrouw, kind
  • pathologische spraak (slissen, schizis, afasie)
  • blij, bedroefd, boos, autoritair, overtuigend
  • ABN, Zeeuw of Tukker, Poldernederlands
    allochtoon
  • over telefoon, in galmende ruimte, andere
    sprekers
  • ondersteunende modaliteiten gebarentaal

4
elkaar verstaan is een wonder
  • kleuters leren (iedere!) moedertaal zeer snel
  • toch verschillen M/K spraaksignalen heel erg
  • spraaksignaal vaak erg verstoord
  • door slordige uitspraak (koninklijke -gt koleke)
  • door omgevingslawaai en nagalm
  • door andere sprekers
  • kennis taal verwachting heel belangrijk
  • spraaktechnologie is daarom zo complex

5
spraak als akoestisch signaal
  • duur, toonhoogte, luidheid, timbre, richting
  • (temporeel) dynamisch, (spectraal) complex
  • stemhebbend (periodiek)/stemloos (ruisig)
  • omhullende van (harmonisch) spectrum
  • energiemaxima in het spectrum formanten
  • woordklemtoon (luidheid, duur, klankreductie)
  • zinsaccent (pitchbeweging)
  • frasering (verlenging, Fo-beweging, pauze)

6
spraak als gesproken taal
  • voldoet min of meer aan talige regels
  • fonotactische restricties (Ned. geen mb)
  • grammaticale restricties (woordvolgorde)
  • taalspecifieke eigenschappen (Ned. /x/)
  • communicatieve gewoontes (hmm)
  • groepscodes (dat is cool)
  • prosodie (i.p.v. leestekens en tekstopmaak)
  • incl. spreekstijl en emotie

7
spreker en luisteraar
  • menselijke spraakkanaal
  • pitch range (sopraan ca. 700 Hz, kind tot 1000
    Hz)
  • beperkte articulatie
  • spraak meestal alleen bij uitademen
  • menselijk oor
  • spectrale en temporele resolutie (drempel, jnd)
  • gemeenschappelijke kennis
  • taal omgeving, context wereld
  • slordig spreken vs. behoefte luisteraar

8
spectro-temporele analyse
  • bandfilteranalyse (perifere gehoororgaan)
  • FFT, poles, zeroes, formanten
  • LPC
  • MFCC
  • step size (1-20 ms), window size (ca. 25 ms)
  • delta, delta-delta
  • foneem/woordmodellen concatenative units

9
bron-filtermodel
  • bron stembanden (open, trillend, of dicht)
  • filter keel/mond/neuskanaal
  • bron en filter meestal onafh. verondersteld
  • daarop zijn de meeste spectro-temporele analyses
    en syntheses gebaseerd
  • meeste spraakherkenners negeren intonatie
  • en interpreteren alle signaalvariatie via veel
    trainingsdata (veel sprekers, veel stijlen,
    wel/geen omgevingslawaai, e.d.)

10
oscillogram
11
oscillogram woordsegmentatie foneemsegmentatie
spectrogram formantcontouren
pitch contour
12
spraaksignaalanalyse
  • op IFA ontwikkeld vrij software pakket praat
  • downloadable voor 6 verschillende platforms
  • zie http/www.fon.hum.uva.nl/praat
  • uitstekende grafische output scriptable
  • enkele voorbeelden
  • spectrogram spectrum
  • pitch contour (re-iterante spraak)
  • golfvormmanipulaties b.v. 50 ms tijdsconversie
    of duur en pitch manipulaties via PSOLA
  • MFCC analyse DTW

13
spraaktechnologie
  • spraakanalyse
  • spraakcodering, speech enhancement
  • tekst-naar-spraak synthese (TTS)
  • autom. spraakherkenning/verstaan (ASR/SUS)
  • sprekerherkenning/verificatie taalherkenning
  • dialoogsystemen informatie extractie
  • keyword spotting
  • spraak-naar-spraak vertalen

14
spraaksynthese
  • Fluent Dutch tekst-naar-spraak (Ned.)
  • tekst in -gt spraak uit
  • grafeem/foneemconversie via lexicon/regels
  • woordklemtoon via duurmanipulaties
  • zinsaccent (op ieder inhoudswoord) via
    toonhoogtebewegingen
  • klankgeneratie via difoonconcatenatie
  • behoefte aan grotere natuurlijkheid

15
spraaktechnolog. applicaties
  • hands eyes busy
  • command control
  • b.v. mobile phone voice and name dialing
  • dialoogsystemen (meestal over telefoon)
  • informatie verstrekken (koersen, openb. vervoer)
  • bestellingen doen (pizzas e.d.)
  • meertalige informatiekiosk (toerisme, vervoer)
  • phonetic typewriter dicteermachine
  • rapportage (b.v. radiologen in ziekenhuis)

16
NWO programma IMIX
  • Interactieve Multimodale Informatie Extractie
  • intelligent agent mixed initiatives
  • beoogde begroting 4,5 M (NWO 2,1 M )
  • beoogde call for proposals oct. 2002
  • voortbouwend op Prior. progr. TST (95-00)
  • Automatische spraakherkenning Natuurlijke
    Taalverwerking Taalgeneratie Spraak-synthese
    Dialoog Management Multi-modaliteit Structuur
    in ongestructureerde informatie Systeemintegratie

17
CGN en IFA-corpus
  • Corpus Gespr. Ned. (http//lands.let.kun.nl/cgn/)
  • Ned.-Vlaams project, start juni 1998, 5 jaar,
    10MÆ’
  • 10M woorden, 1000u spraak, diverse stijlen
  • voor 10M orthografie, lemmas, POS, word alignm.
  • voor 1M fonetische en syntactische annotatie
  • voor 250k prosodische annotatie
  • IFA corpus (http//www.fon.hum.uva.nl/IFAcorpus)
  • 4 m en 4 vr., gt30 min. spraak per spreker
  • tevens diverse spreekstijlen per spreker
  • alle materiaal fonetisch gesegmenteerd gelabeld
  • vrije toegang via SQL vraagtaal

18
foneem/woord/taalmodel ASR
Write a Comment
User Comments (0)
About PowerShow.com