Maschinelle Sprachsignalverarbeitung

Dozent

Assistentinnen

Termin und Hörsaal

  • Freitag, 11.30 - 14.45 Uhr, jeweils im Sommersemester
  • Seminarraum 0999
  • Beginn am 11.04.2014

Übersicht

  • 4 SWS Vorlesung

Kurzfassung des Vorlesungsinhalts

  • Grundlagen der digitalen Signalverarbeitung: Abtastung, Transformation.
  • Grundstrukturen digitaler Filter.
  • Menschliche Sprachsignalerzeugung: Modelle von Anregung und Vokaltrakt.
  • Parameterextraktion: Stimmhaftigkeit, Grundfrequenz, Formanten und Antiformanten, Lineare Prädiktion (LPC), Cepstrum.
  • Parametrische Sprachübertragung, Vocoder (z.B. GSM).
  • Grundlagen der Mustererkennung: Lineare Entscheidungsfunktionen, Polynomklassifikatoren, Abstands-Klassifikatoren, Nächster-Nachbar-Regel, Bayes'scher Klassifikator, dynamische Programmierung, Hidden-Markov-Modelle.
  • Lernverfahren: Schätzungen von Kovarianzmatrizen, Perceptron, Gradientenverfahren.
  • Merkmalsreduktion: Hauptkomponentenanalyse, Karhunen-Loève-Entwicklung (KL), generalisierte KL-Entwicklung.
  • Abschätzung der Fehlerwahrscheinlichkeit.
  • Nichtüberwachtes Lernen, Verfahren der Clusteranalyse, Minimalbaum.
  • Anwendung Spracherkennung: Ganzworterkennung, Verarbeitung fließender Sprache, Strahlsuche, Sprecheradaption, Clusteranalyse.

Folgende Literatur wird empfohlen:

  • B. Schuller: Intelligent Audio Analysis, Springer, 2013.
  • K. Kroschel, G. Rigoll, B. Schuller: Statistische Informationstechnik: Signal- und Mustererkennung, Parameter- und Signalschätzung, 5. Auflage, Springer, 2011.
  • P. Vary, U. Heute, W. Hess: Digitale Sprachsignalverarbeitung, Teubner Verlag, 1998.
  • E. G. Schukat-Talamazzini: Automatische Spracherkennung, Vieweg Verlag, 1995.
  • B. Gold, N. Morgan, D. Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, 2nd Edition, Wiley, 2011.

Prüfung

  • Zeit: nach Absprache
  • Ort: Zimmer N0128 (Gebäude N1)
  • Art: mündlich (30 min.)
  • Anmeldung: Über TUM-Online und in der Vorlesung.

up