Machine Intelligence & Signal Processing

MISP

Wir erforschen und entwickeln moderne Verfahren der maschinellen Intelligenz im Zusammenhang mit innovativen Methoden der Signalverarbeitung. Anwendungen im Kontext der Mensch-Maschine-Kommunikation und multimedialen Suche finden sich u.A. im Bereich der intelligenten Verarbeitung von Sprach-, Text-, Musik-, Video- und physiologischen Daten.

Forschungsbereiche

  • Maschinelles Lernen
  • Audio- und audiovisuelle Signalverarbeitung
  • Mensch-Maschine Interaktion
  • Affective Computing
  • Automatische Spracherkennung
  • Music Information Retrieval

Forschungsprojekte

 

ASC-INCLUSION: Integrated Internet-Based Environment for Social Inclusion of Children with Autism Spectrum Conditions
EU FP7 STREP
Laufzeit: 01.11.2011 - 31.10.2014
Partner: University of Cambridge, Bar Ilan University, Compedia,
                University of Genoa, Karolinska Institutet, Autism Europe, TUM

Autism Spectrum Conditions (ASC, frequently defined as ASD - Autism Spectrum Disorders) are neurodevelopmental conditions, characterized by social communication difficulties and restricted and repetitive behaviour patterns. Current studies suggest 1% of the population might fit an ASC diagnosis. Alongside their difficulties individuals with ASC tend to have intact and sometimes superior abilities to comprehend and manipulate closed, rule-based, predictable systems, such as computerized environment. Their affinity for the computerized environment has led to several attempts to teach emotion recognition and expression, and social problem solving to individuals with ASC, using computer-based training.

In the last decade, web applications have been increasingly used for social interaction, forming online communities and social networks. Anecdotal reports of the emergence of online autistic communities, and the use of forums and virtual-worlds, show the great promise the internet holds for better inclusion and social skills training for users/people with ASC. Since intervention into ASC has been shown to be more effective when provided early in life, using the internet as a platform for the support of younger individuals with ASC could significantly promote their social inclusion.
The project aims to create and evaluate the effectiveness of such an internet-based platform, directed for children with ASC (and other groups like ADHD and socially-neglected children) and those interested in their inclusion. This platform will combine several state-of-the art technologies in one comprehensive virtual world, including analysis of users’ gestures, facial and vocal expressions using standard microphone and webcam, training through games, text communication with peers and smart agents, animation, video and audio clips. User’s environment will be personalized, according to individual profile & sensory requirements, as well as motivational. Carers will be offered their own supportive environment, including professional information, reports of child’s progress and use of the system and forums for parents and therapists.


U-STAR: Universal Speech Translation Advanced ResearchAcademic Cooperation
Laufzeit: 01.06.2012 - 31.03.2013


The Universal Speech Translation Advanced Research Consortium (U-STAR) is an international research collaboration entity formed to develop a network-based speech-to-speech translation (S2ST) with the aim of breaking language barriers around the world and to implement vocal communication between different languages.

GLASS: Generic Live Audio Source SeparationIndustry
Cooperation with HUAWEI TECHNOLOGIES within the HUAWEI Innovative Research Program (HIRP)
Laufzeit: 01.01.2011 - 31.12.2013

GLASS finds new ways of separating audio sources, e.g., for crystal clear speech communication, by machine intelligence and advanced separation algorithms.


Kontextsensitive automatische Erkennung spontaner Sprache mit BLSTM-Netzwerken

Gefördert von der DFG.
Laufzeit: 01.03.2011 - 28.02.2014

Trotz zahlreicher Fortschritte im Bereich der automatischen Spracherkennung ist die Erkennungsleistung und Robustheit heutiger Spracherkennungssysteme nicht ausreichend, um als Grundlage für natürliche, spontansprachliche Mensch-Maschine-Interaktion zu dienen. Ziel des Forschungsvorhabens ist es deshalb, die Genauigkeit von Systemen zur Erkennung natürlicher, fließender Sprache mittels neuartiger Mustererkennungsmethoden zu verbessern. Da die Effizienz der menschlichen Spracherkennung vor allem auf der intelligenten Auswertung von Langzeit-Kontextinformation beruht, sollen dabei Ansätze zur Berücksichtigung von Kontext auf Merkmalsebene verfolgt werden. Ausgehend von sogenannten Tandem-Spracherkennern, bei denen neuronale Netze zur Phonemprädiktion in Kombination mit dynamischen Klassifikatoren verwendet werden, sollen hierzu bidirektionale Long Short-Term Memory (BLSTM) Netzwerke eingesetzt werden. Im Gegensatz zu derzeit in Tandem- Systemen verwendeten Phonemschätzern erlaubt es das BLSTM-Prinzip, ein optimales Maß an Kontextinformation bei der Prädiktion miteinzubeziehen. Da jüngste Erfolge im Bereich der kontextsensitiven Phonemerkennung und Schlüsselwortdetektion die Effektivität des BLSTM-Ansatzes unterstreichen, ist eine entsprechende Weiterentwicklung kontinuierlicher Spracherkennungssysteme äußerst vielversprechend.


Nichtnegative Matrix-Faktorisierung zur störrobusten Merkmalsextraktion in der Sprachverarbeitung

Gefördert von der DFG.
Laufzeit: 01.06.2010 - 31.05.2013

Hauptziel des Forschungsvorhabens ist, die Erkennung von Sprach- und Musiksignalen störrobuster zu gestalten. Besonderes Kennzeichen ist die Integration von Merkmalen, die auf Nichtnegativer Matrix-Faktorisierung (NMF) basieren. NMF – ein Verfahren zur Datenreduktion – erfreut sich in der Signalverarbeitung jüngst zunehmender Popularität. Dabei wird meist ein Spektrogramm in zwei Faktoren zerlegt. Der erste enthält eine spektrale ‘Basis’ des Signals, der zweite die Aktivität der Basisvektoren über die Zeit. In diesem Forschungsvorhaben werden aus dem zweiten Faktor Merkmale gewonnen, die bestehende Architekturen zur Sprach- und Musikverarbeitung ergänzen können. Erste durchgeführte Experimente zur NMF-Merkmalsextraktion für die störrobuste Erkennung gesprochener Buchstabensequenzen im Fahrzeug haben sich dabei konventionellen Verfahren als signifikant überlegen und äußerst vielversprechend erwiesen. Das dabei verwendete Verfahren soll im Rahmen des Projekts durch Weiterentwicklung der NMF verbessert werden und insbesondere für den Einsatz in echtzeitfähigen Spracherkennungssystemen, auch für fließende Sprache, vorbereitet werden. Schließlich sollen die beschriebenen NMF-Merkmale in weiteren Anwendungsfeldern wie Emotionserkennung, Erkennung von nichtlinguistischer Vokalisierung wie Lachen oder Husten in Sprache und Akkorderkennung mit dem Ziel der Steigerung aktueller Erkennungsgüte und der Störrobustheit eingesetzt werden.

hoch

SEMAINE: Sustained Emotionally coloured Machine-humane Interaction using Nonverbal Expression
EU FP7 STREP
Laufzeit: 01.01.2008 - 31.12.2010
Partner: DfKI, Queens University Belfast (QUB), Imperial College of Science,
                Technology and Medicine London, University Twente, University
                Paris VIII, CNRS-ENST, TUM

SEMAINE deals with real-time, robust, non-verbally competent conversations between a conversational agent and a human user.

TCVC: Talking Car and Virtual Companion
Industrie Kooperation mit der Continental Automotive GmbH
Laufzeit: 01.06.2008 - 30.11.2008

TCVC provides an expertise on emotion in the car with respect to a requirement analysis, potential and near-future use-cases, technology assessment and a user acceptance study.

ICRI: In-Car Real Internet
Industrie Kooperation mit der Continental Automotive GmbH
Laufzeit: 01.06.2008 - 30.11.2008

ICRI aims at benchmarking of internet browsers on embedded platforms as well as at development of an integrated multimodal demonstrator for internet in the car. Investigated modalities contain hand-writing and touch-gestures and natural speech apart from conventional GUI interaction. The focus lies on MMI development with an embedded realisation.

hoch

Personen

  Prof. Dr.-Ing. habil. Björn Schuller  

  • Erik Marchi, MSc (Doktorarbeit, seit 12/2011): Speech Analysis and Feedback for Voice Coaching
  • Jun Deng, MSc (Doktorarbeit, seit 08/2011): Semi-Supervised Learning in the Analysis of Continuous Speaker Emotion and Personality
  • Dipl.-Ing. Raymond Brückner (externe Doktorarbeit mit SVOX/NUANCE, seit 06/2011): Automatic Speech Recognition with Deep Hierarchical Networks
  • Zixing Zhang, PhD (Novel Approaches for Large Vocabulary Continuous Speech Recognition)
  • Dr. Felix Weninger (Multi-Source Recognition in Speech and Music)
  • Dr. Florian Eyben (Acoustic features and on-line classification for paralinguistic speech and music retrieval tasks)
  • Dr. Martin Wöllmer (Doktorarbeit, 01/2008 - 08/2012): Context-Sensitive Machine Learning for Intelligent Human Behavior Analysis
  • Dr. Ekaterina Timoshenko (externe Doktorarbeit bei SIEMENS/SVOX): Rhythm and Prosody Information in Spoken Language Identification

hoch

Öffentlichkeitsarbeit

Eine vollständige Auflistung aller Publikationen, Vorträge, und Aktivitäten ist auf www.schuller.one zu finden.

Open-Source Tools

(www.openaudio.eu)

  1. Florian Eyben, Martin Wöllmer, Björn Schuller: "Open Emotion and Affect Recognition (openEAR)", GPL licensed, C++, Technische Universität München, Germany, http://sourceforge.net/projects/openart, September 2009.
  2. Alexander Lehmann, Felix Weninger, Björn Schuller: "Blind Source Separation for Audio Recognition Tasks (openBlissART)", GPL licensed, C++, Technische Universität München, Germany, http://github.com/openBliSSART/, May 2009.
  3. Florian Eyben, Martin Wöllmer, Björn Schuller: "Open Speech and Music Interpretation by Large-Space Extraction (openSMILE)", GPL licensed, C++, Technische Universität München, Germany, http://opensmile.sourceforge.net/, first release: December 2008.

Präsenz in den Medien

  1. "Spracherkennungssoftware - wo sie inzwischen überall angewendet wird", Radio Interview im Zweiten Bayerischen Rundfunk (BR2), "Radiowelt", Thomas Kempe, 07:00, 22.03.2012.
  2. "Mit Stimme ankommen: Wie weit ist Spracherkennung per Computer gediehen", Radio Interview im Zweiten Bayerischen Rundfunk (BR2), "Notizbuch", Christian Schiffer, 11:00, 22.07.2011.
  3. "Stand und Möglichkeiten der Spracherkennung", Radio Interview in Bayern 5 Aktuell (B5), "Computermagazin", Christian Schiffer, 16:35, 24.07.2011.
  4. "Vom Labor auf den Markt - Hilfe für Radiosender", in Rhein-Neckar-Zeitung, Dr. P. Saueressig, 28.11.2007.
  5. "Zukunftsmusik per Computer", in Mannheimer Morgen, Dr. Haas-Gruppe, 28.11.2007.
  6. "Extraktion von Refrains in Musik", Radio Interview im Südwestdeutschen Rundfunk 4 (SWR4), 28.11.2007.
  7. "Intimität im Sprachgebrauch", TV Interview, RTL Explosiv, RTL, 2004.
  8. "Automatische Erkennung von Emotion aus Sprache und Mimik", In 1,2 oder 3, Jubiläumssendung 30 Jahre, 30 Länder "Ohne Worte", ZDF und ORF, 29.09.2007, 08:25; Kinderkanal, 30.09.2007, 4:05.

Auszeichnungen

  • Best Result Annual Music Information Retrieval Evaluation eXchange (MIREX) 2010: Audio Onset Detection: Sebastian Böck, Florian Eyben, Björn Schuller: "Onset Detection with Bidirectional Long Short-Term Memory Neural Networks", Annual Meeting of the MIREX 2010 community as part of the 11th International Conference on Music Information Retrieval, ISMIR, Utrecht, Netherlands, 11.08.2010.
  • 3rd place (10 finalists) Open Source Software Competition ACM Multimedia 2010: Florian Eyben, Martin Wöllmer, Björn Schuller: "openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor", ACM Multimedia (MM), ACM, Firenze, Italy, 25.-29.10.2010.
  • Best Demo Award 4th International HUMAINE Association Conference on Affective Computing and Intelligent Interaction 2009 (ACII 2009): Marc Schröder, Elisabetta Bevacqua, Florian Eyben, Hatice Gunes, Dirk Heylen, Mark ter Maat, Sathish Pammi, Maja Pantic, Catherine Pelachaud, Björn Schuller, Etienne de Sevin, Michel Valstar, Martin Wöllmer: "A Demonstration of Audiovisual Sensitive Artificial Listeners", HUMAINE, IEEE, Amsterdam, The Netherlands, 10.-12.09.2009.
  • Florian Eyben, Fachschaftspreis für beste Lehre, Übung "Pattern Recognition", Fachschaft Elektrotechnik und Informationstechnik, Technische Universität München, Germany, July 2008.

Technische Vorführungen

  1. Cyril Joder, Felix Weninger, Florian Eyben, David Virette, Björn Schuller: "Real-time Speech Separation by Semi-Supervised Nonnegative Matrix Factorization", 10th International Conference on Latent Variable Analysis and Signal Separation (LVA ICA 2012), Tel Aviv, Israel, 12.-15.03.2012.
  2. Marc Schröder, Sathish Pammi, Hatice Gunes, Maja Pantic, Michel Valstar, Roddy Cowie, Gary McKeown, Dirk Heylen, Mark ter Maat, Florian Eyben, Björn Schuller, Martin Wöllmer, Elisabetta Bevacqua, Catherine Pelachaud, Etienne de Sevin: "Come and Have an Emotional Workout with Sensitive Artificial Listeners!", International IEEE Conference on Face and Gesture Recognition 2011 (FG 2011), Santa Barbara, CA, 21.-23.03.2011.
  3. Marc Schröder, Sathish Pammi, Roddy Cowie, Gary McKeown, Hatice Gunes, Maja Pantic, Michel Valstar, Dirk Heylen, Mark ter Maat, Florian Eyben, Björn Schuller, Martin Wöllmer, Elisabetta Bevacqua, Catherine Pelachaud, Etienne de Sevin: "Demo: Have a Chat with Sensitive Artificial Listeners", 36th Annual Convention of the Society for the Study of Artificial Intelligence and Simulation of Behaviour (AISB’10), Symposium "Towards a Comprehensive Intelligence Test (TCIT)", AISB, Leicester, UK, 29.-30.03.2010.
  4. Marc Schröder, Elisabetta Bevacqua, Florian Eyben, Hatice Gunes, Dirk Heylen, Mark ter Maat, Sathish Pammi, Maja Pantic, Catherine Pelachaud, Björn Schuller, Etienne de Sevin, Michel Valstar, Martin Wöllmer: "A Demonstration of Audiovisual Sensitive Artificial Listeners", Proc. 3rd International HUMAINE Association Conference on Affective Computing and Intelligent Interaction 2009 (ACII 2009), IEEE, Amsterdam, The Netherlands, ISBN: 978-1-4244-4799-2, Vol. I, pp. 263-264, 10.-12.09.2009. (T)
  5. Florian Eyben, Björn Schuller, Martin Wöllmer, Sathish Pammi, Marc Schröder, Mark ter Maat: "Talk to the Machine", Interspeech (2009), The First INTERSPEECH Conversational Systems Challenge, ISCA, Brighton, UK, 06.09.2009. (T)

Organisation wissenschaftlicher Challenges

hoch

Publikationen

Die vollständige Publikationsliste kann in folgenden Formaten heruntergeladen werden:
LaTeX .bib
oder als PDF mit Zitaten im ACM Format, IEEE Format, APA Format, ALPHA Format.

hoch