Machine Intelligence & Signal Processing

MISP

Our group researches and develops modern methods of machine intelligence combined with innovative methods of signal processing. The main areas of application are in the field of intelligent speech, video, and music processing. Moreover, processing of text, and physiological data, such as skin conductance and heart rate, are considered.

Areas of Research

  • Machine learning
  • Audio and audiovisaul signal processing
  • Human-machine interaction
  • Affective Computing
  • Automatischc Speech Recognition
  • Music Information Retrieval

Research Projects

ASC-INCLUSION: Integrated Internet-Based Environment for Social Inclusion of Children with Autism Spectrum Conditions
EU FP7 STREP
Runtime: 01.11.2011 - 31.10.2014
Partners: University of Cambridge, Bar Ilan University, Compedia,
                University of Genoa, Karolinska Institutet, Autism Europe, TUM

Autism Spectrum Conditions (ASC, frequently defined as ASD - Autism Spectrum Disorders) are neurodevelopmental conditions, characterized by social communication difficulties and restricted and repetitive behaviour patterns. Current studies suggest 1% of the population might fit an ASC diagnosis. Alongside their difficulties individuals with ASC tend to have intact and sometimes superior abilities to comprehend and manipulate closed, rule-based, predictable systems, such as computerized environment. Their affinity for the computerized environment has led to several attempts to teach emotion recognition and expression, and social problem solving to individuals with ASC, using computer-based training.

In the last decade, web applications have been increasingly used for social interaction, forming online communities and social networks. Anecdotal reports of the emergence of online autistic communities, and the use of forums and virtual-worlds, show the great promise the internet holds for better inclusion and social skills training for users/people with ASC. Since intervention into ASC has been shown to be more effective when provided early in life, using the internet as a platform for the support of younger individuals with ASC could significantly promote their social inclusion.
The project aims to create and evaluate the effectiveness of such an internet-based platform, directed for children with ASC (and other groups like ADHD and socially-neglected children) and those interested in their inclusion. This platform will combine several state-of-the art technologies in one comprehensive virtual world, including analysis of users’ gestures, facial and vocal expressions using standard microphone and webcam, training through games, text communication with peers and smart agents, animation, video and audio clips. User’s environment will be personalized, according to individual profile & sensory requirements, as well as motivational. Carers will be offered their own supportive environment, including professional information, reports of child’s progress and use of the system and forums for parents and therapists.

U-STAR: Universal Speech Translation Advanced ResearchAcademic Cooperation
Runtime: 01.06.2012 - 31.03.2013


The Universal Speech Translation Advanced Research Consortium (U-STAR) is an international research collaboration entity formed to develop a network-based speech-to-speech translation (S2ST) with the aim of breaking language barriers around the world and to implement vocal communication between different languages.

GLASS: Generic Live Audio Source SeparationIndustry
Cooperation with HUAWEI TECHNOLOGIES within the HUAWEI Innovative Research Program (HIRP)
Runtime: 01.01.2011 - 31.12.2013

GLASS finds new ways of separating audio sources, e.g., for crystal clear speech communication, by machine intelligence and advanced separation algorithms.


Context-Sensitive Automatic Recognition of Spontaneous Speech by BLSTM Networks

Funded by the DFG (German Research Foundation).
Runtime: 01.03.2011 - 28.02.2014

Trotz zahlreicher Fortschritte im Bereich der automatischen Spracherkennung ist die Erkennungsleistung und Robustheit heutiger Spracherkennungssysteme nicht ausreichend, um als Grundlage für natürliche, spontansprachliche Mensch-Maschine-Interaktion zu dienen. Ziel des Forschungsvorhabens ist es deshalb, die Genauigkeit von Systemen zur Erkennung natürlicher, fließender Sprache mittels neuartiger Mustererkennungsmethoden zu verbessern. Da die Effizienz der menschlichen Spracherkennung vor allem auf der intelligenten Auswertung von Langzeit-Kontextinformation beruht, sollen dabei Ansätze zur Berücksichtigung von Kontext auf Merkmalsebene verfolgt werden. Ausgehend von sogenannten Tandem-Spracherkennern, bei denen neuronale Netze zur Phonemprädiktion in Kombination mit dynamischen Klassifikatoren verwendet werden, sollen hierzu bidirektionale Long Short-Term Memory (BLSTM) Netzwerke eingesetzt werden. Im Gegensatz zu derzeit in Tandem- Systemen verwendeten Phonemschätzern erlaubt es das BLSTM-Prinzip, ein optimales Maß an Kontextinformation bei der Prädiktion miteinzubeziehen. Da jüngste Erfolge im Bereich der kontextsensitiven Phonemerkennung und Schlüsselwortdetektion die Effektivität des BLSTM-Ansatzes unterstreichen, ist eine entsprechende Weiterentwicklung kontinuierlicher Spracherkennungssysteme äußerst vielversprechend.


Non-Negative Matrix Factorization for Robust Feature Extraction in Speech Processing

Funded by the DFG (German Research Foundation).
Runtime: 01.06.2010 - 31.05.2013

Hauptziel des Forschungsvorhabens ist, die Erkennung von Sprach- und Musiksignalen störrobuster zu gestalten. Besonderes Kennzeichen ist die Integration von Merkmalen, die auf Nichtnegativer Matrix-Faktorisierung (NMF) basieren. NMF – ein Verfahren zur Datenreduktion – erfreut sich in der Signalverarbeitung jüngst zunehmender Popularität. Dabei wird meist ein Spektrogramm in zwei Faktoren zerlegt. Der erste enthält eine spektrale ‘Basis’ des Signals, der zweite die Aktivität der Basisvektoren über die Zeit. In diesem Forschungsvorhaben werden aus dem zweiten Faktor Merkmale gewonnen, die bestehende Architekturen zur Sprach- und Musikverarbeitung ergänzen können. Erste durchgeführte Experimente zur NMF-Merkmalsextraktion für die störrobuste Erkennung gesprochener Buchstabensequenzen im Fahrzeug haben sich dabei konventionellen Verfahren als signifikant überlegen und äußerst vielversprechend erwiesen. Das dabei verwendete Verfahren soll im Rahmen des Projekts durch Weiterentwicklung der NMF verbessert werden und insbesondere für den Einsatz in echtzeitfähigen Spracherkennungssystemen, auch für fließende Sprache, vorbereitet werden. Schließlich sollen die beschriebenen NMF-Merkmale in weiteren Anwendungsfeldern wie Emotionserkennung, Erkennung von nichtlinguistischer Vokalisierung wie Lachen oder Husten in Sprache und Akkorderkennung mit dem Ziel der Steigerung aktueller Erkennungsgüte und der Störrobustheit eingesetzt werden.

up

SEMAINE: Sustained Emotionally coloured Machine-humane Interaction using Nonverbal Expression
EU FP7 STREP
Laufzeit: 01.01.2008 - 31.12.2010
Partner: DfKI, Queens University Belfast (QUB), Imperial College of Science,
                Technology and Medicine London, University Twente, University
                Paris VIII, CNRS-ENST, TUM

SEMAINE deals with real-time, robust, non-verbally competent conversations between a conversational agent and a human user.

TCVC: Talking Car and Virtual Companion
Industry cooperation with Continental Automotive GmbH
Runtime: 01.06.2008 - 30.11.2008

TCVC provides an expertise on emotion in the car with respect to a requirement analysis, potential and near-future use-cases, technology assessment and a user acceptance study.

ICRI: In-Car Real InternetIndustry cooperation with Continental Automotive GmbH
Runtime: 01.06.2008 - 30.11.2008

ICRI aims at benchmarking of internet browsers on embedded platforms as well as at development of an integrated multimodal demonstrator for internet in the car. Investigated modalities contain hand-writing and touch-gestures and natural speech apart from conventional GUI interaction. The focus lies on MMI development with an embedded realisation.

up

Staff

Prof. Dr.-Ing. habil. Björn Schuller  

  • Erik Marchi, MSc (Doktorarbeit, seit 12/2011): Speech Analysis and Feedback for Voice Coaching
  • Jun Deng, MSc (Doktorarbeit, seit 08/2011): Semi-Supervised Learning in the Analysis of Continuous Speaker Emotion and Personality
  • Dipl.-Ing. Raymond Brückner (externe Doktorarbeit mit SVOX/NUANCE, seit 06/2011): Automatic Speech Recognition with Deep Hierarchical Networks
  • Zixing Zhang, PhD (Novel Approaches for Large Vocabulary Continuous Speech Recognition)
  • Dr. Felix Weninger (Multi-Source Recognition in Speech and Music)
  • Dr. Florian Eyben (Acoustic features and on-line classification for paralinguistic speech and music retrieval tasks)
  • Dr. Martin Wöllmer (Doktorarbeit, 01/2008 - 08/2012): Context-Sensitive Machine Learning for Intelligent Human Behavior Analysis
  • Dr. Ekaterina Timoshenko (externe Doktorarbeit bei SIEMENS/SVOX): Rhythm and Prosody Information in Spoken Language Identification

up

Demos, Awards, and Public Relations

For a complete list of activities, talks, and publications, see www.schuller.one

Open-Source Tools

(www.openaudio.eu)

  1. Florian Eyben, Martin Wöllmer, Björn Schuller: "Open Emotion and Affect Recognition (openEAR)", GPL licensed, C++, Technische Universität München, Germany, http://sourceforge.net/projects/openart, September 2009.
  2. Alexander Lehmann, Felix Weninger, Björn Schuller: "Blind Source Separation for Audio Recognition Tasks (openBlissART)", GPL licensed, C++, Technische Universität München, Germany, http://github.com/openBliSSART/, May 2009.
  3. Florian Eyben, Martin Wöllmer, Björn Schuller: "Open Speech and Music Interpretation by Large-Space Extraction (openSMILE)", GPL licensed, C++, Technische Universität München, Germany, http://opensmile.sourceforge.net/, first release: December 2008.

Presence in the media

  1. "Spracherkennungssoftware - wo sie inzwischen überall angewendet wird", Radio Interview im Zweiten Bayerischen Rundfunk (BR2), "Radiowelt", Thomas Kempe, 07:00, 22.03.2012.
  2. "Mit Stimme ankommen: Wie weit ist Spracherkennung per Computer gediehen", Radio Interview im Zweiten Bayerischen Rundfunk (BR2), "Notizbuch", Christian Schiffer, 11:00, 22.07.2011.
  3. "Stand und Möglichkeiten der Spracherkennung", Radio Interview in Bayern 5 Aktuell (B5), "Computermagazin", Christian Schiffer, 16:35, 24.07.2011.
  4. "Vom Labor auf den Markt - Hilfe für Radiosender", in Rhein-Neckar-Zeitung, Dr. P. Saueressig, 28.11.2007.
  5. "Zukunftsmusik per Computer", in Mannheimer Morgen, Dr. Haas-Gruppe, 28.11.2007.
  6. "Extraktion von Refrains in Musik", Radio Interview im Südwestdeutschen Rundfunk 4 (SWR4), 28.11.2007.
  7. "Intimität im Sprachgebrauch", TV Interview, RTL Explosiv, RTL, 2004.
  8. "Automatische Erkennung von Emotion aus Sprache und Mimik", In 1,2 oder 3, Jubiläumssendung 30 Jahre, 30 Länder "Ohne Worte", ZDF und ORF, 29.09.2007, 08:25; Kinderkanal, 30.09.2007, 4:05.

Awards

  • Best Result Annual Music Information Retrieval Evaluation eXchange (MIREX) 2010: Audio Onset Detection: Sebastian Böck, Florian Eyben, Björn Schuller: "Onset Detection with Bidirectional Long Short-Term Memory Neural Networks", Annual Meeting of the MIREX 2010 community as part of the 11th International Conference on Music Information Retrieval, ISMIR, Utrecht, Netherlands, 11.08.2010.
  • 3rd place (10 finalists) Open Source Software Competition ACM Multimedia 2010: Florian Eyben, Martin Wöllmer, Björn Schuller: "openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor", ACM Multimedia (MM), ACM, Firenze, Italy, 25.-29.10.2010.
  • Best Demo Award 4th International HUMAINE Association Conference on Affective Computing and Intelligent Interaction 2009 (ACII 2009): Marc Schröder, Elisabetta Bevacqua, Florian Eyben, Hatice Gunes, Dirk Heylen, Mark ter Maat, Sathish Pammi, Maja Pantic, Catherine Pelachaud, Björn Schuller, Etienne de Sevin, Michel Valstar, Martin Wöllmer: "A Demonstration of Audiovisual Sensitive Artificial Listeners", HUMAINE, IEEE, Amsterdam, The Netherlands, 10.-12.09.2009.
  • Florian Eyben, Fachschaftspreis für beste Lehre, Übung "Pattern Recognition", Fachschaft Elektrotechnik und Informationstechnik, Technische Universität München, Germany, July 2008.

Technical demonstrations

  1. Cyril Joder, Felix Weninger, Florian Eyben, David Virette, Björn Schuller: "Real-time Speech Separation by Semi-Supervised Nonnegative Matrix Factorization", 10th International Conference on Latent Variable Analysis and Signal Separation (LVA ICA 2012), Tel Aviv, Israel, 12.-15.03.2012.
  2. Marc Schröder, Sathish Pammi, Hatice Gunes, Maja Pantic, Michel Valstar, Roddy Cowie, Gary McKeown, Dirk Heylen, Mark ter Maat, Florian Eyben, Björn Schuller, Martin Wöllmer, Elisabetta Bevacqua, Catherine Pelachaud, Etienne de Sevin: "Come and Have an Emotional Workout with Sensitive Artificial Listeners!", International IEEE Conference on Face and Gesture Recognition 2011 (FG 2011), Santa Barbara, CA, 21.-23.03.2011.
  3. Marc Schröder, Sathish Pammi, Roddy Cowie, Gary McKeown, Hatice Gunes, Maja Pantic, Michel Valstar, Dirk Heylen, Mark ter Maat, Florian Eyben, Björn Schuller, Martin Wöllmer, Elisabetta Bevacqua, Catherine Pelachaud, Etienne de Sevin: "Demo: Have a Chat with Sensitive Artificial Listeners", 36th Annual Convention of the Society for the Study of Artificial Intelligence and Simulation of Behaviour (AISB’10), Symposium "Towards a Comprehensive Intelligence Test (TCIT)", AISB, Leicester, UK, 29.-30.03.2010.
  4. Marc Schröder, Elisabetta Bevacqua, Florian Eyben, Hatice Gunes, Dirk Heylen, Mark ter Maat, Sathish Pammi, Maja Pantic, Catherine Pelachaud, Björn Schuller, Etienne de Sevin, Michel Valstar, Martin Wöllmer: "A Demonstration of Audiovisual Sensitive Artificial Listeners", Proc. 3rd International HUMAINE Association Conference on Affective Computing and Intelligent Interaction 2009 (ACII 2009), IEEE, Amsterdam, The Netherlands, ISBN: 978-1-4244-4799-2, Vol. I, pp. 263-264, 10.-12.09.2009. (T)
  5. Florian Eyben, Björn Schuller, Martin Wöllmer, Sathish Pammi, Marc Schröder, Mark ter Maat: "Talk to the Machine", Interspeech (2009), The First INTERSPEECH Conversational Systems Challenge, ISCA, Brighton, UK, 06.09.2009. (T)

Organised events

up

Publications

The complete list of publications can be downloaded as LaTeX .bib file
or as PDF with references formatted according to these styles: ACM Format, IEEE Format, APA Format, ALPHA Format.

up