Hauptseminar Mensch-Maschine-Kommunikation

Dozenten: 

Prof. Dr.-Ing. Gerhard Rigoll
Dr.-Ing. Michael Dorr
Prof. Dr.-Ing. Hugo Fastl

Assistent:
Patrick Lindemann, M.Sc.

Inhalt

Im Rahmen des Hauptseminars Mensch-Maschine-Kommunikation sollen die Studierenden am Beispiel eines fachspezifischen Themas lernen, Sachthemen anhand existierender Literatur zu erarbeiten und im Rahmen eines Vortrages mit anschließender Diskussion zu präsentieren.

Das Hauptseminar besteht daher aus drei Aufgabenteilen:

  • Vorbereitung: Literaturrecherche und selbstständiges Bearbeiten des Themas
  • Vortrag: 20 Minuten Redezeit mit anschließender Diskussion (ca. 10 Minuten)
  • Ausarbeitung: Eine Zusammenfassung (ca. ein bis zwei Seiten Text) und eine kommentierte Foliensammlung

Themenvorschläge SS 19

Attention-Aware Compositional Network for Person Re-identification

Die Re-identifikation von Personen (ReID) hat das Ziel eine Person aus verschiedenen Kamerawinkeln aufgenommen an visuellen Merkmalen wiederzuerkennen. Diese Aufgabe wird besonders erschwert durch komplexen Hintergrund, verschiedene Posen und starke Verdeckung. Viele der ReID Paper verwenden Pose Estimation, um veränderte Posen zu vergleichen und um Personen vom Hintergrund zu segmentieren. Die weitere Verbesserung der Pose Estimation hat auch zu Verbesserungen bei der ReID geführt. Das vorzustellende Paper zeigt eine neue Möglichkeit über Attention die Poseninformationen in der ReID Task zu verwenden.

Ziel dieser Arbeit ist, die Grundlagen der Pose Estimation und Attention-based Image Analysis darzulegen, sowie diese im Zusammenhang der 3 Stages des Attention-Aware Compositional Network zu erklären.

Ref.:
[1] Xu, Jing, et al. "Attention-aware compositional network for person re-identification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018,
URL: https://arxiv.org/abs/1805.03344

Betreuer:
Torben Teepe

Auto-Calibration for Dynamic Multi-Projection Mapping on Arbitrary Surfaces

Im Rahmen von Augmented Reality-Anwendungen lassen sich mithilfe von Bildprojektion auf beliebige Oberflächen zum Beispiel neuartige Benutzeroberflächen realisieren oder reale Objekte mit zusätzlicher visualisierter Information ausstatten. Das Hauptproblem ist hierbei jedoch, das zu projizierende Bild unter Einsatz von teils mehreren Projektoren auf ein komplexes reales Objekt korrekt abzubilden. Die Qualität dieses Mappings ist durch die eingesetzte Kalibrierungsmethode begrenzt. Unzureichende Kalibrierung macht sich für den Nutzer durch Artefakte wie Ghosting bemerkbar.

Ziel dieser Arbeit ist es, das in [1] eingeführte vollautomatisierte Kalibrierungsverfahren für dieses Problem anschaulich und verständlich zu präsentieren. 

Ref.:
[1] P. Kurth, V. Lange, C. Siegl, M. Stamminger and F. Bauer, "Auto-Calibration for Dynamic Multi-Projection Mapping on Arbitrary Surfaces," in IEEE Transactions on Visualization and Computer Graphics, vol. 24, no. 11, pp. 2886-2894, Nov. 2018.

Beispielvideos zur Veranschaulichung:
https://vimeo.com/139184967
https://vimeo.com/235872633

Betreuer:
Patrick Lindemann

Automatic Language Identification Using Ergodic-HMM

Automatic Language Identification (LID) has always been an important research topic. Although the fact that various kinds of neural networks have achieved great performance, even the human-like recognition rate based on large training dataset, these systems would loss their competition when only limited training resources are available. Therefore, conventional Hidden Markov Model (HMM) still has its existence value.

In this work, they established the equivalence of the “parallel sub-word recognition” (PSWR) framework to an ergodic HMM (EHMM) along with clear experimental validation which showed that ergodic HMMs can offer as good a performance as PSWR.

Ref.:
[1] S. A. Santosh Kumar and V. Ramasubramanian, Automatic Language Identification Using Ergodic-HMM, in the International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2005.

Betreuerin:
Lujun Li

BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding

Tiefe neuronale Netze zur Transformation von Sequenzen in andere Sequenzen haben in den letzten Jahren große Fortschritte gemacht. Diese werden im Bereich Spracherkennung, Textgenerierung, sowie in automatischen Übersetzern angewandt. Weiterentwicklungen gibt es vor allem im Bereich der Attention-basierten Netze, zum Beispiel die von Google veröffentlichte Self-Attention [1]. BERT [2] baut darauf auf, ein Netzwerk zur Beantwortung beliebiger Fragen, das mit seiner Veröffentlichung den neuen Stand der Technik setzte und in einem Standard-Benchmark auch die menschliche Performance überholte.

Ziel dieses Seminarthemas ist, das Self-Attention-Netz sowie dessen Bidirectional Training anschaulich darzustellen und die wesentlichen verwendeten Techniken mithilfe von mathematischer Notation aufzuzeigen.

Ref.:
[1] Attention is all you need: https://arxiv.org/abs/1706.03762
[2] BERT: https://arxiv.org/abs/1810.04805

Betreuer:
Ludwig Kürzinger

Burst Image Deblurring Using Permutation Invariant Convolutional Neural Networks

Trotz immer fortgeschrittener Kameras gibt es weiterhin Probleme bei Aufnahme von Bildern unter schlechten Lichtbedingungen und bei schnellen Kamerabewegungen. Abhilfe kann die Aufnahme von mehreren Bildern schaffen. Dadurch können nachträglich alle Bilder zusammengefasst werden, um ein Bild mit niedrigem Rauschen bzw. geringerer Bewegungsunschärfe zu generieren.

Um das Ausgangsbild zu erstellen, verwenden die Autoren bewährte Convolutional Neural Networks. Jedoch erfordert die spezielle Aufgabenstellung, dass das Netzwerk nicht nur eine beliebige Anzahl an Eingangsbildern verarbeiten kann, sondern auch das Ausgangsbild unabhängig von der Reihenfolge der Eingangsbilder ist.

Ziel dieser Arbeit ist es, den Algorithmus allgemein vorzustellen und dabei besonders darauf einzugehen, wie sichergestellt wird, dass die obengenannten Bedingungen erfüllt werden.

Ref.:
Aittala, Miika and Durand, Fredo: “Burst Image Deblurring Using Permutation Invariant Convolutional Neural Networks” in The European Conference on Computer Vision (ECCV), 2018.

Betreuer:
Stefan Hörmann

Deep Generative Adversarial Networks for Saliency Prediction

Predicting human attention is an important step towards understanding our behaviour and closing the gap between human and computer image understanding. Naturally, as in many visually-oriented tasks, deep learning and convolutional neural networks have gained an edge in this problem in recent years. Adversarial networks [1] represent a recent generic method with a potential to yield improvements in various deep learning domains. Its application to the problem of saliency prediction is the subject of [2], though different approaches or problem definitions exist [3].

Ref.:
[1] Goodfellow et al., Generative Adversarial Nets, 2014, http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
[2] Pan et al., SalGAN: Visual Saliency Prediction with Generative Adversarial Networks, 2017, https://arxiv.org/pdf/1701.01081.pdf
[3] Cai et al., Saliency Detection by Conditional Generative Adversarial Network, 2017, ICGIP https://researchportal.port.ac.uk/portal/files/8012923/Saliency_Detection_by_Conditional_GAN.pdf

Betreuer:
Mikhail Startsev

DeepVQ: A Deep Network Architecture for Vector Quantization

Das Quantisieren von Daten ist auch heute noch von großer Bedeutung im Bereich der Kommunikation. Einer der bekanntesten Algorithmen ist der k-means Algorithmus, welcher unsupervised ein großes Datenset in Klassen aufteilen kann. Leider kann der Algorithmus keine nichtlinearen Klassengrenzen erzeugen. Deshalb sucht man schon seit längerem nach neuronalen Methoden, die auch nichtlineare Klassengrenzen erzeugen und komplett unsupervised trainiert werden können.

Im Hauptseminar soll das Paper [1] vorgestellt werden. Hierbei soll vor allem auf die Architektur des verwendeten Modells eingegangen werden und wie das Training eines solchen Modells abläuft. Die Ergebnisse sollen qualitativ sowie quantitativ beurteilen werden. Gute mathematische Vorkenntnisse und Kenntnisse aus dem Bereich Machine Learning sind hilfreich, aber nicht zwingend notwendig.

Ref.:
[1] Le Tan, D.K., Le, H., Hoang, T., Do, T.T. and Cheung, N.M., 2018. Deepvq: A deep network architecture for vector quantization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (pp. 2579-2582).

Betreuer:
Tobias Watzel

EPICSAVE - Enhancing Vocational Training for Paramedics with Multi-user Virtual Reality

Ein anaphylaktischer Schock stellt ein repräsentatives Szenario für kritische paramedizinische Fälle dar, die zu selten sind, um im regulären Lehrplan während der Berufsausbildung vorzukommen. Als eine mögliche Lösung wird in der Publikation „EPICSAVE“ ein Entwicklungsfall, welcher neuartige Trainingswerkzeuge mit Multi-User VR und seriöser Spielemethodik liefert, vorgestellt. Der Fall beschreibt den interdisziplinären Aufbau sowie den iterativen Arbeitsablauf bei der Entwicklung des Simulationsprototyps.

Die Ergebnisse zweier Pilotstudien zeigen, dass speziell die Multi-User-VR die Ausbildung zum Sanitäter verbessern kann. Ein nachfolgender Prototyp ermöglicht ein gemeinsames Training für zwei Auszubildende Sanitäter sowie einem Trainer. Eine Nutzerstudie mit auszubildenden Sanitätern zeigt, dass das Erleben eines positiven VR-Trainingsergebnisses von hohen Präsenzeffekten abhängt und durch Usability-Probleme eingeschränkt wird. In diesem Paper wird eine Liste mit offenen Design- und Usability-Problemen zur Verfügung gestellt, welche dazu beitragen sollen, die zukünftige Integration von Multi-User-VR in Ausbildungseinrichtungen zu verbessern.

Das Ziel dieser Arbeit ist es, die Veröffentlichung vorzustellen und neue Forschungsansätze zu generieren. Dabei soll vor allem auf die Umsetzung und die Problematik eingegangen werden.

Ref.:
[1] J. Schild, D. Lerner, S. Misztal and T. Luiz, "EPICSAVE — Enhancing vocational training for paramedics with multi-user virtual reality," 2018 IEEE 6th International Conference on Serious Games and Applications for Health (SeGAH), Vienna, 2018, pp. 1-8. doi: 10.1109/SeGAH.2018.8401353

Betreuer:
Maximilian Rettinger

Multicolumn Networks for Face Recognition

Traditionell wurden bei Gesichtsidentifikationsproblemen vor allem einzelne Bilder betrachtet. Betrachtet man aber Videos, so lassen sich mithilfe von Tracking-Algorithmen Gesichter verfolgen und man erhält eine beliebige Anzahl an Gesichtern derselben Person.

Die Autoren stellen einen neuartigen Ansatz vor, um aus mehreren Bildern einen einzelnen Merkmalsvektor zu erzeugen, welcher anschließend für Gesichtserkennung verwendet werden kann. Das neuronale Netz muss dabei nicht nur eine beliebige Anzahl von Gesichtern verarbeiten können, sondern auch unabhängig von der Reihenfolge der Gesichter sein.

In dieser Arbeit sollen die Probleme bei der Verarbeitung von mehreren Gesichtern erläutert und der Ansatz der Autoren vorgestellt werden.

Ref.:
Xie, Weidi and Zisserman, Andrew: “Multicolumn Networks for Face Recognition” in British Machine Vision Conference (BMVC), 2018.

Betreuer:
Stefan Hörmann

Neural Network-Based Classification Using the Information Bottleneck Principle

Tiefe neuronale Netze sind eine Black Box, viele Weiterentwicklungen wurden oft durch Versuch-und-Irrtum erreicht. Das "Information Bottleneck" liefert nun durch eine informationstheoretische Betrachtungsweise eine Methode, neuronale Netze zu verstehen und zu verbessern. Diese Theorie konnte im Variational Autoencoder [1] von Google mit verbesserten Ergebnissen angewandt werden. Eine weitere Publikation [2] zeigte jedoch Schwächen dieses Autoencoders auf.

Ziel des Themas ist es, den theoretischen Hintergrund (Information Bottleneck) und angewandte Techniken (Reparametrization Trick) zu erläutern, sowie dessen Schwächen und Stärken anhand von Ergebnissen in [2] zu diskutieren.

Ref.:
[1] VAE: https://arxiv.org/pdf/1612.00410.pdf
[2] Learning Representations: https://arxiv.org/abs/1802.09766

Betreuer:
Ludwig Kürzinger

Pay Less Attention with Lightweight and Dynamic Convolutions

Tiefe neuronale Netze zur Transformation von Sequenzen in andere Sequenzen haben in den letzten Jahren große Fortschritte gemacht. Diese werden im Bereich Spracherkennung, Textgenerierung, sowie automatischen Übersetzern angewandt. Weiterentwicklungen gibt es vor allem im Bereich der Attention-basierten Netzen, zum Beispiel die von Google veröffentlichte Self-Attention [1]. Facebook stellte 2019 eine verbesserte Variante dieses Netzes vor, die mithilfe von dynamischen Faltungen [2] vergleichbare Ergebnisse liefern kann, bei vergleichsweise geringerem Rechenaufwand.

Ziel des Themas ist es, dynamische Faltungen anhand mathematischer Notation und Netzstruktur vorzustellen und diese mit auf self-attention basierten Netzen zu vergleichen.

Ref.:
[1] Attention is all you need: https://arxiv.org/abs/1706.03762
[2] Pay Less Attention: https://arxiv.org/abs/1901.10430

Betreuer:
Ludwig Kürzinger

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

Super Resolution – Die Rekonstruierung eines hochaufgelösten Bildes aus einem niedrig aufgelösten Bild. Trotz der Durchbrüche in Bezug auf Genauigkeit und Geschwindigkeit mit schnelleren und tieferen CNNs bleibt ein zentrales Problem weitgehend ungelöst: Wie können bei großen Skalierungsfaktoren die feinen Texturdetails wiedergefunden werden? Dieses Paper stellt einen SRGAN (Super Resolution Generative Adversarial Network) Ansatz vor, der eine höhere Performance, gemessen auf typischen Benchmark Datensätzen in diesem Bereich, vorweisen kann. Die Schlüsselidee für diesen Ansatz ist die Minimierung einer Art Wahrnehmungs-Kostenfunktion, welche über ein SRGAN realisiert wird.

Ref.:
http://openaccess.thecvf.com/content_cvpr_2017/papers/Ledig_Photo-Realistic_Single_Image_CVPR_2017_paper.pdf

Betreuer:
Martin Knoche

Pixel Recursive Super Resolution

Superauflösung ist das Problem der künstlichen Vergrößerung einer Fotografie mit niedriger Auflösung, um eine plausible Version mit hoher Auflösung wiederherzustellen.

In dieser Arbeit wird eine neue probabilistische, tiefe Netzwerkarchitektur vorgeschlagen: Ein rekursives Superresolution Pixelmodel. Es kann als eine Erweiterung des PixelCNN gesehen werden. Dieses Paper zeigt, wie damit Bilder mit einer sehr geringen Auflösung plausibel in hoher Auflösung rekonstruiert werden können. Darüber hinaus wird in Evaluierungsstudien gezeigt, wie dieser Ansatz im Vergleich zu herkömmlichen Methoden täuschend echte Rekonstruktionen erzeugen kann.

Ref.:
http://openaccess.thecvf.com/content_ICCV_2017/papers/Dahl_Pixel_Recursive_Super_ICCV_2017_paper.pdf

Betreuer:
Martin Knoche

Tracking the Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies

Artificial neural networks have become successful in solving perception tasks and have shown to approach human-level accuracy in classifying images. However, the current state of the Multi-Target Tracking (MTT) problem is still far from matching human performance. This is mainly because it is difficult for neural networks to capture the inter-relation of targets in time and space using multi-modal cues (e.g., appearance, motion, and interactions).

In this work, the MTT problem is tackled by jointly learning a representation that takes into account appearance, motion, and interaction cues using RNNs.

Ref.:
http://openaccess.thecvf.com/content_iccv_2017/html/Sadeghian_Tracking_the_Untrackable_ICCV_2017_paper.html

Betreuerin:
Maryam Babaee

Two Kinds of Novel Multi-user Immersive Display Systems

Die stereoskopische Anzeige dient als Standardanzeigemodus für Virtual-Reality-Umgebungen. Eine typische 3D-Projektion liefert nur einen einzigen stereoskopischen Videostream. Daher sehen mehrere Anwender die virtuelle Szene nur aus einer Perspektive, was dazu führt, dass diese die virtuelle Umgebung nicht richtig wahrnehmen können. Mehrere Arbeiten widmeten sich der Entwicklung stereoskopischer Multi-User-Displays, allerdings ist die Anzahl der Nutzer begrenzt und die technische Implementierung kompliziert.

In dieser Veröffentlichung [1] werden zwei einfache und flexible stereoskopische Anzeigesysteme für mehrere Anwender vorgestellt. Das erste System „TPA“, basiert auf einem Array mit drei Projektoren und bietet ein aktives 120-Hz-Stereobild für drei Benutzer. Dabei können zwei TPA-Systeme zu einem System mit sechs Anwendern kombiniert werden. Das zweite System, mit dem Namen „DPA“, ist ein einfach zu implementierendes System mit zwei Projektoren, das einen individuellen stereoskopischen Videostream für zwei bis sechs Benutzer ermöglicht. Um die Wirksamkeit beider Systeme zu testen, wurde eine Feuerwehrmann-Simulationsübung für mehrere Benutzer sowie eine virtuelle Tennissimulation erstellt.

Das Ziel dieser Arbeit ist es, beide Systeme vorzustellen, den Arbeitsaufwand für die Umrüstung der bestehenden Cave (MMK) auf die jeweiligen Systeme einzuschätzen und falls möglich neue Forschungsansätze zu generieren.

Ref.:
[1] Dongdong Guan, Chenglei Yang, Weisi Sun, Yuan Wei, Wei Gai, Yulong Bian, Juan Liu, Qianhui Sun, Siwei Zhao, and Xiangxu Meng. 2018. Two Kinds of Novel Multi-user Immersive Display Systems. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems (CHI '18). ACM, New York, NY, USA, Paper 599, 9 pages. DOI: doi.org/10.1145/3173574.3174173

Betreuer:
Maximilian Rettinger

Anmeldung

Die Anmeldung zum Hauptseminar SS 2019 läuft vom 1.4.2019 bis zum 28.04.2019 über TUMOnline. Das Hauptseminar ist auf neun Teilnehmer beschränkt. Falls sich mehr Personen anmelden kommen sie zunächst auf die Warteliste.

Anmeldeschluss ist am 28.04.2019. Am 29.04.2019 werden die Teilnehmer sowie die möglichen Nachrücker von uns per E-Mail informiert. Die Themenvergabe findet am 30.04.2019 um 15:00 Uhr in N0116 statt und ist Pflichttermin.

Alle Personen, die eine E-Mail von uns erhalten, werden gebeten, zur Vorbesprechung und Themenvergabe am Dienstag, den 30. April 2019, um 15.00 Uhr in den Seminarraum N0116 zu kommen. Falls Personen mit einem Fixplatz nicht erscheinen oder sich abmelden rücken Personen aus der Warteliste nach. Gewöhnlich erscheinen einige Kandidaten nicht, daher empfehlen wir dringend auch den Nachrückern zur Vorbesprechung und Themenvergabe zu erscheinen!

Ort und Zeit

Das Hauptseminar besteht aus einem Themenvergabetermin, einem Demovortrag und drei studentischen Vortragsterminen.

Alle Termine finden während des Semesters, dienstags 15:00 - 16:45 Uhr am Lehrstuhl für Mensch-Maschine-Kommunikation, Raum N0116 (Lehrstuhlbibliothek) statt.
Zu den Terminen besteht Anwesenheitspflicht!

  • Themenvergabe: Dienstag, 30.04.2019, 15.00 Uhr
    Am Themenvergabetermin können sich die Teilnehmer des Hauptseminars und eventuelle Nachrücker in der Reihenfolge der Teilnehmerliste eines der Themen von der Themenliste zur Bearbeitung aussuchen. Eine Anwesenheit ist daher unbedingt erforderlich. Bei Nichtanwesenheit wird der Student aus der Teilnehmerliste gestrichen und ein Nachrücker nimmt seinen Platz ein.

  • Einführungsveranstaltung: Dienstag, 07.05.2019, 15.00 - 16.30 Uhr

  • Vortragstermin I:    Dienstag, xx.xx.2019, 15.00 - 17.00 Uhr, Raum N0116
  • Vortragstermin II:   Dienstag, xx.xx.2019, 15.00 - 17.00 Uhr, Raum N0116
  • Vortragstermin III:  Dienstag, xx.xx.2019, 15.00 - 17.00 Uhr, Raum N0116

Der Vortrag und die schriftliche Ausarbeitung

Der Vortrag hat eine Länge von 20 Minuten mit einer anschließenden Diskussion (ca. zehn Minuten). Auf das Einhalten der Vortragszeit ist zu achten! Im Rahmen des Vortrags soll für ein fachkundiges Publikum das bearbeitete Thema erklärt werden.

Eine Einführung in das wissenschaftliche Vortragen, bzw. das wissenschaftliche Präsentieren im Allgemeinen und das Vortragen im Hauptseminar im Besonderen findet sich im Umdruck zu: Marc Al-Hames, Ein Vortrag über das wissenschaftliche Vortragen

Einige allgemeine Hinweise zu Vorträgen finden sich z.B.:

Die Ausarbeitung besteht aus einer kommentierten Foliensammlung (z. B. in Powerpoint: Ansicht / Notizenseite) und einer Zusammenfassung von etwa ein bis zwei Seiten als formatierter Fließtext. Sie ist bis spätestens eine Woche nach dem letzten Vortrag in elektronischer Form (Quelldateien und PDF) beim jeweiligen Betreuer abzugeben.

Es werden unter anderem die folgenden Punkte bewertet:

  • Bearbeitung des Themas: Verständnis und Überblick, Selbständigkeit, Literaturrecherche, Ergebnisse.
  • Qualität des Vortrags: Gliederung, Präzision und Verständlichkeit des Inhalts (akustisch und semantisch), Vortragsstil, Foliengestaltung, Einhaltung der vorgegebenen Redezeit (ca. +/- 1 min), Diskussion.
  • Qualität der Ausarbeitung: Inhalt (Verständlichkeit, Nachvollziehbarkeit), Erscheinungsbild (Formatierung, Rechtschreibung), Quellenangaben.

Kontakt

hauptseminar@mmk.ei.tum.de

hoch