On the Complementarity of Video and Inertial Data for Human Activity Recognition

Bock, MariusMariusBock2026-01-162026-01-162025https://dspace.ub.uni-siegen.de/handle/ubsi/8741Kumulative DissertationWith research in fields such as psychiatry having shown strong links between activities and behavior, there has been a growing interest in the development of automatic activity recognition systems using machine learning methods, also known as Human Activity Recognition (HAR). Within the last decade, Deep Learning methods have surpassed classical machine learning models in performance and have become the de facto standard learning-based approach for sensor-based HAR. While Deep Learning has largely automated feature extraction from inertial data, reducing the dependence on expert-crafted features, it has inadvertently introduced new challenges to the activity recognition community. This dissertation, structured in two parts, addresses two of these core challenges associated with applying deep learning to inertial-based HAR by leveraging concepts and methodologies from the domain of computer vision. The first part of the dissertation focuses on the so-called labeling bottleneck, which denotes the considerable manual effort and cost associated with annotating data from wearable inertial sensors. This issue has significantly limited the scale and complexity of publicly available HAR benchmark datasets, thereby negatively affecting methodological progress. In an effort to decrease annotator workload, a weak-annotation pipeline is proposed that only requires labels for representative segments of a synchronously recorded video stream by leveraging the discriminative capabilities of vision foundation models. The second part examines the sliding window problem, referring to the temporal modeling limitations caused by HAR approaches relying on fixed-length window classification. Showcasing a reformulated view to inertial-based HAR, this dissertation introduces vision-based Temporal Action Localization (TAL) into the inertial domain. Benchmark experiments demonstrate that both existing TAL models from the video domain and a newly proposed TAL-inspired architecture for inertial data significantly outperform classical inertial HAR models. By leveraging inter-segment temporal context, both approaches also exhibit reduced sensitivity to hyperparameters selected during segmentation. The demonstrated use cases show how recent advancements in video-based activity recognition can help overcome limitations inherent to inertial sensing. While each approach exhibits certain constraints, these works offer novel perspectives on long-standing issues and introduce methodologies that, if adopted, could inspire further research and innovation within the inertial HAR community.Forschung in Disziplinen wie der Psychiatrie hat enge Zusammenhänge zwischen menschlichen Aktivitäten und Verhaltensweisen aufgezeigt, was zu einem wachsenden Interesse an der Entwicklung automatisierter Systeme zur Aktivitätserkennung auf Basis maschineller Lernverfahren geführt hat - auch bekannt als Human Activity Recognition (HAR). Im Verlauf der letzten Dekade haben Deep-Learning-Methoden klassische maschinelle Lernverfahren in ihrer Leistungsfähigkeit übertroffen und sich als De-facto-Standard für sensorbasierte HAR-Systeme etabliert. Während Deep Learning die Merkmalsextraktion aus inertialen Sensordaten weitgehend automatisiert und damit die Abhängigkeit von expertengestützten, manuell entwickelten Merkmalen reduziert hat, bringt dieser Paradigmenwechsel zugleich neue Herausforderungen für die HAR-Community mit sich. Diese Dissertation, gegliedert in zwei Hauptteile, widmet sich zwei dieser grundlegenden Herausforderungen, die mit dem Einsatz von Deep Learning in der inertialbasierten HAR verbunden sind, und greift dabei auf Konzepte und Methoden aus dem Bereich der Computer Vision zurück. Der erste Teil der Arbeit befasst sich mit dem sogenannten Labeling Bottleneck, das den erheblichen manuellen Aufwand und die damit verbundenen Kosten bei der Annotation von Daten tragbarer inertialer Sensoren bezeichnet. Diese Problematik hat den Umfang und die Komplexität öffentlich verfügbarer HAR-Benchmark-Datensätze erheblich eingeschränkt und dadurch den methodischen Fortschritt negativ beeinflusst. Zur Reduktion des Aufwands für Annotator*innen wird eine Weak-Annotation-Pipeline vorgeschlagen, die lediglich die Annotation repräsentativer Segmente eines synchron aufgezeichneten Videostreams erfordert. Hierbei werden die diskriminativen Fähigkeiten moderner Vision Foundation Models genutzt. Im zweiten Teil wird das Sliding Window Problem behandelt, das sich auf die begrenzten Möglichkeiten zur zeitlichen Modellierung in HAR-Ansätzen bezieht, die auf der Klassifikation von Sequenzen fester Länge basieren. Im Sinne einer Neuperspektivierung inertialbasierter HAR werden Konzepte der videobasierten Temporal Action Localization (TAL) auf den inertialen Bereich übertragen. Anhand von Benchmark-Experimenten wird gezeigt, dass sowohl bestehende TAL-Modelle aus dem Videobereich als auch eine eigens entwickelte, TAL-inspirierte Architektur für inertiale Daten klassische inertialbasierte Modelle signifikant übertreffen. Durch die Nutzung intersegmentaler zeitlicher Kontextinformationen zeigen beide Ansätze eine verringerte Sensitivität gegenüber den bei der Segmentierung gewählten Hyperparametern. Die dargestellten Anwendungsfälle zeigen, wie aktuelle Fortschritte in der videobasierten Aktivitätserkennung dazu beitragen können, inhärente Einschränkungen der Inertialsensorik zu überwinden. Auch wenn jede Herangehensweise bestimmte Grenzen aufweist, bieten diese Arbeiten neue Perspektiven auf langjährige Probleme und führen Methoden ein, die, bei entsprechender Anwendung, weitere Forschung und Innovation innerhalb der inertialen HAR-Community anregen könnten.enAttribution-NonCommercial-ShareAlike 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-sa/4.0/004 InformatikHuman Activity RecognitionHuman Activity RecognitionOn the Complementarity of Video and Inertial Data for Human Activity RecognitionZur Komplementarität von Video- und Inertialdaten für die Erkennung menschlicher AktivitätenDoctoral ThesisKristof van Laerhovenurn:nbn:de:hbz:467-87410