Distributed Time-Triggered Caching and Memory Access Optimisation for Neural Network Tensor Accelerators in Multicore Safety-Critical Systems

Ezekiel , Aniebiet MichealAniebiet MichealEzekiel2025-07-182025-07-182025https://dspace.ub.uni-siegen.de/handle/ubsi/7041Neural network accelerators are essential for meeting the computational demands of modern AI applications; however, their use in safety-critical and real-time environments presents significant challenges, primarily due to inefficiencies in memory access and interference from other applications, leading to unpredictable memory access patterns. This dissertation addresses these memory access bottlenecks by proposing a time-triggered architecture that enhances the memory access mechanisms of tensor accelerators. Traditional accelerators, such as the Versatile Tensor Accelerator (VTA), encounter limitations related to memory bandwidth, resource contention, and variable latency, which impair performance in safety-critical, memory-intensive tasks. This work introduces the Time-Triggered Memory Access VTA (TTmaVTA), which applies time-triggered architectures to control and regulate the memory access of the VTA, ensuring predictable and conflict-free memory transactions. The TTmaVTA framework is further refined with dual memory optimisation techniques, prefetching, and caching mechanisms. These enhancements, collectively referred to as OPTTmaVTA, improve memory throughput while significantly reducing memory access latency. Prefetching mechanisms retrieve data during idle memory cycles, minimising delays due to dependency stalls, while deterministic caching optimises frequently accessed memory operations, reducing memory bus accesses. Together, these methods improve the memory performance of neural network accelerators while ensuring timing predictability, particularly in safety-critical contexts. This dissertation presents hardware experiments and software simulations that validate the effectiveness of TTmaVTA and OPTTmaVTA in improving memory access predictability and memory throughput. Hardware-based experiments using a Conv2D workload on an FPGA demonstrate that TTmaVTA achieves a 2.86% reduction in execution time, primarily due to improved memory scheduling and conflict resolution; however, resource overhead limits TTmaVTA scalability for larger workloads. Software simulations of OPTTmaVTA with ResNet-18 show a 12.68% improvement in memory access time through prefetching and an 8.75% gain through caching. Overall, the OPTTmaVTA architecture achieves improved memory throughput, with a total latency reduction of approximately 19.86% across all memory operations. In culmination, a scheduling algorithm maps memory access patterns to predefined schedules, ensuring deterministic execution and adherence to real-time constraints. Through a combination of theoretical analysis and practical evaluations, this work makes a substantial contribution to hardware-software co-design for neural network accelerators, particularly suited for applications in safety-critical domains.Neuronale Netzwerkbeschleuniger sind entscheidend, um den Rechenanforderungen moderner KI-Anwendungen gerecht zu werden. Ihre Nutzung in sicherheitskritischen und Echtzeitumgebungen stellt jedoch erhebliche Herausforderungen dar, insbesondere durch Ineffizienzen beim Speicherzugriff und Interferenzen durch andere Anwendungen, die zu unvorhersehbaren Speicherzugriffsmustern führen. Diese Dissertation adressiert diese Engpässe, indem sie eine zeitgesteuerte Architektur vorschlägt, die die Speicherzugriffsmechanismen von Tensor-Beschleunigern verbessert. Traditionelle Beschleuniger, wie der Versatile Tensor Accelerator (VTA), stoßen beispeicherintensiven, sicherheitskritischen Aufgaben auf Einschränkungen in Bezug auf Speicherbandbreite, Ressourcenengpässe und variable Latenzzeiten. In dieser Arbeit wird der Time-Triggered Memory Access VTA (TTmaVTA) vorgestellt, der zeitgesteuerte Architekturen verwendet, um den Speicherzugriff des VTA zu steuern und dabei vorhersehbare, konfliktfreie Speichertransaktionen zu gewährleisten. Das TTmaVTA-Framework wird durch zwei Speicheroptimierungstechniken, Prefetching und Caching, weiter verbessert. Diese Optimierungen, zusammengefasst als OPTTmaVTA, steigern den Speicherdurchsatz und reduzieren die Speicherzugriffs-Latenzzeiten erheblich. Prefetching-Mechanismen rufen Daten während inaktiver Speicherzyklen ab, um Verzögerungen durch Abhängigkeitsblockaden zu minimieren, während deterministisches Caching häufig genutzte Speicheroperationen optimiert und die Anzahl der Speicherbuszugriffe verringert. Diese Methoden steigern gemeinsam die Speicherleistung neuronaler Netzwerkbeschleuniger und gewährleisten gleichzeitig zeitliche Vorhersehbarkeit, insbesondere in sicherheitskritischen Kontexten. Die Dissertation präsentiert Hardware-Experimente und Software-Simulationen, die die Effektivität von TTmaVTA und OPTTmaVTA zur Verbesserung der Speicherzugriffsvorhersagbarkeit und des Speicherdurchsatzes bestätigen. Hardware-Experimente mit einem Conv2D-Workload auf einem FPGA zeigen, dass TTmaVTA eine Reduzierung der Ausführungszeit um 2,86% erreicht, hauptsächlich durch optimierte Speicherplanung und Konfliktlösung, jedoch begrenzt der Ressourcenaufwand die Skalierbarkeit für größere Workloads. Software-Simulationen des OPTTmaVTA mit ResNet-18 zeigen eine Verbesserung der Speicherzugriffszeit um 12,68% durch Prefetching und einen Gewinn von 8,75% durch Caching. Insgesamt erreicht die OPTTmaVTA-Architektur eine Steigerung des Speicherdurchsatzes mit einer Gesamtverringerung der Latenzzeit um etwa 19,86% über alle Speicheroperationen. Ein abschließender Scheduling-Algorithmus weist Speicherzugriffsmuster vordefinierten Zeitplänen zu, was eine deterministische Ausführung und Einhaltung von Echtzeit-Anforderungen sicherstellt. Durch eine Kombination von theoretischer Analyse und praktischen Evaluierungen leistet diese Arbeit einen bedeutenden Beitrag zum Hardware-Software-Co-Design für neuronale Netzwerkbeschleuniger, insbesondere für sicherheitskritische Anwendungen.enAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/004 InformatikTime-Triggered architectureTime-Triggered-ArchitekturMemory Access optimisationSpeicherzugriffsoptimierungTensor acceleratorTensorbeschleunigerSafety-Critical systemsSicherheitskritische SystemeMemory prefetchingSpeicher-PrefetchingDeterministic cachingDeterministisches CachingPredictable memory accessVorhersagbarer SpeicherzugriffScheduling algorithmScheduling-AlgorithmusDistributed Time-Triggered Caching and Memory Access Optimisation for Neural Network Tensor Accelerators in Multicore Safety-Critical SystemsVerteiltes Time-Triggered Caching und Speicherzugriffsoptimierung für Neural Network Tensor Accelerators in Multicore Safety-Critical SystemsDoctoral ThesisProf. Dr.-Ing. Roman Obermaisserurn:nbn:de:hbz:467-70412