Maleki, AdeleAdeleMaleki2025-08-292025-08-292025https://dspace.ub.uni-siegen.de/handle/ubsi/7104The growing complexity of modern System-on-Chip (SoC) designs, coupled with their application in safety-critical domains, requires significant advancements in fault tolerance and energy efficiency. Safety-critical systems, where failures can result in catastrophic consequences, demand reliable and efficient communication frameworks. Despite considerable advancements, challenges persist in achieving accurate fault localization, ensuring adaptability in real-time fault scenarios, and maintaining energy-efficient operation across diverse Network-on-Chip(NoC) topologies. The first part of the thesis introduces an adaptive communication service for time-triggered NoCs, which dynamically adjusts schedules in response to events such as slack, battery depletion, and faults. This approach enhances energy efficiency by employing techniques such as Dynamic Voltage and Frequency Scaling (DVFS) and clock gating, and it supports timely communication while maintaining fault isolation. The second part focuses on fault detection, localization within time-triggered and event-triggered NoCs. A diagnostic architecture incorporating deterministic behavior and source-based routing enables precise identification and localization of faults. The Fault Monitor Unit plays a key role in detecting errors at run-time through real-time monitoring of message validity and timing. Once detected, faults are localized using techniques such as Cyclic Redundancy Code (CRC) checks and time-stamp analysis. Recovery is achieved by isolating the affected component and dynamically rerouting messages or reallocating tasks to healthy nodes using predefined schedule, minimizing system disruption. These solutions are validated through simulations and experimental scenarios across various NoC topologies, demonstrating significant improvements in fault tolerance and system adaptability. The experimental results validate the proposed architectures across a range of scenarios, including both synthetic and real-world avionics configurations. Latency tests conducted on 2x2, 3x3, and 4x4 mesh topologies exhibit predictable delay patterns across varying packet sizes. Additionally, memory optimization techniques, which focus on storing only the differences in schedules, effectively reduce storage requirements. Fault detection achieved a 100% rate for single faults in routers, tiles, and links across various network topologies such as mesh, torus, and ring, with accurate localization in most cases. The results emphasize the scalability, robustness, and adaptability of the proposed methods, demonstrating their suitability for deployment in safety-critical domains such as automotive, aerospace, and industrial automation.Die wachsende Komplexität moderner System-on-Chip (SoC)-Designs, zusammen mit ihrer Anwendung in sicherheitskritischen Bereichen, erfordert erhebliche Fortschritte in der Fehlerresistenz und Energieeffizienz. In sicherheitskritischen Systemen, bei denen Fehler katastrophale Folgen haben können, sind zuverlässige und effiziente Kommunikationsframeworks erforderlich. Trotz erheblicher Fortschritte bestehen weiterhin Herausforderungen bei der präzisen Fehlerlokalisierung, der Gewährleistung von Anpassungsfähigkeit in Echtzeit-Fehlerszenarien und der Aufrechterhaltung einer energieeffizienten Operation über verschiedene Network-on-Chip (NoC)-Topologien hinweg. Der erste Teil der Dissertation führt einen adaptiven Kommunikationsdienst für zeitgesteuerte NoCs ein, der Zeitpläne dynamisch an Ereignisse wie Slack, Batterieentleerung und Fehler anpasst. Dieser Ansatz verbessert die Energieeffizienz durch Techniken wie Dynamic Voltage and Frequency Scaling (DVFS) und Clock Gating und unterstützt die rechtzeitige Kommunikation bei gleichzeitiger Aufrechterhaltung der Fehlerisolierung. Der zweite Teil konzentriert sich auf die Fehlererkennung und Fehlerlokalisierung in zeitgesteuerten und ereignisgesteuerten NoCs. Eine diagnostische Architektur, die deterministisches Verhalten und quellenbasierte Routings beinhaltet, ermöglicht eine präzise Identifikation und Lokalisierung von Fehlern. Die Fault Monitor Unit spielt eine Schlüsselrolle bei der Erkennung von Fehlern zur Laufzeit durch Echtzeit-Überwachung der Gültigkeit von Nachrichten und der Zeitmessung. Sobald Fehler erkannt werden, werden diese mit Techniken wie CRC-Checks und Zeitstempel-Analyse lokalisiert. DieWiederherstellung erfolgt durch Isolierung des betroffenen Bauteils und dynamisches Umleiten von Nachrichten oder Neuzuordnung von Aufgaben an gesunde Knoten unter Verwendung eines vordefinierten Zeitplans, um Systemstörungen zu minimieren. Diese Lösungen werden durch Simulationen und experimentelle Szenarien über verschiedene NoC-Topologien validiert, wobei signifikante Verbesserungen in der Fehlertoleranz und Systemanpassungsfähigkeitgezeigt werden. Die experimentellen Ergebnisse validieren die vorgeschlagenen Architekturen in einer Reihe von Szenarien, einschließlich sowohl synthetischer als auch realer Avionik-Konfigurationen. Latenztests, die an 2x2, 3x3 und 4x4 Mesh Topologien durchgeführt wurden, zeigen vorhersehbare Verzögerungsmuster bei unterschiedlichen Paketgrößen. Zusätzlich reduzieren Speicheroptimierungstechniken, die sich auf das Speichern nur der Unterschiede in den Zeitplänen konzentrieren, effektiv die Speicheranforderungen. Die Fehlererkennung erreichte eine 100%-Rate für Einzelstörungen in Routern, Kacheln und Links über verschiedene Netzwerk-Topologien wie Mesh, Torus und Ring, mit genauer Lokalisierung in den meisten Fällen. Die Ergebnisse unterstreichen die Skalierbarkeit, Robustheit und Anpassungsfähigkeit der vorgeschlagenen Methoden und demonstrieren deren Eignung für den Einsatz in sicherheitskritischen Bereichen wie der Automobilindustrie, Luft- und Raumfahrt sowie der industriellen Automatisierung.enAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/004 InformatikEmbedded SystemsEingebettete SystemeSystem-on-ChipSafety-critical systemNetwork-on-ChipEnergy efficiencyFault tolerantSicherheitskritische SystemeEnergieeffizienzFehlertolerantDynamic Reconfiguration and Fault Diagnosis in Time-Triggered Multi-Core ArchitecturesDynamische Rekonfiguration und Fehlerdiagnose in zeitgesteuerten MehrkernarchitekturenDoctoral ThesisRoman Obermaisserurn:nbn:de:hbz:467-71049