Software-basierte Rekonfiguration in statisch geplanten Mehrkernsystemen zur Behandlung permanenter Fehler

Müller, Sebastian

Software-basierte Rekonfiguration in statisch geplanten Mehrkernsystemen zur Behandlung permanenter Fehler

Software-Based Self-Repair of Statically Scheduled Multi-Core Systems for Handling Permanent Faults

In zukünftigen eingebetteten Systemen ist bei zunehmender Integrationsdichte mit einer abnehmenden Zuverlässigkeit zu rechnen. Insbesondere lang laufende Systeme werden mit fortschreitender Zeit Alterungserscheinungen aufweisen, die sich durch den permanenten Ausfall einzelner Komponenten bemerkbar machen. Um die Funktionstüchtigkeit solcher Systeme auch für einen langen Zeitraum zu gewährleisten, sind Funktionen erforderlich, die die Erkennung, Lokalisierung und Behandlung solcher permanenter Fehler erlauben. Diese Funktionen sind dabei in das System zu integrieren. Es existieren dafür bereits verschiedene Ansätze auf unterschiedlichen Systemebenen. Das Spektrum solcher Ansätze reicht von einer Reparatur auf Transistorebene über die Reparatur einzelner Komponenten, die aus einigen dutzend bis einigen tausend Transistoren bestehen, bis hin zu Reparaturansätzen, die komplette Prozessorkerne in einem System ersetzen. Jeder Ansatz hat dabei seine spezifischen Vor- und Nachteile. Das betrifft insbesondere den Aufwand zur AdministrationIn zukünftigen eingebetteten Systemen ist bei zunehmender Integrationsdichte mit einer abnehmenden Zuverlässigkeit zu rechnen. Insbesondere lang laufende Systeme werden mit fortschreitender Zeit Alterungserscheinungen aufweisen, die sich durch den permanenten Ausfall einzelner Komponenten bemerkbar machen. Um die Funktionstüchtigkeit solcher Systeme auch für einen langen Zeitraum zu gewährleisten, sind Funktionen erforderlich, die die Erkennung, Lokalisierung und Behandlung solcher permanenter Fehler erlauben. Diese Funktionen sind dabei in das System zu integrieren. Es existieren dafür bereits verschiedene Ansätze auf unterschiedlichen Systemebenen. Das Spektrum solcher Ansätze reicht von einer Reparatur auf Transistorebene über die Reparatur einzelner Komponenten, die aus einigen dutzend bis einigen tausend Transistoren bestehen, bis hin zu Reparaturansätzen, die komplette Prozessorkerne in einem System ersetzen. Jeder Ansatz hat dabei seine spezifischen Vor- und Nachteile. Das betrifft insbesondere den Aufwand zur Administration der Reparatur sowie die Anwendbarkeit auf beliebige Hardwarestrukturen. Bisher wurden die Reparaturmethoden isoliert entwickelt. In Systemen mit zunehmender Komplexität wird jedoch ein hierarchischer Ansatz benötigt, der die existierenden Techniken ebenenübergreifend verbindet. Dadurch kann eine Zerlegung des Systems in verschiedene Gruppen vorgenommen werden, wobei für jede Gruppe eine spezifische Reparaturmethodik besonders geeignet ist. Es entsteht dadurch ein teils hierarchisch organisierter Reparaturansatz, der unterschiedliche Reparaturtechniken miteinander kombiniert. Es werden für das hierarchische Verfahren insbesondere software-basierte Reparaturansätze betrachtet, da diese nur einen geringen Administrationsaufwand in Hardware erfordern. Die Nutzung fehlerhafter Komponenten im Prozessor wird dabei durch die Anpassung des ausgeführten Programms an die aktuelle Fehlersituation vermieden. Diese Anpassung kann beispielsweise auf Systemebene, durch Verlagerung eines Programms von einem Prozessorkern auf einen anderen Kern oder auf der Ebene von Prozessorkernen, wobei die Benutzung einzelner Komponenten eines Kerns vermieden wird, erfolgen. Diese Anpassungen lassen sich durch Techniken, wie sie im Backend eines Compilers eingesetzt werden, bewerkstelligen. Die Reparatur auf den verschiedenen Ebenen erfordert dabei unterschiedlich mächtige Backends. Das reicht von einem Backend, das nur eine Ablaufplanung ändert, über ein Backend, das darüber hinaus noch die Registervergabe anpasst, bis hin zu einem Backend, das den Programmcode zweier Prozessorkerne vertauscht und an den jeweiligen Kern anpasst. Die Ausführung der software-basierten Reparatur soll dabei möglichst durch den fehlerhaften Kern selbst ausgeführt werden. In schwerwiegenden Fällen erfolgt eine administrierte Reparatur auf der Systemebene durch einen zur Reparaturzeit bestimmten Prozessorkern des Systems. Der Aufwand für entsprechende Backends sowie deren Möglichkeit zur Fehlerbehandlung werden in dieser Arbeit untersucht.…
Due to the shrinking feature-size of integrated circuits a lower reliability is predicted for embedded systems. The higher stress density in those circuits leads to wear-out effects, which result in a permanent fault of processor components. In order to ensure a certain quality of service for long-term systems, techniques for fault detection, localization and error handling have to be integrated into a system. Several approaches are already known for different hierarchical levels of a system. Those approaches can replace hardware structure with a size from hundred to thousands of transistors or can even exchange entire processor cores with spare-cores. Every approach has its own advantage and draw-back. The key issues are the overhead for administrating a repair and the applicability for any hardware structure of a processor. Due to the increasing complexity of modern embedded systems a hierarchical approach is required, which combines the existing techniques in one approach. This offers the possibility to separate a system intoDue to the shrinking feature-size of integrated circuits a lower reliability is predicted for embedded systems. The higher stress density in those circuits leads to wear-out effects, which result in a permanent fault of processor components. In order to ensure a certain quality of service for long-term systems, techniques for fault detection, localization and error handling have to be integrated into a system. Several approaches are already known for different hierarchical levels of a system. Those approaches can replace hardware structure with a size from hundred to thousands of transistors or can even exchange entire processor cores with spare-cores. Every approach has its own advantage and draw-back. The key issues are the overhead for administrating a repair and the applicability for any hardware structure of a processor. Due to the increasing complexity of modern embedded systems a hierarchical approach is required, which combines the existing techniques in one approach. This offers the possibility to separate a system into different levels. A dedicated repair method is assigned to every level of a system. This results in a hierarchical organized repair approach that combines various fault-tolerant repair methods. The developed hierarchical repair approach uses only software-based repair techniques, because the required hardware overhead for administrating a software-based repair is negligible. A permanent fault is handled by reconfiguring the application of a system in such a way that the executed tasks never use a faulty component. The reconfiguration at the core-level avoids e.g. the use of a faulty register whereas at the system-level a task is moved from a processor core to a different one. The software-based repair approach can be achieved with techniques, which are used in the back-end of a compiler. A varying set of back-ends is required for the different levels of a system. A first simple back-end adapts the scheduling of a basic block, whereas a second back-end can change the usage of registers. At the system-level a back-end is required, which adapts the program code of one core to the architecture of another core. The hierarchical repair approach is organized in such a way that a faulty core executes the software-based repair as a self-repair. In case that the self-repair fails, the repair is repeated at the system-level by an arbitrary core of the system. The thesis investigates the overhead of the software-based self-repair and the improvement of the average life-time of different fault-tolerant system configurations.…

Metadaten
Author:	Sebastian Müller
URN:	urn:nbn:de:kobv:co1-opus4-34916
Referee / Advisor:	Prof. Dr.-Ing. Heinrich Theodor Vierhaus, Prof. Dr. rer. nat. habil. Petra Hofstedt
Document Type:	Doctoral thesis
Language:	German
Year of Completion:	2014
Date of final exam:	2014/12/16
Release Date:	2015/06/01
Tag:	Fehlertoleranz; Mehrkernsystem; Software-basierte Rekonfiguration; Zuverlässigkeit Dependability; Fault-Tolerance; Multicore System; Software-based Self-Repair
GND Keyword:	Eingebettetes System; Fehlertoleranz; Rekonfiguration
Institutes:	Fakultät 1 MINT - Mathematik, Informatik, Physik, Elektro- und Informationstechnik / FG Technische Informatik
Institution name at the time of publication:	Fakultät für Mathematik, Naturwissenschaften und Informatik (eBTU) / LS Technische Informatik
Licence (German):	Keine Lizenz vergeben. Es gilt das deutsche Urheberrecht.

Open Access

Software-basierte Rekonfiguration in statisch geplanten Mehrkernsystemen zur Behandlung permanenter Fehler

Software-Based Self-Repair of Statically Scheduled Multi-Core Systems for Handling Permanent Faults

Download full text files

Export metadata

Additional Services