h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

High-level estimation and exploration of reliability for multi-processor system-on-chip = High-Level-Zuverlässigkeitsschätzung und -erforschung für Multi-Prozessor System-on-Chip



Verantwortlichkeitsangabevorgelegt von M. Sc. Zheng Wang aus Tianjin, China

ImpressumAachen 2015

Umfang1 Online-Ressource (6, iv, 195 Seiten) : Illustrationen


Dissertation, RWTH Aachen, 2015

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2016


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2015-12-02

Online
URN: urn:nbn:de:hbz:82-rwth-2016-012709
URL: https://publications.rwth-aachen.de/record/569555/files/569555.pdf
URL: https://publications.rwth-aachen.de/record/569555/files/569555.pdf?subformat=pdfa

Einrichtungen

  1. Juniorprofessur für Multi-Processor System-on-Chip (MPSoC) Architectures (618130)

Inhaltliche Beschreibung (Schlagwörter)
Elektrotechnik, Elektronik (frei) ; reliability estimation (frei) ; architecture exploration (frei) ; system-level design (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
In Epoche des nanoskaligen Computing hat kontinuierliche Skalierung der Technologie in Halbleiterindustrie ernsthaftes Bedenken über die Zuverlässigkeit bei Entwurf erregt. Traditonelle Methoden für die Evaluation der Zuverlässigkeit von Geräten und Leitungen haben weder die Komplexität des modernen Systems betroffen noch die fehler abdeckenden Eigenschaften auf Architektur- and systemebene berücksichtigt. Ein alternativer Ansatz lautet, die Unzuverlässigkeit unter alle Ebenen des Computing auszusetzen und die Fehler möglichst mit Gerät-, Schaltungs-, Architektur- oder Softwarentechniken zu reduzieren. Um kreuzebene Erforschung der Verlässigkeit gegenüber anderen Leistungsbeschränkungen zu vermöglichen, es ist wichtig die Fehler durch nanoskalige Technologie exakt zu modelieren und einen reibungslosen High-Level-Werkzeugablauf zu entwickeln, so dass die Effekte von Fehlern eingeschätzt werden können, was wiederum die fehlertoleranten High-Level-Techniken unterstützt. In dieser Dissertation, ein Rahmenwerk von High-Level-Schätzung und Erforschung von Zuverlässigkeit ist entwickelt.Um Zuverlässigkeit in früheren Entwurfsphasen abzuschätzen, ein Rahmenwerk der High-Level-Simulation von Störungen ist für generische Architektur-Modelle gebaut und dann in eine kommerzielle Entwurfsumgebung von Prozessoren integriert. Der Fehlerinjektor ist für systemebene Module erweitert. Ein Rahmenwerk von Power/Thermal/Zeitfehler Co-Simulation ist demonstriert für die Integration von Fehlerinjektion mit Simulation der physischen Eigenschaften. Um die Schätzung von Zuverlässigkeit weiter zu beschleunigen, eine analytische Methode zur Berechnung von Schadenpotenzial der einzelnen Logikblöcken ist vorgeschlagen und die Möglichkeiten von Fehlern auf Ebene der Applikation werden daraus abgeleitet. Eine formale Technik ist eingeführt zur Voraussage von Fehlereffekten durch Verfolgung der Übertragung von Fehlern. Abschließend wird Design-Diversity-Methode verwendet um die Robustheit von Redundanz in System-Level-Computing-Elementen zu quatifizieren.Die Beiträge im Erforschungsbereich von Zuverlässigkeit schließt mehrere novelle architektonische fehlertolerante Techniken ein. Opportunistische Redundanz entdeckt Fehler durch Wiederbearbeitung von Befehlen nur wenn unterbenutzte Ressourcen vorhand sind. Asymmetrische Redundanz schützt Speicherelemente auf Basis von kritischer Analyse von Daten und Befehlen. Fehlerbeschränkung ersetzt jedes fehlerhafte Ergebnis mit der best verfügbaren Schätzung in Hinsicht von statistischen Charaktern der Zielapplikation. Für systemebene Fehlertoleranz wird ein Aufgabe-Mapping-Algorithmus, der die Zuverlässigkeit von Prozessoren berücksichtigt, auf einer Plattform von heterogenen Multiprozessoren demonstriert. Ein theoretischer Ansatz zur Errichtung von ad-hoc fehlertolerantem Netzwerk für beliebigen Aufgaben-Graph mit optimaler Menge von Verbindungskanten wird ausgearbeitet und durch gründliche Recherchen basierenden Algorithmus verifiziert.Die Methodiken vorgeschlagen in dieser Dissertation werden für zukünftige Entwicklung der Halbleitertechnologie kritisch sein, wo Zuverlässigkeit ein langfristiges Thema sein wird. Um die Forschung fortzusetzen, weitere Richtungen werden eventuell dargestellt.

Continuous technology scaling in semiconductor industry forces reliability as a serious design concern in the era of nano-scale computing. Traditional device and circuit level reliability estimation and error mitigation techniques neither address the huge design complexity of modern system nor consider architecture and system-level error masking properties. An alternative approach is to accept and expose the unreliability to all layers of computing and possibly mitigate the errors with device-, circuit-, architectural or software techniques. To enable cross-layer exploration of reliability against other performance constraints, it is essential to accurately model the errors in nano-scale technology and develop a smooth tool-flow at high-level design abstractions so that error effects can be estimated, which assists the development of high-level fault-tolerant techniques. In this dissertation, a high-level reliability estimation and exploration framework for MPSoC is developed.To estimate reliability at early design stages, a high-level fault simulation framework is constructed for generic architecture models and integrated into a commercial processor design environment. The fault injector is further extended for system-level modules. A power/thermal/timing error co-simulation framework is demonstrated for integrating fault injection with simulation of physical properties. To further speed up reliability estimation, an analytical method is proposed to calculate vulnerability of individual logic blocks, from which application level error probabilities are deduced. A formal technique is introduced to predict error effects by tracking error propagation. Finally, design diversity metric is utilized to quantify the robustness of redundancy in system-level computing elements.The contributions in reliability exploration include several novel architectural fault-tolerant techniques. Opportunistic redundancy detects errors by re-executing the instructions only if there are underutilized resources. Asymmetric redundancy unequally protects memory elements based on criticality analysis of data and instructions. Error confinement replaces any erroneous result with the best available estimate from statistical characteristics. For system-level fault tolerance, a core reliability-aware task mapping algorithm is demonstrated on a heterogeneous multiprocessor platform. A theoretical approach to construct ad-hoc fault tolerant network for arbitrary task graph with optimal amount of connecting edges is elaborated and verified by exhaustive search based algorithm.The methodologies proposed in this dissertation are going to be critical for future semiconductor technology nodes, where reliability is going to be a permanent problem. Further research directions are outlined to take this research forward.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT018900398

Interne Identnummern
RWTH-2016-01270
Datensatz-ID: 569555

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
618130_20140620
Public records
Publications database

 Record created 2016-02-20, last modified 2023-04-08