Diploma Thesis DIP-2013-10

BibliographyZimmermann, Stefan: Micro Architecture for Fault Tolerant NoCs.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Diploma Thesis No. 10 (2013).
124 pages, german.
CR-SchemaB.8.1 (Reliability, Testing, and Fault-Tolerance)
C.1.2 (Multiple Data Stream Architectures (Multiprocessors))
C.2.1 (Network Architecture and Design)
C.2.3 (Network Operations)
E.1 (Data Structures)
Abstract

Durch die Skalierung der Technologie ist es möglich andere Architekturen umzusetzen. So werden immer mehr Kerne auf einem Chip untergebracht. Mit der steigenden Anzahl an Kernen steigt der Kommunikationsbedarf. Die Alternative zu busbasierten Kommunikationen eines Ein-Chip-Systems ist ein Network-on-Chip. Ein Network-on-Chip basiertes System mit hunderten oder tausenden an Kernen hat bessere Performanceeigenschaften und einen besseren Datendurchsatz als ein vergleichbares busbasiertes Ein-Chip-System. Das Netzwerk auf einem Chip wird durch Switche aufgespannt. An jeden dieser Switche ist jeweils ein Kern angeschlossen. Durch Produktionsschwankungen oder nach einer gewissen Zeit kann der Chip defekt werden. Die dadurch auftretenden Defekte können einen wesentlichen Einfluss auf die Systemperformance und die Systemverfügbarkeit haben. Es muss sichergestellt werden, dass eine fehlerhafte Verbindung zwischen einem Switch und einem Kern oder ein defekter Kern den Systembetrieb nicht beeinflusst. Dies ist der Grund, dass diese Fehler erkannt und toleriert werden müssen. Um fehlerhafte Verbindungen zwischen dem Switch und dem Kern zu erkennen, wird die Anschlussfunktionalität bei Auftreten eines Fehlers überprüft. Informationen über die fehlerhaften Anschlüsse werden lokal in jedem Switch gespeichert. Eine redundante Verbindung zwischen dem Kern und den Switchen hält die Kernverbindung aufrecht, wenn ein Switch oder eine Verbindung zu dem Kern beschädigt ist. Drei Konfigurationen, mit zwei, mit drei und mit vier Switchverbindungen zu einem Kern, werden durch eine numerische Verfügbarkeitsberechnung untersucht. Die fehlertolerante Architektur modifiziert außerdem den Routingalgorithmus. Die Pakete müssen zu jedem Kern auch durch die alternative Verbindung zugestellt werden. Durch diese Erweiterungen kann die Verfügbarkeit und die Performance erhöht werden. Um die Zuverlässigkeit des Systems zu erhöhen, werden transiente Fehler von permanenten Fehlern unterschieden. Hierfür wird die Überprüfung der Verbindungen erweitert. Die Architektur wird dazu verwendet dass fehlerhafte Kerne erkannt werden. Die Operationen werden auf drei identischen Kernen, die an den gleichen Switch angeschlossen sind, ausgeführt. Ist das Ergebnis eines Kerns anders als das von den anderen Kernen, dann wird der fehlerhafte Kern von diesem Switch getrennt. Durch diese dreifach modulare Redundanz steigt die Zuverlässigkeit des Systems.

Full text and
other links
PDF (6908663 Bytes)
Department(s)University of Stuttgart, Institute of Technical Computer Science, Computer Architecture
Superviser(s)Wunderlich, Prof. Hans-Joachim; Kirstädter, Prof. Andreas; Dalirsani, Atefe; Imhof, Michael
Entry dateAugust 7, 2018
   Publ. Computer Science