placeholder

Systemausfälle durch Softwarefehler eliminieren Software, heile dich selbst

In der Industrieautomatisierung können Software-Ausfälle viel Geld kosten, in der Medizintechnik können sie den Patienten gefährden. In welchem Umfeld sie auch auftreten – ein Ärgernis sind sie immer. Doch mit der richtigen Betriebssystemarchitektur und einem High Availability Framework lässt sich vorsorgen.
Es gibt prinzipiell drei Arten von Betriebssystem-Architekturen: Die klassische „Realtime Executive“ stammt aus der 8- und 16-Bit Micro-Controllerwelt, findet sich aber auch heute noch in vielen 32-Bit Systemen. Hierbei laufen alle Komponenten – Applikationen, Netzwerkstack, Treiber, Dateisysteme – gemeinsam im physikalischen Adressraum der CPU. Die Folge: Ist auch nur in einer Komponente irgendwo ein kleiner Fehler, der dazu führt, dass Code oder Daten einer anderen überschrieben werden, kann es schnell zu Problemen bis hin zum Komplettabsturz des Gesamtsystems kommen. Das führt nicht nur zu nervenaufreibenden Debug-Sitzungen, in der theoretisch jeder am System beteiligte Programmierer „schuld“ am Problem sein kann, sondern auch zu der Notwendigkeit eines kompletten Reboots im Fehlerfall – oft über einen Hardware-Watchdog ausgelöst.

Speicher-Schutz-Verletzung

Etwas Schutz hingegen bietet der konventionelle, monolithische Kernel-Ansatz, der in den 60’er Jahren als Teil von Unix entwickelt wurde und heute in Linux, Windows und auch einigen Echtzeit- und Embedded-Betriebssystemen zum Einsatz kommt. Hier wird die Memory Management Unit (MMU) des Prozessors genutzt, um für jede Applikation einen sogenannten virtuellen Adressraum bereit zu stellen. Im Fehlerfall, wenn z.B. ein Zeiger falsch initialisiert oder zu hoch inkrementiert wurde, führt dies zur heute jedem bekannten „Speicher-Schutz-Verletzung“ – die MMU stellt einen nicht erlaubten Zugriff fest, das Programm kann vom Kernel beendet werden, ohne dass irgendein weiterer Schaden entsteht – das Gesamtsystem läuft in der Regel weiter. Bei der Entwicklung von Embedded Systemen jedoch schreiben Sie nicht nur Applikationen, sie „reden“ natürlich auch mit Ihrer Hardware, schreiben eigene Treiber für selbst entwickelte Komponenten. Diese Software läuft beim Realtime Executive oder beim Monolith im Kernel-Mode der CPU. Dieser Mode erlaubt quasi Zugriff auf „Alles“, weshalb es im Fehlerfall zum Totalabsturz kommen kann: Blue Screen oder Kernel Panic sind die Folge. Solche Szenarien sind nicht nur enorm schwer und zeitintensiv zu debuggen, sondern dürfen in manchen Systemen schlichtweg nie vorkommen – sei es beim Augenlasern, in der Luftfahrt oder bei Geräten, an denen einfach zu viel „dranhängt“ – z.B. bei Terabit-Routern, die ganze Städte mit dem Internet verbinden.

Microkernel-Architektur für erhöhte Zuverlässigkeit

Für erhöhte Zuverlässigkeit hat sich deshalb die Microkernel-Architektur bewährt: Hier läuft nur ein kleiner Basis-Kern im Kernel- oder Supervisor-Mode des Prozessors , sprich der Code, dem vertraut wird, ist überschaubar und wird vom Systementwickler in der Regel auch nicht mehr angefasst. Microkernel wie z.B. QNX Neutrino bestehen nur aus Scheduler, Prozessmanager, Interprozesskommunikationsmechanismen etc., enthalten aber keinerlei hardwarenahen Treiber. Ob Netzwerkstack, CAN-Treiber, Dateisystem, USB- oder Grafiktreiber – alle laufen bei dieser Architektur im User-Mode des Prozessors, bei dem mittels der MMU voller Speicherschutz mit strikt voneinander getrennten virtuellen Adressräumen gewährleistet wird. Und eigene Treiber sind folglich lediglich auch nur „User-Land-Applikation“, die in keiner Weise mit dem Kernel verlinkt werden. Damit entfällt nicht nur das neu Kompilieren (-> keine „Dauerbaustelle Kernel“ mehr) sondern weder in der Entwicklungsphase noch beim Gerät im Feld kann ein Problem im Treiber das Gesamtsystem zum Absturz bringen. Im schlimmsten Fall stellt die MMU einen nicht genehmigten Speicherzugriff des Treibers fest, so dass dieser vom Kernel beendet wird und die zugewiesenen Ressourcen freigegeben werden können. Damit sind die Grundlagen für sich selbst heilende Software-Systeme gelegt.

Der Heilungsprozess beginnt

Jeder Entwickler wird froh sein, während der Programmierung nicht ständig neu booten zu müssen, da er mit einem Microkernel-Betriebssystem auch einen halbfertigen Treiber einfach in einen Fehler hineinlaufen lassen, diesen beenden und durch eine neue Version ersetzen kann. Doch die interessantesten Möglichkeiten liegen im Bereich der Sicherstellung von Hochverfügbarkeit bei Systemen im Feld: Aufsetzend auf dem Microkernel-Konzept liefert z.B. QNX noch ein ausgeklügeltes High Availability Framework mit. Damit lassen sich diverse Reaktionen auf verschiedene Problemfälle implementieren. Dabei wird der High Availability Manager (HAM) als ein eigener Prozess gestartet. Systemkomponenten – Treiber ebenso wie Applikationen – können von diesem überwacht werden. Dabei gibt es prinzipiell zwei Fehlerszenarios:
1. Ein Programm versucht, die Grenzen seines virtuellen Adressraums zu überschreiten, z.B. durch einen falsch gesetzten Pointer. Dies löst eine MMU-Exception aus, wodurch der Microkernel sofort in Aktion tritt und den havarierten Prozess beendet und alle zugeordneten Ressourcen wieder freigibt.
2. Ein Programm kann sich im Fehlerfall in einer Schleife „verfangen“ und somit scheinbar einfrieren oder nicht mehr reagieren. Ein Treiber z.B. könnte auf eine Anfrage einer Applikation nicht mehr antworten.
Der Systemdesigner meldet die zu überwachenden Komponenten beim High Availability Manager an. Im Szenario 1 wird der HAM im Falle einer MMU-Exception durch den Kernel informiert, dass ein überwachter Prozess gerade abgestürzt ist. Im Szenario 2 programmiert man für die High Availability sogenannte Heartbeats, also Trigger, die von der betreffenden Applikation (oder dem Treiber) regelmäßig an den HAM gesandt werden müssen. Bleibt der Heartbeat aus, tritt der HAM in Aktion.

Der High Availability Manager

Stellt der High Availability Manager also ein Problem fest, wird eine vorher definierte Aktion ausgeführt: Im einfachsten Fall ist dies ein Neustart der entsprechenden Softwarekomponente. Statt eines kompletten System-Reboots, der viele schmerzhafte Sekunden – oder gar Minuten – dauern kann, ist eine einzelne Softwarekomponente in der Regel innerhalb einiger Millisekunden wieder verfügbar. Wenn es sich dabei um einen Treiber handelt, gibt es in der Regel aber auch Applikationen, die gerade mit diesem in Verbindung gestanden und Daten ausgetauscht haben. Auch Applikationen untereinander kommunizieren in der Regel über verschiedenste Interprozess-Kommunikationsmechanismen. Das High Availability Framework von QNX bietet für solche Szenarien ebenfalls Lösungen: Der High Availability Manager kann beim Aufbau einer Verbindung von Applikation zu einem Treiber (oder einer anderen Applikation) instruiert werden, diese ebenfalls zu überwachen. Tritt ein Problem auf und ein Treiber muss neu gestartet werden, werden auch Applikationen mit aktiven Interprozess-Kommunikationsverbindungen automatisch informiert, welche dann eine vorher definierte Recovery-Funktion anspringen können. Diese stellt dann beispielsweise die Verbindung zum neu gestarteten Treiber wieder her. Da Treiber in der Regel Daten an Applikationen liefern, möchte man im Idealfall, dass die Applikation auch nach einem Neustart des Treibers nicht wieder sämtliche Daten neu einlesen muss. Umgekehrt senden Applikationen oft Daten an Treiber. Um hier nach einem Recovery-Fall den „Faden“ wiederzufinden, bietet sich ein Checkpointing-Verfahren an. Hierbei wird ein weiteres Feature des High Availability Managers genutzt: Diesem kann ein Programm nämlich regelmäßig mitteilen, in welchem Zustand es sich gerade befindet – beispielsweise welches Datenpaket gerade verarbeitet wird, welches Menü (im Falle einer grafischen Applikation) gerade angezeigt wird oder welche Relais gerade wie geschaltet sind. Der High Availability Manager hält diese Daten in einem Shared Memory Objekt vor, wodurch das Abspeichern solcher Statusinformationen seitens der überwachten Komponenten schnell, einfach und ohne irgendwelche Restriktionen bezüglich der Struktur vor sich gehen kann. Ein frisch neu gestarteter Treiber – oder eine Anwendung – kann so ohne großen Zeitaufwand den letzten bekannten Zustand wiederherstellen: Das zuletzt bearbeitete Paket kann wieder in Angriff genommen, die zuletzt geöffnete Datei weiter bearbeitet, der zuletzt abgefragte Wert übermittelt werden. Je nach Komplexität der ausgelösten Aktionen ist das System somit innerhalb von Sekundenbruchteilen bis zu wenigen Sekunden wieder voll einsatzbereit.

Einfach weiterarbeiten

Je nach Bedarf kann ein Eintrag ins System Log vorgenommen, ein Abbild des virtuellen Adressraums gespeichert oder ein übergreifender Tracing-Prozess angestoßen werden, um dem Entwickler später die Analyse solcher Problemfälle zu erleichtern – während der Systemanwender bzw. die Maschine etc. in der Regel einfach weiter arbeitet. Egal ob Treiber oder Applikationen – mit einer Microkernel-Architektur und dem passenden High Availability Framework kann sich Software im Fehlerfall tatsächlich selbst „heilen“. Systemausfälle durch Softwarefehler können somit stark reduziert, oft sogar eliminiert werden.

Autor: Malte Mundt, Field Application Engineer, QNX Deutschland

Weitere Information

Thematik: Allgemein, Embedded Design 3 2010, Embedded-Systeme

QNX Software Systems Limited

Zur Firmenwebsite

MEHR ZUM THEMA

Bild: RWTH Aachen University Werkzeugmaschinenlabor WZL der

Forschungsprojekt von WZL und Riiico

AutoSim automatisiert die Erstellung digitaler Simulationsmodelle

Bild: NetApp Deutschland GmbH

Verantwortung für technische Strategie

NetApp ernennt CTO & VP Sales Engineering für EMEA und Lateinamerika

Engineering-Spezialist JuliaHub erhält 65 Millionen US-Dollar

Bild: JuliaHub, Inc.

Bild: ISC2

Kommentar zum World Quantum Day

Postquantenkryptografie: frühzeitig vorbereiten, spätere Störungen vermeiden

Zum World Quantum Day am 14. April äußert sich Jon France, CISO von ISC2 (International Information System Security Certification Consortium), einer Nonprofit-Organisation für Cybersecurity-Experten zum aktuellen Status der…

Weiterlesen: Postquantenkryptografie: frühzeitig vorbereiten, spätere Störungen vermeiden
Bild: Protolabs Germany GmbH

Transformation der Fertigung

Protolabs-Report identifiziert KI als Wegbereiter für Industrie 5.0

Protolabs, ein Anbieter von digitalen Fertigungsdienstleistungen, analysiert in einem aktuellen Bericht Faktoren, die die technologische Weiterentwicklung der Fertigungsindustrie über den gesamten Produktlebenszyklus hinweg beschleunigen.

Weiterlesen: Protolabs-Report identifiziert KI als Wegbereiter für Industrie 5.0
Bild: Sereact GmbH

Künstliche Intelligenz für Roboter

Sereact sichert sich frisches Kapital

Sereact, ein Spezialist für physische KI, hat eine Serie-B-Finanzierungsrunde in Höhe von 110Mio.US$ unter der Führung von Headline abgeschlossen, an der sich Bullhound Capital, Daphni und Felix Capital…

Weiterlesen: Sereact sichert sich frisches Kapital
Bild: ©Franz Pfluegl/stock.adobe.com

Verhalten nach Ransomware-Angriffen

Lösegeld zahlen ist keine Lösung

Laut dem Spezialversicherer Hiscox, der sich auf die polizeiliche Kriminalstatistik beruft, richten sich inzwischen rund 80% aller bekannten Ransomware-Angriffe gegen kleine und mittlere Unternehmen.

Weiterlesen: Lösegeld zahlen ist keine Lösung
Bild: IFS Deutschland GmbH

Managementwechsel

Ryan Courson wird Finanzchef bei IFS

IFS hat Ryan Courson (Bild) zum Chief Financial Officer ernannt.

Weiterlesen: Ryan Courson wird Finanzchef bei IFS

Neu im Werk Rahden

Harting eröffnet Kompetenzzentrum für 3D-Druck

Die Harting Technologiegruppe baut ihre Kompetenzen im Bereich 3D-Druck aus und eröffnet das ‚Center of…

Weiterlesen: Harting eröffnet Kompetenzzentrum für 3D-Druck
Neue Zahlen vom VDMA

Auftragsdämpfer für den Maschinen- und Anlagenbau

Im deutschen Maschinen- und Anlagenbau sanken die Bestellungen im Februar insgesamt um 12% zum Vorjahr.

Weiterlesen: Auftragsdämpfer für den Maschinen- und Anlagenbau

SAP Procurement

All for One Group übernimmt Apsolut

Das IT-Consulting-Unternehmen All for One aus Filderstadt hat mit Wirkung zum 5. März alle Anteile an dem SAP Procurement-Spezialisten und SAP Gold…

Weiterlesen: All for One Group übernimmt Apsolut
Neuer Vorstandsbereich bei SAP

Thomas Saueressig wird Chief Customer Officer

SAP hat die Gründung des neuen Vorstandsbereichs Customer Value Group bekannt gegeben, in dem die Bereiche Customer Success und Customer Services &…

Weiterlesen: Thomas Saueressig wird Chief Customer Officer

Ausbau in Richtung Supply Chain Management

Swan erweitert die Geschäftsführung

Swan hat Matthias Martens (l.) als weiteren Geschäftsführer berufen.

Weiterlesen: Swan erweitert die Geschäftsführung
VDMA startet ‚Wochen der Technik‘

In einer aktuellen Umfrage unter VDMA-Mitgliedsfirmen berichten 35 Prozent der Unternehmen von starken Engpässen auf dem Ausbildungsmarkt und 50 Prozent von leichten…

Weiterlesen: VDMA startet ‚Wochen der Technik‘
Projektmanagement-Tool von MPDV

Die neue Shopfloor-App Detailed Project Management von MPDV bildet das Projektmanagement im Produktionsunternehmen digital ab.

Weiterlesen: Projektmanagement-Tool von MPDV
Emulationstool zur Optimierung der KI-Infrastruktur

Ein neues Tool von Keysight Technologies heißt Keysight AI (KAI) Data Center Builder.

Weiterlesen: Emulationstool zur Optimierung der KI-Infrastruktur

Drahtlose Konnektivität in der Fabrik

Das 5G-Campusnetz bei Jaguar Land Rover

Konnektivität wird in der Automobilproduktion immer wichtiger. JLR setzt hier auf 5G-Funktechnik anstelle von Kabelverbindungen. Gemeinsam mit Ericsson hat der Hersteller von…

Weiterlesen: Das 5G-Campusnetz bei Jaguar Land Rover
Technologischer Fortschritt und Eigenschaften

Eine kurze Geschichte der Industrie-PCs

Industrielle PCs sind auf Zuverlässigkeit getrimmt und kommen zum Teil in rauen Umgebungen zum Einsatz. Von den ersten Industrie-PCs, die in den…

Weiterlesen: Eine kurze Geschichte der Industrie-PCs
Ifo Geschäftsklimaindex steigt um 0,2 Punkte

Die Stimmung der Unternehmen in Deutschland hat sich im April leicht verbessert.

Weiterlesen: Ifo Geschäftsklimaindex steigt um 0,2 Punkte
Wie schwer ist der Einstieg ins Ingenieurwesen?

Eine Studie der Karriereplattform Jobleads zeigt, dass es für Berufstätige am schwersten ist, in das Finanzwesen einzusteigen.

Weiterlesen: Wie schwer ist der Einstieg ins Ingenieurwesen?
Wie KI die Fertigungsindustrie transformiert

TeamViewer hat auf der Hannover Messe den Report ‚The AI Opportunity in Manufacturing‘ vorgestellt, der das transformative Potenzial von KI in der…

Weiterlesen: Wie KI die Fertigungsindustrie transformiert
IFM baut neues Werk in China

Mit der symbolischen Grundsteinlegung hat IFM am 15. April die Bauphase des Greenfield-Projektes im chinesischen Suzhou eingeläutet.

Weiterlesen: IFM baut neues Werk in China
Prostep entwickelt KI-Chatbot für den Digitalen Produktpass

. Prostep hat im Rahmen des vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten Verbundprojekts Decide4Eco einen KI-basierten Chatbot entwickelt, der Informationen…

Weiterlesen: Prostep entwickelt KI-Chatbot für den Digitalen Produktpass
MHP schließt Partnerschaft mit Softwarehersteller Cybus

Um Unternehmen bei der Digitalisierung zu unterstützen, haben die Management- und IT-Beratung MHP sowie der Softwarehersteller Cybus eine Partnerschaft vereinbart.

Weiterlesen: MHP schließt Partnerschaft mit Softwarehersteller Cybus