Predictive Maintenance für Infrastruktur durch Machine Learning

Die Wartung von Infrastruktur kann komplex und teuer sein. Predictive Maintenance kann helfen, Ausfälle von Infrastruktur zu diagnostizieren oder vorherzusagen, bevor sie auftreten.

In diesem Blogbeitrag zeigen wir, wie eine Lösung basierend auf Machine Learning zur Vorhersage des Ausfalls von Wasserpumpen aufgebaut wird – basierend auf Daten, die von einer Plattform namens Taarifa in Tansania gesammelt und der Öffentlichkeit in einem Online-Wettbewerb von DrivenData zur Verfügung gestellt werden. Jeder kann an diesem Wettbewerb von DrivenData teilnehmen und einen Prognosealgorithmus entwickeln. Zum Zeitpunkt des Schreibens hatten 5333 Teams aus der ganzen Welt an diesem Wettbewerb teilgenommen — Fintu Data Science steht auf Platz 37, unter den Top 1% aller teilnehmenden Teams.

Die Daten verstehen

Der von DrivenData veröffentlichte Datensatz enthält rund 60.000 Berichte über Wasserpumpen in ganz Tansania. Jeder Datensatz enthält Merkmale der Pumpe wie den genauen Standort, die Art der Pumpe, die Art der Wasserquelle, das Unternehmen, das die Pumpe installiert hat, die Fördereinrichtung, das Datum, an dem der Datensatz erstellt wurde usw. – insgesamt 39 Merkmale. Für jeden Eintrag in diesem Trainingsset wird auch der Status der Pumpe (funktionsfähig, funktionsfähig aber reparaturbedürftig, nicht funktionsfähig) vermerkt. Ziel ist es, diesen Zustand ausschließlich aus den Merkmalen der Pumpe vorherzusagen, um die schnelle Planung und effektive Durchführung von Wartungsarbeiten zu ermöglichen. Einige beispielhafte Standorte sind auf der folgenden Karte zu sehen.

Wir lösen dieses Problem durch Methoden des überwachten Lernens: Ein Modell wird trainiert um den Status auf in der Vergangenheit gesammelten Datzensätzen vorherzusagen, bei denen der wirkliche Status der Pumpe bekannt ist.  Nach dem Training kann mit diesem Modell der Funktionszustand von Pumpen anhand der aufgezeichneten Merkmale vorhergesagt werden. Um die höchstmögliche Präzision im realen Betrieb zu erzielen, verwenden wir Kreuzvalidierung, um sicherzustellen, dass der Algorithmus die verfügbaren Trainingsdaten nicht überinterpretiert. Dazu werden die verfügbaren Daten in einen Trainings- und einen Validierungssatz aufgeteilt und das Modell optimiert, um die beste Leistung auf dem Validierungssatz zu erzielen. Während dem Training hat das Modell keinen Zugriff auf die Daten aus dem Validierungsatz.
In diesem Wettbewerb prognostizieren Teams den Status der Pumpen eines zur Verfügung gestellten Scoring-Datensatz von 14.850 Einträgen, für die der wahre Status der Pumpen den konkurrierenden Teams nicht bekannt ist. Einreichungen an DrivenData werden dann nach ihrer Genauigkeit, in diesem Fall dem Anteil der korrekt vorhergesagten Zustände, bewertet.

Im ersten Schritt müssen die Eingabedaten, die Bürger über eine App auf ihrem Smartphone erfassen, einer Qualitätskontrolle auf fehlende oder fehlerhafte Daten unterzogen werden. Wir löschen Datenpunkte mit unplausiblen Merkmalen, wie zum Beispiel GPS-Koordinaten außerhalb des Landes. Wenn nur einige der Merkmale in einem Datensatz fehlen, errechnen wir diese auf der Grundlage vollständiger Datensätze (dieses Verfahren ist auch als Imputation bekannt). Für die meisten Merkmale, wie z.B. für fehlende Bevölkerungsdaten, nehmen wir einfach den Median. Für zwei Merkmale, die wir für besonders wichtig halten – die Höhe der Pumpe über dem Meeresspiegel und das Baujahr – trainieren wir spezielle Modelle, um die fehlenden Werte zu berechnen: Zuerst berechnen wir die fehlende Höhe einer Pumpe durch eine k-nearest-Nachbarn-Regression. Die fehlende Höhe wird als gewichteter Mittelwert der Höhen der fünf nächstgelegenen Pumpen berechnet, wobei deren Abstände als Gewichte verwendet werden (Details zu dieser Unterstellung finden Sie in diesem Blogbeitrag). Zweitens werden fehlende Baujahre durch ein spezifisches Vorhersagemodell mit Hilfe eines Gradient Boosted Tree Modells berechnet. Nach der Reinigung und Aufbereitung bleiben ca. 59.000 Datenpunkte übrig. Davon beschreiben 54% funktionale, 7% reparaturbedürftige Pumpen und 38% kaputte Pumpen.

Das Prognosemodell

Es gibt eine Menge von Machine Learning Modellen, die für ein solches Problem eingesetzt werden könnten, wobei jeder eine Reihe von wählbaren Parametern hat. Es ist unmöglich, vorher zu wissen, welches Modell am besten funktioniert, daher müssen in der Regel mehrere Kombinationen von Modellen und Parametern getestet werden.
Die Auswahl der besten Modelle und ihrer Parameter wurde oft dem Data Scientist überlassen und kann sehr zeitaufwendig sein. Hier verwenden wir stattdessen einen automatisierten Ansatz, bei dem die Auswahl des Modells und der Modellparameter einem Optimierungsverfahren überlassen wird. Die von uns verwendete Implementierung, namens auto-sklearn, verwendet einen Bayes’schen Mechanismus, um ein ganzes Ensemble von Modellen und deren Parameter auszuwählen. Diese algorithmische Suche nach dem besten Modell gibt dem Data Scientist mehr Zeit für das Wesentliche – das Verstehen der den Daten zugrunde liegenden Prozesse und die Entwicklung nützlicher Indikatoren für deren Verbesserung.

Unsere bei dem Wettbewerb eingereichten Prognosen haben eine Genauigkeit von 0,8255. Dies bedeutet, dass in 82,55% der Datensätze im Scoring-Datensatz der Funktionsstatus der Pumpe durch unseren Algorithmus korrekt vorhergesagt wird. Unser optimales Modell-Ensemble besteht aus vier Modellen: Zwei lineare Support-Vektor-Maschinen, ein Random Forest und ein Extremly Randomized Tree Modell. Diese Modelle verwenden sehr unterschiedliche Ansätze, um Merkmale zu finden und so zu kombinieren, dass die Vorhersageleistung maximal wird. Die Verwendung eines Ensembles verschiedener Modelltypen führt oft zu einer präziseren Prognose als die Verwendung einzelner Modelle, da die Fehler verschiedener Modelltypen oft nicht perfekt korreliert sind und sich daher in den Prognosen teilweise aufheben.

Entscheidend für eine effektive Wartung ist eine möglichst frühe Indikation darüber, welche Pumpen zu versagen könnten oder bereits defekt sind. Um die Leistung unseres Algorithmus bei dieser Aufgabe zu messen, fassen wir die drei prognostizierten Kategorien in zwei Kategorien zusammen: „funktionsfähig“ und „wartungsbedürftig“. Unser Modell unterscheidet diese beiden Kategorien mit einer Genauigkeit von 82%. Es gibt eine ähnliche Anzahl von Fehlern erster und zweiter Art in der Vorhersage, und beide dieser Fehlerraten liegen unter 18%. Falls sich die entstehenden Kosten durch einen Fehler erster oder zweiter Art stark unterscheiden, könnte das Modell auch optimiert werden, um explizit die Rate der kostspieligeren Fehlerart zu minimieren.

Die Prognosen nutzen

Das von uns erstellte Prognosemodell kann als ein Webservice umgesetzt werden. Vorhersagen für den Status einer Pumpe lassen sich dann erhalten, in dem man einen neu gesammelten Datensatz an den Prognose-Webservice schickt. Das macht die Integration in bestehende IT-Systeme und Prozesse einfach. Bei Betreibern von Infrastruktur könnten unsere Prognosen beispielsweise dazu genutzt werden, Wartungsteams schneller und effektiver zu reparaturbedürftigen oder defekten Anlagen zu entsenden.


Neben der Verwendung von durch Menschen erfasste Daten, können prädiktive Wartungsalgorithmen natürlich auch auf Messungen von eingebetteten Sensoren basieren. Abgesehen von dem in diesem Blog beschriebenen Fall gibt es in vielen Bereichen Anwendungen für Predictive Maintenance:

  • Infrastruktur: Wasser- und Stromnetze, Telekommunikationsnetze
  • Investitionsgüter: Aufzüge, Flugzeugtriebwerke, Züge, medizinische Bildgebungsgeräte, etc.
  • Industrielle Produktionsanlagen

Diese Vielzahl unterschiedlicher Anwendungen erfordert oft eine maßgeschneiderte Datenerfassung, Algorithmenentwicklung und Integration in bestehende Systeme und Prozesse. Richtig implementiert, kann eine Predictive Maintenance Lösung Ausfälle von Anlagen verhindern, die Effektivität des Außendienstes verbessern und die Lebensdauer der Anlagen verlängern – bei gleichzeitiger Senkung der Servicekosten.


Fintu Data Science implementiert maßgeschneiderte Data Science und Machine Learning Lösungen zur Automatisierung und Optimierung von Prozessen. Zu unseren Kunden gehören Mittelständler, Startups und NGOs aus Deutschland und Europa. Wenn Sie Interesse an unseren Lösungen und Dienstleistungen haben, schreiben Sie uns unter hallo@fintu.ai.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.