KSB

Data Pipeline für Machine Learning Anwendungen

Für effizientere Machine‑Learning‑Entwicklung setzte KSB auf eine neue Dateninfrastruktur. Die Gofore‑Tochter esentri realisierte dafür eine skalierbare Data Pipeline und einen zentralen Data Lake.

HERAUSFORDERUNG

Fragmentierte Toolchain und fehlende Datenharmonisierung

Eine zentrale Herausforderung bei der Einführung von maschinellem Lernen ist das fehlende Zusammenspiel zwischen Data Science und Data Engineering. Isoliert arbeitende Data Scientists, die Dateninfrastrukturen über Trial-and-Error entwickeln, sind ebenso wenig effektiv wie Data Engineers, die ohne enge Abstimmung maschinennahe Algorithmen umsetzen.

Auch bei KSB bestand der Bedarf, die bestehende Toolchain systematisch zu bewerten – sowohl im Data-Science-Umfeld als auch mit Blick auf die übergreifende Data-Cloud-Infrastruktur. Zudem sollte mehr Transparenz in den Datenstrukturen geschaffen und die Abstimmung der Datenkataloge verbessert werden. Gemeinsam mit der Gofore Tochter esentriwurden diese Themen strukturiert angegangen und nachhaltig umgesetzt.

ANSATZ

Einführung einer offene und skalierbare Datenplattform

Im Projekt mit KSB wurde ein methodischer, schrittweiser Ansatz gewählt, um eine belastbare Grundlage für Machine-Learning-Anwendungen zu schaffen. Zunächst wurden Datenlandschaft und Toolchain systematisch analysiert und bewertet. Darauf aufbauend wurde eine zentrale Data-Pipeline konzipiert und implementiert, die klare Schnittstellen zwischen Data Engineering und Data Science schafft. Durch definierte Prozesse, abgestimmte Datenkataloge und iterative Umsetzung in enger Zusammenarbeit entstand eine skalierbare Basis für die Entwicklung, den Betrieb und die Weiterentwicklung von Machine-Learning-Modellen.

Ergebnis

Strukturierte Daten als Basis für Innovation

Angefangen bei den Vorteilen in Bezug auf Transparenz und Skalierbarkeit des Teams, bietet unsere Lösung einen klaren Überblick über die verfügbaren Daten und eine strukturierte Aufgabenteilung zwischen Data Engineers und Data Scientists. Aus Sicht der Geschäftsinnovation ermöglicht die Zusammenarbeit die Konzentration auf das Wesentliche und schafft so neue Anreize für Data Scientists für für tiefgreifende Analysen und die Entwicklung neuer maschinennaher Algorithmen. Letztlich trägt unsere Lösung zur Entwicklung neuer Anwendungen bei, die das Portfolio eines Unternehmens bereichern und Innovationen zulassen.

„Die Nutzung eines modernen Data Lakes und Bereitstellung der Daten über die zugehörigen Data Pipelines sind die Grundlage für die Zusammenarbeit unserer Teams. Gemeinsam mit den Experten von esentri haben wir einen Überblick über unsere verfügbaren Daten geschaffen. Dadurch gewinnen wir Geschwindigkeit in unseren Projekten und unsere Data Scientists können sich auf den Kern der Wertschöpfung konzentrieren.“

Jochen Mades Leiter Entwicklung von Kompetenzplattformen, KSB SE & Co. KGaA

Projekthighlights

Herausforderung

Ziel der Zusammenarbeit war es zunächst, das hochqualifizierte Data Science Team von der Datenfluss-, Datenstrukturierungs- und Datenzugriffsproblematik zu entlasten, damit es sich auf die Entwicklung von maschinennahen Algorithmen und die Generierung von Mehrwert aus den verfügbaren Daten konzentrieren kann.

Ansatz

Der erste Meilenstein des Projekts war die Erstellung mehrerer Data Pipelines in einer AWS-Umgebung, auf deren Grundlage ein Datalake für Anwendungen des maschinellen Lernens aufgesetzt wurde. Zweitens wurde eine Daten-API entwickelt, um den Zugriff auf die Daten für die Data Scientists zu vereinheitlichen.

Lösung

Der neu geschaffene Data Lake und die Data API haben dem Data Science Team einen klaren Überblick über die Daten und einen einheitlichen Zugriff auf die Daten ermöglicht. Dies hat ihre Arbeit effizienter und zielgerichteter gestaltet.

EXPERTISE

Die im Projekt eingesetzten Fähigkeiten & Kompetenzen

Kontakt aufnehmen

Olaf Linz

Intelligente Industrie

olaf.linz@gofore.com

+49 152 0934 1255

Zum Seitenanfang