top of page

Erfolgsfaktoren von Predictive Analytics Projekten: Spannungsfelder in Big Data und Machine Learning


Dieser Artikel ist der dritte Teil einer dreiteiligen Reihe


Im dritten und vorerst abschließenden Teil unserer Reihe zu Spannungsfeldern in Big Data Projekten widmen wir uns dem Thema der Performance. Neuronale Netze und der vielfältige Begriff Echtzeit werden hier thematisiert.



Echtzeit: Was heißt es und wie sollte die Software ausgelegt sein?


Der Begriff der Echtzeit begegnet uns in fast jedem Termin und wird sehr unterschiedlich ausgelegt. Hierbei ist es für uns wichtig 2 Ebenen zu trennen: Das mathematische, gelernte Modell, auf dessen Basis Regeln erstellt werden können, ist die erste Ebene. Die Regeln, die aus den Modellen resultieren und zur Werteberechnung dienen, sind die zweite Ebene. Auf der zweiten Ebene kann relativ problemlos und mit geringer Rechenleistung in Echtzeit gearbeitet werden. Ein Kunde beschwert sich und die Beschwerde wird in Echtzeit basierend auf dem bisherigen Regelwerk verarbeitet und bewertet. Eine Aktion kann direkt anschließen. Diese Beschwerde aber in Echtzeit in Ebene 1 zu überführen führt zu steigenden Kosten und einer höheren Komplexität der Software und ist inhaltlich nicht erforderlich: Das Modell der Ebene 1 entsteht im Normalfall aus Millionen von Einzeldaten. Da stellt der neue Kontakt nur einen Datenpunkt dar, der am Gesamtmodell wenig verändern wird. Daher empfehlen wir eine Optimierung der Ebene 1 in regelmäßigen Abständen, die auf die anfallende Menge neuer Daten zugeschnitten sind. Dies kann stündlich, täglich, wöchentlich, monatlich oder quartalsweise sein. Die häufigste Variante in unseren Projekten stellt Tagesaktualität bis Echtzeit in Ebene 2 und eine wöchentliche Aktualisierung der Ebene 1 dar.


Datenbereitstellung: Bidirektionale Schnittstellen und dateibasierter Informationstransfer


Die Datenbereitstellung aus ERP- und CRM-Systemen muss zu den, an die Prognosen anschließenden, Maßnahmen passen. In Echtzeit agierende, bidirektionale Schnittstellen finden wir klasse und sind hier Software-seitig vielfältig aufgestellt damit zu arbeiten, oft ist aber eine Datei-basierte Datenbereitstellung zu festen Zeitpunkten der Weg mit dem besten Kosten-Nutzen-Verhältnis. Entscheidend ist die Dynamik der Maßnahmen. Soll auf eine Kundenaktion innerhalb von Minuten oder Stunden reagiert werden, werden Schnittstellen, minütliche oder halbstündliche Exporte benötigt. Dies treffen wir allerdings selten an. Oft kann mit einer klassischen Übernachtverarbeitung gearbeitet werden. Die Exporte werden nach Geschäftsschluss erstellt, von uns verarbeitet und die Arbeitspakete gehen am Morgen an die zuständigen Mitarbeiter.


Neuronale Netze : Fluch oder Segen im Machine Learning?


Neuronale Netze sind sehr potente Systeme zur Mustererkennung in großen, strukturierten und unstrukturierten Datenmengen. Die hohe Prognosegüte, die mit diesen Modellen erreicht werden kann, basiert in der Regel auf dem Entdecken tiefer Interaktionseffekte in den Daten. Allerdings stellt sich die Nachvollziehbarkeit der von den Modellen zur Prognose erlernten Effekte schwierig dar - ein reverse engineering der Modelle ist komplex und nicht immer eindeutig lösbar. Hinzu kommt eine hohe Anforderung an die Rechenkapazität des Servers. Aus diesen Gründen setzen wir neuronale Netze intern als Benchmark für unsere Prognosemodelle ein, sehen aber von deren produktiven Einsatz in unserer Software ab. Wir erreichen eine vergleichbare Prognosequalität mit Tree Ensemble Modellen, die leichter nachvollziehbar sind und ebenfalls geringere Ansprüche an die Rechenleistung stellen. Diese Entscheidung ist ebenfalls zukunftssicher mit Blick auf Datenschutz und Compliance Prüfungen.


Hier geht es zu:




bottom of page