top of page

smart.data.cleaning - Stammdatenoptimierung mit künstlicher Intelligenz

Was ist Stammdatenoptimierung mit KI und ML?

Datenaufbereitung unter Nutzung generischer Algorithmen, Mustererkennung und künstlicher Intelligenz bietet viele Chancen. Datenaufbereitung und -optimierung macht in verschiedenen Bereichen Sinn. Klassiker hierbei sind die Kunden- und Produktstammdaten, aber auch aus sauberen Lieferantendaten oder zuverlässig zugeordneten Zahlungen können Mehrwerte generiert werden.

Im Groben geht es darum, dynamische und lernende dynamische Algorithmen anstelle von simplen Regeln zu nutzen. Eine Alterseingabe oder den Aufbau einer IBAN zu prüfen ist keine Raketenwissenschaft. Schwieriger wird es hier bei Freitextfeldern und dem Zusammenspiel verschiedener Eingaben. So können Fehleingaben der Anrede durch eine Vorgabe von Auswahlmöglichkeiten verhindert werden. Zu erkennen, dass Herbert mit hoher Wahrscheinlichkeit keine Frau ist, ist regelbasiert deutlich schwieriger. In diesem Fall prüft der Algorithmus die Anrede bei allen Herberts im System und stellt fest, dass bei 100% aller Herberts die Anrede „Herr“ lautet und schlägt somit die Korrektur auf die männliche Anrede vor. Eine KI ist nur so gut wie die Daten, die in sie eingeflossen sind oder wie derjenige, der sie trainiert hat. Die Algorithmen können im ersten Schritt eine Sache: Anomalien und Abweichungen von den vorherrschenden Mustern erkennen. Die Beurteilung, ob es ein Fehler ist, muss durch den Menschen erfolgen.

Greifen wir hier wieder zu dem Beispiel der Vornamen und der Anrede. Wie verhält es sich bei dem Namen „Rene“? Dieser Name wird sowohl von Frauen als auch von Männern getragen. Gibt es mehr Männer mit dem Namen Rene im Datensatz, schlägt das System eine Korrektur auf die männliche Anrede vor. Dies ist aber falsch. Und diese Tatsache kann der Algorithmus nur durch User Interaktion lernen. Der Anwender muss eingreifen und sagen: „Moment, Renes können auch weiblich sein“.


Wie funktioniert es?

Die KI basierte Datenaufbereitung setzt in erster Linie auf statistische Algorithmen zur Anomalieerkennung. Damit diese Algorithmen auch auf (Frei)Textfelder angewendet werden können, werden diese zunächst in Binärmatrizen umgewandelt, die Zahlen, Buchstaben und Sonderzeichen in Nullen und Einsen codiert und die Texte so für statistische Analysen zugänglich macht. Dies ist ebenfalls das Vorgehen im Bereich des Text Minings. So können z.B. Distanz- und Clusteranalysen durchgeführt werden, um Tippfehler, vertauschte Eingaben oder Fehleingaben zu identifizieren.



Die Prüfung, ob Abbildungen zu der Bezeichnung passen, ist hier noch komplexer, geht aber ähnlich vor: Analog werden auch Bilddateien in einzelne Pixelwerte zerlegt, um statistische Analysen durchführen zu können (Image Processing).

Es wird analysiert, wie gut die Werte innerhalb einer Spalte, in einer Zeile und spaltenübergreifend zueinander passen. Für jeden Feldwert in einem Datensatz wird eine Fehlerwahrscheinlichkeit berechnet und – soweit dies sinnvoll möglich ist – ein Korrekturvorschlag gemacht (etwa bei erkannten Tippfehlern). Besonders wichtig ist eine laufende Betreuung des Systems, um Vorschlägen zuzustimmen oder sie abzulehnen und so den Algorithmus zu verfeinern. Zum Erlernen von Modellen zur Fehlererkennung werden neben den Daten aus dem jeweiligen System auch frei zugängliche Daten aus diversen Quellen genutzt, um die Datenbasis zu verbreitern.


Erlebnisse aus der Praxis: Anomalien und Fehler

Bei einem unserer ersten Einsätze arbeiteten wir an den Daten eines großen Schreibwarenimporteurs. Die höchste Fehlerwahrscheinlichkeit wies ein laut Stammdaten zwei Meter großer Teddy „Reindeer“ - mehrere Kilo schwer und mehrere hundert Euro teuer - aus. Der Bär war kein Schreibwerkzeug und war sowohl schwerer als auch teurer als das restliche Sortiment. Die Werte passten weder innerhalb der Spalten noch passten die Kombinationen aus Werten und Spalten. Der Teddy wurde während unserer Ergebnispräsentation aus dem Lager geholt. Der Kunde bestätigte, dass dieser Artikel für ihn ungewöhnlich sei und nicht zum Sortiment passe, er aber sehr wohl für einen guten Kunden regelmäßig beschafft werde. Der Teddy war eine Anomalie, aber kein Fehler.


Können Algorithmen alles besser als Regeln?

Nein, nicht in allen Fällen sind mit generischen Algorithmen pauschal bessere Ergebnisse zu erzielen. Daher gilt es, beide Welten zu kombinieren. Regelbasierte Überprüfungen in Formularen können deutlich performanter sein als dynamisch in Echtzeit generierte KI-Überprüfungen und -Empfehlungen. Auch kann es sinnvoll sein, in der laufenden Stammdatenoptimierung mit Prüflisten zu arbeiten. So wurden beispielsweise im Projekt gültige Zolltarifnummern hinterlegt und diese direkt geprüft. Der Nachteil hierbei liegt allerdings darin, dass diese laufend gepflegt und überprüft werden müssen. Daher sollte genau abgewogen werden, wo generisch mit Algorithmen und wo spezifisch mit Listen zum Abgleich gearbeitet werden kann und sollte.


Was kann KI in der Stammdatenaufbereitung schon heute leisten?

Aktuell bieten sich für CTOs und CIOs unterschiedliche Möglichkeiten an, Daten aufzubereiten. Hier kann klassisch händisch oder datenbasiert optimierend gearbeitet werden. Zuallererst unterliegt die Nutzung von KI und ML in der Datenoptimierung einem limitierenden Faktor: Der Großteil der vorhandenen Daten muss korrekt sein. Dies mag trivial klingen, aber sofern mehr fehlerhafte als korrekte Daten im System sind, hält der Algorithmus diese Fehler für korrekt und läuft Gefahr, die Situation zu verschlimmern. Hier ist ein enger Dialog im Projekt essentiell und auch ein direkter Blick und das „Scannen“ der Daten durch Menschen sollte nicht ausbleiben. Der Klassiker „Garbage in - Garbage out“ stimmt auch hier. Der Algorithmus funktioniert besonders gut bei einer Vielzahl von verschiedenen Datensätzen und einer begrenzten Anzahl Spalten. Je weniger Spalten so auf vertauschte Eingaben geprüft werden müssen, umso exakter sind die Korrekturvorschläge.


Mit der Stammdatenoptimierung auf Basis von KI und ML können schon jetzt Mehrwerte generiert werden. Der Erfolg ist umso größer, je stärker die Fachanwender einbezogen werden und der Algorithmus so durch Experten laufend trainiert wird. Die große Chance ist es, laufend zu optimieren und dies generisch, sodass nicht ständig der Prozess angepasst oder die Mitarbeiter geschult werden müssen.

Comments


bottom of page