Eine erfolgreiche Datenbereinigung ist vielleicht nicht der spannendste Teil eines Predictive Analytics Projektes, definitiv aber eine der wesentlichen Erfolgsbedingungen. Unsaubere Stamm- und Bewegungsdaten sorgen dafür, dass die Prognosequalität sinkt bzw. dass für viele Datensätze gar keine sinnvolle Analyse erfolgen kann. Um dieser Herausforderung bestmöglich zu begegnen setzen wir auch bei der Datenbereinigung auf Machine Learning und Text Mining. Um die Datenqualität für unsere Analysen und Prognosen auf das bestmögliche Niveau zu bringen wenden wir dieselben grundsätzlichen Algorithmen ein, welche auch für die Erstellung von Prognosemodellen genutzt werden.
Was bedeutet das konkret?
Statistische Analysen und darauf basierende Methoden der Anomalie- bzw. Fehlererkennung benötigen Zahlenwerte. Während nicht plausible Alters- oder Zeitangaben noch vergleichsweise einfach identifiziert werden können, ist dies bei Freitexten deutlich schwieriger. Wo wurden die Eingaben für Nachname und Straßenname vertauscht? Welche Ortsangabe enthält wahrscheinlich einen Tippfehler?
Fingerprinting und Text Mining
Um Fehler automatisch auch für Freitextfelder wie Name, Adresse, … zu erkennen setzen wir auf das sogenannte „Fingerprinting“ jeder Freitexteingabe. Dabei wird jeder Texteintrag in eine Binärmatrix übertragen, die Buchstabenvorkommen, Textlänge- und varianz in Zahlenwerte umwandelt. So lässt sich jedes Textfeld numerisch darstellen und statistisch analysieren. Für jedes Freitextfeld lassen sich so erwartete Muster berechnen und auf dieser Basis können so genauso wie für numerische Felder statistische Ausreißer und wahrscheinliche Fehleingaben identifiziert und korrigiert werden.
