top of page

Big Data vs. Quality Data

Machine Learning bietet für Unternehmen vielfältige Möglichkeiten. Die Anzahl der Bereiche, in denen lernende Systeme erfolgreich eingesetzt werden, wächst nahezu täglich und die Entwicklung neuer Techniken schreitet zügig voran. Um dieses Potential jedoch ausnutzen zu können, bedarf es eines soliden und belastbaren Fundaments: einer qualitativ hochwertigen Datenbasis.


In der Praxis arbeiten wir jedoch häufig mit Datensätzen, die viele kleine Fehler und Ungenauigkeiten enthalten, und damit (noch) keinen idealen Input für ML-Algorithmen darstellen. Oft sind dies Flüchtigkeitsfehler, die bei der manuellen Eingabe von Kundenstammdaten passieren: die Anrede ist vertauscht, Felder wurden für diverse andere Angaben genutzt oder das Geburtsdatum fehlt. Um solche Fehler oder Lücken in der Datenbasis zu korrigieren und zu füllen, haben wir ein Tool entwickelt, welches als Teil des smart.data.cleaners (siehe letzter Blogbeitrag) eingesetzt werden kann.


Wie mit lückenhaften Kundenstammdaten umgehen?

Im Folgenden soll ein kurzer Überblick über das Vorgehen bei einer fehlenden Altersangabe gegeben werden. Um eine Vorhersage über das Alter machen zu können, benötigt der Algorithmus lediglich den Vornamen und das Geschlecht der Person. Nun wird auf verschiedene Datenquellen, wie Wikidata, diverse Open Data Datenbanken, bis hin zu Veröffentlichungen von Standesämtern, zugegriffen. Das Ergebnis dieser Abfrage ist eine Fülle an Informationen pro Datenquelle, von Auflistungen der Jahre, in denen Personen mit diesem Vornamen in den unterschiedlichen Datenbanken enthalten sind, bis hin zu der Beliebtheit des Namens in diversen Jahrgängen.

Diese heterogenen Informationen müssen nun so vereinheitlicht werden, dass die Aussage bei allen Quellen gleich ist: Altersprognose, Standardabweichung und Anzahl Beobachtungen.


Dies ist bei Auflistungen einfach. Hier kann als vorläufige Prognose unkompliziert der Median gebildet werden. Wir nutzen bewusst nicht den Durchschnitt, da dieser bei kleineren Datenmengen stärker als der Median verzerrt. Bei Beliebtheitsangaben ist das etwas schwieriger, denn wie bildet man den Median aus {1979: Rang 3} und {1983: Rang 10}? Die Lösung ist der gewichtete Median, bei dem der Rang (also die Beliebtheit des Namens) das Gewicht bestimmt, mit dem das jeweilige Jahr in die Berechnung des Medians einfließt.


Um zu einem finalen Ergebnis zu kommen, müssen diese Zwischenergebnisse kombiniert werden. Da nicht immer alle Quellen gute Ergebnisse liefern, weil ein Name manchmal überhaupt nicht oder nur sehr selten vorkommt, soll dies bei der Berechnung des endgültigen Wertes berücksichtigt werden. Als Gewicht für das jeweilige Zwischenergebnis nutzt der Algorithmus die Standardabweichung und die Anzahl Beobachtungen. Die Standardabweichung als Maß für die Streuung soll möglichst gering, die Anzahl Beobachtungen jedoch hoch sein, denn nur wenn viele Treffer in dieser Quelle vorhanden sind, kann überhaupt eine belastbare Vorhersage getroffen werden. Diese beiden Werte werden nun mittels einer speziellen Formel so zu einem einzigen Gewicht kombiniert.


Für viele Namen ergibt sich so ein recht eindeutiges Alter: Hans und Heinrich sind nahezu immer über 70, Emily und Zoe eher unter 30 Jahre alt. Für Namen, die zwar häufig bei älteren Semestern anzutreffen sind, viele Jahre später dann aber wieder beliebt werden, ergibt sich jedoch ein wenig aussagekräftiger Mittelwert, der nur auf wenige Menschen mit diesem Vornamen zutrifft. Daher wird, neben der Altersprognose, eine weitere Einschätzung vorgenommen: wie wahrscheinlich ist die Person in einer der typischen Abschnitte im Lebensphasenmodell. Auf diese Weise entsteht ein wesentlich aussagekräftigeres Bild über das mögliche Alter der Person.


bottom of page