Record Linkage

Wenn Datensätze (Records) zu einem Golden Record zusammengeführt werden sollen, stellt sich die Frage, anhand welches Kriteriums über eine Zusammenführung entschieden werden soll. Die Methodik des Zusammenführens nennt man Record Linkage. Zwei Records werden gelinkt, weil sie sich auf das gleiche reale Objekt beziehen. Dabei gibt es grundsätzlich zwei Ansätze:

  1. Wenn-Dann-Regelwerk
  2. Machine Learning (wahrscheinlichkeitsbasiert)

Wenn-Dann-Regelwerk

Die simpelste Variante ist ein Wenn-Dann-Regelwerk. Regeln legen fest, wann Records einander zugeordnet werden. Im einfachsten Fall wird nur ein einziges Feld eines Records betrachtet. Beispielsweise könnte man zwei Records einander zuordnen, wenn ihre E-Mail-Adressen übereinstimmen. Dies muss jedoch nicht immer eindeutig sein.

Daher werden oftmals mehrere und kombinierte Regeln genutzt, d.h. ein Regelwerk gebildet. Ein Beispiel für ein einfaches Regelwerk: Wenn Nachname und E-Mail-Adresse oder Vorname, Nachname und Straße übereinstimmen, dann werden die Records einander zugeordnet.

Machine Learning

Ein Nachteil jedes Wenn-Dann-Regelwerks liegt darin, dass Felder gleich sein müssen. Dahingegen funktioniert mit Machine Learning auch „fuzzy matching“. Für jedes Feld zweier Datensätze wird ein Distanzmaß (oder Ähnlichkeitsmaß = 1 – Distanzmaß) berechnet. Beispiele je Datentyp:

  • String: Jaro-Winkler, Levenshtein, Jaccard
  • Datum: Differenz in Tagen
  • Integer: Differenz
  • Boolean: Dummy-Variable

Die Distanzmaße werden als Features im Machine Learning Modell (z.B. Support Vector Classifier) eingesetzt. Jedoch wird ein gelabelter Datensatz zum Training benötigt (vgl. supervised learning). Anschließend können Paare neuer Datensätze Wahrscheinlichkeiten vorhersagt werden, dass diese gleich sind.

Video zum Record Linkage

  • Wie funktioniert Record Linkage?
  • Was genau hat das mit Machine Learning zu tun?
  • Wo findet Record Linkage seine Anwendung im Marketing und Vertrieb?

Diese Fragen beantworten wir in diesem kurzen Video.

Weitere Glossar Beiträge