Record Linkage Konfiguration

Zweck des Moduls

Dieses Modul dient zur Erstellung und Anpassung der Bedingungen für den Abgleich von Datensätzen.

Schritt-für-Schritt: Konfiguration erstellen

Schritt 1: Aktivierung

Mit der Aktivierungsfunktion kannst du steuern, ob eine Konfiguration aktiv am Record-Linkage-Prozess teilnimmt oder nicht.
Dies ist besonders praktisch, wenn du mehrere Konfigurationen vorbereitet hast, aber nur bestimmte aktuell ausführen möchtest.

Wichtige Hinweise:

  • Die Deaktivierung löscht die Konfiguration nicht – du kannst sie jederzeit wieder aktivieren.
  • Nur aktive Konfigurationen werden vom Record-Linkage-Runner berücksichtigt.
  • Überprüfe vor der Aktivierung alle Parameter, um fehlerhafte Läufe zu vermeiden.

So aktivierst/deaktivierst du eine Konfiguration:

  • Öffne die gewünschte Konfiguration im Modul Record Linkage Configuration.
  • Setze den Schalter Active auf „Ja“ oder „Nein“.
  • Speichere die Änderungen.

Aktivierung

Schritt 2: Source- und Target-Modul auswählen

In diesem Schritt legst du fest, welche Datenquellen miteinander verglichen werden sollen.

  • Source-Modul: Enthält die Datensätze, die abgeglichen werden sollen.
  • Target-Modul: Enthält die Datensätze, mit denen verglichen wird (z.B. Golden Records)

So wählst du die Module aus:

  • Öffne die gewünschte Konfiguration im Modul Record Linkage Configuration.
  • Wähle im Feld Source-Modul die Datenquelle, die abgeglichen werden soll.

Wähle Source Modul

  • Wähle im Feld Target-Modul die Ziel-Datenquelle (z. B. Golden Records). Wichtig: Zwischen dem Target-Modul und dem Source-Modul muss eine Beziehung bestehen!

Schritt 3: Mapping-Einstellungen

Mit den Mapping-Einstellungen definierst du, wie die einzelnen Felder beim Vergleich berücksichtigt werden. Hier legst du fest, welche Attribute relevant sind, wie stark sie gewichtet werden und welche Algorithmen für den Abgleich verwendet werden.

Folgende Optionen stehen zur Verfügung:

  • Felder für den Vergleich: Wähle nur die Attribute, die eine hohe Aussagekraft für die Identifikation haben (z. B. Name, E-Mail, Adresse).
  • Gewichtung (0–100): Bestimme die Bedeutung jedes Feldes für den Gesamtscore. Höhere Werte = stärkerer Einfluss.
  • Datentyp: String oder Numeric.
  • Normalize Entity: Name, Straße etc. – normiert einkommende Datentypen auf ein einheitliches Format z.B. Str/Str./Strasse zu Straße.
  • Algorithmus für den Vergleich: Wähle den passenden Algorithmus für den jeweiligen Datentyp. Hier findest du eine nähere Beschreibung.

Schritt 4: Source Record Relation Filter

Mit dem Source Record Relation Filter legst du fest, welche Quell-Datensätze vom Record-Linkage-Prozess berücksichtigt werden sollen.

Verfügbare Optionen:

  • „All“: Der Abgleich wird für sämtliche Quell-Datensätze durchgeführt für eine vollständige Datenbereinigung.
  • „Unlinked“: Es werden ausschließlich Datensätze geprüft, die noch keine Verknüpfung zu einem Ziel-Datensatz haben. Das ist hilfreich, um neue Dubletten zu identifizieren, ohne bestehende Verknüpfungen zu verändern.
  • „Linked“: Es werden nur Datensätze berücksichtigt, die bereits mindestens eine Verknüpfung besitzen. Das ist sinnvoll, wenn Sie bestehende Links überprüfen oder aktualisieren möchten.

Schritt 5: Match-Thresholds festlegen

Die Match-Thresholds bestimmen, ab welchem Ähnlichkeitswert zwei Datensätze als Übereinstimmung gelten. Mit diesen Schwellenwerten steuerst du, ob der Abgleich automatisch erfolgt oder eine manuelle Prüfung notwendig ist.

Schwellenwerte im Detail:

  • Oberer Schwellenwert: Alle Ergebnisse mit einem Score gleich oder höher als dieser Wert werden automatisch als Match akzeptiert und verknüpft.
  • Unterer Schwellenwert: Ergebnisse zwischen dem unteren und oberen Schwellenwert gelten als potenzielle Matches und müssen manuell überprüft werden.
  • Scores unterhalb des unteren Schwellenwerts werden ignoriert (kein Match).

Best Practice: Wähle die Schwellenwerte so, dass echte Dubletten automatisch erkannt werden, aber unsichere Fälle zur manuellen Prüfung gelangen.

Schritt 6: Aktionen definieren

Mit den Aktionen legst du fest, wie das System auf die Ergebnisse des Record-Linkage-Prozesses reagiert. Es gibt zwei zentrale Bereiche:

On Match

Diese Einstellung bestimmt, was passiert, wenn zwei Datensätze als Übereinstimmung erkannt werden (Score ≥ oberer Schwellenwert).

  • Link: Erstellt automatisch eine Verknüpfung zwischen dem Quell- und dem Ziel-Datensatz.
    Beispiel: Wenn ein Kunden-Datensatz aus dem Source-Modul mit einem Golden Record übereinstimmt, wird eine Beziehung angelegt.
  • Do Nothing: Es wird keine Aktion ausgeführt, die Datensätze bleiben unverändert.

Hinweis: Die Option „Link“ ist ideal, wenn du Dubletten automatisch zusammenführen möchtest.

On no match

Diese Einstellung greift, wenn kein passender Ziel-Datensatz gefunden wird (Score < unterer Schwellenwert).

  • Create New: Erstellt einen neuen Datensatz im Zielmodul basierend auf den Feldern der Konfiguration und verknüpft ihn mit dem Quell-Datensatz.
    Beispiel: Ein neuer Golden Record wird angelegt, wenn kein passender Eintrag existiert.
  • No Action: Es wird nichts unternommen, der Quell-Datensatz bleibt unverändert.

Hinweis: Verwende „Create New“, wenn du sicherstellen möchtest, dass alle relevanten Daten im Zielmodul vorhanden sind.

Algorithmen

Die Wahl des richtigen Algorithmus ist entscheidend für die Genauigkeit des Record-Linkage-Verfahrens. Je nach Datentyp (String oder numerisch) stehen unterschiedliche Methoden zur Verfügung. Hier findest du eine Übersicht der wichtigsten Algorithmen und Empfehlungen für deren Einsatz.

String-Algorithmen

Diese Algorithmen werden für Textfelder wie Namen, Adressen oder Firmennamen verwendet:

AlgorithmusBeschreibungWann verwenden?
JaroMisst die Ähnlichkeit basierend auf übereinstimmenden Zeichen und deren Reihenfolge.Kurze Strings wie Vor- oder Nachnamen mit kleinen Tippfehlern.
Jaro-WinklerErweiterung von Jaro, gibt gemeinsamen Präfixen mehr Gewicht.Namen, bei denen die Anfangsbuchstaben besonders wichtig sind.
LevenshteinZählt die minimale Anzahl an Änderungen (Einfügen, Löschen, Ersetzen).Für Felder mit kleinen Tippfehlern oder fehlenden Zeichen.
Damerau-LevenshteinWie Levenshtein, berücksichtigt zusätzlich vertauschte Zeichen.Bei häufigen Tippfehlern durch Buchstabendreher.
Q-GramVergleicht überlappende Teilstrings (z. B. Bigramme).Längere Texte oder Adressen mit variabler Wortreihenfolge.
Cosine SimilarityVergleicht Token-Häufigkeiten und berechnet den Winkel zwischen Vektoren.Produktbeschreibungen oder Adressen mit ähnlichen Wörtern, aber unterschiedlicher Reihenfolge.
Numerische Algorithmen

Diese Algorithmen werden für Zahlenfelder wie Preise, Alter oder Maße verwendet:

AlgorithmusBeschreibungWann verwenden?
StepBinäre Logik: Innerhalb eines definierten Bereichs = Match, sonst 0.Wenn kleine Abweichungen toleriert werden sollen (z. B. ±5 Jahre beim Alter).
LinearÄhnlichkeit nimmt gleichmäßig mit der Differenz ab.Für Werte, bei denen jede Abweichung gleich gewichtet wird (z. B. Preise).
GaussianAbnahme folgt einer Glockenkurve – kleine Unterschiede kaum relevant, große stark bestraft.Messwerte wie Gewicht oder Größe, bei denen moderate Unterschiede akzeptabel sind.
SquaredStrafung großer Unterschiede stärker als linear.Wenn selbst moderate Abweichungen stark ins Gewicht fallen sollen.

 

Marini Systems GmbH | Website | Datenschutz­erklärung | Impressum