Navigation: Home > Software > Technik

Wie funktioniert Dublettenbereinigung ?

Während im ersten Schritt eine Gruppierung der Datensätze stattfindet, werden im zweiten Schritt die Daten per Vergleich miteinander abgeglichen, angereicherte Datensätze erstellt und abschließend vom Benutzer eingesehen und eventuell korrigiert.

Was ist Gruppierung ?

Optimal wäre es, jeden Datensatz mit jedem anderen zu vergleichen. Dadurch würden alle möglichen Kombinationen hergestellt. Auf Grund der großen Menge an Datensätzen ist dies jedoch nicht möglich.

Stattdessen hat sich die Methode bewährt, alle Datensätze zuvor zu gruppieren. So können beispielsweise Datensätze, welche in den ersten drei Postleitzahlziffern übereinstimmen, zusammengefasst werden. Innerhalb dieser Gruppe wird nun jeder mit jedem verglichen. Fällt ein solcher Vergleich positiv aus, wurde eine Dublette gefunden.

Datensätze, bei denen sich die ersten drei Ziffern der Postleitzahl unterscheiden, werden hierbei allerdings außer Acht gelassen. Die Wahrscheinlichkeit für das Auftreten solcher Dubletten ist äußerst gering und der enorme Zeitaufwand der nötig wäre, sie aufzufinden, wäre unverhältnismäßig.

Wie funktioniert der Vergleich, das heißt: Was ist Fuzzy-Logik ?

Beim Vergleich zweier Datensätze werden diese nicht wie beim herkömmlichen Vergleichen mit identisch oder nicht identisch bewertet, sondern es wird eine Übereinstimmungswahrscheinlichkeit errechnet.

Beispielsweise sind folgende Datensätze sehr wahrscheinlich gleich, obwohl keines der Felder direkt übereinstimmend ist:

Firma Geberoth & Partner 57864 Dahrenburg Lutz-Wedel Straße 29c
Fa. Geberoth GmbH 57864 Dahrenburg a. Main L.-Wedel-Str. 29

Was ist Anreicherung ?

Nachdem Dubletten entdeckt wurden, muss zumindest ein Datensatz erhalten bleiben. Alle anderen können gelöscht werden. Sich hier für einen beliebigen Datensatz zu entscheiden und die anderen zu löschen ist nicht sinnvoll. Statt dessen sollte aus jedem Datensatz die größtmögliche Menge an Daten extrahiert werden.

Name Straße ... Kunde seit
Herr Döring Feldstraße 19
Dr. Heinz Döring Feldstr. 19
Heinz Doering Feldstraße 19 21.04.2006

In diesem Falle würde folgender mit den Daten der alten Datensätze angereicherter neuer Datensatz erzeugt:

Name Straße ... Kunde seit
Herr Dr. Heinz Döring Feldstraße 19 21.04.2006

Grundlagen

Wieso Dublettenabgleiche durchführen ?

Alle wichtigen Informationen rund um die Dubletten.

Erfahren Sie mehr »

In der Praxis

Ihr Schlüssel zum Erfolg.

Software ist nicht gleich Software. Alle Funktionen im Überblick.

Erfahren Sie mehr »