AS MearchBox - Der Vergleich

Bei einer Identifikationssoftware geht es letztendlich immer um den Vergleich und die Bewertung zweier Datensätze, egal ob eine Online-Suche, einen Bestandsvergleich oder eine Dublettensuche durchgeführt wird. Verglichen werden immer die vorher analysierten und standardisierten Datensätze.

Der wohl wichtigste Punkt für eine individuelle und flexible, an Ihre speziellen Bedürfnisse angepasste Identifikation, ist die inhaltsgerechte Vergleichsmethode (Vorname, PLZ oder Hausnummern dürfen nicht auf die gleiche Art und Weise miteinander verglichen werden!) und die Ausgabe aller Teilergebnisse. Der zweite Punkt ist für die letztendliche Entscheidungsregel (z. B. „Wenn Nachname > 80 und Vorname > 78 und Postalische Adresse > 77, dann Treffer“) von ausschlaggebender Bedeutung, da die Verwendung eines einzigen Gesamtergebnisses in vielen Fällen schlecht und unbrauchbar ist. Beispielsweise kann ein Gesamtergebnis von 80 Punkten bedeuten, dass Nachname, Vorname und postalische Adresse alle 80 Punkte erhalten oder aber das die postalische Adresse exakt gleich, also 100 ist, die Namenspunkte jedoch bei 60 liegen. Im ersten Fall liegt mit hoher Wahrscheinlichkeit ein Treffer vor, im zweiten handelt es sich wohl eher um eine andere Person bzw. Organisation mit der gleichen postalischen Anschrift.


Ermittlung der Vergleichswerte

Auf Basis der Analyseergebnisse werden die Einzelelemente miteinander verglichen. Für die Anschriftendaten sind dies normalerweise:

  1. Vergleich der PLZ
  2. Vergleich des Ortsnamens (incl. Ortszusatz)
  3. Vergleich des Straßennamens (inkl. Straßentyp und Straßennamen-Zusatz)
  4. Vergleich der Hausnummer (inkl. des Hausnummernzusatzes)

Für die Namenselemente werden, je nach dem, ob es sich um Privatpersonen oder Organisationen handelt, folgende Einzelvergleiche durchgeführt:

Organisationen

  1. Firmennamen-Matrix-Vergleich
  2. Firmennamen-Akronym-Vergleich
  3. Gesellschaftsformen-Vergleich

Privatpersonen
  1. Vergleich der Initiale bzw. Anfangsbuchstaben eines Vornamens
  2. Vergleich der Vornamen
  3. Vergleich der Nachnamen (inkl. Präfixe)

Darüber hinaus gibt es eine große Anzahl mathematisch basierter Vergleichsverfahren, die auf alle Bestandteile einer Adresse einzeln oder in Kombination verwendet werden können. Die Notwendigkeit mehrerer Vergleichsverfahren ergibt sich häufig aus der Tatsache, dass einzelne, spezielle Verfahren in bestimmten Situationen sehr schlechte Werte liefern. In diesen Fällen kann dann eine andere Vergleichsmethode dieses Problem beheben. In der AS MearchBox stehen Ihnen derzeit u. a. folgende Vergleichsverfahren zur Verfügung:

  1. exakter Stringvergleich
  2. Bigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
  3. Trigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
  4. Imagevergleich mit und ohne Berücksichtigung unterschiedlicher Längen
  5. mehrere phonetische Vergleichsverfahren>
  6. Levenshteinvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
  7. Short-String Vergleich

Auf Basis dieser mathematischen Vergleichsverfahren haben wir eine ganze Reihe spezieller Verfahren entwickelt, die auf den jeweils auf den zu vergleichenden Inhalt hin optimiert wurden. Daraus entstanden u.a. spezielle Vergleichsmethoden für den Vergleich von:

  1. Postleitzahlen
  2. Ortsnamen
  3. Straßennamen
  4. Hausnummernvergleich (mit und ohne Hausnummernzusatz)
  5. E-Mail-Adressen
  6. Internet-URLs
  7. Kreditkartennummern
  8. Kontonummern
  9. Bankleitzahlen
  10. Telefon- und Faxnummern
  11. Geburtsdaten (bzw. allgemein Datum)
  12. Vornamensvergleich (z. B. auch Vergleich Vorname/Initial)
  13. Nachnamensvergleich
  14. Initialen- bzw. Anfangsbuchstabenvergleich
  15. Organisationsformenvergleich
  16. Organisationsnamenvergleich
  17. Vergleichsverfahren für den Vergleich von Privatpersonen mit Organisationen

Nachfolgend werden einige dieser Vergleichsverfahren kurz erläutert und anhand eines Beispiels illustriert, wobei die Angabe "Score" den Vergleichswert auf einer Skala von 0-100 repräsentiert (0=keine Ähnlichkeit, 100=identisch).




Vergleich von Anschriftendaten

Die oben genannten Elemente der Anschrift werden zunächst separat bewertet und anschließend zu einem Gesamtscore zusammengefasst, wobei jeder Einzelvergleich mit einem seiner Wichtigkeit entsprechenden Gewicht in diesen Gesamtscore einfließt. Jedem einzelnen Teilergebnis können Mindestwerte und Gewichte (Wertigkeit, mit der das Teilergebnis in das Gesamtergebnis eingehen soll) zugeordnet werden, um die individuellen Anforderungen verschiedener Kunden optimal berücksichtigen zu können.


PLZ-Vergleich

Der PLZ-Vergleich ist länderspezifisch und berücksichtigt bspw. für deutsche Adressen, dass die häufigsten Fehler bei der Eingabe einer PLZ in den letzten drei Ziffern geschehen. Andererseits wird z.B. Zahlendrehern Rechnung getragen, d.h. der Vergleich liefert ein relativ hohes Ergebnis, wenn zwei aufeinanderfolgende Ziffern nur in ihrer Reihenfolge vertauscht sind.


Beispiel 1 (erste Ziffer falsch)

PLZ 1

79197

PLZ 2

39197

SCORE

77


Beispiel 2 (letzte Ziffer falsch)

PLZ 1

79197

PLZ 2

79193

SCORE

82


Beispiel 3 (Zahlendreher)

PLZ 1

79197

PLZ 2

79179

SCORE

92





Ortsnamen-Vergleich

Für den Vergleich der Ortsnamen wurde ein Mechanismus entwickelt, der sowohl für den Ortsnamen, als auch für den Ortszusatz sogenannte „Zeichenketten-Distanzen“ ermittelt, der z.B. das Fehlen oder Mehrfachvorkommen einzelner Buchstaben besonders berücksichtigt.
Der Ortszusatz fließt nur dann in das Ergebnis ein, wenn dieser in beiden Ortsnamen enthalten ist oder der Ortszusatz mit dem Ort des zu vergleichenden Datensatzes eine höhere Ähnlichkeit besitzt.


Beispiel 1

Ort 1

Stuttgart

Ort 2

Stutgart

SCORE

95



Beispiel 2 (Ortszusatz im Ort)

Ort 1

Ditzingen

Ort 2

Stuttgart-Ditzingen

SCORE

90





Straßennamen-Vergleich

Ähnlich wie beim Ortsnamenvergleich werden die Straßennamen auf Basis von „Zeichenketten-Distanzen“ ermittelt. In das Vergleichsergebnis fließt der Straßentyp, eventuelle Straßenzusätze und der identifizierende Straßenname ein. Beim Straßentypen werden durch die vorangegangene Analyse eventuelle Abkürzungen berücksichtigt.


Beispiel 1 (abgekürzter Straßentyp)

Straße 1

Bergstr.

Straße 2

Bergstraße

SCORE

100



Beispiel 2 (leichte Abweichung im Namen und unterschiedlicher Straßentyp)

Straße 1

Graf-Schellart-Platz

Straße 2

Graf-Schellart-Weg

SCORE

90





Hausnummern-Vergleich

Beim Vergleich der Hausnummern werden spezielle Vergleichsmechanismen verwendet, die neben der numerischen Differenz der Hausnummer auch Zahlendreher, ungewollte Doppelanschläge, fehlende Ziffern und mögliche „Bereichsüberschneidung“ bewerten, die sich durch den Hausnummernzusatz ergeben.


Beispiel 1 (fehlende Ziffer)

Hausnummer 1

418

Hausnummer 2

1418

SCORE

66



Beispiel 2 (Überschneidung)

Hausnummer 1

6-10

Hausnummer 2

8

SCORE

95



Beispiel 3 (in der Nähe; gleiche Straße)

Hausnummer 1

7

Hausnummer 2

9

SCORE

95





Spezielle Namensvergleiche

Organisationsnamen-Matrixvergleich

Da Organisationsnamen i.a. aus mehreren Begriffen bestehen und zusätzlich häufig Namen von Personen, Orten, Berufen etc. beinhalten, kann aufgrund der durchgeführten Namensanalyse eine Matrix der zu vergleichenden Einzelelemente aufgestellt werden, in der dann die jeweiligen Bestandteile der Namen gegenübergestellt und verglichen werden.
Dabei werden nur Vergleiche zwischen Datenelementen durchgeführt, die für einen Namen „signifikant“ sind. Insbesondere bedeutet dies, dass z. B. Worte, die Bestandteil einer Gesellschaftsform sind, von dem Vergleich ausgeschlossen werden können.

Beispiel (normaler Matrixvergleich)

Name 1

Reku-Plast Reicholzheimer Kunststoff Erzeugnisse GmbH

Name 2
 

Reku-Plast Reichholz- heimer Kunststoff-Erzeug- nisse Gesell. m b H



 rekuplastreichholzheimer kunststofferzeugnisse
reku100040200
plast01000160
reichholz4008008
heimer0068011
kunststoff201601000
erzeugnisse0060100


Organisationsnamen-Akronymvergleich

Häufig werden Organisationsnamen in abgekürzter Schreibweise (z.B. ADAC) abgelegt, bei der ein normaler Matrixvergleich mit der vollständigen Schreibweise einen sehr niedrigen Score liefert. Deshalb haben wir ergänzend eine zusätzliche Vergleichsmethode entwickelt, die einen Akronym-Vergleich durchgeführt.


Beispiel (Akronymvergleich)

Name 1

PIETZSCH Automatisierungstechnik GmbH

Name 2

PAT GMBH

SCORE

100


Im Beispiel oben wird deutlich, dass die Akronymerkennung nur deswegen funktionieren kann, weil „Automatisierung“ und „Technik“ als Einzelteile separiert werden können und somit PAT die Anfangsbuchstaben des Vergleichnamens repräsentiert.





Gesellschaftsform-Vergleich

Die Analyse des Namens liefert als Ergebnis u.a. die Gesellschaftsform eines Firmeneintrags (falls vorhanden!). Diese Gesellschaftsform kann in die Vergleichsszenarien einbezogen werden, so dass eine unterschiedliche Rechtsform zu einem geringeren Namensgesamtwert führt. Folgende Beispiele verdeutlichen, wie die Erkennung und der Vergleich der Gesellschaftsformen durchgeführt wird:


Beispiel 1

Name 1

Crailsheimer Volksbank eG

Gesellschaftsform 1

eG

Name 2

Crailsheimer Volksbank eingetragene Genossen- schaft

Gesellschaftsform 2

eG

SCORE

100


Beispiel 2

Name 1
 

S P E E D W A V E GmbH & Co. Computer Integrated Manufacturing

Gesellschaftsform 1

GmbH & Co

Name 2

Speedwave GmbH & Co. KG Computer Integrated

Gesellschaftsform 2

GmbH & Co KG

SCORE

80