Bei einer Identifikationssoftware geht es letztendlich immer um den Vergleich und die Bewertung zweier Datensätze, egal ob eine Online-Suche, einen Bestandsvergleich oder eine Dublettensuche durchgeführt wird. Verglichen werden immer die vorher analysierten und standardisierten Datensätze.
Der wohl wichtigste Punkt für eine individuelle und flexible, an Ihre speziellen Bedürfnisse angepasste Identifikation, ist die inhaltsgerechte Vergleichsmethode (Vorname, PLZ oder Hausnummern dürfen nicht auf die gleiche Art und Weise miteinander verglichen werden!) und die Ausgabe aller Teilergebnisse. Der zweite Punkt ist für die letztendliche Entscheidungsregel (z. B. „Wenn Nachname > 80 und Vorname > 78 und Postalische Adresse > 77, dann Treffer“) von ausschlaggebender Bedeutung, da die Verwendung eines einzigen Gesamtergebnisses in vielen Fällen schlecht und unbrauchbar ist. Beispielsweise kann ein Gesamtergebnis von 80 Punkten bedeuten, dass Nachname, Vorname und postalische Adresse alle 80 Punkte erhalten oder aber das die postalische Adresse exakt gleich, also 100 ist, die Namenspunkte jedoch bei 60 liegen. Im ersten Fall liegt mit hoher Wahrscheinlichkeit ein Treffer vor, im zweiten handelt es sich wohl eher um eine andere Person bzw. Organisation mit der gleichen postalischen Anschrift.
Auf Basis der Analyseergebnisse werden die Einzelelemente miteinander verglichen. Für die Anschriftendaten sind dies normalerweise:
Vergleich der PLZ
Vergleich des Ortsnamens (incl. Ortszusatz)
Vergleich des Straßennamens (inkl. Straßentyp und Straßennamen-Zusatz)
Vergleich der Hausnummer (inkl. des Hausnummernzusatzes)
Für die Namenselemente werden, je nach dem, ob es sich um Privatpersonen oder Organisationen handelt, folgende Einzelvergleiche durchgeführt:
Organisationen
Firmennamen-Matrix-Vergleich
Firmennamen-Akronym-Vergleich
Gesellschaftsformen-Vergleich
Privatpersonen
Vergleich der Initiale bzw. Anfangsbuchstaben eines Vornamens
Vergleich der Vornamen
Vergleich der Nachnamen (inkl. Präfixe)
Darüber hinaus gibt es eine große Anzahl mathematisch basierter Vergleichsverfahren, die auf alle Bestandteile einer Adresse einzeln oder in Kombination verwendet werden können. Die Notwendigkeit mehrerer Vergleichsverfahren ergibt sich häufig aus der Tatsache, dass einzelne, spezielle Verfahren in bestimmten Situationen sehr schlechte Werte liefern. In diesen Fällen kann dann eine andere Vergleichsmethode dieses Problem beheben. In der AS MearchBox stehen Ihnen derzeit u. a. folgende Vergleichsverfahren zur Verfügung:
exakter Stringvergleich
Bigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
Trigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
Imagevergleich mit und ohne Berücksichtigung unterschiedlicher Längen
mehrere phonetische Vergleichsverfahren
Levenshteinvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
Short-String Vergleich
Auf Basis dieser mathematischen Vergleichsverfahren haben wir eine ganze Reihe spezieller Verfahren entwickelt, die auf den jeweils auf den zu vergleichenden Inhalt hin optimiert wurden. Daraus entstanden u.a. spezielle Vergleichsmethoden für den Vergleich von:
Postleitzahlen
Ortsnamen
Straßennamen
Hausnummernvergleich (mit und ohne Hausnummernzusatz)
E-Mail-Adressen
Internet-URLs
Kreditkartennummern
Kontonummern
Bankleitzahlen
Telefon- und Faxnummern
Geburtsdaten (bzw. allgemein Datum)
Vornamensvergleich (z. B. auch Vergleich Vorname/Initial)
Nachnamensvergleich
Initialen- bzw. Anfangsbuchstabenvergleich
Organisationsformenvergleich
Organisationsnamenvergleich
Vergleichsverfahren für den Vergleich von Privatpersonen mit Organisationen
Nachfolgend werden einige dieser Vergleichsverfahren kurz erläutert und anhand eines Beispiels illustriert, wobei die Angabe "Score" den Vergleichswert auf einer Skala von 0-100 repräsentiert (0=keine Ähnlichkeit, 100=identisch).
PLZ 1 | 79197 |
---|---|
PLZ 2 | 39197 |
Score | 77 |
PLZ 1 | 79197 |
---|---|
PLZ 2 | 79193 |
Score | 82 |
PLZ 1 | 79197 |
---|---|
PLZ 2 | 79179 |
Score | 92 |
Ort 1 | Stuttgart |
---|---|
Ort 2 | Stutgart |
Score | 95 |
Ort 1 | Ditzingen |
---|---|
Ort 2 | Stuttgart‑Ditzingen |
Score | 90 |
Straße 1 | Bergstr. |
---|---|
Straße 2 | Bergstraße |
Score | 100 |
Straße 1 | Graf‑Schellart‑Platz |
---|---|
Straße 2 | Graf‑Schellert‑Weg |
Score | 90 |
Hausnummer 1 | 418 |
---|---|
Hausnummer 2 | 1418 |
Score | 66 |
Hausnummer 1 | 6‑10 |
---|---|
Hausnummer 2 | 8 |
Score | 95 |
Hausnummer 1 | 7 |
---|---|
Hausnummer 2 | 9 |
Score | 95 |
Name 1 | Reku-Plast Reicholzheimer Kunststoff Erzeugnisse GmbH |
---|---|
Name 2 | Reku-Plast Reichholz- heimer Kunststoff-Erzeugnisse Gesell. m b H |
reku | plast | reichholzheimer | kunststoff | erzeugnisse | ||
reku | 100 | 0 | 40 | 20 | 0 | |
plast | 0 | 100 | 0 | 16 | 0 | |
reichholz | 40 | 0 | 80 | 0 | 8 | |
heimer | 0 | 0 | 68 | 0 | 11 | |
kunststoff | 20 | 16 | 0 | 100 | 0 | |
erzeugnisse | 0 | 0 | 6 | 0 | 100 |
Name 1 | PIETZSCH Automatisierungstechnik GmbH |
---|---|
Name 2 | PAT GMBH |
Score | 100 |
Name 1 | Crailsheimer Volksbank eG |
---|---|
Gesellschaftsform 1 | eG |
Name 2 | Crailsheimer Volksbank eingetragene Genossenschaft |
Gesellschaftsform 2 | eG |
Score | 100 |
Name 1 | SPEEDWAVE GmbH & Co. Computer Integrated Manufacturing |
---|---|
Gesellschaftsform 1 | GmbH & Co |
Name 2 | Speedwave GmbH & Co. KG Computer Integrated |
Gesellschaftsform 2 | GmbH & Co KG |
Score | 80 |
Aufbau eines standardisierten Analysebestands unter Einbeziehung unserer riesigen Wissens- und Regeldatenbank