AS MearchBox - Die Analyse

Wenn Sie bereits etwas durch unsere Website geblättert haben sind Ihnen sicherlich schon häufiger Begriffe wie wissens- und regelbasierte Analyse und Interpretation begegnet. Da diese Vorabanalyse die eigentliche Grundlage für eine hochqualitative, treffsichere und fehlertolerante Identifikation ist, erklären wir hier ausführlich, was wir darunter verstehen und wie wir diese Vorgabe umsetzen. Bedenken Sie, dass nur eine detailgenaue Analyse und Interpretation aller Adressbestandteile verhindert, dass „Äpfel mit Birnen“ verglichen werden. Wissens- und regelbasierte Analyse und Interpretation ist bei uns kein Marketingschlagwort sondern eine gelebte Philosophie.


Analyseaufbau

Das Besondere an unseren Basiskomponenten ist die vorgeschaltete, detailgenaue Analyse aller Bestandteile eines Namens, z. B. Firmeneigennamen (z. B. Oracle, Delta V, Microsoft, etc.), Firmenidentifikatoren (z. B. "Bank", "Versicherung", "EDV", "Service", etc.), Ortsangaben (z. B. "Düsseldorfer", "Köln", "Deutschland"), Rechtsformen (z. B. "GmbH", "AG", "GbR", etc.) und aller anderen Bestandteile, die in Firmennamen vorkommen können, auf Basis einer großen Wissens- und Regeldatenbank, die eine effiziente, performante, fehlertolerante Analyse gewährleistet. Das gleiche Verfahren funktioniert natürlich genauso auf Basis privatpersonenrelevanter Informationen (z. B. Vor- & Nachnamenslisten, Titel, Anrede, Präfix, Suffixe, Berufe, etc.). Die erwähnten Wissens- & Regeldatenbanken enthalten dabei EU-weites Wissen und werden insbesondere auch auf internationale Datenbestände optimiert.



Die Anlyse von Namen

Das Ergebnis der Analyse der Namensdaten ist eine Zeichenkette, in der alle Namensbestandteile mit ihrer Bedeutung in normalisierter Form abgelegt werden. Als Eingabeparameter wird lediglich der Originalname – d. h. die Aneinanderkettung aller Namenselemente aus dem Adressbestand – übergeben. Die Analyse identifiziert automatisch die Bestandteile von Personen- oder Firmennamen.

Beispiel 1

Eingabe : Herr Graf Dipl.-Ing. Hans-Josef von Thun und Hohenstein sr.

Ausgabe :

herr

Anrede

graf

Adelstitel

dipl ing

Akademischer Titel

hans-josef

Vorname

von

Präfix

thun und hohenstein

Nachname

sr

Suffix




Beispiel 2

Eingabe : T & A Systemgesell. f. DV-Integration mbH

Ausgabe :

ta

mögliches Akronym

system

Firmenwort

gesell

Teil der Gesellschaftsform GmbH

f

Abkürzung

DV

mögliches Akronym

integration

Firmenwort

mbh

Teil der Gesellschaftsform GmbH




Vergleich von Namenselementen

Der Vergleich von zwei Namen ist eine Wissenschaft für sich und keinesfalls mit einfachen, mathematischen Vergleichsalgorithmen ausreichend durchführbar. Bei der AS MearchBox (und natürlich auch bei der AS ConvertBox®) versuchen wir auf Basis einer riesigen, internationalen Wissensdatenbank zuerst alle Bestandteile eines Namens zu erkennen und ihnen die im jeweiligen Kontext gültige Bedeutung zuzuordnen. Erst nachdem diese Vorabanalyse der Namensbestandteile durchgeführt wurde, kann ein exakter Vergleich erfolgen. Dies entspricht der üblichen Vorgehensweise des Menschen, wenn er die Ähnlichkeit zweier Namen bestimmt. Zwei einfache Beispiele sollen dies verdeutlichen:


Beispiel 1

Aachener Immobilienberatungsgesellschaft mbH --- AIB GmbH

Der Mensch weiß, dass "Immobilienberatungsgesellschaft" aus den Teilwörtern "Immobilie", "Beratung" und "Gesellschaft" besteht. "Gesellschaft" ist Teil der Rechtsform, es handelt sich also beim ersten Namen um eine GmbH. Zusammen mit "Aachener" ergeben die beiden Firmentätigkeitsworte "Immobilie" und "Beratung" zudem eine hohe Ähnlichkeit mit "AIB", es handelt sich hier um ein sogenanntes Akronym. Insgesamt erkennt der Mensch auf Basis dieser wissensbasierten, intelligenten Bestimmung der einzelnen Bestandteile dieser beiden Namen eine sehr hohe Ähnlichkeit, die durch ein rein mathematisches Vergleichsverfahren nicht möglich wäre.

Beispiel 2

Herbert Arzt, Zimmermann --- Herbert Zimmermann, Arzt

Hier verhält es sich genau anders herum als bei Beispiel 1: Die mathematische Ähnlichkeit der beiden Namen ist extrem hoch, während der Mensch sofort erkennt, dass es sich hierbei gar nicht um die gleiche Person handeln kann. Beide Personen heißen zwar „Herbert“ mit Vornamen, während jedoch die erste Person mit Nachnamen „Arzt“ heißt und von Beruf „Zimmermann“ ist, ist der Name der zweiten Person „Zimmermann“ und der Beruf ist „Arzt“.

Diese beiden einfachen Beispiele sollen Ihnen die Notwendigkeit eines wissenbasierten, intelligenten Vergleichsverfahrens verdeutlichen, damit nicht "Äpfel mit Birnen" verglichen werden. Das die wissens- und regelbasierte Vorgehensweise der AS MearchBox keine leere Marketinghülse darstellt, soll im folgenden genauer erläutert werden.


Vorabanalyse der Namensbestandteile

Der Namensvergleich wird in einem mehrstufigen Verfahren durchgeführt und berücksichtigt u. a. ob zwei Privatpersonen, zwei Organisationen oder eine Privatperson mit einer Organisation verglichen werden. Dabei erkennt die AS MearchBox bei der Vorabanalyse mit einer extrem hohen Trefferwahrscheinlichkeit, ob es sich bei einem Datensatz um eine Organisation oder eine (bzw. mehrere) Privatperson(en) handelt. Diese Vorabanalyse versucht auch sofort alle Bestandteile eines Namens zu erkennen.


Bei Privatpersonen werden u. a. die folgenden, möglichen Bestandteile eines Namens erkannt:

Anrede bzw. Titulatur

„Herr“,„Frau“, „Eheleute“, „Familie“, etc.

Titel

„Prof. Dr.“, „Dipl.-Stat.“, „General“, etc.

Präfixe

„von den“, „van der“, „del“, etc.

Vornamen

„Hans-Peter“, „Erwin“, etc.

Initial

„HPB van den Bosch“ ==> „H.P.B. sind Initiale“

Nachnamen

auch zusammengehörende Nachnamen

Suffixe

z. B. „sr.“ oder „jun.“

Berufe




Bei Organisationen werden u. a. die folgenden möglichen Bestandteile eines Namens erkannt:

Firmeneigenname

z. B. „Address Solutions“, „Oracle“, „Microsoft“, etc.

Firmentätigkeitsworte
 

z. B. „Versicherung“, „Immobilien“, „Beratung“, „Software“, „Gartenbau“, „Lebensmittel“, etc.

Firmenwortsplittung
 

z. B. „Immobilienberatung“ ==> „Immobilie“, „Beratung“, „Kindertagesstätte“ ==> „Kind“, „Tag“, „Stätte“

Erkennung von Plural und Standardisierung auf Singular

 
 
 

Erkennung und Separierung der Gesellschaftsform

z. B. „Müller Beratungsges. f. Immobilien mbH und CoKG“ ==> „GmbH & Co.KG“, „Albert Einstein Stift.“ ==> „Stiftung“, etc.

Geografische Begriffe
 

z. B. „München“, „Asien“, „Gerolsteiner“, „Brabantse“, „New York“, etc.

privatpersonenrelevante Bestandteile, die auch in Organisationsnamen vorkommen können

 
 
 
 

Erkennung von Akronymen

z. B. „AIB Aachener Immobilienberatung“




Analyse von Strassendaten

Bei der Analyse der Straßendaten werden Straßenname, Straßentyp und Hausnummer voneinander getrennt und in separaten Analysefeldern abgelegt, so dass bei einem anschließenden Vergleich diese Elemente unabhängig voneinander bewertet werden

Beispiel

Eingabe : Am Burgweg 21-23

Ausgabe :

am

Straßenname Zusatz

burg

Straßenname Identifikationswort

weg

Straßenart

21

Hausnummer

-23

Hausnummernzusatz




Analyse von Ortsdaten

Bei der Analyse der Ortsdaten werden – analog zur Vorgehensweise bei Straßennamen – alle Elemente entsprechend ihrer Bedeutung in separate Felder abgelegt.

Beispiel

Eingabe : 52222 Stolberg/Münsterbusch

Ausgabe :

52222

Postleitzahl

Stolberg

Ortsname Identifikationswort

Münsterbusch

Ortszusatz