Wenn Sie bereits etwas durch unsere Website geblättert haben sind Ihnen sicherlich schon häufiger Begriffe wie wissens- und regelbasierte Analyse und Interpretation begegnet. Da diese Vorabanalyse die eigentliche Grundlage für eine hochqualitative, treffsichere und fehlertolerante Identifikation ist, erklären wir hier ausführlich, was wir darunter verstehen und wie wir diese Vorgabe umsetzen. Bedenken Sie, dass nur eine detailgenaue Analyse und Interpretation aller Adressbestandteile verhindert, dass „Äpfel mit Birnen“ verglichen werden. Wissens- und regelbasierte Analyse und Interpretation ist bei uns kein Marketingschlagwort sondern eine gelebte Philosophie.
Das Besondere an unseren Basiskomponenten ist die vorgeschaltete, detailgenaue Analyse aller Bestandteile eines Namens, z. B. Firmeneigennamen (z. B. Oracle, Delta V, Microsoft, etc.), Firmenidentifikatoren (z. B. "Bank", "Versicherung", "EDV", "Service", etc.), Ortsangaben (z. B. "Düsseldorfer", "Köln", "Deutschland"), Rechtsformen (z. B. "GmbH", "AG", "GbR", etc.) und aller anderen Bestandteile, die in Firmennamen vorkommen können, auf Basis einer großen Wissens- und Regeldatenbank, die eine effiziente, performante, fehlertolerante Analyse gewährleistet. Das gleiche Verfahren funktioniert natürlich genauso auf Basis privatpersonenrelevanter Informationen (z. B. Vor- & Nachnamenslisten, Titel, Anrede, Präfix, Suffixe, Berufe, etc.). Die erwähnten Wissens- & Regeldatenbanken enthalten dabei EU-weites Wissen und werden insbesondere auch auf internationale Datenbestände optimiert.
Das Ergebnis der Analyse der Namensdaten ist eine Zeichenkette, in der alle Namensbestandteile mit ihrer Bedeutung in normalisierter Form abgelegt werden. Als Eingabeparameter wird lediglich der Originalname – d. h. die Aneinanderkettung aller Namenselemente aus dem Adressbestand – übergeben. Die Analyse identifiziert automatisch die Bestandteile von Personen- oder Firmennamen.
Das Ergebnis der Analyse der Namensdaten ist eine Zeichenkette, in der alle Namensbestandteile mit ihrer Bedeutung in normalisierter Form abgelegt werden. Als Eingabeparameter wird lediglich der Originalname – d. h. die Aneinanderkettung aller Namenselemente aus dem Adressbestand – übergeben. Die Analyse identifiziert automatisch die Bestandteile von Personen- oder Firmennamen.
Ausgabe :
Anrede | herr |
---|---|
Adelstitel | graf |
Akademischer Titel | dipl ing |
Vorname | hans josef |
Präfix | von |
Nachname | thun und hohenstein |
Suffix | sr |
Ausgabe :
mögliches Akronym | ta |
---|---|
Firmenwort | system |
Teil der Gesellschaftsform GmbH | gesell |
Abkürzung | f |
mögliches Akronym | dv |
Firmenwort | integration |
Teil der Gesellschaftsform GmbH | mbh |
Der Vergleich von zwei Namen ist eine Wissenschaft für sich und keinesfalls mit einfachen, mathematischen Vergleichsalgorithmen ausreichend durchführbar. Bei der AS MearchBox (und natürlich auch bei der AS ConvertBox) versuchen wir auf Basis einer riesigen, internationalen Wissensdatenbank zuerst alle Bestandteile eines Namens zu erkennen und ihnen die im jeweiligen Kontext gültige Bedeutung zuzuordnen. Erst nachdem diese Vorabanalyse der Namensbestandteile durchgeführt wurde, kann ein exakter Vergleich erfolgen. Dies entspricht der üblichen Vorgehensweise des Menschen, wenn er die Ähnlichkeit zweier Namen bestimmt.
Der Mensch weiß, dass "Immobilienberatungsgesellschaft" aus den Teilwörtern "Immobilie", "Beratung" und "Gesellschaft" besteht. "Gesellschaft" ist Teil der Rechtsform, es handelt sich also beim ersten Namen um eine GmbH. Zusammen mit "Aachener" ergeben die beiden Firmentätigkeitsworte "Immobilie" und "Beratung" zudem eine hohe Ähnlichkeit mit "AIB", es handelt sich hier um ein sogenanntes Akronym. Insgesamt erkennt der Mensch auf Basis dieser wissensbasierten, intelligenten Bestimmung der einzelnen Bestandteile dieser beiden Namen eine sehr hohe Ähnlichkeit, die durch ein rein mathematisches Vergleichsverfahren nicht möglich wäre.
Hier verhält es sich genau anders herum als bei dem anderen Beispiel: Die mathematische Ähnlichkeit der beiden Namen ist extrem hoch, während der Mensch sofort erkennt, dass es sich hierbei gar nicht um die gleiche Person handeln kann. Beide Personen heißen zwar „Herbert“ mit Vornamen, während jedoch die erste Person mit Nachnamen „Arzt“ heißt und von Beruf „Zimmermann“ ist, ist der Name der zweiten Person „Zimmermann“ und der Beruf ist „Arzt“.
Diese beiden einfachen Beispiele sollen Ihnen die Notwendigkeit eines wissenbasierten, intelligenten Vergleichsverfahrens verdeutlichen, damit nicht "Äpfel mit Birnen" verglichen werden. Das die wissens- und regelbasierte Vorgehensweise der AS MearchBox keine leere Marketinghülse darstellt, soll im folgenden genauer erläutert werden.
Der Namensvergleich wird in einem mehrstufigen Verfahren durchgeführt und berücksichtigt u. a. ob zwei Privatpersonen, zwei Organisationen oder eine Privatperson mit einer Organisation verglichen werden. Dabei erkennt die AS MearchBox bei der Vorabanalyse mit einer extrem hohen Trefferwahrscheinlichkeit, ob es sich bei einem Datensatz um eine Organisation oder eine (bzw. mehrere) Privatperson(en) handelt. Diese Vorabanalyse versucht auch sofort alle Bestandteile eines Namens zu erkennen.
Anrede bzw. Titulatur | „Herr“,„Frau“, „Eheleute“, „Familie“, etc. |
---|---|
Titel | „Prof. Dr.“, „Dipl.-Stat.“, „General“, etc. |
Präfixe | „von den“, „van der“, „del“, etc. |
Vornamen | „Hans-Peter“, „Erwin“, etc. |
Initial | „HPB van den Bosch“ ==> „H.P.B. sind Initiale“ |
Nachnamen | auch zusammengehörende Nachnamen |
Suffixe | z. B. „sr.“ oder „jun.“ |
Berufe | z. B. „Zahnarzt“ oder „Schreiner“ |
Firmeneigenname | z. B. „Address Solutions“, „Oracle“, „Microsoft“, etc. |
---|---|
Firmentätigkeitsworte | z. B. „Versicherung“, „Immobilien“, „Beratung“, „Software“, etc. |
Firmenwortsplittung | z. B. „Immobilienberatung“ ==> „Immobilie“, „Beratung“, „Kindertagesstätte“ ==> „Kind“, „Tag“, „Stätte“ |
Erkennung von Plural und Standardisierung auf Singular | |
Erkennung und Separierung der Gesellschaftsform | z. B. „Müller Beratungsges. f. Immobilien mbH und CoKG“ ==> „GmbH & Co.KG“, „Albert Einstein Stift.“ ==> „Stiftung“, etc. |
Geografische Begriffe | z. B. „München“, „Asien“, „Gerolsteiner“, „Brabantse“, „New York“, etc. |
privatpersonenrelevante Bestandteile, die auch in Organisationsnamen vorkommen können | |
Erkennung von Akronymen | z. B. „AIB Aachener Immobilienberatung“ |
Bei der Analyse der Straßendaten werden Straßenname, Straßentyp und Hausnummer voneinander getrennt und in separaten Analysefeldern abgelegt, so dass bei einem anschließenden Vergleich diese Elemente unabhängig voneinander bewertet werden.
Beispiel
Eingabe :
Am Burgweg 21-23
Ausgabe :
Straßenname Zusatz | am |
---|---|
Straßenname Identifikationswort | burg |
Straßenart | weg |
Hausnummer | 21 |
Hausnummernzusatz | -23 |
Bei der Analyse der Ortsdaten werden – analog zur Vorgehensweise bei Straßennamen – alle Elemente entsprechend ihrer Bedeutung in separate Felder abgelegt.
Beispiel
Eingabe :
52223 Stolberg/Münsterbusch
Ausgabe :
Postleitzahl | 52223 |
---|---|
Ort | stolberg |
Ortsteil | muensterbusch |
Aufbau eines standardisierten Analysebestands unter Einbeziehung unserer riesigen Wissens- und Regeldatenbank