Skip to main content
Skip table of contents

Verfahren des Stammdatenabgleichs (edoc master data matching service)

Der Dienst edoc master data matching service verwendet Verfahren wie das Fuzzy-Matching und die Manhattan-Metrik, um Rechnungseigenschaften trotz unterschiedlicher Schreibweisen mit Stammdaten zu vergleichen und ihre Eindeutigkeit zu bewerten.

Um die Genauigkeit des Stammdatenabgleichs zu erhöhen, werden alle Vergleichswerte normalisiert. Bestimmte Zeichen werden entfernt und die Zeichenfolgen werden in Kleinbuchstaben umgewandelt.

Folgende Zeichen werden aus den Vergleichswerten entfernt:

  • Horizontaler Tabulator (\t)

  • Wagenrücklauf (carriage return) (\r)

  • Neue Zeile (\n)

  • Vertikaler Tabulator (\v)

  • Leerzeichen

Gut zu wissen

Damit der Stammdatenabgleich möglichst erfolgreich ist, müssen ausreichende und gut gepflegte Stammdaten vorliegen. Außerdem hängt das Ergebnis des Stammdatenabgleichs davon ab, wie gut die Rechnungseigenschaften zuvor erkannt wurden. Je mehr Eigenschaften erkannt wurden und je vollständiger die Stammdaten sind, desto wahrscheinlicher ist ein gutes Ergebnis.

Fuzzy-Matching (“Unscharfe”, annähernde Übereinstimmung)

Für einige Eigenschaften wie z.B. den Mandantennamen kann es unterschiedliche Schreibweisen geben. Damit trotz unterschiedlicher Schreibweisen der Stammdatenabgleich erfolgreich ist, verwendet edoc master data matching service das Verfahren Fuzzy-Matching. Zeichenfolgen werden auf den Grad ihrer Ähnlichkeit geprüft. Je ähnlicher sich die Zeichenfolgen sind, desto höher ist ihr Vergleichsgrad. Für das Fuzzy-Matching verwendet edoc master data matching service die Bibliothek “FuzzySharp”. Weitere Informationen zu der Bibliothek finden Sie hier: https://github.com/JakeBayer/FuzzySharp (in englischer Sprache)

Manhattan-Metrik

Die Manhattan-Metrik ist ein mathematisches Verfahren, das komplexe Strukturen vergleichbar macht.

Ein Mandant besteht z.B. aus verschiedenen Eigenschaften wie Name, Bankverbindungen, Adressen und Steuerinformationen. Die Informationen aus einer Rechnung werden mittels Fuzzy-Matching mit den Stammdaten verglichen. Für jede Eigenschaft wird der Vergleichsgrad berechnet. Einige Eigenschaften wie z.B. der Straßenname können sich stark in ihrer Schreibweise unterscheiden. Damit der Stammdatenabgleich dennoch erfolgreich ist, bekommt jede Eigenschaft eine Gewichtung (hoch=100, mittel=50, niedrig=1). Eindeutige Eigenschaften wie z.B. die IBAN werden höher gewichtet als Eigenschaften wie z.B. ein Straßenname, der möglicherweise verschiedene Schreibweisen hat.

Der Vergleichsgrad wird mit der Gewichtung multipliziert. Die errechneten Werte der Eigenschaften eines Mandanten oder Lieferanten werden addiert. Je höher das Ergebnis, desto wahrscheinlicher ist die korrekte Verknüpfung der Stammdaten mit einer Rechnung.

Das Ergebnis muss einen bestimmten Schwellenwert überschreiten, für die Verknüpfung des Mandanten über 100 und für die Verknüpfung des Lieferanten über 10.000. Die Eigenschaften des Mandanten oder Lieferanten mit dem höchsten Score (Bewertung) werden in die Eigenschaften der Rechnung geschrieben.

JavaScript errors detected

Please note, these errors can depend on your browser setup.

If this problem persists, please contact our support.