Datenqualität: Es ist nicht alles Gold, was glänzt
Daten – das Öl der Neuzeit. Ihr Potenzial ist bekannt und ein beliebtes Thema. Wenn von Daten und Datenzentrierung die Rede ist, geht es auch gerne um den Einsatz von Künstlicher Intelligenz (KI), die neuesten Analysetools und um gesteigerte Umsätze. Weniger gern geht es um die Stolpersteine und Herausforderungen auf dem Weg zu aus Daten gewonnenen Erkenntnissen.
(Lesedauer: 4 Minuten)
Auf dem Weg zum datenzentrierten Unternehmen gilt es zum Beispiel, im Unternehmen Kompetenz und Bewusstsein für den Wert von Daten bei den Mitarbeitern bis hin zur Geschäftsführung aufzubauen, wie wir in einem Beitrag gezeigt haben – zudem ist die Aufbereitung von Daten ein anspruchsvoller Prozess. Aber bevor es auf diese Reise geht, steht noch ungeliebte Grundlagenarbeit an: Eine Herausforderung ist es, Daten aus Silos zu befreien und für die Analyse zu einem Datenbestand zu konsolidieren. Weit weniger bekannt und beliebt ist das Thema Datenqualität.
Die Wichtigkeit von Datenqualität zeigt sich spätestens dann, wenn sich die aus der Analyse gewünschten Erfolge nicht einstellen. Eigentlich logisch, oder? Wie sollen gute Entscheidungsgrundlagen herauskommen, wenn der Rohstoff dafür, die Daten, von schlechter Qualität ist?
6 Gründe für „Dirty Data“
Bevor es darum geht, wie sich das Problem mit schlechten Daten lösen lässt, ist es wichtig, schlechte Datenqualität – auch Dirty Data gennant, also schmutzige Daten – überhaupt zu erkennen. Es gibt viele Gründe und viele Möglichkeiten, wie „schlechte“ Daten aussehen können. Daher hilft es, allgemeine Alarmsignale zu kennen, die auf die mindere Datenqualität hinweisen:
- Ungenaue oder veraltete Daten: Dieses Problem ist leider sehr schwierig zu erkennen. Informationen sind vorhanden und scheinen vollständig zu sein, enthalten aber Fehler, die schwierig zu erkennen sind und Wissen erfordern. Während sich noch erkennen lässt, wenn eine Kreditkarte abläuft, wird es bei einer veralteten Adresse schwierig – außer der Kunde meldet seinen Umzug selbst an. Beispiele sind Namen, Adressen, Telefonnummern, Zahlungsdetails usw.
- Unvollständige Daten: Wenn bestimmte Einträge, zum Beispiel die Straße in einer Adresse fehlt, ist der Datensatz für den Versand eines Produkts weniger wert – beziehungsweise erfordert Nacharbeit.
- Inkonsistente Daten: Ähnlich wie bei Punkt 1 sind Inkonsistenzen in Daten oft schwer zu finden. Zum Beispiel sind alle Eingaben ausgefüllt, auf dem ersten Blick und technisch korrekt, aber die Information wird inkonsistent erfasst und ausgegeben. Inkonsistente Daten können beispielsweise Telefonnummern ohne Vorwahlen, Geldbeträge in verschiedenen Währungen oder abgekürzte Namen sein.
- Invalide Daten: Die Felder sind komplett gefüllt, aber sind nicht korrekt, da sie keinen Sinn ergeben (zum Beispiel ein Minuswert bei der Anzahl verfügbarer Produkte).
- Redundante Daten: Daten werden oft wiederholt eingegeben, aber sind leicht verschieden vorhanden. Zum Beispiel ein Firmenname oder der Name einer Person mit leicht verschiedenen Schreibweisen.
- Nicht-standardkonforme Daten: Daten liegen vor, aber in einem Format, welches das System nicht verarbeiten kann – zum Beispiel falsche oder veraltete Bildformate.
Schlechte Datenqualität verursacht enorme Kosten
Die beschriebenen, oft auf den ersten Blick kleinen Unsauberkeiten in Daten, können massive Folgen und Umsatzbeinbußen nach sich ziehen. Gartner hat schon 2018 in einer Studie beziffert, dass allein in den USA schlechte Daten großen Unternehmen durchschnittlich 9,7 Millionen, der gesamten US-Wirtschaft sogar 3,1 Milliarden, pro Jahr kosten. Mit dem Fortschritt im digitalen Business, vor allem während der Corona-Pandemie, dürften diese Zahlen sogar noch deutlich höher liegen. Wenn man sich genauer anschaut, was schlechte Daten an Folgekosten verursachen, wundern diese Zahlen weit weniger.
Mit der Digitalisierung steigt die Anzahl der Datenquellen und damit die Fragmentierung von Daten, die oft aus veralteten Systemen, in unterschiedlichen Formaten, Metadaten, Formularen und nicht mehr zeitgemäßen Datenbankformaten vorliegen. Gleichzeitig steigt der Aufwand beim Aufbereiten und Abgleich der Daten exponentiell. Ein Problem sind auch Duplikate – Daten wie Kundenstammdaten liegen in verschiedenen Abteilungen und in verschiedenen Datenbeständen leicht abweichend vor.
Oft ist manuelles Eingreifen, der Zukauf von Software oder die Entwicklung eigener Skripte und Lösungen erforderlich. Alles Zeit und Kosten, die von eigentlichen Aufgaben abhalten und ablenken. Die Datenaufbereitung ist aber wichtig, denn die Folgen von schlechten Daten lassen sich leicht ausrechnen: Jedes an eine falsche Adresse gelieferte Paket, jeder Anruf des Vertriebs bei einer veralteten Nummer verschwendet Zeit und Geld – laut Zoominfo.com rund 27 % der Zeit.
Worst Case: Entscheidungen mit schlechten Daten
Noch schlimmer sieht es bei der Unternehmensstrategie aus. Entscheidungen, die auf minderwertigen Daten basieren, können katastrophal und ineffektiv sein. Sie führen dazu, dass die Budgetplanung in die völlig falsche Richtung geht, der nächste Schritt auf das falsche Produkt setzt oder eine Zielgruppe falsch eingeordnet wird.
Schlechte Daten mindern nicht nur die Produktivität. Oft können neue Systeme nur verzögert eingeführt werden, weil minderwertige Daten viel Aufwand vor dem Start bedeuten. Dies kann die Wettbewerbsfähigkeit auf dem Markt in Gefahr bringen und sogar den Ruf nach außen schädigen. Kunden bemerken die Verzögerung, indem sie zum Beispiel im B2B-Bereich immer noch mit veralteten Bestellmethoden einkaufen müssen.
Fazit
Es ist unerlässlich, mit oder idealerweise vor der Ausrichtung zum datenzentrierten Unternehmen seine Hausaufgaben in Sachen Datenqualität zu machen – sonst kann die Datenstrategie statt zum Erfolg zum Kostenfaktor werden. Beim Datenqualitätsmanagement hilft die richtige Strategie und Tools wie eine Software, die wir im nächsten Teil unserer Serie zu Datenqualität vorstellen.
Janina Zaminer, übernommen von Thorsten Weckert