© Ekaphon maneechot/Shutterstock.com
Data-Warehouse-Projekte mit Datenqualitätsmanagement

Gute Datenqualität sicherstellen


Einer der Gründe, warum sich Data-Warehouse-Projekte verzögern, teurer werden als geplant oder gleich vollständig scheitern, wird häufig auf die mangelhafte Qualität der Daten zurückgeführt. Glaubt man Umfragen und Erhebungen, so ist auch das Vertrauen in die Qualität der eigenen Daten in Unternehmen oftmals nicht sehr hoch. Gute Datenqualität (DQ) wird aber nicht nur in Data-Warehouse-Projekten als zunehmend wichtig wahrgenommen. Dieser Artikel gibt einen Überblick über das Thema.

Die Relevanz korrekter und verwendbarer Daten in allen IT-Systemen steht eigentlich außer Frage, da die meisten Entscheidungen auf der Grundlage von Daten getroffen werden. Für Firmen, die ein datengetriebenes Geschäftsmodell verfolgen, gilt das in besonderem Maße. In diesem Artikel wird darauf eingegangen, warum Datenqualität wichtig ist, ob und wie man sie messen kann, und welche Möglichkeiten es gibt, mit Datenqualitätsproblemen technisch im Data-Warehouse-(DWH-)Projekt und organisatorisch im Unternehmen umzugehen.

Folgen „schlechter“ Daten

Datenqualitätsprobleme tauchen mit schöner Regelmäßigkeit in der Tagespresse auf. Wie aber können die negativen Folgen aussehen?

  • Als klassische Folge ist die Negativschlagzeile, sprich schlechte PR, zu nennen: Die FIFA bot bei der Akkreditierung von Journalisten zur Fußball-WM 2010 eine schlecht gepflegte Länderliste an, mit Ländern wie „DDR“, „Saarland“ oder „Irland in den Grenzen von 1921“. Barbra Streisand löste öffentlichkeitswirksam ihr Konto bei einer amerikanischen Investmentbank auf, weil diese ihren Namen immer falsch schrieb: Barbara.

  • Als offensichtliche, direkte Folge schlechter Datenqualität kann ein finanzieller Schaden auftreten. Beispiel hierfür ist ein großer Versandhändler, der MacBooks zu einem falschen Preis im Internet anbot und neben der schlechten Presse auch noch einen finanziellen Schaden hatte: Als Entschuldigung gab es Einkaufsgutscheine für die Besteller. Auch vertraglich vereinbarte Konventionalstrafen als Folge eines Datenqualitätsproblems können relativ einfach quantifizierbare Schäden sein.

  • Schwieriger zu bestimmen und auch nicht so leicht zu entdecken sind die Zusammenhänge in Bezug auf entgangenen Umsatz. Wenn man wie im Falle von Frau Streisand aufgrund schlechter Datenqualität Kunden verliert, ist der Schaden zwar zu benennen, aber schlecht zu beziffern. Auch wenn Entscheidungen (z. B. für oder gegen eine Marketingmaßnahme oder ein neues Produkt) auf einer falschen Datengrundlage getroffen werden, sind die finanziellen Folgen schwer einzuschätzen. Noch schlechter zu entdecken und zu beziffern, aber durchaus existent, sind die versteckten, unnötigen Kosten durch Ineffizienz oder doppelte Arbeit aufgrund schlechter Datenqualität.

Um negative Folgen für das eigene Unternehmen zu vermeiden, sollte man auf gute Datenqualität achten. Auch aufgrund gesetzlicher Anforderungen sind die Qualitätsanforderungen an Daten in den letzten Jahren immer mehr gestiegen. Oft müssen Mindeststandards zur Aktualität zum Beispiel von Berichten gelten: Sie müssen nachweisbar, korrekt und wiederholbar sein. Wie aber kann man die Qualität seiner Daten beurteilen?

15 Dimensionen der Datenqualität

Wie man an den bisherigen Beispielen gesehen hat, wird „Datenqualität“ auf den ersten Blick oft als recht schwammiger, facettenreicher Begriff wahrgenommen, und so lässt er sich trotz der vielen Beispiele nicht recht greifen. Auf den zweiten Blick findet man nach einiger Recherche dann oft die Definition von Datenqualität als „Fitness for Use“ (z. B. unter [1] und [2]). Diese Definition fordert, dass Daten dazu geeignet sein müssen, einen bestimmten Zweck zu erfüllen und meint damit zum Beispiel, dass Mitarbeiter mit den Daten ihre jeweilige Aufgabe erledigen können. Datenqualität wird des Weiteren immer als Maß definiert, das man mit geeigneten Mitteln bestimmen kann. Zur Beurteilung der Qualität eines Datenbestands existiert eine Zusammenstellung von 15 Datenqualitätsdimensionen (z. B. [1]) der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ). Tabelle 1 zeigt alle 15 Dimensionen in der Übersicht. Jede Dimension steht dabei für einen der vielfältigen Aspekte, mit denen man die Qualität seiner Daten beurteilen kann. Je nach Anwendungsfall bekommen einige Dimensionen mehr Gewicht als andere, je nach Szenario fällt den einen mehr Beachtung zu als den anderen. Wichtige Dimensionen in Bezug auf Data Warehouses und andere größere Datensammlungen im Unternehmen sind zum Beispiel Vollständigkeit, einheitliche Darstellung, Fehlerfreiheit und Zugänglichkeit. Diese sind relativ einfach zu verstehen (Kasten: „Definitionen nach DGIQ“...

Neugierig geworden? Wir haben diese Angebote für dich:

Angebote für Gewinner-Teams

Wir bieten Lizenz-Lösungen für Teams jeder Größe: Finden Sie heraus, welche Lösung am besten zu Ihnen passt.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang