Nur wer diese 7 Vorteile kennt, hat es wirklich verstanden
Data Vault ist ein Modellierungsmuster für das Core-Data-Warehouse. Einst ein Hype, erfreut es sich heute immer größerer Popularität. Wer darauf verzichtet, verzichtet auch auf die hier genannten Vorteile.
Die einfachen Basistabellen in Data Vault ermöglichen ein Datenmodell, das selbst für fachliche Anwender verständlich und gut kommunizierbar ist. Auch, wenn es mittlerweile speziellere Untertypen gibt, so kann man das Datenmodell ohne Bedenken dem Fachanwender zeigen und darüber diskutieren.
Hubs – Tabellen für Geschäftsobjekte
Links – Tabellen für Beziehungen zwischen den Geschäftsobjekten
Satelliten – Tabellen für beschreibende Attribute eines Geschäftsobjektes oder eines Links
Die Abbildung zeigt als Beispiel einen Link zwischen den Hubs Flug, Airline und Flughafen mit den entsprechenden Satelliten.
Quelle: Daniel Linstedt, Michael Olschimke, in Building a Scalable Data Warehouse with Data Vault 2.0, 2016
Die standartisierten Tabellen ermöglichen Automatisierung. So kann mit speziellen Programmen aus dem Data-Vault-Modell direkt Code generiert werden. Über Mausklick werden Tabellen und Laderoutinen erstellt, die sonst mühevoll hätten programmiert werden müssen. Das beschleunigt die Entwicklung massiv.
Etablierte Tabellenstrukturen zu ändern, erfordert viel Aufwand. Unter Umständen muss die gesamte Tabelle neu erstellt und neu beladen werden. Doch selbst, wenn nur eine neue Spalte hinzugefügt wird, muss geklärt werden, ob die Tabelle von den bisherigen Nutzern weiterhin ohne weiteres verwendet werden kann. Es könnten beispielsweise neue Berechtigungen erforderlich sein. Es entsteht Abstimmungsaufwand, der den Entwickler aufhält. Am liebsten würde er einfach die bestehende Struktur unverändert lassen und seine Änderungen schlicht neu hinzufügen.
Bei Data Vault verfährt man nach genau diesem „Zero Change“- Prinzip. Tabellen werden nicht geändert oder gelöscht, sondern es werden neue Tabellen angelegt. Das spart Migrations- und Koordinierungsaufwand.
Dadurch, dass Tabellen und Datensätze nicht gelöscht und nicht geändert werden. Ist sehr gut nachvollziehbar welche Daten wann woher geladen wurden. Data Vault entstand ursprünglich im öffentlichen Sektor wo Auditierbarkeit einen sehr hohen Stellenwert hat. Doch auch in anderen Branchen hat sich das Data-Vault-Modell besonders in Zeiten der Datenschutzgrundverordnung beweisen können.
Da Datenänderungen nur „Insert-Only“ erfolgen, kommt es auch nicht zu Wartezuständen, weil etwa mehrere Transaktionen den gleichen Datensatz aktualisieren wollen.
Bei Data Vault 2.0 werden darüber hinaus keine fortlaufenden Primärschlüssel vergeben. So müssen auch abhängige Datensätze nicht mehr warten bis ihr Fremdschlüssel bekannt ist. Es kann somit direkt parallel geladen werden. Hierdurch muss sich auch der Entwickler keine Gedanken mehr machen in welcher Reihenfolge die Tabellen beladen werden. Ein klassisches Problem im Data Warehouse entfällt komplett. So wurden in der Praxis schon Ladeprozesse von 5 Stunden auf 20 Minuten reduziert.
Es gibt sie noch: Die Mammut-Projekte bei denen mehre Jahre für den Entwurf eines Data- Warehouse aufgewendet werden. Neue Anforderungen? Bitte mit ein paar Monaten Vorlaufzeit! Kein Wunder, dass gerade im Reporting gerne Schatten-IT in Form von Excel-Dokumenten aufgebaut wird.
Das Data-Vault-Modell ist sehr flexibel und kann sehr gut mit neuen Anforderungen umgehen. Es kann also bereits mit einem unvollständigen Datenmodell angefangen werden, erste Reports auszuliefern. Data Vault eignet sich hervorragend für agile Methoden wie Scrum oder DevOps. Es können auch in kleineren Iterationen wertvolle Tabellen und Berichte ausgefliefert werden.
Ob Big Data oder Fast Data. Ob Data Lake, Cloud, Streaming oder Massive-Parallel-Processing, Data Vault hat stets aufs Neue bewiesen, dass es sehr gut mit den neuesten Technologien funktioniert. Obwohl das Data-Vault-Modell in den 90er Jahren entworfen wurde, findet es sich immer wieder in den modernsten Data-Warehouse-Architekturen.
Der Hype um Data Vault ist vorbei. Statt heißer Luft bleiben vielfältige Erfolgsgeschichten. Mit dem Framework Data Vault 2.0 ist aus dem Datenmodel zudem ein ganzer Werkzeugkasten für gutes Design entstanden. Selbst der Erfinder des Data-Warehouse, Bill Inmon ist ein bekennender Unterstützer. Wer heute ein Data Warehouse neu entwirft, muss sich gut rechtfertigen können warum er Data Vault nicht einsetzt.