Was Kunden wollen und wie BI-Consultants reagieren
Auch Konferenzen werden in Corona-Zeiten ins Home Office verbannt. So fand die TDWI nicht wie sonst in München sondern über Videokonferenz statt. Dennoch gab es wie jedes Jahr innovative Vorträge zu den Themen Data Warehouse, Reporting und Künstliche Intelligenz. Was wollen Kunden mit Informationsbedürfnis und wie reagieren BI-Berater?
Der Aufbau eines Data Warehouses ist ein großes und schwergängiges Vorhaben. Doch am liebsten hätte man ein DWH jedoch schon morgen. Cloud-Datenbanken können durch die flexible Infrastruktur den Einstieg immens erleichtern. Rechenleistung und Speicherplatz müssen nicht mehr Jahre voraus geplant werden. In den Vorträgen hörte man immer öfter den Einsatz von Cloud Data Warehouses. Hier einige populäre Vertreter
• Oracle Autonomous Data Warehouse
• SAP Data Warehouse Cloud
• Microsoft Azure SQL Data Warehouse
• Google Big Query
• IBM DB2 Warehouse
• Amazon Redshift
• Snowflake
• Denodo
• Contiamo
Manche Kunden brauchen mehr als ein tagesaktuelles Reporting. Statt Batch-Verfahren können in Datenbanken dann Change-Data-Capture-Verfahren angewendet werden. Tritt eine Änderung ein, wird diese von einer Datenbank zu einer anderen Datenbank propagiert. Hierbei werden die Datentabellen nicht auf logischer Ebene abgeglichen, sondern es wird direkt auf den Änderungslog der Datenbank zugegriffen. Ein bekannter Vertreter hierzu ist Oracle Golden Gate.
Einen anderen Weg geht die Streaming-Verarbeitung. In seinem Vortrag „Machine Learning & Apache Kafka: Die nächste Generation intelligenter Software“ spricht Kai Wähner von einem Impedance Mismatch. Data Scientists entwickeln KI-Algorithmen typischerweise mit Python. Im produktiven Einsatz werden diese Algorithmen jedoch oft dort gebraucht, wo kein natives Python-Ökosystem vorherrscht und die Ausführung nicht mehr performant ist. Doch genau im Produktivsystem ist es zeitkritisch.
Ein Beispielszenario: Ein Uber-Nutzer möchte eine Fahrgelegenheit finden. In Echtzeit müssen die KI-Algorithmen in der Smartphone-App den aktuellen Fahrpreis bestimmen. Je nachdem wie viele Fahrer und Fahrgäste momentan in der Nähe sind. Ein Zugriff auf die große Uber-Datenbank würde jetzt wertvolle Zeit kosten. Stattdessen wird aus Python heraus über kSQL eine Abfrage an die Event-Streaming-Plattform Kafka abgesetzt, die speziell für Echtzeit-Verarbeitung ausgelegt ist. Der Impedance Mismatch wird aufgelöst.
Kafka ist im Business Intelligence Metier eher ein Newcomer. Denn klassischerweise geht es im Reporting oftmals um aggregierte und integrierte Daten aus mehreren Quellen. Zur Einführung empfehle ich jedem BI-Consultant dieses anschauliche Youtube-Video.
Datenaktualität ist eine Sache. Doch was wenn die verfügbaren Daten nicht ausreichen und man gänzlich neue Informationen braucht? Änderungen an einem Data Warehouse sind in der Regel sehr schwerfällig. Mal eben eine neue Spalte in den Bericht einzufügen, kann eine große Anpassung im ETL-Prozess bedeuten. Eine lange Projektdauer kann Anwender sehr frustrieren und sogar die Akzeptanz am gesamten DWH in Frage stellen. Wenn Anwender über persönliche Umwege mit Excel und Email ein Schattenreporting aufbauen, wird es schwer die Kosten eines BI-Projektes zu legitimieren. Um die „Time-To-Market“ zu verkürzen werden immer öfter die folgenden Verfahren verwendet:
Anstatt viel Energie in wasserdichte Pflichtenhefte zu investieren, werden dem Anwender in kurzen Sprints von etwa 2 Wochen Softwarekomponenten wie z.B. ein Bericht geliefert. Anpassungen sind vielleicht nicht vollkommen, dafür schneller sichtbar. Sodass der Feinschliff gerne auch in nächsten Sprint gemacht werden kann.
Dieses Datawarehouse-Design-Muster ist auf regelmäßige Veränderungen ausgelegt. Die Grundidee: Bestehende Tabellenstrukturen bleiben unverändert. Änderungen kommen in Form von neuen Tabellen hinzu. Das beschleunigt massiv die ETL-Entwicklung.
Will man Daten in einem Data Warehouse speichern, so müssen vorher Tabellenstrukturen angelegt werden. Erst dann können Daten gesammelt werden. Data Lakes haben dagegen den Ansatz zunächst alle Daten in roher Form als Excel, Email, Video etc. abzulegen. Erst wenn eine Datenanalyse gefordert wird, werden Datentransformationen und neue Strukturen erstellt.
Diese drei Themen fanden sich gleich in mehreren Vorträgen und verdienen jeweils einen eigenen Blogartikel.
Kunden möchten monotone Arbeit möglichst reduzieren. Fachkräfte verstehen sich immer mehr als Knowledge-Worker. ETL-Werkzeuge ermöglichen es zunehmend Ladeprozesse zu automatisieren. Doch auch die manuellen Arbeitsschritte können bis zu einem gewissen Grad automatisiert werden. Sich im System einloggen. Ein Feld lesen. Etwas prüfen. Eine E-Mail verschicken. Das können die „digitalen Mitarbeiter“ schon heute leisten. In ihrem Vortrag zeigten Stefan Dorn & Silvia Moser (NTT DATA Deutschland) wie man arbeitsintensive Prozessschritte identifiziert und mit Robotic-Process-Automation beschleunigt. Das besondere: Die bestehende Infrastruktur bleibt unverändert und es muss auch kein Quellcode angepasst werden. Die digitalen Mitarbeiter führen nur Aktionen aus, die auch mit Maus und Tastatur erledigt werden können.
Es zeigt sich, dass die aktuellen Themen rund um Business Intelligence nicht reine Buzzwords sind, sondern der aufrichtige Versuch den aktuellen Kundenwünschen gerecht zu werden. Kunden von heute sind durch den privaten Internetkonsum gewöhnt Informationen schnell zu erhalten und eigene Ideen zeitnah umzusetzen. Entsprechend zieht sich dieses Bedürfnis auch in die Arbeitswelt. Klassische Ansätze reichen hier meist nicht mehr aus.