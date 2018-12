Wenn Wissen die Vision für die Zukunft ist, sind Daten und Informationen das Mittel, um sie zu erreichen. [...]

Ein Beispiel: Der indische Bundesstaat Andhra Pradesh wertet in einem „Echtzeitkontrollraum“ große Datenmengen aus, um die öffentliche Infrastruktur, Sozialprogramme, Verkehr, Wetter, etc. zu überwachen, bei Problemen rechtzeitig Maßnahmen treffen und natürliche Ressourcen besser nutzen zu können.

Das größte Kontrollzentrum Asiens basiert auf Pentaho: Der indische Bundesstaat Andhra Pradesh hat einen „Echtzeitkontrollraum“ zur besseren Versorgung seiner 50 Millionen Einwohner eingeführt. Das Real-Time Governance Center (RTG) ist die Reaktion auf die rasant zugenommene Landflucht und Bevölkerungsverschiebung von anderen Teilen Indiens nach Andhra Pradesh. Mit einer Fläche kleiner als Italien steht der Bundesstaat unter starkem Handlungsdruck, weiterhin die Versorgung der Bevölkerung und die öffentliche Sicherheit gewährleisten zu können. Das System führt Daten zusammen, die Sensoren und Kameras (teils in Drohnen zur Monsunüberwachung) sammeln und die in Pentaho integriert und aufbereitet werden. Die Visualisierung in Ad-Hoc Dashboards erfolgt über die Hitachi Visualization Suite. Gianluca Andreis, Engineering Head Coach im Bereich Smart Spaces and Video Intelligence von Hitachi, stellte das Großprojekt beim diesjährigen Pentaho Community Meeting in Bologna vor, dem weltweiten Anwendertreffen der BI- und Big Data-Plattform. Auf dem Event, das zum elften Mal stattfand und von Hitachi Vantara und it-novum organisiert wird, tauschten sich über 220 User aus 25 Ländern zu IoT, Analytics, Machine Learning und Datenintegration aus, 27 Referenten stellten spannende Entwicklungen und Projekte vor.

Kostenoptimierungen im Gesundheitsbereich

Auch die beiden Softwarearchitekten Girogio Grillini und Virgilio Pierini stellten ihr Projekt vor. Sie hatten für ein Budget von nur 40.000 Euro eine Data Warehouse- und Reportinglösung für die Akteure im italienischen Gesundheitssystem erstellt, die einen zentralen Zugriff auf medizinische Daten und Auswertungen aus 30 Datensystemen bietet.

Gesundheitsämter, Krankenhäuser und Arztpraxen können über ein Analysefrontend eigenständig und datenbasiert therapeutische Entscheidungen treffen. Betroffen sind nicht nur Abwägungen zwischen wirksamen und weniger wirksamen Medikamenten, sondern auch ob sich mit günstigen Generika der gleiche Therapieeffekt einstellt wie mit teuren Markenprodukten. So ist es z.B. möglich, den genauen Wirkungsgrad einer Arznei innerhalb einer bestimmten Altersgruppe mit festgelegten Eigenschaften herauszufinden, z.B. hoher Cholesterinspiegel, Übergewicht oder Geschlecht.

Die Herausforderungen des Projekts lagen vor allem in den gesetzlichen Rahmenbedingungen, die der Umgang mit medizinischen Daten unterliegt. Aufgrund verschiedener regionaler, nationaler und europäischer (DSGVO) Vorgaben lagen die Daten in unterschiedlichen Formaten und Nutzungsbestimmungen vor und mussten auf ein einheitliches, rechtskonformes Format gebracht werden. Um zudem Datenauswertungen in der Cloud ermöglichen zu können, anonymisiert ein eigens entwickeltes Kodierprogramm auf einer Anonymisierungsinstanz die Daten.

Auswertungen zum Nutzen von Medikamenten

Ein weiterer Usecase aus dem Gesundheitsbereich zeigte, wie ETL den Wert eines Softwareprodukts enorm steigern kann. Dental Trey, ein italienisches Unternehmen mit einem Umsatz von 40 Millionen Euro im Bereich Zahnprodukte, hat seine Software um Pentaho-basierte ETL-Strecken erweitert, die Daten aus verschiedenen Wettbewerberlösungen integrieren. Die Anwender der Software profitieren dadurch von einer stark erweiterten Datenbasis für ihre Auswertungen, z.B. zum Einsatz und Nutzen von Medikamenten.

CERN: Herausforderungen einer großen Organisation

Die zweite Keynote gehörte Gabriele Thiede und Jan Janke vom CERN, einem der größten Anwender von Pentaho. Mit 23.000 Mitarbeitern ist das CERN nicht nur eine riesige Forschungsorganisation, sondern auch eine eigene Welt für sich: es betreibt nicht nur Banken, Postfilialen und Feuerwehrwachen, sondern besitzt auch ein eigenes Sozialversicherungs- und Rentensystem und Servicestellen für die Beantragung von Arbeits- und Aufenthaltsgenehmigungen, Kfz-Zulassungen etc. der Mitarbeiter.

Mit Pentaho verarbeitet das CERN die hier anfallenden Daten(prozesse). Informationen aus Personal-, Finanz-, Logistik-, ERP- und weiteren Systemen werden in einem Data Warehouse gespeichert und in Fast-Echtzeit mit einer Verzögerung von 2-15 Minuten gehalten. Für die vielen ETL-Prozesse setzt das CERN ausschließlich Pentaho Data Integration ein, für Auswertungen und Visualisierungen kommen Pentaho Business Analytics und CTools zum Einsatz.

Self-Service Analysen und Reports

Direkt mit Pentaho arbeiten einige hundert Fachanwender beim CERN. Die mit Pentaho erstellten Auswertungen, Formulare und offizielle Dokumente stehen jedoch der gesamten Organisation zur Verfügung. Das sind z.B. Berichte, Zertifikate und Bescheinigungen wie die jährliche Personalstatistik für die Mitgliederstaaten oder die zahlreichen Formulare für die Zollbestimmungen. Für Self-Service-Auswertungen für alle Mitarbeiter steht ein eigenes Portal bereit. Auch im Einkauf nutzt das CERN Pentaho, um in einem Live-Dashboard die Ausgaben für Material und Services pro Lieferantenland zu überwachen.

Zeitreisen mit PDI

In einer so großen und komplexen Organisation wie dem CERN steht die Verarbeitung und Auswertung von Daten ständig vor neuen Herausforderungen. Beispielsweise bildet die Datenbasis nicht immer die Realität ab, da es zu rückwärtigen Datenveränderungen kommen kann. Um dennoch reproduzierbare Statistiken und Berichte erstellen zu können, reist das CERN regelmäßig zurück in die Zeit: ein bitemporales Datenmodell im Data Warehouse bildet eine zweite Zeitdimension und damit zwei Wirklichkeiten ab, eine geschäftliche und eine technische. Auf diese Weise ist es möglich, den Stand der Daten zu einem beliebigen Zeitpunkt nachzuvollziehen.

Weitere Herausforderungen betreffen die Einbindung von Daten aus der Cloud und die Einführung von Predictive Analytics. Das CERN plant zudem, Machine Learning-Algorithmen einzusetzen, die auf Modellen mit historischen Daten basieren.

