In die Cloud und zurück: Warum Unternehmen ML-Workloads zurückführen

Geringe Investitionskosten, reduzierter IT-Administrationsaufwand und der zeit- und ortsunabhängige Zugriff auf IT-Ressourcen: Der Trend in die Cloud ist ungebrochen. Laut einer Erhebung des Technologie-Marktforschers Canalys haben Unternehmen weltweit 107 Milliarden Dollar in Cloud-Infrastrukturen investiert. [...]

Die anfängliche Begeisterung der IT-Manager für die Cloud ist verflogen. Sie erkennen zunehmend, dass ein reiner Cloud-Ansatz für ihre Zwecke nicht ausreicht und verlagern ihre Daten in ihre eigenen Rechenzentren. (c) Pixabay

Auch in Österreich ist Cloud-Computing längst angekommen: Für 81 Prozent der österreichischen Unternehmen besitzt das Thema laut der Cloud Monitor Studie des Beratungsunternehmens KMPG und Bitkom Research eine „sehr hohe bis eher hohe“ Bedeutung. Jede zweite Firma (47 Prozent) arbeitet schon heute in der Cloud. Und die Steigerung des Cloud-Reifegrads wird die österreichischen Unternehmen auch weiter beschäftigen wird, so das Fazit der Studie.

In den vergangenen Jahren haben viele Unternehmen eine Cloud-first-Strategie gewählt, um agil und wettbewerbsfähig zu bleiben. Doch die anfängliche Begeisterung der IT-Manager für die Cloud ist verflogen. Sie erkennen zunehmend, dass ein reiner Cloud-Ansatz für ihre Zwecke nicht ausreicht und verlagern ihre Daten aus der Public Cloud in ihre eigenen Rechenzentren, wie eine Studie von IDC belegt. Demnach planen 80 Prozent der Unternehmen zumindest einen Teil ihrer Workloads aus der Public Cloud zurückzuholen. Gerade im maschinellen Lernen (ML) verändern sich die Anforderungen an Daten und IT im Laufe des Bearbeitungsprozesses dramatisch. Kosten, Datensicherheit und Datenhoheit müssen hier in Betracht gezogen werden, so dass es hier mit einer reinen Cloud- oder „On-Premises“-Lösung nicht getan ist.

ML-Workloads sinnvoll hosten

Betrachten wir beispielsweise einen ML-Workload für das Training eines Algorithmus für die Bilderkennung. Ein solcher Workload wird nicht permanent laufen. Doch tritt er in Aktion, ist eine viel umfassendere Infrastruktur nötig, damit er die Komplexität des Modells unterstützen kann. Der Einsatz von Public-Cloud-Lösungen kann hier von Vorteil sein, da diese eine robuste Infrastruktur kombiniert mit einer hohen Rechenleistung bieten. Da diese Art von Workloads nur gelegentlich ausgeführt werden, entstehen für Unternehmen keine zusätzlichen hohen Kosten, denn die Anbieter rechnen die Leistung in der Regel auf On-Demand-Basis ab.

Sind die ML-Modelle auf die Klassifizierung neuer Bilder trainiert, folgt als nächster Schritt das Ausführen von Scoring- und Batch-Workloads, um die Bilder in Echtzeit zu analysieren und sie präzise zu beschriften, sobald neue Daten vorliegen. Diese Arten von ML-Workloads treten in der Regel viel häufiger auf, was eine weniger umfangreiche Infrastruktur notwendig macht. Es ist daher rentabler, sie On-Premise oder in einer Private Cloud auszuführen. Die ausgeführten Modelle lassen sich so besser überprüfen, die Datenhoheit bleibt bestehen und die Datensicherheit steigt. Als Faustregel lässt sich festhalten, dass Workloads, die eine hohe Rechenleistung benötigen, aber nur gelegentlich ausgeführt werden, in einer Public Cloud ausgeführt werden sollten. Workloads dagegen, die rund um die Uhr laufen und eine gleichbleibende Rechenleistung benötigen, können On-Premises ausgeführt werden.

Das Beste aus beiden Welten 

Wenn es darum geht, Workloads rasch zum Laufen zu bringen, ist die Public Cloud nach wie vor ungeschlagen, denn die Anbieter entsprechender Lösungen liefern in der Regel modernste Soft- und Hardware, die leichter verfügbar und skalierbar ist als jene der IT-Abteilungen in den Unternehmen. Aber diese Lösungen gehen tendenziell auch mit höheren Sicherheitsrisiken einher. Eine eigene, vor Ort gehostete Infrastruktur – ergänzt durch eine Private Cloud – mag weniger skalierbar sein, es entstehen jedoch niedrigere Kosten und ein geringerer Aufwand für den Betrieb von Always-On-Modellen.

Beide Modelle – Public Cloud und On-Premises-Lösung – bieten also Vor- und Nachteile. Es lohnt sich daher, vor der Einführung einen Gang zurückzuschalten und zu reflektieren, welche Cloud wirklich zu den Unternehmenszielen passt. Übrigens ist es keineswegs gesagt, dass nur eine reine On-Premises-Lösung eine Cloud-first-Strategie ablösen kann. Eine hybride Cloud-Infrastruktur wird den Bedürfnissen von Unternehmen häufig am besten gerecht. Sie kombiniert Elemente aus allen drei Modellen und liefert damit eine maßgeschneiderte und individuelle Lösung. Viele der Probleme, die auftreten können, wenn eine reine Public-Cloud- oder On-Premises-Lösung im Einsatz ist, entstehen so gar nicht erst.

Wer von diesem Mix profitieren will, sollte zunächst eine Strategie für den Machine Learning-Lebenszyklus erstellen, die sich eignet, den Zugriff und die Kontrolle über sämtliche Daten und ML-Modelle zu sichern – egal, wo diese Daten liegen. Dabei ist auch zu bedenken, dass leicht Datensilos entstehen, wenn verschiedenen Mitarbeiter über mehrere Plattformen hinweg arbeiten. Dies kann vor allem in Bezug auf Datenschutzbestimmungen und die Data Gouvernance kritisch werden. 

Mehr Flexibilität dank Hybridmodell

Die Investition in eine Enterprise Data Cloud (EDC) lohnt sich aus Sicht zahlreicher Unternehmen, um Daten optimal zu nutzen. Bei einer EDC handelt es sich im Wesentlichen um eine hybride Multi-Cloud, in der die IT-Infrastruktur sowie Daten und Workloads über einen zentralen Kontrollpunkt verwaltet werden. Alles geschieht auf einer einzigen Plattform, unabhängig davon, wo sich die Daten befinden. Eine solche Plattform, die auf die Datenanalyse in jeder Cloud optimiert ist, bietet Unternehmen die benötigte Flexibilität und hat zugleich den Vorteil, dass sie nicht an einen einzigen Anbieter gebunden sind. Die durchgängige Sicherheit der Daten ist hier ebenso gewährleistet wie die Data Governance. Darüber hinaus besteht Datenkontrolle über die gesamte Infrastruktur hinweg, so dass auch die Anforderungen an den Datenschutz und die gesetzlichen Vorschriften erfüllt sind. Die Public Cloud lässt sich hingegen nicht einfach wie ein Netzwerk abtrennen. Auch die Frage der Datenhoheit spielt eine Rolle. So entscheiden sich Unternehmen teilweise komplett gegen Public-Cloud-Lösungen, weil deren Anbieter keine skalierbare und zugängliche Infrastruktur anbieten, wie es neuere Datenschutzbestimmungen fordern.

Lösungen, wie die oben vorgestellten, stellen sicher, dass die Entscheidung darüber, wo Daten jeweils aufbewahrt werden, keine Probleme verursacht. Es geht dabei immer darum, nicht nur die unmittelbaren Auswirkungen der Verarbeitung von Daten zu betrachten, sondern ebenso die potenziellen künftigen Auswirkungen einzelner Entscheidungen zu bedenken. In einer Welt, die uns eine zunehmend komplexere Verarbeitung von Daten zu den verschiedensten Zwecken beschert, müssen Unternehmen heute strategisch vorgehen und eine Cloud-Strategie wählen, die wirklich zu ihrem Geschäftsmodell passt.

*Florian von Walter ist Director Solution Engineering CEMEA bei Cloudera.


Mehr Artikel

Be the first to comment

Leave a Reply

Your email address will not be published.


*