Datenmengen günstig analysieren

Einige Eigenschaften sind in allen Big-Data-Verfahren gleich: Sie nutzen kostengünstige Standard-Hardware, parallele Verarbeitung und speichern die Daten in einem nicht-relationalen Format. Hadoop ist dafür ein gutes Beispiel. [...]

(c) stickasa - fotolia.com

Hadoop ist ein Open-Source-Framework vor allem für die Speicherung, Aufbereitung und Analyse von polystrukturierten großen Datenmengen. Zentrales Kennzeichen ist eine parallele Architektur. Die wichtigsten Bestandteile von Hadoop sind das Hadoop Distributed File System (HDFS) und der MapReduce-Algorithmus, der für eine parallele Verarbeitung sorgt. HDFS untergliedert die Files in Datenblöcke einer festen Größe und speichert sie redundant auf die in einem Cluster organisierten Server-Knoten. MapReduce teilt die gesamte zu untersuchende Datenmenge in kleine Einheiten auf, und diese werden dann in einer ersten Phase parallel und unabhängig voneinander bearbeitet, untersucht und als Zwischenerge...

Sie wollen alle Ausgaben online lesen? Werden Sie jetzt Abonnent der Computerwelt, oder registrieren Sie sich kostenlos für den Business Access.


Mehr Artikel

Kommentar

Das Spiel ist aus!

Wie Sport-, Event- und Kultureinrichtungen ihren Betrieb in Zeiten der Covid-19-Krise zukunftssicher gestalten können und mit welchen technischen Hilfsmitteln dies möglich ist, erklärt Marc Mazzariol, Vice President Product & Solutions der SecuTix SA, in seinem exklusiven Gastbeitrag. […]