Ing. Joo Georg

Softwareentwicklung

Löschen Sie niemals Ihre Daten.

Big Data / Enterprise Integration / Distributed Systems

Ab wann spricht man von Big Data?

Es gibt keine eindeutige Definition. Oftmals wird Big Data über die Menge an Bytes definiert. Aber auch hier gehen die Meineungen auseinander. Sind 10TB schon Big Data, oder erst 100 TB oder gar erst 1PT?

Ich bevorzuge die Definition, dass Big Data an dem Punkt beginnt, wenn ein einzelnes System die Datenmenge nicht mehr zufriedenstellen bewältigen kann. Dieser Punkt liegt bei jedem Unternehmen woanders.

Warum beschäftige ich mich mit Big Data?

Im Jahr 2013 bekam ich als Aufgabe gestellt, eine Architektur für ein System zu entwerfen, dass im 24/7 Betrieb läuft und rasch und mit geringem Aufwand erweitert werden kann. Eine weitere Anforderung war die Speicherung von vielen Log- und Statistikdaten.

Nach einiger Recherche habe ich mich für die Speicherung der Daten für die NoSQL Datenbank MongoDB entschieden. Für die Aufgaben, die ein verteiltes System zu übernehmen hat, setze ich das coordination framework Zookeeper ein. (Weitere Informationen unter "Projekte - Webcamsystem")

Während meiner Recherche bin ich auf Hadoop gestoßen. Hadoop stellt die zentrale Komponente von Big Data dar. Hadoop hat micht sofort fasziniert und seitdem beschäftige ich mich mit dem Hadoop Ecosystem.

Was fasziniert mich nun an Big Data / Hadoop?

Big Data bedeutet nicht, nur eine Menge an Daten zu haben. Es bedeutet ein Umdenken in der Unternehmensstruktur. Vorbei sind die Zeiten, in denen die IT Abteilung die Daten generiert, gesammelt und ausgewertet hat.

Big Data bedeutet ein Zusammenspiel der Abteilungen eines Unternehmens. Von der Definition, der Generieserung, der Spiechung, der Analyse bis zur Visualisierung der Daten sind mehrere Personen (Abteilungen) betroffen, um die Basis für Unternehmensentscheidungen aufzubereiten.

Das Hadoopp Ecosystem stellt eine Vielzahl an Tools für diese Aufgaben bereit. Die Aufgaben beginnen bei der Datenintegration, -transformation und -speicherung. Die Datenanalyse und -visualisierung sind ebenfalls von Bedeutung.

Eine Internetsuche nach "hadoop stack" zeigt anschaulich, wie umfrangreich das Haddop Ecosystem ist. Es gibt einige Anbieter, die aufbauend auf dem Grundgerüst eine eigene Hadoop Suite anbieten.