Ing. Joo Georg

Softwareentwicklung

Daten, viele Daten, wirklich viele Daten, enorm viele Daten.

Viele Datenquellen

Häufig werden die Daten von vierschiedenen Quellen generiert. Das kann ein Webserver sein, Daten werden auf einem FTP Server bereitgestellt. Programme schreiben Log- und Statistikdaten.

Verschiedene Datenformate

Es gibt kein Standardformat für alle Daten. Daten liegen strukturiert, halb- oder unstrukturiert vor. Beliebete Formate wie CSV, JSON werden oft verwendet, ebenso die Ablage der Daten in Datenbabnken. (SQL, NoSQL). Unstrukturierte Daten in TXT, PDF werden ebenso verwendet.

Menge und Größe der Daten

Werden die Daten in vielen kleinen oder in wenigen großen Files bereitgestellt. Beihaltet eine DB Tabelle tausende Einträge oder gar einige Millionen.

Speicherplatz und Datensicherung

Viele Daten benötigen entsprechenden Speicherplatz und müssen gesichert werden. Oft werden sich nur Gedanken über die Datensicherung gemacht. Aber können die Daten auch wieder hergestellt werden?

Datenzugriff

Bei einer großen Menge an Daten kann der Zugriff auf diese komplex werden. Werden die Daten in Echtzeit (NRT) benötigt oder werden diese von Jobs bereitgestellt, die zB. zu einer bestimmten Zeit durchgeführt werden.

Auffinden der Daten

Aufbewahren der Daten ist eine Aufgabe, das Auffinden bestimmter Informationen ist eine Weitere. Indexierung der Daten, ob diese nun zentral oder verteilt, in einem oder in unterschiedlichen Formaten vorliegen, ist ein wesentlicher Aspekt, der nicht vernachlässigt werden darf.

Verfügbarkeit

Die Verfügbarkeit der Daten spielt eine wensentliche Rolle in der Planung der Datenspeicherung und -verarbeitung. Werden die Daten 24/7 benötigt oder stellt ein Ausfall von einer Stunde für die Wiederherstellung kein Problem dar.