Softwareentwicklung
Häufig werden die Daten von vierschiedenen Quellen generiert. Das kann ein Webserver sein, Daten werden auf einem FTP Server bereitgestellt. Programme schreiben Log- und Statistikdaten.
Es gibt kein Standardformat für alle Daten. Daten liegen strukturiert, halb- oder unstrukturiert vor. Beliebete Formate wie CSV, JSON werden oft verwendet, ebenso die Ablage der Daten in Datenbabnken. (SQL, NoSQL). Unstrukturierte Daten in TXT, PDF werden ebenso verwendet.
Werden die Daten in vielen kleinen oder in wenigen großen Files bereitgestellt. Beihaltet eine DB Tabelle tausende Einträge oder gar einige Millionen.
Viele Daten benötigen entsprechenden Speicherplatz und müssen gesichert werden. Oft werden sich nur Gedanken über die Datensicherung gemacht. Aber können die Daten auch wieder hergestellt werden?
Bei einer großen Menge an Daten kann der Zugriff auf diese komplex werden. Werden die Daten in Echtzeit (NRT) benötigt oder werden diese von Jobs bereitgestellt, die zB. zu einer bestimmten Zeit durchgeführt werden.
Aufbewahren der Daten ist eine Aufgabe, das Auffinden bestimmter Informationen ist eine Weitere. Indexierung der Daten, ob diese nun zentral oder verteilt, in einem oder in unterschiedlichen Formaten vorliegen, ist ein wesentlicher Aspekt, der nicht vernachlässigt werden darf.
Die Verfügbarkeit der Daten spielt eine wensentliche Rolle in der Planung der Datenspeicherung und -verarbeitung. Werden die Daten 24/7 benötigt oder stellt ein Ausfall von einer Stunde für die Wiederherstellung kein Problem dar.