Geht es um Big Data und datengetriebene Geschäftsmodelle, ist immer wieder die Rede von einem sogenannten Data Lake. Doch was steckt eigentlich hinter diesem Begriff? Gemeint ist zunächst einmal ein sehr großer Datenspeicher, der Daten aus unterschiedlichsten Quellen aufnehmen kann – und diese, anders als in normalen Daten, in ihrem Rohformat speichert. Die Daten können dabei strukturiert oder unstrukturiert sein und müssen nicht erst validiert oder umformatiert werden.
In einem Data Lake können sowohl text- oder zahlenbasierte Daten gespeichert werden als auch Videos, Bilder oder beliebige andere Datenformate. Sobald die Daten aus einem Data Lake, zum Beispiel von einer bestimmten Applikation, angefordert werden, werden sie strukturiert und umformatiert. Besonders beliebt sind Data Lakes deshalb bei komplexen Analyseanwendungen, die auf riesige Datenmengen zugreifen müssen.
Einer der Vorteile eines Data Lakes ist die Vermeidung von Datensilos, da verschiedenste Daten und Formate in einem Speicher abgelegt werden können statt sie je nach Format und Art in dedizierte Speicherlösungen oder Datenbanken zu strukturieren. Gleichzeitig führt das aufgrund der großen Menge an Daten aber auch zu höheren, komplexeren Anforderungen an die Datensicherheit.
Der große Unterschied zu einem Data Warehouse ist die Flexibilität beim Umgang mit verschiedensten Datenformaten. Unstrukturierte Daten werden in Data Warehouses nicht abgelegt, können aber ohne Probleme in einem Data Lake gespeichert und bereitgestellt werden.