Data Lake

Mit einem Data Lake vereinen Unternehmen große Datenmengen aus verschiedensten Schnittstellen an einem zentralen Ort, um sie besser verarbeiten und analysieren zu können.

Eine steigende Nachfrage bei Unternehmen treibt das Konzept Data Lake mittlerweile stark voran. Dabei ergibt sich dieser Bedarf an „Datenseen“ primär aus den gewachsenen Anforderungen an das Datenmanagement. Unternehmen stehen hier vor der Herausforderung mit exponentiell steigenden Datenmengen zu arbeiten. Zudem bedeutet ein intelligenter Umgang mit Big Data auch ein wirtschaftliches Wachstum. So ergeben sich vermehrt Möglichkeiten der Analyse und des maschinellen Lernens.  Unternehmen können dies gezielt nutzen, um einen Wettbewerbsvorteil zu erzielen. Hinzu kommen gesetzliche Anforderungen an das Datenmanagement, die durch das neue europäische Datenschutzgesetz (DSGVO) in Kraft getreten sind. 
 

Was ist ein Data Lake? 

Ein Data Lake – auf Deutsch “Datensee” – bezeichnet eine zentralisierte Sammlung an Daten. Datenströme, die in einen “Datensee” fließen, müssen dabei nicht vorab strukturiert werden. 

Die Idee des Data Lakes besteht darin, alle Unternehmensdaten in ihrer ursprünglichen Form an einem Ort abzulegen. Personen und automatisierte Software-Systeme entnehmen dem Data Lake anschließend Daten, um diese je nach Bedarf aufzubereiten. Die Anwendungsbeispiele sind vielfältig: Von Machine Learning, Big Data Processing und Realtime Data Streaming bis zu komplexen Visualisierungen kannst Du alles auf einem Data Lake aufsetzen. 

Im Zusammenhang mit Data Lake wird ebenfalls häufig der Begriff Data Swamp verwendet. Bildlich kann man sich diesen als einen umgekippten See vorstellen. Dieser Datensumpf kann nicht für seinen vorgesehenen Zweck benutzt werden und liefert aufgrund seiner Struktur wenig Mehrwert für das Unternehmen. 

Data Lake bedeutet eine zentralisierte Sammlung an externen und internen Daten auf die Mechanismen zum Machine Learning, Big Data Processing und zur Visualisierung zugreifen.

Was macht ein Data Lake?

Ein Data Lake vereint strukturierte, teilweise strukturierte und nicht strukturierte Daten an einem Ort. Diese Daten können anschließend verarbeitet und analysiert werden. 

Der Data Lake beinhaltet strukturierte Daten von relationalen Datenbanken, teilweise strukturierte Daten (wie z.B. CSV-, XML-, JSON- oder Log-Dateien), unstrukturierte Daten (z.B. E-Mails und Dokumente) und binäre Daten (z.B. Bild-, Ton- und Videodateien). Die Daten können sowohl aus dem eigenen Unternehmen als auch aus externen Quellen entstammen. Externe Quellen sind beispielsweise Markterhebungen oder Social-Media-Netzwerke.

Wozu man einen Data Lake benötigt: 

Aus einer Erhebung von Statista 2017 geht hervor, dass die Datenmenge in Zettabyte um das Zehnfache im Zeitraum von 2016 bis 2025 steigen wird und von jährlich 16,1 auf unglaubliche 163 Zettabyte wächst. Ein Zettabyte entspricht dabei der Menge von 1.000.000.000 Terabyte. 

Es existieren bereits einige Studien – beispielsweise vom US-amerikanischen Technologieunternehmen Aberdeen Group – die aufzeigen, dass Organisationen, die einen Mehrwert aus ihren Geschäftsdaten ziehen können, vor ihren Mitbewerbern liegen. 

Unternehmen sollten in der Lage sein, Zusammenhänge zwischen internen Firmendaten und externen Daten zu erkennen und daraus Schlüsse auf ihr Unternehmen zu projizieren. Vorreiter in diesem Bereich können durch die gewonnenen Informationen potenzielle Kund:innen identifizieren und gewinnen. Schlussendlich lassen sich so fundierte Entscheidungen für die künftige Unternehmensausrichtung treffen. 

Ein Data Lake ermöglicht, diese Zusammenhänge aufgrund des gemeinsamen Aufbewahrungsorts der Daten zu ermitteln. 

Darüber hinaus ist es möglich, auf Daten in einem Datensee flexibel und schnell zuzugreifen. Unternehmen mit einer agilen Datenstrategie finden daher in diesem Konzept ihre Lösung. 

Ein Data Lake bietet Möglichkeiten für einen wirtschaftlichen Umgang mit Unternehmens- und externen Daten.

Welche Vorteile hat ein Data Lake? 

Ein Data Lake schafft eine 360°-Sicht auf die Kund:innen eines Unternehmens. Dabei sind alle Datenquellen integriert und verbunden, so beispielsweise E-Commerce, ERP, Transaktionen, Kundensupport und Supply-Chain-Informationen. Durch den Einsatz von Big Data-Technologie und Cloud-Architektur ergeben sich somit immense Vorteile: 

  • Keine Grenzen in Bezug auf Speicherplatz und Rechenleistung 
  • Data Lake als Plattform für Machine Learning und Reporting 
  • Dedizierte Hardware für Machine Learning und Deep Learning ermöglicht neue Ansätze 
  • Echtzeitverarbeitung (Data Streaming) von Datenquellen schafft Wettbewerbsvorteil und kurze Reaktionszeiten 
  • Die zentrale Sicht auf große Datenmengen verbessert Marketingmaßnahmen, Loyalitätsprogrammen, Vertriebsprozesse, Service und Produktentwicklung.

Gibt es eine gute Data Lake Software?

Anbieter von Data Lake Services gibt es mittlerweile einige am Markt. Dazu zählen unter anderem Amazon, Microsoft, Hortonworks, Google, Oracle, Cloudera, Zaloni und Teradata. 

Die drei größten Anbieter von Data Lake as a Service (DLaaS) sind Amazon, Microsoft und Google. Diese „Big Player“ des Online-Zeitalters verlassen sich auf den Speicherservice ihrer jeweiligen Cloud: S3 bei Amazon, Azure Storage bei Microsoft und Cloud Storage bei Google. Alle drei nehmen dafür Apache Hadoop als Grundlage. Apache Hadoop ist eine Sammlung von Opensource Software-Komponenten, welche die Verarbeitung und Speicherung von Big Data regeln. 

In der folgenden Tabelle sind die wichtigsten Eigenschaften der drei Anbieter gegenübergestellt. 

EigenschaftAmazon Web ServicesGoogle Cloud PlatformMicrosoft Azure
Big Data TechnologieGoogle Elastic MapReduce mit Apache Hadoop, Apache Spark, Habse, Flink, Presto, KafkaApache Spark von Databricks in managed modeStorageGoogle DataProc mit Apache Hadoop und
Spark
SparkAzure HDInsight mit Apache Hadoop, Spark, Server R, HBase, Storm und KafkaApache Spark von Databricks in managed modeStorage
Storage-TechnologieAmazon S3, Amazon GlacierGoogle, Amazon RedShift, AWS Glue, AWS BatchGoogleBigQuery, Google DataFlowAzure Storage, Azure Data LakeAzure SQL Data Warehouse, Azure Data Factory, Azure Batch
Serverless AbfragenAmazon AthenaAzure Data Lake Anaytics
EchtzeitverarbeitungAmazon Kinesis, Apache KafkaGoogle DataFlow, Google PubSubAzure Event Hub, Azure Stream Analytics
Business Intelligence und Data MiningAmazon QuickSightGoogle Data StudioPowerBI
DatenmigrationAWS Database Migration Service, AWS SnowballCloud DatarepAzure Database Migration Service, Azure Data Box
DatenkatalogAWS Glue Data CatalogAzure Data Catalog
Mechanismus zur Identifikation personenbezogener DatenAmazon MacieKein Service, aber es wird eine API angebotenAzure Data Catalog
Physischer Standort der Systeme in EuropaJa

Amazon gilt mit seinem bereits 2009 angebotenen Datenrahmenwerk als Vorreiter der DLaaS-Bewegung, während Microsoft und Google erst ca. drei Jahre später eingestiegen sind. Aufgrund dieses Vorsprungs wird Amazon als technologisch reifer angesehen – gerade in Bezug auf die Speicherung und Verarbeitung von Big Data

Microsoft und Google hingegen gelten als stärker aufgestellt im Bereich des maschinellen Lernens. 

Ein aktuelles Alleinstellungsmerkmal der DLaaS-Lösung von Microsoft ist, dass ein physischer Standort in Europa gewährleistet werden kann. Im Hinblick auf den Datenschutz von Unternehmens- und personenbezogener Daten kann dieser Punkt ausschlaggebend für die Wahl des DLaaS-Anbieters sein. 

 

Data Lake und Datenschutz 

Seit Mai 2018 muss die europäische Datenschutz-Grundverordnung (DSGVO) zusammen mit einer Erneuerung des Bundesdatenschutzgesetzes angewandt werden. 

Bei der Implementierung eines Data Lake können die Anforderungen der DSGVO einfach umgesetzt werden. Die Anlage logisch separierter Datenbereiche ermöglicht die klare Trennung zwischen personenbezogenen Daten, die im Klartext vorliegen müssen, und anonymisierten Daten. Zu den Klardaten, muss eine Verknüpfung zu dem Einverständnis des Kunden für die Aufbewahrung eingerichtet werden. 

Ebenfalls analysiert und definiert werden muss der Zweckbezug von Daten, die im Klartext vorliegen. Operative Anwendungen müssen meist mit Klardaten arbeiten – das ist durch den Zweckbezug innerhalb bestimmter zeitlicher Rahmen unabdingbar. 

Die Experten der DYMATRIX unterstützen Sie bei einer datenschutzkonformen Umsetzung Ihres Big Data Projekts. 

Wichtige Punkte bei dem Aufbau eines Data Lake sind demnach logisch voneinander getrennte Bereiche und Prozesse zur Pseudonymisierung sowie Anonymisierung. 

 

Unterstützung gefällig? 

Unsere Experten verfügen über langjährige Erfahrung in der Umsetzung von Data-Lake-Projekten und können Dich bei der Auswahl der passenden Tools und Technologien sowie bei der Integration verschiedener Datenquellen unterstützen. Erfahre mehr über unsere CDP oder kontaktiere uns bei weiteren Fragen.