Am 15. Oktober war es wieder soweit – die Tore zum Spark + AI Summit Europe 2019 in Amsterdam, organisiert von Apache Spark Begründer Databricks, öffneten sich, um in drei Tagen geballten Programm Neuigkeiten, Best Practices und Einblicke in die Welt von Big Data und Machine Learning zu vermitteln. Auch wir von DYMATRIX waren als Databricks-Partner vor Ort, um uns über die Neuerungen im Bereich zu informieren. Mit einem besonderen Fokus auf Applicability für unsere bestehenden Dienste, vor allem in der Cloud (SaaS, Big Data Analytics), haben wir an insgesamt über 20 Vorträgen teilgenommen, u.a. mit Gastrednern von Microsoft, Google und Databricks. In diesem Beitrag geben wir einen kurzen Rückblick zu den für uns spannendsten Vorträgen und Highlights der diesjährigen Konferenz.

Delta Lake – der Data Lake auf einem neuen Level

Ein besonderes Highlight und Aushängeschild des Summit war Delta Lake (delta.io). Dabei handelt es sich um einen Open-Source Storage Layer, welcher den klassischen Data Lake um zahlreiche Features erweitert und 100% Spark-kompatibel ist. So ermöglicht er beispielweise die Durchführung von ACID Transaktionen (Atomicity, Consistency, Isolation und Durability) direkt auf dem Data Lake, Snapshots vorhergehender Datenstände, Schema Enforcement (die Einhaltung von vordefinierten Strukturen) und Schema Evolution (automatische Anpassung der Strukturen an geänderte Eingabedaten).

Ein weiteres Feature, das uns besonders begeistert hat, ist die neue Möglichkeit, Datensätze im bestehenden Data Lake zu verändern, löschen oder zu mergen. Was früher ein aufwendiger, manuell zu definierender Prozess war, ist nun wesentlich effizienter und transparenter umsetzbar. Das spart Zeit, Mühe und öffnet neue Türen im Data Engineering Bereich.

Zukunftsorientierte Data Science mit MLflow

Ein Schwerpunkt für die Data Science lag bei diesem Summit auf den Herausforderungen von Machine Learnings in Produktionsumgebungen. Zentral ist hier die im Sommer 2018 gelaunchte Open Source Plattform MLflow, die den gesamten ML Lebenszyklus erleichtern soll – durch Features wie standardisiertes Modell-Packaging, -Monitoring und „Projects“ für reproduzierbare Modelle. Spark-Creator und CTO von Databricks, Matei Zaharia, stellte die neueste Erweiterung von MLFlow vor, die Model Registry. Diese zentrale Ablage ermöglicht gemeinsames Bearbeiten, Versionieren und Deployment einer großen Zahl von Modellen innerhalb einer Organisation.

Spannende Sessions zu Big Data, Cloud, Streaming und Spark

Aber was wäre eine Konferenz ohne spannende Vorträge? Über mehrere Sessions verteilt wurden etliche Themen aus dem Bereich Big Data, Cloud, Streaming und Spark tiefgehend behandelt. Wir stellen hier drei unserer Highlights kurz vor:

  • Designing ETL Pipelines with Structured Streaming and Delta Lake – How to Architect Things Right
    In diesem Vortrag von Tathagata Das, Lead Developer von Spark Streaming, wurden ETL Pipelines im Kontext von Spark Streaming und Delta Lake näher erläutert. Delta Lake ist besonders für Structured Streaming geeignet, da beispielsweise von mehreren Prozessen gleichzeitig auf die Daten zugegriffen werden kann, etwa für simple Insert Operationen oder später eintreffende Korrekturen (Updates) für ältere Einträge. Generell ist es wichtig, die über dem Prozess liegende Business Logik genauestens zu verstehen, um möglichst effiziente Pipelines zu designen. Dafür wurden mehrere Design Patterns vorgestellt, die für unterschiedliche Use Cases geeignet sind – diese sind etwa davon abhängig, wer am Ende mit den Ergebnissen arbeitet oder wie groß die Verzögerung der Streamingdaten ist.
  • Koalas: Pandas on Apache Spark
    Bereits in den Keynote-Vorträgen wurde das Open-Source-Projekt Koalas vorgestellt und dieses Tutorial war eine passende Ergänzung, um zu sehen wie PySpark’s DataFrame API jetzt um Pandas erweitert wird. Koalas ist ein übergeordnetes Machine-Learning-Framework für Spark und Pandas, welche die Datenanalyse stark vereinfacht. Pandas ist eines der am meisten verbreiteten Tools für die Datenanalyse und kann jetzt auch mit Spark für die Analyse von großen Datenmengen mit Spark verwendet werden. Die Anpassung von Pandas-Code auf Spark benötigt nur minimale Änderungen der verwendeten Pakete. Bislang sind noch nicht alle Befehle aus Pandas in Koalas implementiert. Durch das sehr große Interesse an Koalas wird es hier jedoch in Zukunft viele neue spannende Entwicklungen geben und auch Erweiterungen werden nicht lange auf sich warten lassen.

  • Apache Spark Core – Practical Optimization
    Auch in Apache Spark gibt es viele Stolpersteine und Bottlenecks, welche die Datenverarbeitung erheblich verlangsamen können. In dieser in-depth Session von Daniel Tomes, Entwickler bei Databricks, wurden zahlreiche Do’s & Don’ts vorgestellt. Angesprochen wurden Themen wie effiziente Partitionierung, Join-Optimierungen und Parallelisierung. Die Spark Defaultkonfigurationen sind oft nicht optimal und ein tiefergehendes Verständnis des genutzten Systems und der verwendeten Daten kann hier zu signifikanten Beschleunigungen führen.

Auf der Databricks Website lassen sich mehr Informationen zu den Vorträgen und Keynotes finden.

Wir freuen uns dieses Jahr dabei gewesen zu sein und sind schon gespannt auf die Innovationen, die 2020 auf dem Spark + AI Summit Europe auf uns warten!

Du möchtest auch mit uns für unsere Kunden spannende Lösungen mit der neuesten Big Data-Technologie entwickeln? Dann schau doch mal bei unseren offenen Stellen vorbei!