Zürich Apache Park Meetup: Spark verstehen

Gestern haben wir im Impact Hub Zürich - Viadukt Philipp Brunenberg, einem Apache Spark Enthusiasten, zugehört, der über Inside Spark Core sprach : Spark verstehen, um besser funktionierenden Code zu schreiben. Die Meetup-Gruppe wurde über Möglichkeiten der Spark-Konfiguration, Datendekomposition und Leistungsprobleme aufgeklärt.

PhilippBrunenberg unterstützt seine Kunden als freiberuflicher Data-Science- und Big-Data-Berater, indem er datengetriebene Probleme löst, innovative Anwendungen entwickelt und Teams darin schult, wie man skalierbare Anwendungen schreibt. Als Redner hält er Vorträge auf verschiedenen Veranstaltungen, um den Menschen ein besseres Verständnis für den Aufbau und die Funktionsweise von Spark zu vermitteln.

Apache Spark ist eine Open-Source-Technologie für die verteilte Big-Data-Analyse, die in Scala, Java, Python und R geschrieben ist. Das Ausführungsframework arbeitet mit dem Dateisystem, um die Daten über den Cluster zu verteilen und parallel zu verarbeiten. Wie MapReduce nimmt es ebenfalls eine Reihe von Anweisungen aus einer von einem Entwickler geschriebenen Anwendung entgegen. Apache Spark gilt als Spitzentechnologie und könnte die Zukunft der Analytik sein. Spark spricht die Early Adopters und die Menschen an, die sich für das Neueste und Beste in der Technologie begeistern.

Wenn Operationen auf Spark ausgeführt werden, kann Spark Dinge ohne Ein-/Ausgabe im Speicher halten, so dass Entwickler schnell mit denselben Daten weiterarbeiten können. Dies führt zu dramatischen Leistungsverbesserungen. Spark eignet sich hervorragend für Programmiermodelle, die Iterationen oder Interaktivität beinhalten. Entwickler können HDFS und YARN verwenden. Spark ermöglicht Analyse-Workflows, nutzt den Speicher anders und effizient und die Ergebnisse sind beeindruckend: Spark übertrifft Hadoop um den Faktor 20, wenn es um die Verwendung von Binärdaten und einer In-Memory-HDFS-Instanz geht. Der Kern von Spark ist nicht nur das Cluster-Computing-Framework, sondern auch die erstaunliche Spark-Community, die sich austauscht, lehrt und gemeinsam lernt. Das Herzstück der Spark-Gemeinschaft sind die Organisatoren der Spark Meetups, die weiterhin ihre Zeit, Ressourcen und Mühe investieren, wie Tobias Widmer von Onedotoder Wolfram Willuhn, Head of Data Science bei FlavorWiki. Diese Meetups bringen Top-Talente aus der Tech-Branche an einem Ort zusammen.

Nach einer kurzen Einführung begann Philipp Brunenberg mit verschiedenen Konfigurationen und erklärte, wie man die Arbeitslast in kleine Aufgaben aufteilt, die parallelisiert werden können, und sprach über die Sortierung von Zwischenergebnissen, Leistung und Nachzügler. Er sprach über schlechte Modellierung, Länge der Dokumente, Puffer und GC Overhead. Zum Schluss wurde erklärt, wie man mit langsamen Shuffles umgeht und Spark Lint als Überwachungslösung einsetzt. Fragen zu detaillierten Spark-Themen wurden in einer breiten Gruppendiskussion und nach der Präsentation in kleineren Gruppen oder individuell beantwortet. Die Teilnehmer unterhielten sich über Technologie, Möglichkeiten und wie sie ihre Spark-Kenntnisse verbessern können.

Die Präsentation war punktgenau, mit einer sehr ansprechenden Herangehensweise an das Thema und an die Teilnehmer, und jeder konnte etwas von diesem Meetup mit nach Hause nehmen. Philipp Brunenbergs Besuch und Apache Spark Einführung zum Verständnis von Spark war eine Bereicherung in der Zürcher Tech-Landschaft.