4 minute read

Alles fließt: Fast-Data-Streaming und Messaging gehören zusammen

December 2, 2018

#Java #Kafka #DataStreaming

Der Trend zu immer mehr und immer schneller stellt hohe Anforderungen an dynamisch reagierende Systeme. Bei Microservices und Fast-Data führt kein Weg an losgekoppelten Systemen und der ereignisbasierten Verarbeitung vorbei. Apache-Kafka verspricht, die beiden bisher getrennten Welten, asynchrone Nachrichtenverarbeitung und Datenverarbeitung, näher miteinander zu verbinden.

Immer schneller, immer kleiner

Bisher waren die operativen und die analytischen Daten immer getrennt voneinander. Durch neue Anwendungsfälle, wie IoT oder Realzeitauswertungen im Bereich Marketing oder Industrie 4.0,
steigt nicht nur die Datenmenge, sondern auch die Geschwindigkeit. Da die Daten aus unterschiedlichen Quellen kommen, müssen diese einheitlich verarbeitet und integriert werden. Letztendlich, ist nicht nur aus Zeit-, sondern auch aus Kostengründen fraglich, ob diese Daten bei der Weiterarbeitung wirklich mehrfach abgespeichert werden müssen. Dabei wird im Bereich Business-Intelligence die Metapher des Datensees dafür verwendet. Damit dieser sich nicht zu einem Datensumpf entwickelt, sind dann wieder Datenvereinigungs- und Governance-Prozesse nötig, die das Ganze nicht nur verlangsamen, sondern auch verteuern. Um die Datenverarbeitung wieder etwas zu beschleunigen, wurde von Nathan Marz die Lambda-Architektur vorgeschlagen.
Diese bietet neben der langsamen Batch-Verarbeitung eine schnellere Verarbeitung für eine Untermenge an. Als eine Alternative, die auf zwei getrennte Verarbeitungswege verzichtet, schlug Jay Kreps eine Streaming-Architektur vor, die er einfach, mit dem Folgebuchstaben von Lambda im griechischen Alphabet, Kappa nannte.

**Von Big-Data zu Fast-Data mit der Lambda-Architektur (Abb. 1).**

**Kappa-Architektur mit Kafka-Streams & Kafka-Connect (Abb. 2).**

Haben sich die ersten Big-Data-Systeme rund um Hadoop zunächst auf die effizientere Batch-Verarbeitung konzentriert und sich auf die zwei V‘s von Big-Data (Volume, Variety) gekümmert, geht es bei Fast-Data um das dritte V: Velocity. Auch hier gibt es mit Apache-Spark und -Flink entsprechende Produkte, um eine Streaming-Architektur umzusetzen.

Nachrichten oder Daten

Manchmal hat man jedoch keine Datenströme, sondern eher kleinere Eimer, die als Nachrichten zwar auch kontinuierlich aber oft unvorhersehbar auftreten. Das kann schnell zu einem Stau bei der Weiterverarbeitung führen. Um diesen zu vermeiden, braucht man entweder genügend Zwischenspeicher oder einen Mechanismus (Backpressure), um mit solchen Überlastungen umzugehen. Da die meisten Messaging-Systeme schon etliche Jahrzehnte auf dem Buckel haben und ursprünglich auch eher für Unternehmensanwendungen mit planbarer Last gedacht waren,
sind diese für eine Realtime-Verarbeitung eher ungeeignet.
Hinzu kommt, dass sie auch neuere, effizientere Protokolle oft nicht unterstützen.

Warum Apache-Kafka

Vor ähnlichen Herausforderungen stand das soziale Business-Netzwerk LinkedIn. Diese entwickelten Apache-Kafka als verteilte Daten-Streaming-Plattform, die sie 2012 an die Apache Software Foundation übergaben. Seit 2014 haben die ursprünglichen Entwickler mit Confluent ein Unternehmen gegründet, das sich um die Weiterentwicklung und den professionellen Support kümmert. Die beiden Hauptkomponenten von Kafka sind die Streams und die Konnektoren. Dienen die Streams zu Verarbeitung, sind die Konnektoren dafür zuständig, die Verbindung mit externen Datenlieferanten und -abnehmern herzustellen. Für viele bekannte Produkte, wie ElasticSearch, HDFS, Amazon-S3, Amazon-Dynamo-DB, Amazon-Kinesis, Cassandra, Couchbase, Splunk, IBM-MQ, Oracle-CDC, MongoDB oder Standards wie MQTT, JMS, JDBC und CoAP, gibt es Open-Source oder offiziell unterstützte Konnektoren.

Kafka selbst ist in Java und Scala programmiert und benötigt zur Ausführung nur eine Java-Laufzeitumgebung und den bereits integrierten Cluster-Manager Apache-Zoogener.

**Der Konsument kontrolliert die Datenverarbeitung (Abb. 4).**

Daten werden bei Kafka automatisch partitioniert und verteilt abgelegt. Dadurch kann die Verarbeitung parallelisiert und die Ausfallsicherheit erhöht werden. Nachrichten werden zu Topics an den Broker gesendet und sofort weiterverarbeitet. Wenn diese nicht sofort weiterverarbeitet werden können, werden diese in einen Zwischenpuffer geschrieben und zu einem späteren Zeitpunkt transparent weiterverarbeitet. Deswegen braucht Kafka keinen Backpressure-Mechanismus, wie er bei anderen reaktiven Stream-Verarbeitungen benötigt wird. Die Konsumenten kontrollieren
dezentral, welchen letzten Datensatz sie verarbeitet haben und können so immer dort (gemerkter Offset) wieder weitermachen, wenn die Verarbeitung kurzzeitig unterbrochen wurde oder sich an einen bei Überlast noch freien Thread zuteilen lassen. Dadurch, dass die Steuerung dezentral erfolgt, ist ein Kafka-Cluster sehr robust, ausfallsicher und skalierbar.

Anwendungsfälle

Die Verarbeitung von zeitbezogenen Ereignissen sind ein naheliegender Anwendungsfall für Kafka. Hierzu zählen auch Protokolldateien oder Sensordaten aus dem Bereich IoT.

Auch für neuronale Netze bietet sich Kafka an, um z. B. neue Lernmodelle mit produktiven Daten in Realzeit zu trainieren. Das hat den Vorteil, dass die Daten nicht doppelt gespeichert werden, sondern dass die Ergebnisse zwischen zwei parallel arbeitenden Modellen schneller verglichen und angepasst werden können, was letztendlich die Ergebnisqualität und das Lernen verbessert.
Gerade für eine große Anzahl von Geräten mit einer stark schwankenden Last ist Kafka gut geeignet, da die Information über den Verarbeitungszustand nicht zentral, sondern bei den Clients gehalten wird. Dadurch ist ein Wiederaufsetzen im Fehlerfall oder ein Nachfahre von verpassten Informationen einfacher möglich.

Fazit:

Bisher wurden die Themen asynchrone Nachrichtenverarbeitung und Datenverarbeitung immer getrennt betrachtet. Durch die Notwendigkeit, immer mehr Daten in immer schnellerer Zeit verarbeiten zu müssen, werden neue Anforderungen an die Near-Realtime-Verarbeitung von Daten und Nachrichten gestellt. Mit Apache-Kafka können beide Welten miteinander verbunden werden. Dabei ist die Einstiegshürde geringer als bei vergleichbaren Produkten, da diese einfach in die Entwicklung integriert und zu einem skalierbaren Betrieb ausgebaut werden kann. Über Konnektoren können viele typische Systeme schnell eingebunden werden. Mit KTable und KSQL existieren in Confluent einfache Auswertungsmöglichkeiten, sodass viele Berechnungen direkt auf dem Datenstrom stattfinden können, ohne den Umweg über Zwischenspeicher zu gehen. Dadurch, dass inzwischen Konnektoren bekannter Hersteller, wie IBM, ORACLE, SAP und Microsoft für Kafka existieren, wird es noch einfacher Kafka nicht nur in der Cloud, sondern auch in Unternehmen zu nutzen. Die Liste der Firmen die Kafka nutzen, liest sich deswegen wie das Who-is-who des Internets und auch die Partnerliste von Confluent wird immer länger. Die Möglichkeit bei neuen event basierten Architekturen einen Ort der Wahrheit (Single-source-of-truths) zu haben, macht die Datenaktualität bei gleichzeitiger Historisierung einfacher. Insofern ist Kafka, nicht nur für IoT, die Log-Verarbeitung oder KI, eine interessante Option, sondern lässt die gesamte Datenverarbeitung von Grund auf neu denken. Realtime von Daten wird generell immer wichtiger, da der Wert der Daten oft mit dem Zeitraum sinkt, bis daraus Informationen und damit Entscheidungen gewonnen werden können.

Frank Pientka arbeitet als Principal-Software-Architect bei der MATERNA GmbH in Dortmund und sorgt für mehr Qualität in der Software. Als Gründungsmitglied des iSAQB sorgt er für eine verbesserte Ausbildung und Zertifizierung von Architekten.
Seit mehr als zwei Jahrzehnten unterstützt er Firmen bei der Umsetzung tragfähiger Software-Architekturen und begleitet sie auf ihrem Weg in die Cloud.

http://blog.materna.de/author/frank-pientka/
Frank.Pientka@materna.de
https://mobile.twitter.com/fpientka

Was gibt’s Neues in JPA 2.2

November 26, 2018

Bessere Abstraktion mit IODA

December 3, 2018

Cookie	Duration	Description
__cf_bm	1 hour	This cookie, set by Cloudflare, is used to support Cloudflare Bot Management.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Advertisement" category.
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
wpEmojiSettingsSupports	session	WordPress sets this cookie when a user interacts with emojis on a WordPress site. It helps determine if the user's browser can display emojis properly.

Cookie	Duration	Description
mailchimp_landing_site	1 month	MailChimp sets the cookie to record which page the user first visited.
wordpress_google_apps_login	session	This is a functional cookie used for WordPress.This cookie allows the users to login to the site with their Google account.

Cookie	Duration	Description
_clck	1 year	Microsoft Clarity sets this cookie to retain the browser's Clarity User ID and settings exclusive to that website. This guarantees that actions taken during subsequent visits to the same website will be linked to the same user ID.
_clsk	1 day	Microsoft Clarity sets this cookie to store and consolidate a user's pageviews into a single session recording.
_ga	1 year 1 month 4 days	Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors.
_ga_*	1 year 1 month 4 days	Google Analytics sets this cookie to store and count page views.
_gat_gtag_UA_*	1 minute	Google Analytics sets this cookie to store a unique user ID.
_gid	1 day	Google Analytics sets this cookie to store information on how visitors use a website while also creating an analytics report of the website's performance. Some of the collected data includes the number of visitors, their source, and the pages they visit anonymously.
CLID	1 year	Microsoft Clarity set this cookie to store information about how visitors interact with the website. The cookie helps to provide an analysis report. The data collection includes the number of visitors, where they visit the website, and the pages visited.
MR	7 days	This cookie, set by Bing, is used to collect user information for analytics purposes.
SM	session	Microsoft Clarity cookie set this cookie for synchronizing the MUID across Microsoft domains.

Cookie	Duration	Description
ANONCHK	10 minutes	The ANONCHK cookie, set by Bing, is used to store a user's session ID and verify ads' clicks on the Bing search engine. The cookie helps in reporting and personalization as well.
MUID	1 year 24 days	Bing sets this cookie to recognise unique web browsers visiting Microsoft sites. This cookie is used for advertising, site analytics, and other operations.

Hand-Picked Top-Read Stories

Executive Order und der Solarwinds Hack – Was bedeutet das für uns?

Trending Tags

Alles fließt: Fast-Data-Streaming und Messaging gehören zusammen

Previous Post

Was gibt’s Neues in JPA 2.2

Next Post

Bessere Abstraktion mit IODA

Durchdachtes Log-Management für Industrie 4.0

JAVAPRO Meetup-Reihe 2018

Die Qual der Wahl

Was DevOps heute wissen müssen

Executive Order und der Solarwinds Hack – Was bedeutet das für uns?

Cybersecurity – Was ist SAST, DAST, IAST und RASP? – ein kleines Intro

Sign Up

To Our Weekly Newsletter

Alles fließt: Fast-Data-Streaming und Messaging gehören zusammen

Previous Post

Next Post

Durchdachtes Log-Management für Industrie 4.0

JAVAPRO Meetup-Reihe 2018

Die Qual der Wahl

Was DevOps heute wissen müssen

Related Posts

Sign Up

To Our Weekly Newsletter