Blog Data Lake

Data Lakes: Was sind sie und wer braucht sie?

Die enorme Menge an Daten, welche heutzutage von Unternehmen erfasst wird, hat eine erhebliche Veränderung der Art und Weise erforderlich gemacht, wie diese Daten gespeichert werden.

Von der bescheidenen Datenbank bis hin zu data warehouses, sind Datenspeicher sowohl in der Größe, als auch in der Komplexität gewachsen, um mit den Anforderungen der Unternehmen Schritt zu halten. Gleichzeitig muss die Datenanalyse wettbewerbsfähig bleiben. Was anfangs lediglich ein Datenstrom war, hat sich mittlerweile in einen Datenfluss verwandelt, da Unternehmen Unmengen von Daten aus allen denkbaren Bereichen für jede denkbare Geschäftsfunktion sammeln.

Um der Datenflut und den Anforderungen der Unternehmen hinsichtlich der Speicherung, Sortierung und Analyse dieser Daten gerecht zu werden, wurde eine neue Speicherlösung entwickelt: das Data Lake Konzept (Datensee-Konzept).

Was ist in einem Data Lake?

„Wenn Sie sich einen Data Mart als einen Vorrat an vollen Wasserflaschen vorstellen – gereinigt, verpackt und einheitlich abgefüllt – welcher ohne großen Aufwand getrunken werden kann, dann ist der Data Lake ein großer See voller Wasser in seinem natürlichen Zustand.“ – James Dixon

Unternehmen arbeiten mit einer Vielzahl an Systemen und Anwendungen, die zwar wertvolle Daten liefern, jedoch selten in einem standardisierten Format. Während Ihre Buchhaltungsabteilung ihre bevorzugte Abrechnungs- und Fakturierungssoftware verwendet, setzt Ihre Lagerabteilung auf ein völlig anderes Lagerverwaltungssystem. Gleichzeitig vertraut Ihr Marketing-Team auf Marketing-Automatisierungs- oder CRM-Software, da es diese Anwendungen am Produktivsten findet. Diese Systeme kommunizieren nur selten direkt miteinander – und obwohl sie dahingehend zusammengebastelt werden können, um auf Geschäftsprozesse oder Workflows zu reagieren, gibt es immer noch keine standardisierte Ausgabefunktion der erzeugten Daten.

Data Warehouses leisten für Analysezwecke eine hervorragende Arbeit bei der Standardisierung von Daten aus unterschiedlichen Quellen. Tatsächlich ist die Entscheidung darüber, wie diese Daten verwendet und verarbeitet werden müssen, bereits getroffen, sobald die Daten in ein Data Warehouse geladen werden.

Data Lakes jedoch sind größere, schmutzigere und schwerfälligere Bestien. Sie nehmen sich alle Daten auf die ein Unternehmen Zugriff hat, ganz gleich ob diese strukturiert, halbstrukturiert oder unstrukturiert sind, und speichern sie in ihrem Rohformat ab. Erinnern Sie sich an die Datenstrom / Fluss-Analogie weiter oben? Sämtliche Datenquellen in Ihrem Unternehmen sind Nebenflüsse für Ihren Data Lake, der alle Ihre Daten erfasst, unabhängig von der Form, Funktion, Größe oder Geschwindigkeit. Diese Eigenschaft ist besonders nützlich, wenn Sie Event-Tracking- oder IoT-Daten erfassen. Die Verwendung von Data Lakes geht jedoch weit über diese Szenarien hinaus.

Nehmen Sie ein Bad

Sobald die Daten im See gesammelt wurden, können Unternehmen diese abziehen und analysieren sowie als Datenquelle für ihr Data Warehouse verwenden.

Azure Data Lake enthält beispielsweise alle Funktionen, die es Entwicklern, Data Scientisten und Analysten ermöglicht, Daten in beliebiger Größe, Form und Geschwindigkeit zu speichern, sowie plattform- und sprachübergreifend alle Arten von Verarbeitungen und Analysen durchzuführen. Azure Data Lake beseitigt die Komplexität der Erfassung und Speicherung all Ihrer Daten und beschleunigt gleichzeitig den Einstieg in die Stapelverarbeitung, das Streaming und die interaktive Analyse. Für eine einfache Datenverwaltung- und Kontrolle bedient sich Azure Data Lake des vorhandenen IT-Umfelds.

Die Speicherung ist jedoch nur ein Bestandteil eines Data Lakes. Die andere Komponente ist die Möglichkeit, strukturierte, unstrukturierte, relationale und nicht-relationale Daten zu analysieren, um Chancen oder einzelne Sachverhalte zu identifizieren.

Die Analyse von Date Lake-Inhalten kann über den Azure-Analytics-Dienst oder den HDInsight-Analytics-Dienst durchgeführt werden.

  • Analytics-Dienst:Data Lakes sind besonders in analytischen Szenarien nützlich, bei denen Sie nicht eindeutig wissen wie Sie vorgehen sollen. Über einen ungefilterten Zugriff auf zuvor umgewandelte Rohdaten können maschinelle Lernalgorithmen, Data Scientists oder Analysten Petabytes an Daten für verschiedene Workload-Kategorien wie ETL, Analysen, Machine Learning, maschinelle Übersetzung, Bildverarbeitung und Sentimentanalysen verarbeiten. Die Verwendung der in Azure integrierten U-SQL-Bibliothek ermöglicht es Unternehmen, den Code lediglich einmal schreiben zu müssen und ihn automatisch für die von Ihnen benötigte Skalierung zu nutzen, sei es in .NET-Sprachen, R oder Python.
  • HDInsight:Wenn es um Big-Data-Analysen geht, bleibt das Open-Source-Hadoop-Framework eine der beliebtesten Optionen. Mit der Microsoft HDInsight-Plattform können Open-Source-Frameworks wie Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, Microsoft ML Server und viele mehr über vorkonfigurierte Cluster, die für verschiedene Big-Data-Szenarien optimiert sind, für Ihre Data Lakes angewendet werden.

Machen Sie Ihre Daten zukunftssicher

Data Lakes stellen eine neue Grenze für Unternehmen dar. Den Unternehmen werden unglaubliche Möglichkeiten, Einsichten und Optimierungen geboten, indem Sie das gesamte Wissen, welches im Unternehmen zur Verfügung steht, in einem rohen und ungefilterten Zustand analysieren.

Wie bei den wirklichen Seen hängt der langfristige Zustand Ihres Unternehmens-Data-Sees davon ab, ob dieser vor Verschmutzung geschützt wird. Der Datenverwaltung kommt hierbei eine große Rolle zu. Sie stellt sicher, dass Ihr Data Lake nicht zu einem Datensumpf verkommt. Nicht verwaltete oder nicht katalogisierte Daten können Unternehmen sowohl in Bezug auf die Datenqualität (und das unternehmerische Vertrauen in diese Daten), als auch in Bezug auf Sicherheits-, Regulierungs- und Compliance-Risiken anfällig machen. Im schlimmsten Fall bieten Data Lakes eine Fülle an Daten, die aufgrund falscher Metadaten oder Katalogisierung nicht sinnvoll analysiert werden können.

Damit Unternehmen die Vorteile von Data Lakes wirklich nutzen können, benötigen sie eine solide interne Governance-Richtlinie, die in Verbindung mit einem Datenkatalog (z. B. Azure Data Catalog) verwendet wird. Das Tagging-System eines Datenkatalogs hilft bei der Vereinheitlichung von Daten durch die Erstellung und Implementierung einer gemeinsamen Sprache, die Daten und Datensätze, Nomenklaturen, Definitionen, Berichte, Metriken, Dashboards, Algorithmen und Modelle umfasst. Mit dieser einheitlichen Sprache können Benutzer die Daten in gewöhnlichen Unternehmensbegriffen verstehen und gleichzeitig Beziehungen und Verknüpfungen zwischen Datensätzen herstellen (sobald die Daten die Warehousing- oder relationale Ebene erreicht haben).

Bauen Sie Ihre Business Intelligence-Infrastruktur auf ein solides Fundament

Mit der Einrichtung eines Data Lake zusammen mit Jet Analytics, einem Tool welches eine bessere Organisation und Analyse ermöglicht, bleibt Ihr Data Lake für viele Jahre eine kristallklare Wissensquelle für Ihr Unternehmen. Weitere Informationen zur effektiven Organisation Ihrer Daten oder Ausführen von Big Data-Workloads erhalten Sie von unserem qualifizierten Team von Berichterstellungs- und Analyseexperten.

Kontaktieren Sie noch heute einen Jet-Handelspartner!