Data Lakes: Hvad er det, og hvem har brug for det?

2 juli 2019

insightsoftware is a global provider of reporting, analytics, and performance management solutions, empowering organizations to unlock business data and transform the way finance and data teams operate.

Den enorme mængden af data, der indsamles af virksomheder i dag, har krævet en væsentlig ændring i den måde, dataene gemmes på.

Fra den beskedne database til data warehouses, er dataopbevaring vokset både i størrelse og kompleksitet for at holde trit virksomhedens behov for dataanalyse, der er påkrævet, for at forblive konkurrencedygtig. Det, der først var en strøm af data, er blevet til en dataflod, efterhånden som virksomheder indsamler enorme mængder data fra alle tænkelige kilder i alle tænkelige virksomhedsfunktioner.

Der er udviklet en ny opbevaringsløsning til at håndtere denne dataflod og virksomhedernes behov for at opbevare, sortere og analysere data: The Data Lake.

Hvad er der i en Data Lake?

“Hvis du forestiller dig et Data Mart som en opbevaring af vand på flaske – renset og pakket og struktureret for nemt forbrug – så er Data Lake et stort vandområde i sin naturlige tilstand.” – James Dixon

Virksomheder drives på et fundament af værktøjer og funktioner, der leverer værdifulde værktøjer, men sjældent i et standardiseret format. Mens din regnskabsafdeling bruger sit foretrukne program til fakturering og regninger, er din vareafdeling afhængig af et helt andet system til styring af lagerbeholdning. Samtidig har dit marketingsteam tillid til marketing automation og CRM-software, som de finder mest produktive. Disse systemer kommunikerer sjældent direkte med hinanden – og selvom de kan kobles sammen for at reagere på forretningsprocesser eller arbejdsgange gennem integrationer, er der stadig ikke noget standardoutput for de data, der genereres.

Data warehouses gør et godt stykke arbejde med at standardisere data fra forskellige kilder til analyse. Faktisk er det sådan, at når dataene er indlæst i et data warehouse, er beslutningen om, hvordan de data skal bruges, og hvordan de skal behandles, allerede truffet.

Data Lakes er imidlertid en større, mere snavset og uhåndterlig størrelse – her samles alle de data, en virksomhed har adgang til, uanset om det er struktureret, delvist struktureret eller ustruktureret, og de opbevares i deres rå form for yderligere udforskning og forespørgsler. Husker du strøm/flod-analogien fra før? Alle datakilder i din virksomhed er bifloder til din Data Lake, der samler alle dine data, uanset deres form, funktion, størrelse eller hastighed. Denne funktion er særlig nyttig ved indsamling af hændelsessporing eller IoT-data. Imidlertid går brugen af Data Lakes langt ud over disse scenarier.

Hop en tur i søen

Når først dataene er samlet i søen, kan organisationer sende forespørgsler og analysere dataene og anvende den som en datakilde til deres data warehouse.

For eksempel inkluderer Azure Data Lake includes all the capabilities required to make it easy for developers, data scientists, and analysts to store data of any size, shape, and speed—and do all types of processing and analytics across platforms and languages. By removing the complexities of ingesting and storing all of your data while making it faster to get up and running with batch, streaming, and interactive analytics, Azure Data Lake works with existing IT investments for identity, management, and security for simplified data management and governance.

However, storage is only one component of a data lake, the other being the ability to run analysis on the structured, unstructured, relational and non-relational data to identify areas of opportunity or focus.

Analysis can be performed on data lake contents via Azure’s analytics job service or the HDInsight analytics service.alle de muligheder, der er nødvendige for at gøre det let for udviklere, datalogere og analytikere at gemme data af enhver størrelse, form og hastighed – og udføre alle former for behandlinger på tværs af platforme og sprog. Ved at fjerne kompleksiteterne ved at indsamle og lagre alle dine data, og samtidig gøre det hurtigere at komme i gang med batchbehandling, streaming og interaktiv analyse, samarbejder Azure Data Lake med eksisterende IT-investeringer til identifikation, håndtering og sikkerhed for at levere forenklet håndtering og styring af data.

Opbevaring er imidlertid kun én komponent af en Data Lake – den anden er evnen til at analysere strukturerede, ustrukturerede, relationelle og ikke-relationelle data for at identificere muligheder eller fokusområder.

Der kan køres analyser på indholdet af Data Lakes via Azures analysejobservice eller analyseservicen HDInsight.

Analysejobservice: Data Lakes er særligt værdifulde i analytiske scenarier, hvor du ikke ved, hvad du ikke ved – med ufiltreret adgang til rå, præ-transformerede data, kan maskinlæringsalgoritmer, datalogere eller analytikere behandle flere petabytes data for forskelligartede kategorier, såsom forespørgsler, ETL, analyser, maskinlæring, maskinoversættelse, billedbehandling og stemningsanalyse. Brug af Azures indbyggede U-SQL-bibliotek gør det muligt for virksomheder at skrive kode én gang og automatisk få det paralleliseret til den skala, du skal bruge, uanset om det er i .NET-sprog, R eller Python.
HDInsight: Når det kommer til analyse af Big Data, er open source-frameworket Hadoop stadig én af de mest populære muligheder. Med Microsoft HDInsight-platformen kan open source-frameworks som Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, Microsoft ML Server og flere bruges på dine Data Lakes via foruddefinerede klynger, der er optimeret til forskellige big data-scenarier.

Fremtidssikring af dine data

Data Lakes repræsenterer en helt ny grænse for erhvervslivet. Virksomheder tilbydes utrolige muligheder, indsigter og optimeringer ved at analysere al den viden, der er tilgængelig i en rå og ufiltreret tilstand.

Ligesom med rigtige søer afhænger den langsigtede tilstand af din virksomheds Data Lake af at den beskyttes mod ‘forurening’. Datastyring spiller en stor rolle for at sikre, at din Data Lake ikke bliver til en datasump. Ustyrede eller ikke-katalogiserede data kan gøre virksomheder udsatte både i forhold til datakvalitet (og organisationens tillid til dataene) såvel som i forhold til sikkerheds-, regulatoriske og overensstemmelsesrisici. I værste fald kan Data Lakes levere en mængde data, der er umulig at analysere på en meningsfuld måde, på grund af forkerte metadata eller katalogisering.

Hvis virksomheder virkelig skal drage nytte af datasøer, skal de have en solid intern styringspolitik, der bruges sammen med et datakatalog (som f.eks. Azure Data Catalog). Et datakatalogs taggingssystem hjælper med at forene data ved at oprette og implemente et fælles sprog, der inkluderer data og datasæt, ordlister, definitioner, rapporter, målinger, dashboards, algoritmer og modeller. Dette ensartede sprog hjælper brugere med at forstå dataene i virksomhedsbegreber og etablerer relationer og associationer mellem datasæt (når dataene når til lagerpladsen eller det relationelle niveau).

Byg din Business Intelligence-infrastruktur på et stabilt fundament

Ved at oprette en Data Lake sammen med Jet Analytics, et værktøj, der muliggør bedre organisering og analyse, vil din datasø forblive din kilde til krystalklar viden for din virksomhed i mange år. Kontakt vores dygtige team af eksperter inden for rapportering og analyse for yderligere information om at organisere dine data eller køre store mængder data på effektiv vis.

Kontakt en medarbejder hos Jet i dag!