Data Lakes: ¿qué son y quién los necesita?

2 julio 2019

insightsoftware is a global provider of reporting, analytics, and performance management solutions, empowering organizations to unlock business data and transform the way finance and data teams operate.

La increíble cantidad de datos que las empresas modernas recogen ha exigido un cambio enorme en el modo de almacenarlos.

Desde la humilde base de datos hasta los data warehouses, los almacenes de datos han crecido tanto en tamaño como en complejidad para ir al compás de las empresas a las que prestan sus servicios, y ahora los análisis de datos tienen que mantener la competitividad. Lo que comenzó siendo un pequeño flujo de datos se ha transformado en un río de datos, ya que las empresas se están dedicando a recopilar toneladas de información de todas las fuentes imaginables y en todas las funciones empresariales que se puedan concebir.

Para contener el torrente de datos y hacer frente a la necesidad que las empresas tienen de almacenarlos, ordenarlos y analizarlos, se ha creado una solución de almacenamiento nueva: el data lake.

¿Qué hay en un data lake?

En palabras de James Dixon, «Si imaginamos que un datamart es un almacén de agua embotellada —depurada, envasada y dispuesta para un consumo fácil—, el data lake es una gran masa de agua que se encuentra en un estado más natural».

Las empresas se apoyan sobre una estructura de herramientas y funciones a fin de ofrecer datos valiosos que muy pocas veces están en un formato estandarizado. Posiblemente su departamento de contabilidad utilice su software preferido de facturación y el almacén emplee un sistema de gestión de inventario totalmente distinto. Por su parte, el equipo de marketing confía en el software de automatización de marketing o CRM que más productivo le parece. Estos sistemas casi nunca se comunican directamente entre sí y, si bien se pueden integrar de forma algo rudimentaria para adaptarse a los procesos empresariales o a los flujos de trabajo, sigue sin existir un resultado estandarizado para los datos que se generan.

Los data warehouses son muy útiles a la hora de estandarizar datos de distintas fuentes de análisis. De hecho, cuando los datos se cargan en un data warehouse, la decisión de cómo se van a usar y cómo se deben procesar ya se ha tomado.

Sin embargo, los data lakes son mastodontes más grandes, desordenados y difíciles de manejar: albergan todos los datos a los que una empresa tiene acceso, ya estén estructurados, semiestructurados o desestructurados, y los almacenan en un formato básico para su posterior exploración y consulta. ¿Recuerda la analogía sobre el flujo y el río de datos que hicimos al principio? Todas las fuentes de datos de una empresa son afluentes que desembocan en el data lake, que recoge toda la información sea cual sea su forma, función, tamaño o velocidad. Esto resulta de especial utilidad al recopilar datos sobre el seguimiento de eventos o sobre IoT, aunque la utilización de los data lakes va más allá de estos casos.

En las profundidades

Una vez que los datos se encuentran en el lago, las organizaciones los pueden consultar, analizar y utilizar como fuente del data warehouse.

Por ejemplo, Azure Data Lake incluye toda la funcionalidad necesaria para facilitar a los desarrolladores, los científicos de datos y los analistas, el almacenamiento de datos de cualquier tamaño, forma y velocidad, y para llevar a cabo todo tipo de procesamiento y análisis en diferentes plataformas y lenguajes. Azure Data Lake elimina las complejidades de introducir y almacenar todos los datos, al tiempo que acelera la puesta en marcha y ejecución con análisis interactivos, de lotes y de streaming. Esto le permite aprovechar las inversiones existentes en TI destinadas a la identidad, la gestión y la seguridad para simplificar el control y la gestión de datos.

Sin embargo, el almacenamiento es tan solo uno de los componentes de un data lake. El otro es la capacidad de ejecutar análisis en los datos estructurados, desestructurados, relacionales y no relacionales con objeto de identificar áreas de oportunidad o interés.

El contenido de los data lakes se puede analizar por medio del servicio de trabajos de análisis de Azure o del servicio de análisis HDInsight.

Servicio de trabajos de análisis: los data lakes son especialmente valiosos en situaciones de análisis en las que ignoramos qué es lo que no sabemos. Gracias al acceso sin filtros a datos pretransformados y sin procesar, los algoritmos de aprendizaje automático, los científicos de datos o los analistas pueden procesar petabytes de datos para diversas categorías de cargas de trabajo, como consultas, ETL, análisis, aprendizaje automático, traducción automática, procesamiento de imágenes y análisis de opiniones. Y el uso de la biblioteca U-SQL integrada de Azure permite a las empresas escribir código una vez y que se compile paralelamente de forma automática a la escala necesaria, ya sea en lenguaje .NET, R o Python.
HDInsight: cuando hay que hacer análisis de big data, el marco de código abierto Hadoop sigue siendo una de las opciones más populares. Con la plataforma Microsoft HDInsight, es posible aplicar marcos de código abierto como Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase o Microsoft ML Server, entre otros, a los data lakes mediante clústeres preconfigurados y optimizados para diversas situaciones de big data.

Unos datos preparados para el futuro

Los data lakes representan una nueva frontera para las empresas. Tomar toda la información en bruto y sin filtrar de la que dispone una empresa y analizarla sin expectativas ofrece asombrosas oportunidades, perspectivas y optimizaciones.

Como ocurre con los lagos de verdad, el estado a largo plazo de un data lake organizativo depende de lo protegido que esté de la «contaminación»: el control de datos es fundamental para garantizar que el lago no se convierta en una ciénaga. La falta de control o catalogación de los datos de las empresas puede mermar la calidad de los datos (así como la confianza organizativa en ellos) y hacerlas vulnerables a riesgos de seguridad, reglamentarios y de cumplimiento normativo. En el peor de los casos, los lagos pueden ofrecer un caudal de datos que sea imposible de analizar de una forma efectiva debido a unos metadatos o una catalogación incorrectos.

Para que las empresas puedan sacar el máximo provecho de los data lakes, deben contar con una firme política interna de control que deberán usar junto con un catálogo de datos (como Azure Data Catalog). El sistema de etiquetado de un catálogo sirve para unificar los datos mediante la creación e implementación de un lenguaje común, que incluye datos y conjuntos de datos, glosarios, definiciones, informes, métricas, cuadros de mando, algoritmos y modelos. Este lenguaje de unificación permite a los usuarios comprender los datos en términos empresariales y establecer, a la vez, relaciones y asociaciones entre los conjuntos de datos (cuando estos alcanzan la fase relacional o de almacenamiento).

Construya su infraestructura de business intelligence sobre una base sólida

Al establecer un data lake y unas herramientas complementarias que contribuyan a la mejora de la organización y el análisis, como Jet Analytics, el data lake será una fuente de información transparente para su empresa durante muchos años. Si desea más información sobre cómo organizar los datos o ejecutar cargas de trabajo de big data de un modo eficaz, contacte con nuestro talentoso equipo de expertos en creación de informes y análisis.

Contacte hoy mismo con un representante de Jet