Antes del cerrar el 2015 y aunque estemos en la mitad de la vorágine del cierre anual de la empresa en la que trabajo, no quiero dejar de hablar de uno de nuestros productos de más éxito como es ISILON y su aplicación a uno de las áreas de IT con más futuro, como es el Big Data y un nuevo concepto surgido a su alrededor como es del de Data Lake.
El concepto de Data Lake no deja de ser una nueva arquitectura para soportar el crecimiento de los sistemas de Big Data que basa su premisa en la sencillez para aceptar todo tipo de datos en un único repositorio desde el que luego se puedan explotar. Habla mucho más en detalle del porqué de la necesidad, forbes en este articulo.
Esta arquitectura no está exenta de detractores, algunos relevante como Gartner indican que al carecer de metadatos y de una correcta categorización de los datos (precisamente por si sencillez en la ingesta) el Data Lake o lago de datos puede acabar en un Data Swamp o pantano de los mismos, porque sea imposible reutilizar la información almacenada de forma eficiente.
Obviamente para evitar este pantanoso peligro, no queda sino hacer procesos de refinamiento de la información constantemente, como se hace en muchos procesos de ETL contra los DataWarehouse clásicos.
Soluciones de EMC como ISILON ayudan a simplificar la construcción de un Data Lake a la vez que reducen los riesgos de poca accesibilidad de los datos almacenados, que derivarían en el pantano de datos. La solución NAS scale-out de EMC premite acceder al mismo sistema de ficheros desde varios protocolos sin realizar ningún tipo de transformación de la información.
Espero permitiría por ejemplo, que ficheros almacenados desde un área compartida estándar de Linux o Windows, pudieran ser tratados como un sistema Hadoop por un tercero, y consumir el resultado desde una aplicación Cloud.
Puedes leer mucho más sobre la construcción de Data Lakes con ISILON en este documento de la web de EMC.