En el contexto de la transformación digital en las empresas, la inteligencia analítica se ha convertido en uno de los principales pilares de la gestión estratégica. Especialmente en la última década, el análisis de big data se ha desarrollado para mantenerse al día con los rápidos cambios del mercado – provocado, entre otros fenómenos, por el crecimiento de las redes sociales, el e-commerce y la tecnología móvil.
A cargo de administrar y analizar los datos corporativos, los equipos de analytics y big data buscan fomentar negocios competitivos y “preparados para el futuro”. Para que esto suceda, cuentan con tecnologías cada vez más sofisticadas para el almacenamiento y procesamiento de datos. Los data warehouses y data lakes se encuentran entre las opciones más populares en este sentido, cada uno con una arquitectura y un propósito específicos.
En este artículo, aprenderemos más sobre estas soluciones, cubriendo puntos como:
A partir de esta introducción, tendrás insumos para iniciar o mejorar proyectos de big data en tu empresa, satisfaciendo las principales necesidades de tu negocio y obteniendo el máximo valor de los datos recopilados.
¿Listo para mejorar tus procesos de gestión de datos? ¡Sigue leyendo y compruébalo!
Antes de presentar los data warehouses y data lakes, debemos hablar sobre las categorías de datos y ETL, el principal proceso de integración de datos digitales.
Los datos disponibles en la web se dividen hoy en tres categorías:
Datos Estructurados
Son datos formateados según parámetros específicos, para organización en esquemas relacionales. Uno de los principales formatos de datos estructurados son las tablas, que se distribuyen en filas y columnas con valores predeterminados.
Ejemplos: hojas de cálculo y bases de datos (Excel, CSV, SQL, archivos JSON, entre otros).
Datos Semiestructurados
Como su nombre indica, se dan con cierta organización interna, pero no están del todo estructurados.
Ejemplos: archivos web (HTML, XML, OWL, entre otros).
Datos no Estructurados
Son datos sin una organización o jerarquía interna clara. Es la categoría más amplia y cubre la mayor parte de los datos de la web.
Ejemplos: documentos de texto (archivos Word, PDF), archivos multimedia (imagen, audio y video), correos electrónicos, mensajes de texto, datos de redes sociales, dispositivos móviles, Internet de las cosas (IoT), entre otros.
En inglés, ETL es un acrónimo de Extract (Extraer), Transform (Transformar) y Load (Cargar).
ETL es el método más tradicional de integración de datos digitales, y cada término del acrónimo designa un paso en el proceso. Mira la infografía y lee más a continuación:
ETL: ¿Cómo funciona el proceso?
Desde finales de la década de 1970, cuando ETL se hizo popular, ha estructurado datos para su almacenamiento en bancos como data warehouses. ¿Vamos a saber más sobre estos repositorios?
Como literales "almacenes de datos", los data warehouses recopilan datos históricos para clasificarlos en bloques semánticos, llamados relaciones. Por esta razón, el data warehouse es una base de datos relacional, que contiene principalmente datos estructurados.
Los datos del data warehouse se distribuyen en subconjuntos denominados data marts ("mercados de datos"), que aceleran la recuperación y la entrega de datos a equipos específicos. Una vez solicitados, los datos del data warehouse se ponen a disposición en modo lectura, de acuerdo con la demanda de los analistas de big data y BI.
Unificados, libres de desviaciones e inconsistencias, los datos del data warehouse producen análisis altamente precisos que, a su vez, generan información e insights estratégicos. En resumen, por lo tanto: los data warehouses centralizan los datos relevantes para la empresa, sistematizándolos de manera eficiente y apoyando la creación de estrategias comerciales basadas en data-driven.
Con una cuidadosa planificación y ETL, los data warehouses agregan un enorme valor a las decisiones organizacionales, siendo estructuras que permiten la optimización y aplicación práctica de los datos almacenados.
Desde la década de 1990, el uso comercial y doméstico de Internet ha despegado, acelerando la generación de datos y el tráfico en la web. Este fenómeno dio lugar al concepto de big data, revelando también las limitaciones del data warehouses y repositorios relacionados, como las bases de datos (databases).
Al tratar con datos de volumen, velocidad y una variedad sin precedentes (las 3 Vs del big data), los gerentes de tecnología previeron el colapso de los sistemas tradicionales de gestión de la información. La transformación de datos para uso corporativo se convirtió en una operación muy costosa: primero, porque requería miles de terabytes de almacenamiento (datos que no siempre eran relevantes). En segundo lugar, porque requiere cada vez más tiempo de equipos dedicados, lo que requiere, por supuesto, mano de obra calificada.
Por lo tanto, hacer que la gestión de datos sea más eficiente, segura y económicamente sostenible era un desafío urgente para las empresas. A principios de la década de 2000, surgieron los primeros prototipos de una solución innovadora: el data lake.
¿Qué te viene a la mente cuando piensas en un lago? Quizás la idea de un gran tanque natural, cuya agua se pueda filtrar para abastecer su entorno. Esta metáfora, creada por James Dixon, uno de los fundadores de Pentaho, ayuda a comprender el concepto de data lake (“lago” o depósito de datos).
A diferencia del data warehouse, el data lake es una base de datos no relacional. Es decir: es un repositorio que no requiere estructuración previa de datos, en el que “fluye” en su formato original (estructurado, semiestructurado o no estructurado).
Una vez derivados de los sistemas y aplicaciones corporativos, los datos se llevan al data lake "saltando" la etapa T de ETL (transformación). Sin este tratamiento, el repositorio almacena gigantescos volúmenes de datos de cualquier tipo y escala, alcanzando cientos de petabytes (¡1 PB es más de mil terabytes!).
Si el data lake es una estructura tan robusta, ¿cuál es la ventaja de mantenerlo? Almacenar los datos en su totalidad y procesarlos bajo demanda, de forma escalable. El agua del lago, por ejemplo, se puede filtrar para abastecer un camión de agua o botellas de 500 ml. Asimismo, los datos del data lake (en gran parte no estructurados) son más flexibles, ya que no se han enmarcado en esquemas predefinidos.
Además de ahorrar tiempo y costos de almacenamiento, el data lake facilita la automatización de procesos y la innovación basada en datos, impulsando la transformación digital de las empresas. Los datos se pueden "personalizar" para proyectos en todas las áreas, además de la creación de algoritmos de deep learning. También se pueden estructurar para su asignación en data warehouses, donde se utilizarán en análisis estratégicos.
Los data lakes son manejados principalmente por ingenieros y científicos de datos, responsables de diseñar la estructura, integrarla en el flujo de datos general y curar la gran riqueza de datos derivados. En definitiva: es una solución que gestiona los datos de forma económica y dinámica, alineando la empresa con las tendencias del mercado contemporáneo.
Mientras ambos se prestan al almacenamiento y procesamiento de datos, los data warehouses y los data lakes se diferencian principalmente en cuatro aspectos: contenido, función, usuarios y tamaño. Vea la comparación abajo:
|
Data Warehouse |
Data Lake |
Contenido |
Datos estructurados |
Datos estructurados, semiestructurados y no estructurados |
Función |
Almacenar datos relevantes para la gestión estratégica |
Almacenar big data para obtener la mejor relación costo-beneficio |
Usuarios Principales |
Analistas de big data e inteligencia empresarial (BI) |
Científicos e ingenieros de datos |
Tamaño |
Requerido para almacenar datos relevantes para el análisis |
Requerido para almacenar todos los datos útiles (orden de petabytes) |
Para elegir la mejor opción para tu negocio, debes tener en cuenta criterios como el tamaño de la empresa, los objetivos y las limitaciones de tus proyectos de big data. ¿Cuál es tu prioridad en este momento: administrar los datos de manera más eficiente? ¿Obtener información de inteligencia de mercado? ¿O fortalecer el área de innovación y soluciones digitales?
Como regla general, los data lakes son adecuados para administrar datos no estructurados y los data warehouses son esenciales para el análisis a gran escala. Sin embargo, conviene recordar que los repositorios no son exclusivos. Al integrar el mismo flujo de administración de datos, los data warehouses y data lakes combinan ventajas como una mayor productividad, una mayor asertividad en el análisis y una mejor relación costo-beneficio.
Finalmente, otro punto a evaluar es el modelo de almacenamiento: local (on-premises), en la nube (cloud) o híbrido. El almacenamiento en la nube se ha vuelto popular por su escalabilidad y bajo costo, ya que no requiere integración con sistemas locales. Los ingenieros de datos y otros expertos pueden guiarte tú y a tu equipo para planificar el arreglo más seguro y funcional para tu empresa.
La inteligencia analítica es una de las especialidades de Salesforce. Si este material fue útil para ti, ¡explora otro contenido sobre el tema en nuestro blog y Centro de recursos! Aprovecha la oportunidad de descubrir y experimentar Tableau, nuestra plataforma integrada de analytics y CRM. ¡Hasta la próxima!