Infraestructura de Big Data
y Analítica

Ejecuta Hadoop, Spark y ClickHouse con rendimiento predecible para ingestión, procesamiento y analítica.

De un vistazo

Qué significa realmente “big data” a nivel de infraestructura: reglas prácticas de dimensionamiento, perfiles de nodos de referencia y directrices operativas para entornos de producción.

Ideal para

Canales de ingestión y procesamiento de datos (batch y casi en tiempo real)
Workloads de data lake y lakehouse (patrones Parquet, ORC, Iceberg, Delta)
Analítica rápida y consultas de observabilidad (OLAP con ClickHouse)
Analítica de logs, eventos y producto, y extracciones para BI

Principales cuellos de botella de infraestructura

Throughput de memoria y estabilidad del GC durante joins, agregaciones y shuffles
I/O rápido para spill, shuffle, compaction y merges
Ancho de banda este-oeste para replicación, shuffles y consultas distribuidas
Diseño del almacenamiento y control de la amplificación de escritura

Cómo se ve un entorno “bueno”

Los jobs terminan porque la plataforma es estable, no porque la optimizaste durante semanas
Las latencias de consulta son predecibles incluso con concurrencia en picos
Los costes dependen de decisiones de hardware que controlas, no de facturación inesperada

Elige tu enfoque de Big Data y analítica

La mayoría de los stacks encajan en uno de estos cuatro patrones. Elige el que mejor se ajuste a cómo se mueven tus datos.

1. Procesamiento de Data Lake con Spark

Usa este patrón cuando

Ejecutas ETL pesados con joins, agregaciones, funciones de ventana y feature engineering para ML
Almacenas datasets raw y curados en archivos columnares
Te importa el coste por TB procesado, no el coste por milisegundo de consulta

Perfil de infraestructura

Nodos densos en CPU con suficiente RAM para reducir el shuffle spill
NVMe para scratch local, shuffle y almacenamiento temporal
Red robusta para shuffles y joins amplios

2. Almacenamiento y cómputo estilo Hadoop

Usa este patrón cuando

Aún utilizas HDFS y quieres discos locales con throughput predecible
Buscas data locality y aceptas el overhead de replicación

Perfil de infraestructura

Muchos HDDs para capacidad y throughput secuencial
Capa NVMe o SSD para directorios locales de YARN y conjuntos de trabajo calientes
Red dimensionada para replicación y reequilibrado

3. ClickHouse para analítica rápida

Usa este patrón cuando

Necesitas consultas OLAP rápidas sobre grandes volúmenes de datos
Tienes muchos usuarios concurrentes o dashboards
Quieres analítica rentable sin el coste de una plataforma completa de data warehouse

Perfil de infraestructura

Alto throughput de I/O y latencia estable
Suficiente RAM para mantener las partes calientes en memoria y evitar procesamiento externo
CPU para compresión, descompresión y ejecución paralela de consultas

4. Pipeline híbrido: Spark + ClickHouse

Usa este patrón cuando

Spark construye datasets limpios y agregados
ClickHouse sirve consultas rápidas y dashboards
Quieres separar las ventanas de batch pesadas de las cargas de trabajo interactivas

Perfil de infraestructura

Pools de workers separados: uno optimizado para batch y otro para OLAP
Límites claros de ingestión y políticas de ciclo de vida de datos

¿Qué es Big Data y analítica?

La infraestructura de big data es la combinación de cómputo, almacenamiento y red capaz de manejar de forma fiable:

Ingestión de alto volumen (eventos, logs, CDC, archivos)
Procesamiento distribuido (ETL batch y transformaciones)
Servicio analítico (consultas rápidas sobre grandes conjuntos de datos)

La parte difícil no es “ejecutar Spark”. La parte difícil es evitar que tu plataforma se convierta en una máquina caótica cuando:

Tu tasa de ingestión se dispara
Tu shuffle crece de forma descontrolada
Se acumula un backlog de compaction
Tus consultas pasan de 20 a 200 usuarios concurrentes
Fallan nodos y se activa la replicación

¿Cuándo debería usar infraestructura de Big Data?

Usa este enfoque si:

Tus datos analíticos son demasiado grandes o demasiado costosos para mantenerse en un data warehouse gestionado en la nube pública.
Tus cargas de trabajo son lo suficientemente predecibles como para que controlar el perfil de rendimiento sea importante.
Necesitas controlar dónde viven los datos y cómo se mueven.
Ejecutas pipelines de producción donde incumplir SLAs tiene un impacto real en el negocio.
Ya terminaste con el “depende”: quieres una plataforma que puedas dimensionar, adquirir y operar.

Evita este enfoque si:

Tu volumen de datos es pequeño y tus patrones de consulta son simples.
No tienes un equipo capaz de operar sistemas distribuidos.
Necesitas escalar a cero de forma elástica y tus cargas de trabajo son realmente esporádicas.

Regla práctica de dimensionamiento

Estos números no son leyes. Son un punto de partida razonable para nodos de analítica mixtos que ejecutan procesamiento y/o OLAP.

Regla base de dimensionamiento

ComponenteRecomendación

RAM

4 a 8 GB por núcleo de CPU

CPU

32 a 64 núcleos por nodo

Almacenamiento<br />

2 a 4 TB de NVMe más capacidad HDD según sea necesario

ClickHouse menciona explícitamente las relaciones entre memoria y CPU y ofrece una guía general que suele situarse en 4 GB por vCPU para uso general y 8 GB por vCPU para patrones de data warehousing. Los clústeres de Spark suelen terminar en un rango similar cuando se configuran de forma razonable.

Qué cambia rápidamente el dimensionamiento

Necesitas más RAM cuando:

Realizas joins amplios y grandes group-bys
Mantienes grandes conjuntos de trabajo en caché
Tienes alta concurrencia de consultas en ClickHouse

Necesitas más NVMe cuando:

Los shuffles se derraman a disco (spill)
Las merges y compactions de ClickHouse se retrasan
Ejecutas ingestión intensiva con partes grandes y merges frecuentes

Necesitas más red cuando:

El tráfico de shuffle de Spark domina
La replicación y el rebalanceo de HDFS se vuelven rutinarios
Realizas consultas distribuidas entre muchos nodos

¿Qué problemas resuelve esto?

Pipelines lentos causados por shuffle spill y I/O local insuficiente
Picos de latencia en consultas por discos saturados o backlog de merges
Rendimiento impredecible debido a noisy neighbors
Costes impredecibles por modelos de precios basados en consumo y movimiento de datos
Caos operativo por ejecutar cargas de trabajo mixtas sin aislamiento
Problemas de escalado debido a diseños de almacenamiento que no coinciden con los patrones de acceso

DesventajasVentajas

Debes diseñarlo y operarlo como una plataforma real, no como un proyecto de fin de semana

Rendimiento predecible cuando dimensionas para los verdaderos cuellos de botella

Necesitas una gestión disciplinada del ciclo de vida de los datos, o terminarás ahogándote en almacenamiento

Control claro de costes: CPU, RAM, almacenamiento y red — sin partidas misteriosas

Dimensionar mal es caro: muy poco NVMe o ancho de banda te penalizará cada día

Separación de cargas de trabajo: procesamiento y serving pueden escalar de forma independiente

Los sistemas distribuidos requieren monitorización y madurez operativa

Libertad para elegir frameworks y evolucionar con el tiempo

¿Cómo conecto Big Data con el precio?

Los costes de big data están impulsados por unos pocos factores clave. Hazlos explícitos.

1. Factores de coste del cómputo

Número de núcleos necesarios para el paralelismo
Eficiencia de la arquitectura de CPU para compresión y ejecución de consultas
Concurrencia pico para cargas de trabajo interactivas

2. Factores de coste de la memoria

Tamaño del working set
Comportamiento del shuffle y estrategia de caché
Patrones de consulta de ClickHouse, especialmente joins y agregaciones

3. Factores de coste del almacenamiento

Periodo de retención de datos
Factor de replicación y overhead de redundancia
Amplificación de escritura en procesos de compaction y merge

4. Factores de coste de red

Tráfico de replicación
Tráfico de shuffle
Tráfico de consultas entre nodos

¿Cómo puedo construir Big Data en Worldstream?

Worldstream es un proveedor de infraestructura. El valor está en construir una base estable y dar a los equipos control, sin lock-in ni contratos ambiguos.

Option A: Bare Metal Cluster for Spark and Hadoop

Opción A: Clúster bare metal para Spark y Hadoop

Úsalo cuando: quieres control total sobre CPU, RAM y discos locales. Buscas rendimiento estable y costes predecibles.

Pool de workers para Spark y la ingestión
Workers de almacenamiento si ejecutas HDFS en estilo on-prem
Nodos de plano de control separados para masters y coordinación

Opción B: Pools separados para procesamiento y analítica

Úsalo cuando: las ventanas batch de Spark y las consultas de ClickHouse no deben competir entre sí.

Pool de workers de Spark dimensionado para throughput y shuffle
Pool de ClickHouse dimensionado para latencia de consultas y merges
Capa de ingestión compartida y observabilidad compartida

Opción C: Diseño de almacenamiento híbrido

Úsalo cuando: necesitas capacidad en HDD pero también rendimiento rápido para datos “hot” y almacenamiento temporal.

Capas NVMe o SSD para acelerar pools grandes de HDD
Enfoque común cuando necesitas capacidad y rendimiento

Qué esperar operativamente de Worldstream: Worldstream gestiona sus propios centros de datos y su propia red, y se apoya en ingenieros internos. La empresa se posiciona explícitamente en torno a gasto predecible y acuerdos claros. Esto importa en big data porque la imprevisibilidad suele ser el verdadero enemigo.

Objetivos de rendimiento y directrices de resultados

Los objetivos dependen de la carga de trabajo. Estas son las métricas que te mantienen honesto.

Ingestión

Monitoriza:

Eventos por segundo o MB por segundo que entran en la plataforma
Lag end-to-end desde la fuente hasta que los datos son consultables
Eventos de backpressure y crecimiento de las colas

Señales de alerta: La ingestión parece “correcta” hasta que comienza la compaction. El lag crece durante las horas pico y nunca se recupera.

Spark y procesamiento batch

Monitoriza:

Ratio de shuffle spill y volumen de spill
Variación en el tiempo de stage entre jobs idénticos
Tiempo de GC de los ejecutores y fallos
Skew y tareas rezagadas (stragglers)

Señales de alerta: Añadir más cores lo hace más lento (normalmente indica problemas de I/O o skew). Los jobs fallan solo durante carga pico (contención de recursos).

Analítica con ClickHouse

Monitoriza:

Latencia p95 y p99 de consultas para dashboards clave
Backlog de merges y número de partes
Throughput de disco durante los merges
Concurrencia de consultas y uso de memoria

Señales de alerta: Los merges se quedan atrás (terminará afectando la latencia visible para los usuarios).
Agregaciones o ordenamientos externos frecuentes debido a presión de memoria.

Operaciones, rendimiento y gestión de riesgos

Gestión de capacidad

Separar la planificación del crecimiento del almacenamiento del escalado de cómputo
Seguir la evolución de datos “hot” frente a “cold” — no todos los TB son iguales
Planificar para fallos: el tráfico de replicación y reconstrucción debe caber dentro de tu presupuesto de red

Ciclo de vida de los datos

Definir retención por dataset
Definir políticas de compaction, particionamiento y tiering
Automatizar la eliminación — la retención manual no es retención

Backup y restauración

Decidir qué significa realmente “restaurar”: restauración completa del clúster, restauración de tablas o solo recuperación de datos brutos
Probar las restauraciones — no una vez, sino de forma rutinaria

Monitorización

Conjunto mínimo:

Throughput y latencia de disco
Throughput de red y pérdida de paquetes
Presión de memoria y comportamiento del swap
Métricas de colas y lag para ingestión
Tasa de éxito de jobs y variación en el tiempo de ejecución

Seguridad

Cifrar en tránsito — siempre
Cifrar en reposo cuando el modelo de amenazas lo requiera
Aplicar principio de mínimo privilegio para cuentas de servicio
Separar entornos: dev y prod no deben compartir el mismo clúster

Ventaja de Worldstream: Nuestros servidores preparados para analítica están desplegados en centros de datos en los Países Bajos con rendimiento predecible, precios transparentes y soporte de ingeniería local, ideales para plataformas de big data en producción.

FAQ

Si ejecutas shuffles de Spark, sí. Si ejecutas merges de ClickHouse, sí. Si solo almacenas datos fríos en HDFS y casi no haces compute, es menos crítico. Pero la mayoría de plataformas reales sí procesan datos.

Glosario

Términos de Big Data explicados

Batch Processing

Trabajos que procesan datos en bloques, normalmente programados.

CDC (Change Data Capture)

Captura inserciones, actualizaciones y eliminaciones desde bases de datos para procesamiento posterior.

ClickHouse

Base de datos OLAP columnar diseñada para consultas analíticas rápidas.

Compaction / Merge

Trabajo en segundo plano que reescribe y fusiona partes de datos. Crítico para el rendimiento de ClickHouse.

Data Lake

Datasets raw y curados, normalmente almacenados en object storage o HDFS, típicamente en Parquet u ORC.

Data Locality

Ejecutar el cómputo cerca de los datos. A menudo se discute en arquitecturas basadas en HDFS.

Executor (Spark)

Proceso que ejecuta tareas y mantiene memoria para caché y operaciones de shuffle.

HDFS

Hadoop Distributed File System. Almacena bloques replicados entre nodos.

Ingestion

Entrada de datos en la plataforma, ya sea mediante streaming o batch.

NVMe

Almacenamiento local de alta velocidad. A menudo se utiliza para shuffle, scratch y analítica “hot”.

Shuffle (Spark)

Movimiento de datos entre stages. Suele ser el mayor consumidor de I/O y red.

Spill

Cuando las operaciones en memoria se desbordan hacia disco.

Throughput

Cantidad de datos que pueden leerse o escribirse por segundo.

Batch Processing

Trabajos que procesan datos en bloques, normalmente programados.

ClickHouse

Base de datos OLAP columnar diseñada para consultas analíticas rápidas.

Data Lake

Datasets raw y curados, normalmente almacenados en object storage o HDFS, típicamente en Parquet u ORC.

Executor (Spark)

Proceso que ejecuta tareas y mantiene memoria para caché y operaciones de shuffle.

Ingestion

Entrada de datos en la plataforma, ya sea mediante streaming o batch.

Shuffle (Spark)

Movimiento de datos entre stages. Suele ser el mayor consumidor de I/O y red.

Throughput

Cantidad de datos que pueden leerse o escribirse por segundo.

CDC (Change Data Capture)

Captura inserciones, actualizaciones y eliminaciones desde bases de datos para procesamiento posterior.

Compaction / Merge

Trabajo en segundo plano que reescribe y fusiona partes de datos. Crítico para el rendimiento de ClickHouse.

Data Locality

Ejecutar el cómputo cerca de los datos. A menudo se discute en arquitecturas basadas en HDFS.

HDFS

Hadoop Distributed File System. Almacena bloques replicados entre nodos.

NVMe

Almacenamiento local de alta velocidad. A menudo se utiliza para shuffle, scratch y analítica “hot”.

Spill

Cuando las operaciones en memoria se desbordan hacia disco.

Próximos pasos con Worldstream

Define tu patrón de carga de trabajo dominante: Spark batch, almacenamiento Hadoop, OLAP con ClickHouse o híbrido.
Elige un perfil de nodo de referencia como baseline para tus workers.
Ejecuta una carga de trabajo de prueba. Mide spill, backlog de merges y saturación de red.
Ajusta. Luego fija el perfil. La consistencia supera a la complejidad.

La promesa central de Worldstream es “Solid IT. No Surprises.” Nos posicionamos en torno a libertad de elección, acuerdos claros y gasto predecible—la mentalidad que quieres para big data.

Infraestructura de Big Data y Analítica

De un vistazo

Ideal para

Principales cuellos de botella de infraestructura

Cómo se ve un entorno “bueno”

Elige tu enfoque de Big Data y analítica

1. Procesamiento de Data Lake con Spark

2. Almacenamiento y cómputo estilo Hadoop

3. ClickHouse para analítica rápida

4. Pipeline híbrido: Spark + ClickHouse

¿Qué es Big Data y analítica?

La infraestructura de big data es la combinación de cómputo, almacenamiento y red capaz de manejar de forma fiable:

La parte difícil no es “ejecutar Spark”. La parte difícil es evitar que tu plataforma se convierta en una máquina caótica cuando:

¿Cuándo debería usar infraestructura de Big Data?

Usa este enfoque si:

Evita este enfoque si:

Regla práctica de dimensionamiento

Regla base de dimensionamiento

RAM

CPU

Almacenamiento<br />

Qué cambia rápidamente el dimensionamiento

Necesitas más RAM cuando:

Necesitas más NVMe cuando:

Necesitas más red cuando:

¿Qué problemas resuelve esto?

Debes diseñarlo y operarlo como una plataforma real, no como un proyecto de fin de semana

Necesitas una gestión disciplinada del ciclo de vida de los datos, o terminarás ahogándote en almacenamiento

Dimensionar mal es caro: muy poco NVMe o ancho de banda te penalizará cada día

Los sistemas distribuidos requieren monitorización y madurez operativa

¿Cómo conecto Big Data con el precio?

1. Factores de coste del cómputo

2. Factores de coste de la memoria

3. Factores de coste del almacenamiento

4. Factores de coste de red

¿Cómo puedo construir Big Data en Worldstream?

Option A: Bare Metal Cluster for Spark and Hadoop

Opción A: Clúster bare metal para Spark y Hadoop

Opción B: Pools separados para procesamiento y analítica

Opción C: Diseño de almacenamiento híbrido

Objetivos de rendimiento y directrices de resultados

Ingestión

Spark y procesamiento batch

Analítica con ClickHouse

Operaciones, rendimiento y gestión de riesgos

Gestión de capacidad

Ciclo de vida de los datos

Backup y restauración

Monitorización

Seguridad

FAQ

¿Realmente necesito NVMe?

¿Realmente necesito NVMe?

¿Puedo ejecutar Spark y ClickHouse en los mismos nodos?

¿Puedo ejecutar Spark y ClickHouse en los mismos nodos?

¿La regla de 4 a 8 GB de memoria por core siempre es correcta?

¿La regla de 4 a 8 GB de memoria por core siempre es correcta?

¿Cuál es la velocidad mínima de red para un clúster Hadoop?

¿Cuál es la velocidad mínima de red para un clúster Hadoop?

¿Debería usar HDD o SSD para HDFS?

¿Debería usar HDD o SSD para HDFS?

¿Cómo dimensiono el disco local para YARN scratch?

¿Cómo dimensiono el disco local para YARN scratch?

¿Qué afecta primero al rendimiento en ClickHouse?

¿Qué afecta primero al rendimiento en ClickHouse?

¿Qué afecta primero al rendimiento en Spark?

¿Qué afecta primero al rendimiento en Spark?

¿Necesito Kubernetes para esto?

¿Necesito Kubernetes para esto?

¿Puedo empezar pequeño y escalar?

¿Puedo empezar pequeño y escalar?

Glosario

Batch Processing

Trabajos que procesan datos en bloques, normalmente programados.

CDC (Change Data Capture)

Captura inserciones, actualizaciones y eliminaciones desde bases de datos para procesamiento posterior.

ClickHouse

Base de datos OLAP columnar diseñada para consultas analíticas rápidas.

Compaction / Merge

Trabajo en segundo plano que reescribe y fusiona partes de datos. Crítico para el rendimiento de ClickHouse.

Infraestructura de Big Data
y Analítica