Big-Data- und Analytics-
Infrastruktur

Betreiben Sie Hadoop, Spark und ClickHouse mit vorhersehbarer Performance für Ingestion, Verarbeitung und Analytics.

Auf einen Blick

Was „Big Data” auf Infrastrukturebene wirklich bedeutet. Praktische Sizing-Regeln, Referenz-Node-Profile und operative Leitplanken für den Produktivbetrieb.

Geeignet für

Dateningestion- und Verarbeitungs-Pipelines (Batch und Near Real-Time)
Data-Lake- und Lakehouse-Workloads (Parquet-, ORC-, Iceberg-, Delta-Muster)
Schnelle Analytics- und Observability-Abfragen (ClickHouse OLAP)
Log-Analytics, Event-Analytics, Produkt-Analytics, BI-Extrakte

Zentrale Infrastruktur-Engpässe

Speicherbandbreite und GC-Stabilität bei Joins, Aggregationen und Shuffles
Schnelle I/O für Spill, Shuffle, Compaction und Merges
East-West-Bandbreite für Replikation, Shuffles und verteilte Abfragen
Storage-Layout und Kontrolle von Write Amplification

Wie „gut" aussieht

Jobs laufen durch, weil die Plattform stabil ist, nicht weil wochenlang getunt wurde
Query-Latenzen sind auch bei hoher Parallelität vorhersehbar
Kosten werden durch kontrollierbare Hardware-Entscheidungen bestimmt, nicht durch unerwartete Abrechnungen

Wählen Sie Ihren Big-Data- und Analytics-Ansatz

Die meisten Stacks fallen in eines dieser vier Muster. Wählen Sie das Modell, das zur Bewegung Ihrer Daten passt.

1. Data-Lake-Verarbeitung mit Spark

Verwenden, wenn

Sie schwere ETL-Workloads mit Joins, Aggregationen, Window Functions und ML Feature Engineering ausführen
Sie rohe und kuratierte Datensätze in spaltenorientierten Formaten speichern
Ihnen Kosten pro verarbeitetem TB wichtiger sind als Millisekunden pro Abfrage

Infrastrukturprofil

CPU-dichte Nodes mit ausreichend RAM zur Reduktion von Shuffle-Spill
NVMe für lokalen Scratch, Shuffle und temporären Storage
Starkes Netzwerk für Shuffles und breite Joins

2. Hadoop-Style Storage plus Compute

Verwenden, wenn

Sie weiterhin HDFS einsetzen und lokale Disks mit vorhersehbarem Durchsatz benötigen
Sie „Data Locality” wollen und Replikations-Overhead akzeptieren

Infrastrukturprofil

Viele HDDs für Kapazität und sequentiellen Durchsatz
NVMe- oder SSD-Tier für YARN Local Dirs und Hot Working Sets
Netzwerk dimensioniert für Replikation und Rebalancing

3. ClickHouse für schnelle Analytics

Verwenden, wenn

Sie schnelle OLAP-Abfragen auf großen Datenmengen benötigen
Sie viele gleichzeitige Nutzer oder Dashboards haben
Sie kosteneffiziente Analytics ohne den Plattform-Overhead eines vollständigen Data Warehouses wollen

Infrastrukturprofil

Hoher I/O-Durchsatz und stabile Latenz
Ausreichend RAM, um Hot Parts im Speicher zu halten und externe Verarbeitung zu vermeiden
CPU-Kapazität für Kompression, Dekompression und parallele Query-Ausführung

4. Hybride Pipeline: Spark + ClickHouse

Verwenden, wenn

Spark saubere Datensätze erstellt und aggregiert
ClickHouse schnelle Abfragen und Dashboards bereitstellt
Sie eine klare Trennung zwischen schweren Batch-Fenstern und interaktiven Workloads benötigen

Infrastrukturprofil

Getrennte Worker-Pools. Einer für Batch optimiert, einer für OLAP
Klare Ingestion-Grenzen und definierte Data-Lifecycle-Policies

Was ist Big Data und Analytics?

Big-Data-Infrastruktur ist die Kombination aus Compute, Storage und Netzwerk, die zuverlässig Folgendes bewältigt:

High-Volume-Ingestion (Events, Logs, CDC, Dateien)
Verteilte Verarbeitung (Batch-ETL und Transformationen)
Analytische Bereitstellung (schnelle Abfragen über große Datensätze)

Der schwierige Teil ist nicht „Spark zu betreiben”. Der schwierige Teil ist zu verhindern, dass die Plattform zur Chaosmaschine wird, wenn:

die Ingestion-Rate stark ansteigt
Shuffles explodieren
sich ein Compaction-Backlog aufbaut
Abfragen von 20 auf 200 gleichzeitige Nutzer wachsen
Nodes ausfallen und Replikation greift

Wann sollte ich Big-Data-Infrastruktur einsetzen?

Verwenden Sie diesen Ansatz, wenn:

Ihre Analytics-Daten zu groß oder zu teuer für ein Managed Public Cloud Warehouse sind
Ihre Workloads ausreichend vorhersehbar sind, sodass Ownership des Performance-Profils zählt
Sie kontrollieren müssen, wo Daten liegen und wie sie bewegt werden
Sie produktive Pipelines betreiben, bei denen verfehlte SLAs echten Business-Impact haben
Sie genug von „it depends” haben und eine Plattform wollen, die sich planen, kaufen und betreiben lässt

Nicht geeignet, wenn:

Ihr Datenvolumen klein und Ihre Query-Muster simpel sind
Sie kein Team haben, das verteilte Systeme betreiben kann
Sie elastisch auf Null skalieren müssen und Ihre Workloads wirklich sporadisch sind

Faustregeln für Sizing

Diese Zahlen sind keine Gesetze. Sie sind ein sinnvoller Ausgangspunkt für gemischte Analytics-Nodes mit Processing- und/oder OLAP-Workloa

Baseline-Faustregel

KomponenteEmpfehlung

RAM

4 bis 8 GB pro CPU-Core

CPU

32 bis 64 Cores pro Node

Storage

2 bis 4 TB NVMe plus HDD-Kapazität nach Bedarf

ClickHouse beschreibt explizit Speicher-zu-CPU-Verhältnisse und gibt Richtwerte, die auf 4 GB pro vCPU für General-Purpose-Workloads und 8 GB pro vCPU für Data-Warehouse-Szenarien hinauslaufen. Spark-Cluster landen bei sinnvoller Konfiguration häufig im gleichen Bereich.

Was das Sizing schnell verändert

Mehr RAM benötigen Sie, wenn:

Sie breite Joins und große Group-Bys ausführen
Sie große Working Sets im Cache halten
Sie hohe Query-Concurrency auf ClickHouse haben

Mehr NVMe benötigen Sie, wenn:

Shuffles auf Disk spillen
ClickHouse-Merges und Compactions zurückfallen
Sie schwere Ingestion mit großen Parts und häufigen Merges betreiben

Mehr Netzwerk benötigen Sie, wenn:

Spark-Shuffle-Traffic dominiert
HDFS-Replikation und Rebalancing zum Normalfall werden
Sie verteilte Abfragen über viele Nodes ausführen

Welche Probleme löst das?

Langsame Pipelines durch Shuffle-Spill und schwache lokale I/O
Query-Latenzspitzen durch gesättigte Disks oder Merge-Backlogs
Unvorhersehbare Performance durch Noisy Neighbors
Kostenunsicherheit durch Consumption Pricing und Datenbewegung
Operatives Chaos durch gemischte Workloads ohne Isolation
Skalierungsprobleme durch Storage-Layouts, die nicht zu Zugriffsmustern passen

NachteileVorteile

Sie müssen es wie eine echte Plattform entwerfen und betreiben—nicht als Wochenendprojekt

Vorhersehbare Performance bei Sizing auf reale Engpässe

Sie benötigen diszipliniertes Data-Lifecycle-Management, sonst ertrinken Sie in Storage

Klare Kostentreiber: CPU, RAM, Storage, Netzwerk. Keine Blackbox-Posten

Falsche Dimensionierung ist teuer: zu wenig NVMe oder Bandbreite bestraft Sie täglich

Trennung von Workloads. Processing und Serving skalieren unabhängig

Verteilte Systeme erfordern Monitoring und operative Reife

Freiheit bei Framework-Wahl und Weiterentwicklung

Wie verbinde ich Big Data mit Kosten?

Big-Data-Kosten werden durch wenige Hebel bestimmt. Machen Sie sie explizit.

1. Compute-Kostentreiber

Benötigte Cores für Parallelität
Effizienz der CPU-Architektur bei Kompression und Query-Ausführung
Peak-Concurrency interaktiver Workloads

2. Memory-Kostentreiber

Größe des Working Sets
Shuffle-Verhalten und Caching-Strategie
ClickHouse-Query-Muster, insbesondere Joins und Aggregationen

3. Storage-Kostentreiber

Daten-Retention
Replikationsfaktor und Redundanz-Overhead
Compaction- und Merge-Write-Amplification

4. Netzwerk-Kostentreiber

Replikations-Traffic
Shuffle-Traffic
Cross-Node-Query-Traffic

Wie baue ich Big Data auf Worldstream?

Worldstream ist ein Infrastruktur-Provider. Der Wert liegt in einer stabilen Basis und in Kontrolle für Teams, ohne Lock-in oder vage Verträge.

Option A: Bare-Metal-Cluster für Spark und Hadoop

Verwenden, wenn: Sie vollständige Kontrolle über CPU, RAM und lokale Disks wollen. Sie stabile Performance und vorhersehbare Kosten benötigen.

Worker-Pool für Spark und Ingestion
Storage-Worker für HDFS-On-Prem-Setups
Separate Control-Plane-Nodes für Master und Koordination

Option B: Getrennte Pools für Processing und Analytics

Verwenden, wenn: Spark-Batch-Fenster und ClickHouse-Abfragen sich nicht gegenseitig beeinträchtigen dürfen.

Spark-Worker-Pool dimensioniert für Durchsatz und Shuffle
ClickHouse-Pool dimensioniert für Query-Latenz und Merges
Gemeinsame Ingestion-Schicht und Observability

Option C: Hybrides Storage-Design

Verwenden, wenn: Sie HDD-Kapazität benötigen, aber auch hohe Performance für Hot Data und Scratch.

NVMe- oder SSD-Tiers zur Beschleunigung großer HDD-Pools
Gängiger Ansatz, wenn Kapazität und Performance benötigt werden

Was Sie operativ von Worldstream erwarten können: Worldstream betreibt eigene Rechenzentren und ein eigenes Netzwerk und setzt auf Inhouse-Engineers. Die Positionierung ist klar auf vorhersehbare Kosten und transparente Vereinbarungen ausgerichtet. Das ist für Big Data entscheidend, denn Unvorhersehbarkeit ist meist der wahre Gegner.

Performance-Ziele und Ergebnisrichtlinien

Ziele hängen vom Workload ab. Diese Metriken halten Sie ehrlich.

Ingestion

Verfolgen:

Events pro Sekunde oder MB pro Sekunde ins System
End-to-End-Lag von Quelle bis Query-fähig
Backpressure-Events und Queue-Wachstum

Red Flags: Ingestion ist „in Ordnung”, bis Compaction startet. Lag wächst in Peak-Zeiten und erholt sich nie.

Spark und Batch-Verarbeitung

Verfolgen:

Shuffle-Spill-Ratio und Spill-Volumen
Stage-Time-Varianz bei identischen Jobs
Executor-GC-Zeit und Failures
Skew und Straggler Tasks

Red Flags: Mehr Cores machen es langsamer. Meist I/O oder Skew. Jobs schlagen nur bei Peak-Load fehl. Ressourcen-Konkurrenz.

ClickHouse Analytics

Verfolgen:

p95- und p99-Query-Latenz für Kern-Dashboards
Merge-Backlog und Part-Anzahl
Disk-Durchsatz während Merges
Query-Concurrency und Speicherverbrauch

Red Flags: Merges fallen zurück. Das wird User-seitige Latenz. Häufige externe Aggregation oder Sortierung durch Speicherdruck.

Betrieb, Performance und Risikomanagement

Kapazitätsmanagement

Storage-Wachstum von Compute-Skalierung trennen
Hot vs. Cold Data verfolgen. Nicht jedes TB ist gleich
Für Ausfälle planen. Replikations- und Rebuild-Traffic muss ins Netzwerkbudget passen

Data Lifecycle

Retention pro Datensatz definieren
Compaction-, Partitionierungs- und Tiering-Policies festlegen
Löschung automatisieren. Manuelle Retention ist keine Retention

Backup und Restore

Definieren, was „Restore” bedeutet. Vollständiger Cluster, Tabelle oder nur Rohdaten
Restores testen. Nicht einmal. Regelmäßig

Monitoring

Minimal erforderlich:

Disk-Durchsatz und Disk-Latenz
Netzwerk-Durchsatz und Packet Drops
Memory Pressure und Swap-Verhalten
Queue- und Lag-Metriken für Ingestion
Job-Erfolgsquote und Laufzeit-Varianz

Security

Verschlüsselung in Transit. Immer
Verschlüsselung at Rest, wenn das Threat Model es verlangt
Least Privilege für Service Accounts
Umgebungen trennen. Dev und Prod gehören nicht in denselben Cluster

Worldstream-Vorteil: Unsere analytics-fähigen Server stehen in niederländischen Rechenzentren mit vorhersehbarer Performance, transparenter Preisgestaltung und lokalem Engineering-Support. Ideal für produktive Big-Data-Plattformen.

Häufig gestellte Fragen

Wenn Sie Spark-Shuffles betreiben, ja. Wenn Sie ClickHouse-Merges betreiben, ja. Wenn Sie nur Cold Data auf HDFS speichern und kaum Compute ausführen, ist es weniger kritisch. Die meisten realen Plattformen rechnen jedoch.

Glossar

Big-Data-Begriffe erklärt

Batch Processing

Jobs, die Daten in Batches verarbeiten, häufig zeitgesteuert.

CDC (Change Data Capture)

Erfasst Inserts, Updates und Deletes aus Datenbanken für Downstream-Verarbeitung.

ClickHouse

Spaltenorientierte OLAP-Datenbank für schnelle analytische Abfragen.

Compaction / Merge

Hintergrundprozesse, die Data Parts neu schreiben und zusammenführen. Kritisch für ClickHouse-Performance.

Data Lake

Roh- und kuratierte Datensätze, häufig in Object Storage oder HDFS, meist Parquet oder ORC.

Data Locality

Compute nahe an den Daten ausführen. Häufig diskutiert in HDFS-Architekturen.

Executor (Spark)

Prozess, der Tasks ausführt und Speicher für Caching und Shuffles hält.

HDFS

Hadoop Distributed File System. Speichert replizierte Blöcke über mehrere Nodes.

Ingestion

Daten in die Plattform aufnehmen. Streaming oder Batch.

NVMe

Schneller lokaler Storage. Häufig für Shuffle, Scratch und Hot Analytics.

Shuffle (Spark)

Datenbewegung zwischen Stages. Oft größter I/O- und Netzwerkverbraucher.

Spill

Wenn In-Memory-Operationen auf Disk ausweichen.

Throughput

Wie viele Daten pro Sekunde gelesen oder geschrieben werden können.

Batch Processing

Jobs, die Daten in Batches verarbeiten, häufig zeitgesteuert.

ClickHouse

Spaltenorientierte OLAP-Datenbank für schnelle analytische Abfragen.

Data Lake

Roh- und kuratierte Datensätze, häufig in Object Storage oder HDFS, meist Parquet oder ORC.

Executor (Spark)

Prozess, der Tasks ausführt und Speicher für Caching und Shuffles hält.

Ingestion

Daten in die Plattform aufnehmen. Streaming oder Batch.

Shuffle (Spark)

Datenbewegung zwischen Stages. Oft größter I/O- und Netzwerkverbraucher.

Throughput

Wie viele Daten pro Sekunde gelesen oder geschrieben werden können.

CDC (Change Data Capture)

Erfasst Inserts, Updates und Deletes aus Datenbanken für Downstream-Verarbeitung.

Compaction / Merge

Hintergrundprozesse, die Data Parts neu schreiben und zusammenführen. Kritisch für ClickHouse-Performance.

Data Locality

Compute nahe an den Daten ausführen. Häufig diskutiert in HDFS-Architekturen.

HDFS

Hadoop Distributed File System. Speichert replizierte Blöcke über mehrere Nodes.

NVMe

Schneller lokaler Storage. Häufig für Shuffle, Scratch und Hot Analytics.

Spill

Wenn In-Memory-Operationen auf Disk ausweichen.

Nächste Schritte mit Worldstream

Definieren Sie Ihr dominantes Workload-Muster. Spark Batch, Hadoop Storage, ClickHouse OLAP oder Hybrid
Wählen Sie ein Referenz-Node-Profil als Baseline
Führen Sie einen Proof-Workload aus. Messen Sie Spill, Merge-Backlog und Netzwerksättigung
Anpassen. Profil festlegen. Konsistenz schlägt Cleverness

Die Kernzusage von Worldstream lautet „Solid IT. No Surprises.” Positionierung rund um Wahlfreiheit, klare Vereinbarungen und vorhersehbare Ausgaben. Genau die Haltung, die Big Data erfordert.

Big-Data- und Analytics- Infrastruktur

Auf einen Blick

Geeignet für

Zentrale Infrastruktur-Engpässe

Wie „gut" aussieht

Wählen Sie Ihren Big-Data- und Analytics-Ansatz

1. Data-Lake-Verarbeitung mit Spark

Verwenden, wenn

Infrastrukturprofil

2. Hadoop-Style Storage plus Compute

Verwenden, wenn

Infrastrukturprofil

3. ClickHouse für schnelle Analytics

Verwenden, wenn

Infrastrukturprofil

4. Hybride Pipeline: Spark + ClickHouse

Verwenden, wenn

Infrastrukturprofil

Was ist Big Data und Analytics?

Big-Data-Infrastruktur ist die Kombination aus Compute, Storage und Netzwerk, die zuverlässig Folgendes bewältigt:

Der schwierige Teil ist nicht „Spark zu betreiben”. Der schwierige Teil ist zu verhindern, dass die Plattform zur Chaosmaschine wird, wenn:

Wann sollte ich Big-Data-Infrastruktur einsetzen?

Verwenden Sie diesen Ansatz, wenn:

Nicht geeignet, wenn:

Faustregeln für Sizing

Baseline-Faustregel

RAM

CPU

Storage

Was das Sizing schnell verändert

Mehr RAM benötigen Sie, wenn:

Mehr NVMe benötigen Sie, wenn:

Mehr Netzwerk benötigen Sie, wenn:

Welche Probleme löst das?

Sie müssen es wie eine echte Plattform entwerfen und betreiben—nicht als Wochenendprojekt

Sie benötigen diszipliniertes Data-Lifecycle-Management, sonst ertrinken Sie in Storage

Falsche Dimensionierung ist teuer: zu wenig NVMe oder Bandbreite bestraft Sie täglich

Verteilte Systeme erfordern Monitoring und operative Reife

Wie verbinde ich Big Data mit Kosten?

1. Compute-Kostentreiber

2. Memory-Kostentreiber

3. Storage-Kostentreiber

4. Netzwerk-Kostentreiber

Wie baue ich Big Data auf Worldstream?

Option A: Bare-Metal-Cluster für Spark und Hadoop

Option B: Getrennte Pools für Processing und Analytics

Option C: Hybrides Storage-Design

Performance-Ziele und Ergebnisrichtlinien

Ingestion

Spark und Batch-Verarbeitung

ClickHouse Analytics

Betrieb, Performance und Risikomanagement

Kapazitätsmanagement

Data Lifecycle

Backup und Restore

Monitoring

Security

Häufig gestellte Fragen

Brauche ich wirklich NVMe?

Brauche ich wirklich NVMe?

Kann ich Spark und ClickHouse auf denselben Nodes betreiben?

Kann ich Spark und ClickHouse auf denselben Nodes betreiben?

Ist die 4–8-GB-pro-Core-Regel immer korrekt?

Ist die 4–8-GB-pro-Core-Regel immer korrekt?

Was ist die minimale Netzwerkgeschwindigkeit für ein Hadoop-Cluster?

Was ist die minimale Netzwerkgeschwindigkeit für ein Hadoop-Cluster?

Sollte ich HDD oder SSD für HDFS nutzen?

Sollte ich HDD oder SSD für HDFS nutzen?

Wie dimensioniere ich lokale Disks für YARN Scratch?

Wie dimensioniere ich lokale Disks für YARN Scratch?

Was zerstört Performance zuerst in ClickHouse?v

Was zerstört Performance zuerst in ClickHouse?v

Was zerstört Performance zuerst in Spark?

Was zerstört Performance zuerst in Spark?

Brauche ich Kubernetes dafür?

Brauche ich Kubernetes dafür?

Kann ich klein starten und skalieren?

Kann ich klein starten und skalieren?

Glossar

Batch Processing

Big-Data- und Analytics-
Infrastruktur