Zum Hauptinhalt springen

Big-Data- und Analytics-
Infrastruktur

Betreiben Sie Hadoop, Spark und ClickHouse mit vorhersehbarer Performance für Ingestion, Verarbeitung und Analytics.

Auf einen Blick

Was „Big Data” auf Infrastrukturebene wirklich bedeutet. Praktische Sizing-Regeln, Referenz-Node-Profile und operative Leitplanken für den Produktivbetrieb.

Geeignet für

  • Dateningestion- und Verarbeitungs-Pipelines (Batch und Near Real-Time)
  • Data-Lake- und Lakehouse-Workloads (Parquet-, ORC-, Iceberg-, Delta-Muster)
  • Schnelle Analytics- und Observability-Abfragen (ClickHouse OLAP)
  • Log-Analytics, Event-Analytics, Produkt-Analytics, BI-Extrakte

Zentrale Infrastruktur-Engpässe

  • Speicherbandbreite und GC-Stabilität bei Joins, Aggregationen und Shuffles
  • Schnelle I/O für Spill, Shuffle, Compaction und Merges
  • East-West-Bandbreite für Replikation, Shuffles und verteilte Abfragen
  • Storage-Layout und Kontrolle von Write Amplification

Wie „gut" aussieht

  • Jobs laufen durch, weil die Plattform stabil ist, nicht weil wochenlang getunt wurde
  • Query-Latenzen sind auch bei hoher Parallelität vorhersehbar
  • Kosten werden durch kontrollierbare Hardware-Entscheidungen bestimmt, nicht durch unerwartete Abrechnungen

Wählen Sie Ihren Big-Data- und Analytics-Ansatz

Die meisten Stacks fallen in eines dieser vier Muster. Wählen Sie das Modell, das zur Bewegung Ihrer Daten passt.

1. Data-Lake-Verarbeitung mit Spark

Verwenden, wenn
  • Sie schwere ETL-Workloads mit Joins, Aggregationen, Window Functions und ML Feature Engineering ausführen
  • Sie rohe und kuratierte Datensätze in spaltenorientierten Formaten speichern
  • Ihnen Kosten pro verarbeitetem TB wichtiger sind als Millisekunden pro Abfrage
Infrastrukturprofil
  • CPU-dichte Nodes mit ausreichend RAM zur Reduktion von Shuffle-Spill
  • NVMe für lokalen Scratch, Shuffle und temporären Storage
  • Starkes Netzwerk für Shuffles und breite Joins

2. Hadoop-Style Storage plus Compute

Verwenden, wenn
  • Sie weiterhin HDFS einsetzen und lokale Disks mit vorhersehbarem Durchsatz benötigen
  • Sie „Data Locality” wollen und Replikations-Overhead akzeptieren
Infrastrukturprofil
  • Viele HDDs für Kapazität und sequentiellen Durchsatz
  • NVMe- oder SSD-Tier für YARN Local Dirs und Hot Working Sets
  • Netzwerk dimensioniert für Replikation und Rebalancing

3. ClickHouse für schnelle Analytics

Verwenden, wenn
  • Sie schnelle OLAP-Abfragen auf großen Datenmengen benötigen
  • Sie viele gleichzeitige Nutzer oder Dashboards haben
  • Sie kosteneffiziente Analytics ohne den Plattform-Overhead eines vollständigen Data Warehouses wollen
Infrastrukturprofil
  • Hoher I/O-Durchsatz und stabile Latenz
  • Ausreichend RAM, um Hot Parts im Speicher zu halten und externe Verarbeitung zu vermeiden
  • CPU-Kapazität für Kompression, Dekompression und parallele Query-Ausführung

4. Hybride Pipeline: Spark + ClickHouse

Verwenden, wenn
  • Spark saubere Datensätze erstellt und aggregiert
  • ClickHouse schnelle Abfragen und Dashboards bereitstellt
  • Sie eine klare Trennung zwischen schweren Batch-Fenstern und interaktiven Workloads benötigen
Infrastrukturprofil
  • Getrennte Worker-Pools. Einer für Batch optimiert, einer für OLAP
  • Klare Ingestion-Grenzen und definierte Data-Lifecycle-Policies

Was ist Big Data und Analytics?

Big-Data-Infrastruktur ist die Kombination aus Compute, Storage und Netzwerk, die zuverlässig Folgendes bewältigt:

  • High-Volume-Ingestion (Events, Logs, CDC, Dateien)
  • Verteilte Verarbeitung (Batch-ETL und Transformationen)
  • Analytische Bereitstellung (schnelle Abfragen über große Datensätze)

Der schwierige Teil ist nicht „Spark zu betreiben”. Der schwierige Teil ist zu verhindern, dass die Plattform zur Chaosmaschine wird, wenn:

  • die Ingestion-Rate stark ansteigt
  • Shuffles explodieren
  • sich ein Compaction-Backlog aufbaut
  • Abfragen von 20 auf 200 gleichzeitige Nutzer wachsen
  • Nodes ausfallen und Replikation greift

Wann sollte ich Big-Data-Infrastruktur einsetzen?

Verwenden Sie diesen Ansatz, wenn:

  • Ihre Analytics-Daten zu groß oder zu teuer für ein Managed Public Cloud Warehouse sind
  • Ihre Workloads ausreichend vorhersehbar sind, sodass Ownership des Performance-Profils zählt
  • Sie kontrollieren müssen, wo Daten liegen und wie sie bewegt werden
  • Sie produktive Pipelines betreiben, bei denen verfehlte SLAs echten Business-Impact haben
  • Sie genug von „it depends” haben und eine Plattform wollen, die sich planen, kaufen und betreiben lässt

Nicht geeignet, wenn:

  • Ihr Datenvolumen klein und Ihre Query-Muster simpel sind
  • Sie kein Team haben, das verteilte Systeme betreiben kann
  • Sie elastisch auf Null skalieren müssen und Ihre Workloads wirklich sporadisch sind

Faustregeln für Sizing

Diese Zahlen sind keine Gesetze. Sie sind ein sinnvoller Ausgangspunkt für gemischte Analytics-Nodes mit Processing- und/oder OLAP-Workloa

Baseline-Faustregel

RAM

4 bis 8 GB pro CPU-Core

CPU

32 bis 64 Cores pro Node

Storage

2 bis 4 TB NVMe plus HDD-Kapazität nach Bedarf

ClickHouse beschreibt explizit Speicher-zu-CPU-Verhältnisse und gibt Richtwerte, die auf 4 GB pro vCPU für General-Purpose-Workloads und 8 GB pro vCPU für Data-Warehouse-Szenarien hinauslaufen. Spark-Cluster landen bei sinnvoller Konfiguration häufig im gleichen Bereich.

Was das Sizing schnell verändert

Mehr RAM benötigen Sie, wenn:

  • Sie breite Joins und große Group-Bys ausführen
  • Sie große Working Sets im Cache halten
  • Sie hohe Query-Concurrency auf ClickHouse haben

Mehr NVMe benötigen Sie, wenn:

  • Shuffles auf Disk spillen
  • ClickHouse-Merges und Compactions zurückfallen
  • Sie schwere Ingestion mit großen Parts und häufigen Merges betreiben

Mehr Netzwerk benötigen Sie, wenn:

  • Spark-Shuffle-Traffic dominiert
  • HDFS-Replikation und Rebalancing zum Normalfall werden
  • Sie verteilte Abfragen über viele Nodes ausführen

Welche Probleme löst das?

  • Langsame Pipelines durch Shuffle-Spill und schwache lokale I/O
  • Query-Latenzspitzen durch gesättigte Disks oder Merge-Backlogs
  • Unvorhersehbare Performance durch Noisy Neighbors
  • Kostenunsicherheit durch Consumption Pricing und Datenbewegung
  • Operatives Chaos durch gemischte Workloads ohne Isolation
  • Skalierungsprobleme durch Storage-Layouts, die nicht zu Zugriffsmustern passen

Sie müssen es wie eine echte Plattform entwerfen und betreiben—nicht als Wochenendprojekt

Vorhersehbare Performance bei Sizing auf reale Engpässe

Sie benötigen diszipliniertes Data-Lifecycle-Management, sonst ertrinken Sie in Storage

Klare Kostentreiber: CPU, RAM, Storage, Netzwerk. Keine Blackbox-Posten

Falsche Dimensionierung ist teuer: zu wenig NVMe oder Bandbreite bestraft Sie täglich

Trennung von Workloads. Processing und Serving skalieren unabhängig

Verteilte Systeme erfordern Monitoring und operative Reife

Freiheit bei Framework-Wahl und Weiterentwicklung

Wie verbinde ich Big Data mit Kosten?

Big-Data-Kosten werden durch wenige Hebel bestimmt. Machen Sie sie explizit.

1. Compute-Kostentreiber

  • Benötigte Cores für Parallelität
  • Effizienz der CPU-Architektur bei Kompression und Query-Ausführung
  • Peak-Concurrency interaktiver Workloads

2. Memory-Kostentreiber

  • Größe des Working Sets
  • Shuffle-Verhalten und Caching-Strategie
  • ClickHouse-Query-Muster, insbesondere Joins und Aggregationen

3. Storage-Kostentreiber

  • Daten-Retention
  • Replikationsfaktor und Redundanz-Overhead
  • Compaction- und Merge-Write-Amplification

4. Netzwerk-Kostentreiber

  • Replikations-Traffic
  • Shuffle-Traffic
  • Cross-Node-Query-Traffic

Wie baue ich Big Data auf Worldstream?

Worldstream ist ein Infrastruktur-Provider. Der Wert liegt in einer stabilen Basis und in Kontrolle für Teams, ohne Lock-in oder vage Verträge.

Option A: Bare-Metal-Cluster für Spark und Hadoop

Verwenden, wenn: Sie vollständige Kontrolle über CPU, RAM und lokale Disks wollen. Sie stabile Performance und vorhersehbare Kosten benötigen.

  • Worker-Pool für Spark und Ingestion
  • Storage-Worker für HDFS-On-Prem-Setups
  • Separate Control-Plane-Nodes für Master und Koordination

Option B: Getrennte Pools für Processing und Analytics

Verwenden, wenn: Spark-Batch-Fenster und ClickHouse-Abfragen sich nicht gegenseitig beeinträchtigen dürfen.

  • Spark-Worker-Pool dimensioniert für Durchsatz und Shuffle
  • ClickHouse-Pool dimensioniert für Query-Latenz und Merges
  • Gemeinsame Ingestion-Schicht und Observability

Option C: Hybrides Storage-Design

Verwenden, wenn: Sie HDD-Kapazität benötigen, aber auch hohe Performance für Hot Data und Scratch.

  • NVMe- oder SSD-Tiers zur Beschleunigung großer HDD-Pools
  • Gängiger Ansatz, wenn Kapazität und Performance benötigt werden

 

Was Sie operativ von Worldstream erwarten können: Worldstream betreibt eigene Rechenzentren und ein eigenes Netzwerk und setzt auf Inhouse-Engineers. Die Positionierung ist klar auf vorhersehbare Kosten und transparente Vereinbarungen ausgerichtet. Das ist für Big Data entscheidend, denn Unvorhersehbarkeit ist meist der wahre Gegner.

Performance-Ziele und Ergebnisrichtlinien

Ziele hängen vom Workload ab. Diese Metriken halten Sie ehrlich.

Ingestion

Verfolgen:

  • Events pro Sekunde oder MB pro Sekunde ins System
  • End-to-End-Lag von Quelle bis Query-fähig
  • Backpressure-Events und Queue-Wachstum

Red Flags: Ingestion ist „in Ordnung”, bis Compaction startet. Lag wächst in Peak-Zeiten und erholt sich nie.

Spark und Batch-Verarbeitung

Verfolgen:

  • Shuffle-Spill-Ratio und Spill-Volumen
  • Stage-Time-Varianz bei identischen Jobs
  • Executor-GC-Zeit und Failures
  • Skew und Straggler Tasks

Red Flags: Mehr Cores machen es langsamer. Meist I/O oder Skew. Jobs schlagen nur bei Peak-Load fehl. Ressourcen-Konkurrenz.

ClickHouse Analytics

Verfolgen:

  • p95- und p99-Query-Latenz für Kern-Dashboards
  • Merge-Backlog und Part-Anzahl
  • Disk-Durchsatz während Merges
  • Query-Concurrency und Speicherverbrauch

Red Flags: Merges fallen zurück. Das wird User-seitige Latenz. Häufige externe Aggregation oder Sortierung durch Speicherdruck.

Betrieb, Performance und Risikomanagement

Kapazitätsmanagement

  • Storage-Wachstum von Compute-Skalierung trennen
  • Hot vs. Cold Data verfolgen. Nicht jedes TB ist gleich
  • Für Ausfälle planen. Replikations- und Rebuild-Traffic muss ins Netzwerkbudget passen

Data Lifecycle

  • Retention pro Datensatz definieren
  • Compaction-, Partitionierungs- und Tiering-Policies festlegen
  • Löschung automatisieren. Manuelle Retention ist keine Retention

Backup und Restore

  • Definieren, was „Restore” bedeutet. Vollständiger Cluster, Tabelle oder nur Rohdaten
  • Restores testen. Nicht einmal. Regelmäßig

Monitoring

Minimal erforderlich:

  • Disk-Durchsatz und Disk-Latenz
  • Netzwerk-Durchsatz und Packet Drops
  • Memory Pressure und Swap-Verhalten
  • Queue- und Lag-Metriken für Ingestion
  • Job-Erfolgsquote und Laufzeit-Varianz

Security

  • Verschlüsselung in Transit. Immer
  • Verschlüsselung at Rest, wenn das Threat Model es verlangt
  • Least Privilege für Service Accounts
  • Umgebungen trennen. Dev und Prod gehören nicht in denselben Cluster

 

Worldstream-Vorteil: Unsere analytics-fähigen Server stehen in niederländischen Rechenzentren mit vorhersehbarer Performance, transparenter Preisgestaltung und lokalem Engineering-Support. Ideal für produktive Big-Data-Plattformen.

Häufig gestellte Fragen

Wenn Sie Spark-Shuffles betreiben, ja. Wenn Sie ClickHouse-Merges betreiben, ja. Wenn Sie nur Cold Data auf HDFS speichern und kaum Compute ausführen, ist es weniger kritisch. Die meisten realen Plattformen rechnen jedoch.

Glossar

Big-Data-Begriffe erklärt

Batch Processing

Jobs, die Daten in Batches verarbeiten, häufig zeitgesteuert.

CDC (Change Data Capture)

Erfasst Inserts, Updates und Deletes aus Datenbanken für Downstream-Verarbeitung.

ClickHouse

Spaltenorientierte OLAP-Datenbank für schnelle analytische Abfragen.

Compaction / Merge

Hintergrundprozesse, die Data Parts neu schreiben und zusammenführen. Kritisch für ClickHouse-Performance.

Data Lake

Roh- und kuratierte Datensätze, häufig in Object Storage oder HDFS, meist Parquet oder ORC.

Data Locality

Compute nahe an den Daten ausführen. Häufig diskutiert in HDFS-Architekturen.

Executor (Spark)

Prozess, der Tasks ausführt und Speicher für Caching und Shuffles hält.

HDFS

Hadoop Distributed File System. Speichert replizierte Blöcke über mehrere Nodes.

Ingestion

Daten in die Plattform aufnehmen. Streaming oder Batch.

NVMe

Schneller lokaler Storage. Häufig für Shuffle, Scratch und Hot Analytics.

Shuffle (Spark)

Datenbewegung zwischen Stages. Oft größter I/O- und Netzwerkverbraucher.

Spill

Wenn In-Memory-Operationen auf Disk ausweichen.

Throughput

Wie viele Daten pro Sekunde gelesen oder geschrieben werden können.

Batch Processing

Jobs, die Daten in Batches verarbeiten, häufig zeitgesteuert.

ClickHouse

Spaltenorientierte OLAP-Datenbank für schnelle analytische Abfragen.

Data Lake

Roh- und kuratierte Datensätze, häufig in Object Storage oder HDFS, meist Parquet oder ORC.

Executor (Spark)

Prozess, der Tasks ausführt und Speicher für Caching und Shuffles hält.

Ingestion

Daten in die Plattform aufnehmen. Streaming oder Batch.

Shuffle (Spark)

Datenbewegung zwischen Stages. Oft größter I/O- und Netzwerkverbraucher.

Throughput

Wie viele Daten pro Sekunde gelesen oder geschrieben werden können.

CDC (Change Data Capture)

Erfasst Inserts, Updates und Deletes aus Datenbanken für Downstream-Verarbeitung.

Compaction / Merge

Hintergrundprozesse, die Data Parts neu schreiben und zusammenführen. Kritisch für ClickHouse-Performance.

Data Locality

Compute nahe an den Daten ausführen. Häufig diskutiert in HDFS-Architekturen.

HDFS

Hadoop Distributed File System. Speichert replizierte Blöcke über mehrere Nodes.

NVMe

Schneller lokaler Storage. Häufig für Shuffle, Scratch und Hot Analytics.

Spill

Wenn In-Memory-Operationen auf Disk ausweichen.

Nächste Schritte mit Worldstream

  • Definieren Sie Ihr dominantes Workload-Muster. Spark Batch, Hadoop Storage, ClickHouse OLAP oder Hybrid
  • Wählen Sie ein Referenz-Node-Profil als Baseline
  • Führen Sie einen Proof-Workload aus. Messen Sie Spill, Merge-Backlog und Netzwerksättigung
  • Anpassen. Profil festlegen. Konsistenz schlägt Cleverness

 

Die Kernzusage von Worldstream lautet „Solid IT. No Surprises.” Positionierung rund um Wahlfreiheit, klare Vereinbarungen und vorhersehbare Ausgaben. Genau die Haltung, die Big Data erfordert.