In één oogopslag
Wat “AI-infrastructuur” op infrastructuurniveau echt betekent. Praktische sizingregels, referentie-nodeprofielen en operationele guardrails voor productie.
Best voor
- Klassieke ML-training op schaal (XGBoost, LightGBM, scikit-learn)
- Deep learning training en fine-tuning (PyTorch, TensorFlow, JAX)
- LLM inference en serving (batch en real-time)
- Embeddings, reranking en GPU-versnelde feature pipelines
- MLOps-pipelines die herhaalbare training en gecontroleerde deployments vereisen
Primaire infrastructuurknelpunten
- GPU-geheugencapaciteit—de eerste harde grens bij training en inference
- GPU-naar-GPU- en node-naar-node-communicatie voor gedistribueerde training
- Storage-throughput voor data loading en checkpointing
- Voorspelbare latency bij inference onder concurrency, inclusief KV-cache groei
Hoe "goed" eruitziet
- Trainingruns worden beperkt door rekenen, niet door wachten op data of het opnieuw moeten doen van mislukte jobs
- Fine-tuning past zonder constante OOM-brandjes blussen
- Inference-latency blijft stabiel terwijl concurrency stijgt
- Kosten worden gedreven door hardwarekeuzes die jij beheert, niet door verrassingen op de factuur
Kies je AI-aanpak
De meeste stacks vallen in één van deze vier patronen. Kies wat past bij hoe je modellen van data naar productie bewegen.
1. Klassieke ML eerst op CPU
Gebruik wanneer
- Je modellen tabular zijn en goed op CPU draaien
- Je veel RAM en hoge memory bandwidth nodig hebt, geen GPU’s
- Je meer geeft om throughput en reproduceerbaarheid dan om ruwe FLOPS
Infrastructuurprofiel
- CPU-nodes met hoog core-aantal
- Grote RAM-footprint voor feature engineering en joins
- Snelle lokale storage voor feature stores, Parquet-caches en spill
2. Deep learning training en fine-tuning
Gebruik wanneer
- Je neurale netwerken traint of foundation models fine-tunet
- Je bottleneck GPU-geheugen en training-throughput is
- Je betrouwbare checkpointing en herhaalbare runs nodig hebt
Infrastructuurprofiel
- GPU-dichte nodes
- Sterke CPU en RAM om GPU’s gevoed te houden
- Snelle storage en hoge throughput voor checkpointing en dataset reads
- High-performance interconnect als je training over meerdere nodes schaalt
3. LLM inference en model serving
Gebruik wanneer
- Je real-time inference draait met strikte latency targets
- Je batch inference draait met hoge throughput
- Je voorspelbaar concurrency-gedrag nodig hebt
Infrastructuurprofiel
- GPU-nodes geoptimaliseerd voor stabiele latency
- Genoeg GPU-geheugenheadroom voor KV cache, die groeit met batch size en context length
- In productie draai je meestal een model server die dynamic batching en concurrent execution ondersteunt. Dit zijn softwarelaag-keuzes, geen infrastructuurfeatures
4. Hybride: hier trainen, daar serven
Gebruik wanneer
- Je scheiding wilt tussen trainingbursts en productie serving
- Je onafhankelijk wilt schalen voor experimenten en productie
- Je schonere cost attribution per workload wilt
Infrastructuurprofiel
- Gescheiden worker pools voor training en inference
- Gedeelde storage, plus je artifact management- en observability-lagen
- Duidelijk promotiepad van experiment naar productie
Wat is AI-, Machine Learning- en Deep Learning-infrastructuur?
AI-infrastructuur is de combinatie van compute, storage en netwerk die betrouwbaar aankan:
- Datapreparatie en herhaald dataset lezen tijdens training
- Training, fine-tuning en checkpointing
- Model serving met voorspelbare latency en throughput
- Veilig itereren—versioning, rollback en reproduceerbaarheid
Het moeilijke deel is niet “PyTorch draaien”. Het moeilijke deel is voorkomen dat je platform een chaosmachine wordt wanneer:
- Experimenten zich vermenigvuldigen en iedereen vandaag GPU’s nodig heeft
- Trainingjobs halverwege falen en checkpoints traag zijn
- Inference concurrency piekt en KV cache je VRAM opeet
- Teams modellen naar productie pushen zonder consistente performance-baselines
Wanneer moet ik AI-infrastructuur gebruiken?
Gebruik deze aanpak als:
- Je ML business-critical is en je voorspelbare performance nodig hebt
- GPU-workloads constant genoeg zijn dat cost control ertoe doet
- Je controle nodig hebt over waar data en modellen leven
- Je een productiepad wilt dat niet elke maand verandert
Sla deze aanpak over als:
- Je alleen af en toe kleine experimenten doet
- Je niet het team hebt om ML in productie te opereren
- Je elastisch naar nul moet kunnen schalen en je workloads echt sporadisch zijn
Vuistregels voor sizing
Deze cijfers zijn geen wetten. Het zijn verstandige startpunten voor AI-workloads. De kern is dimensioneren rond GPU-geheugen, datathroughput en checkpointing.
Baseline vuistregel
GPU-geheugen voor transformer training
Reken op ~18 bytes per parameter voor mixed precision AdamW, plus activation memory
GPU-geheugen voor transformer inference
Reken op ~6 bytes per parameter voor mixed precision inference, plus activation memory
Inference headroom
Reserveer VRAM voor KV cache—die schaalt met batch size en maximale contextlengte plus maximale nieuwe tokens
Storage throughput
Prioriteer hoge throughput voor herhaald dataset lezen en checkpointing
Training performance lever
Mixed precision is een gangbare route naar hogere throughput op Tensor Core GPU's
Wat sizing snel verandert
Je hebt meer GPU-geheugen nodig wanneer:
- Je batch size of sequence length verhoogt
- Je grote modellen fine-tunet zonder agressieve geheugenmaatregelen
- Je lange context windows serveert met hoge concurrency
Je hebt meer storage-throughput nodig wanneer:
- Je grote trainingdatasets herhaald leest
- Je vaak checkpoint en grote state snapshots wegschrijft
- Je gedistribueerde training draait en meerdere nodes parallel checkpointen
Je hebt meer netwerk nodig wanneer:
- Je training over meerdere nodes schaalt en communicatie de bottleneck wordt
- Je stabiele multi-node collective performance onder load wilt

Welke pijnpunten lost dit op?
- Trainingruns die stagneren omdat data loading niet kan bijbenen
- OOM-failures door onrealistische VRAM-aannames
- Trage rollouts omdat model load time niet is ontworpen
- Inference latency spikes omdat KV cache groei is genegeerd
- Onvoorspelbare kosten en onduidelijke ownership over omgevingen
- Gebrek aan scheiding tussen experimenten en productie
Vereist operationele discipline rond scheduling, quota en opschoning
Voorspelbare performance bij juiste sizing van VRAM, I/O en netwerk
Onvoldoende geprovisioneerde storage of networking kan dure GPU-capaciteit verspillen
Duidelijke kostenfactoren: GPU, CPU, RAM, storage en bandbreedte
Productie-inference vraagt om SLO-gedreven ontwerp, niet alleen “het draait op mijn laptop”
Scheiding van workloads maakt onafhankelijke schaalbaarheid van training en inference mogelijk
Hoe koppel ik AI aan prijs?
AI-kosten worden gedreven door een paar hefbomen. Maak ze expliciet.
1. GPU cost drivers
- VRAM die je model en trainingsaanpak vereisen
- Inference headroom voor KV cache en concurrency
- Utilization—idle GPU’s slopen ROI
2. Storage cost drivers
- Datasetgrootte en herhaald lezen tijdens training
- Checkpointfrequentie en checkpointgrootte
- Artifact-retentie en model versioning policies
3. Network cost drivers
- Distributed training collectives over nodes
- Cross-node traffic van storage naar GPU workers
- Serving traffic tussen replicas en gateways
4. People cost drivers
- Hoe vaak trainingruns falen
- Hoe lastig het is om resultaten te reproduceren
- Hoe lang rollouts duren
Hoe kan ik AI bouwen op Worldstream?
Worldstream is een infrastructuurprovider. De waarde zit in een stabiele basis en controle, zonder vage contracten of lock-in positionering.
Worldstream levert de infrastructuurbasis. Jij draait daarbovenop de ML-stack van je keuze.
Optie A: Bare metal GPU cluster
Gebruik wanneer: Je maximale controle wilt over hardwaregedrag en performanceprofielen. Je voorspelbare training-throughput en stabiele inference-latency nodig hebt.
- Training GPU worker pool
- Inference GPU pool
- Gescheiden nodes waarop je orchestration, een model registry en pipelines draait
Optie B: Gescheiden pools voor training en inference
Gebruik wanneer: Je niet wilt dat trainingspieken productie-SLO’s bedreigen.
- Training pool gedimensioneerd op throughput
- Inference pool gedimensioneerd op concurrency en latency
- Gedeelde storage voor artifacts en gedeelde observability voor jouw platform
Optie C: Hybride storage-strategie voor AI
Gebruik wanneer: Training en checkpointing hoge throughput nodig hebben. Serving snelle model load time en voorspelbare reads nodig heeft.
- High-throughput storagepad voor trainingdata en checkpoints
- Artifact storage voor modellen, versies en rollback
Wat je operationeel mag verwachten: Worldstream beheert eigen datacenters en een eigen netwerk en werkt met in-house engineers. Het positioneert zich expliciet rond voorspelbare uitgaven en heldere afspraken.
Prestatie- en resultaatrichtlijnen
Targets hangen af van de workload. Dit zijn de metrics die je eerlijk houden.
Training en fine-tuning
Volg:
- GPU utilization en tijd besteed aan wachten op input
- Data loader throughput
- Checkpoint time en checkpointfrequentie
- Job failure rate en restart time
Red flags: GPU’s zakken naar lage utilization tijdens data loading. Checkpointingpauzes domineren trainingtijd. Frequente OOM—dat betekent meestal dat geheugenaannames verkeerd zijn.
Inference en serving
Volg:
- p95 en p99 latency
- Time to first token voor LLM’s
- Throughput bij target latency
- Memory headroom—vooral KV cache groei
Red flags: Latency stijgt niet-lineair met concurrency. Frequente OOM na traffic spikes. Instabiliteit wanneer context length toeneemt.
Data en MLOps
Volg:
- Dataset staging time
- Pipeline step duration variance
- Artifact publish time
- Restore time vanuit checkpoints en rollbacks
Operatie, performance en risicobeheer
Worldstream-voordeel: Worldstream focust op infrastructuur. We opereren onze eigen datacenters en ons eigen netwerk, met in-house engineers. We positioneren rond voorspelbare uitgaven en heldere afspraken. Dat is belangrijk voor AI omdat de meeste AI-platform failures operationeel zijn. Niet theoretisch. Stabiele infrastructuur en duidelijke ownership verminderen verrassingen wanneer training en serving productie-workloads worden.
Capacity Management
- Scheid GPU-capacity planning van storage- en netwerkplanning
- Gebruik quotas en scheduling—vermijd “first come, first served”
- Houd buffer voor incident response en urgente productiefixes
Data Lifecycle
- Definieer datasetretentie en cleanup
- Versioneer modellen en datasets consistent
- Maak rollbacks routine, niet heroïsch
Monitoring
Minimum set:
- GPU utilization, VRAM usage en throttling signals
- Storage throughput en latency
- Checkpoint time en failure rate
- Network throughput en errors
- Serving latency percentiles
Security
- Encrypt in transit
- Scheid dev en prod
- Access control voor datasets, modellen en inference endpoints
- Audit model- en datasettoegang voor compliance
Backup en Restore
- Bepaal wat “restore” betekent—training restart, artifact restore of volledige environment recovery
- Test restore paths. Regelmatig

Veelgestelde vragen
Nee. Het is een baseline voor transformer training in mixed precision met AdamW, plus activation memory. Het is expliciet gedocumenteerd als typische vereiste. Activations kunnen domineren afhankelijk van batch size en sequence length.
Begrippenlijst
AI-termen uitgelegd
Activation Memory
GPU-geheugen dat wordt gebruikt om intermediate tensors op te slaan tijdens de forward pass voor gradient computation.
AdamW
Veelgebruikte optimizer die meer geheugen vraagt omdat het optimizer state bijhoudt.
Checkpointing
Model state opslaan tijdens training zodat je na failures kunt hervatten. Storage-throughput doet ertoe.
Deep Learning
Neural network-gebaseerde ML, meestal GPU-versneld.
Fine-tuning
Een bestaand model trainen op jouw data om gedrag aan te passen.
Inference
Een getraind model gebruiken om outputs te produceren in productie.
KV Cache
Key-value cache die autoregressive decoding versnelt. Geheugen groeit met batch size en context length.
Mixed Precision
Training of inference met een mix van lagere en hogere precisie om throughput te verhogen en geheugenpressure te verlagen.
MLOps
Praktijken en tooling om training en deployment herhaalbaar en veilig te maken.
VRAM
GPU-geheugen. Vaak de eerste harde limiet bij moderne AI-workloads.
Activation Memory
GPU-geheugen dat wordt gebruikt om intermediate tensors op te slaan tijdens de forward pass voor gradient computation.
Checkpointing
Model state opslaan tijdens training zodat je na failures kunt hervatten. Storage-throughput doet ertoe.
Fine-tuning
Een bestaand model trainen op jouw data om gedrag aan te passen.
KV Cache
Key-value cache die autoregressive decoding versnelt. Geheugen groeit met batch size en context length.
MLOps
Praktijken en tooling om training en deployment herhaalbaar en veilig te maken.
AdamW
Veelgebruikte optimizer die meer geheugen vraagt omdat het optimizer state bijhoudt.
Deep Learning
Neural network-gebaseerde ML, meestal GPU-versneld.
Inference
Een getraind model gebruiken om outputs te produceren in productie.
Mixed Precision
Training of inference met een mix van lagere en hogere precisie om throughput te verhogen en geheugenpressure te verlagen.
VRAM
GPU-geheugen. Vaak de eerste harde limiet bij moderne AI-workloads.
Volgende stappen met Worldstream
- Definieer je dominante patroon: klassieke ML op CPU, training en fine-tuning, inference en serving, of hybride
- Kies één referentie-nodeprofiel en draai een proof workload
- Meet VRAM usage tegen de parameter-based baseline
- Meet checkpoint time en dataset read throughput
- Meet inference latency onder concurrency, inclusief KV cache headroom
- Leg daarna het profiel vast. Consistentie wint van slim doen