Data Universe
Newsletter
AccueilOutilsKubernetes (K8s)
☸️

Kubernetes (K8s)

Infrastructure

Le standard d'orchestration de containers en production pour les workloads data et ML à grande échelle

Tarif

Gratuit (open source). Kubernetes managé : EKS ~180€/cluster/mois + nodes, GKE autopilot pay-per-pod.

Open sourceAvancé

Kubernetes est le système d'orchestration de containers standard pour la production. Chaque composant de votre stack data peut tourner sur K8s : Airflow (via Helm), Kafka, Spark Operator, Ray on Kubernetes, MLflow, et les endpoints de serving de modèles ML. K8s gère l'auto-scaling, la haute disponibilité, les rolling updates et la gestion des ressources GPU.

Auto-scaling horizontal et vertical des pods
Rolling deployments sans downtime
Service discovery et load balancing
GPU scheduling pour les workloads ML
Persistent Volumes pour le stockage
Secrets et ConfigMaps
Helm Charts pour déployer la stack data
Namespace pour la multi-tenancy
RBAC pour les permissions
Custom Resource Definitions (CRDs) pour Spark, Ray, Kafka
1

Data platform sur Kubernetes

Airflow (via Helm), MLflow, Kafka, Spark Operator et vLLM déployés sur un cluster GKE autopilot. Les jobs Spark scalent de 0 à 100 workers selon la charge.

✓ Points forts

+Standard universel supporté par tous les clouds
+Auto-scaling natif pour les workloads variables (batch ML)
+GPU scheduling pour les entraînements distribués
+Helm Charts pour déployer Airflow, Kafka, Spark en minutes

✗ Limites

Courbe d'apprentissage très élevée
Overhead opérationnel important (un cluster K8s nécessite de l'expertise)
Over-engineering pour les petites équipes (préférer Docker Compose + EC2)

⚠️ Pièges connus en production

1.Les GPU ne sont pas préemptibles par défaut — les pods ML qui échouent conservent le GPU et bloquent les autres jobs.
2.Le resource requests/limits mal configuré : trop bas = OOMKilled, trop haut = ressources gaspillées.
3.Les PersistentVolumes avec ReadWriteOnce ne peuvent pas être montés par plusieurs pods simultanément — utiliser ReadWriteMany ou une solution de stockage objet.

✓ Fait pour vous si…

Grandes équipes data avec des workloads ML à grande échelle, des clusters Spark/Kafka/Airflow, et besoin d'auto-scaling et haute disponibilité.

✗ Pas fait pour vous si…

Petites équipes data sans expertise DevOps/SRE ou workloads simples.

infrastructurecontainersorchestrationopen-sourcegpu