Accueil›Outils›Kubernetes (K8s)

Kubernetes (K8s)

Infrastructure

Le standard d'orchestration de containers en production pour les workloads data et ML à grande échelle

Tarif

Gratuit (open source). Kubernetes managé : EKS ~180€/cluster/mois + nodes, GKE autopilot pay-per-pod.

Open sourceAvancé

Présentation

Kubernetes est le système d'orchestration de containers standard pour la production. Chaque composant de votre stack data peut tourner sur K8s : Airflow (via Helm), Kafka, Spark Operator, Ray on Kubernetes, MLflow, et les endpoints de serving de modèles ML. K8s gère l'auto-scaling, la haute disponibilité, les rolling updates et la gestion des ressources GPU.

Fonctionnalités clés

✓Auto-scaling horizontal et vertical des pods

✓Rolling deployments sans downtime

✓Service discovery et load balancing

✓GPU scheduling pour les workloads ML

✓Persistent Volumes pour le stockage

✓Secrets et ConfigMaps

✓Helm Charts pour déployer la stack data

✓Namespace pour la multi-tenancy

✓RBAC pour les permissions

✓Custom Resource Definitions (CRDs) pour Spark, Ray, Kafka

Cas d'usage

Data platform sur Kubernetes

Airflow (via Helm), MLflow, Kafka, Spark Operator et vLLM déployés sur un cluster GKE autopilot. Les jobs Spark scalent de 0 à 100 workers selon la charge.

✓ Points forts

+Standard universel supporté par tous les clouds

+Auto-scaling natif pour les workloads variables (batch ML)

+GPU scheduling pour les entraînements distribués

+Helm Charts pour déployer Airflow, Kafka, Spark en minutes

✗ Limites

−Courbe d'apprentissage très élevée

−Overhead opérationnel important (un cluster K8s nécessite de l'expertise)

−Over-engineering pour les petites équipes (préférer Docker Compose + EC2)

⚠️ Pièges connus en production

1.Les GPU ne sont pas préemptibles par défaut — les pods ML qui échouent conservent le GPU et bloquent les autres jobs.

2.Le resource requests/limits mal configuré : trop bas = OOMKilled, trop haut = ressources gaspillées.

3.Les PersistentVolumes avec ReadWriteOnce ne peuvent pas être montés par plusieurs pods simultanément — utiliser ReadWriteMany ou une solution de stockage objet.

✓ Fait pour vous si…

Grandes équipes data avec des workloads ML à grande échelle, des clusters Spark/Kafka/Airflow, et besoin d'auto-scaling et haute disponibilité.

✗ Pas fait pour vous si…

Petites équipes data sans expertise DevOps/SRE ou workloads simples.

infrastructurecontainersorchestrationopen-sourcegpu