🏗️Exemple concret
Un Data Lake sur S3 : 'raw/' pour les données brutes, 'processed/' pour les données nettoyées, 'curated/' pour les données prêtes à l'analyse. AWS Glue ou dbt lit depuis « processed/ » et écrit dans « curated/ ». Athena fait du SQL directement sur les fichiers Parquet sans charger dans une base.
∑ Concept clé
Coût = (GB stockés × $0.023/GB/mois) + (requêtes GET/PUT × $0.0004/1000). Format Parquet recommandé : ~80% moins cher que CSV.
🎯Quand l'utiliser ?
✓Data Lake
✓Archivage de logs
✓Source pour Athena, Glue, Redshift Spectrum
✓Stockage de modèles ML SageMaker
✅ Avantages
+Pratiquement infini et très durable
+S'intègre avec tous les services AWS
+Classes de stockage (Glacier pour l'archivage à 0.004$/GB)
⚠️ Limites
−Pas de système de fichiers traditionnel (objet, pas dossiers réels)
−Les petits fichiers sont coûteux en requêtes (mieux vaut compacter)
−Latence trop élevée pour les bases transactionnelles
🛠️ Outils principaux
AWS CLI
Boto3 (Python SDK)
AWS Console
S3 Select (SQL direct)
AWSCloudStockageData LakeArchitecture