Amazon S3 (Simple Storage Service)

Le stockage objet d'AWS. Infinite, durable (99.999999999%), peu coûteux. Le point de départ de presque toute architecture data sur AWS.

💡Explication simple

S3, c'est comme un disque dur externe infini dans le cloud. Tu y stockes n'importe quoi : fichiers CSV, Parquet, images, modèles ML, logs. Tu l'organises en 'buckets' (seaux) puis en dossiers. Le grand avantage : tu payes uniquement ce que tu stockes, et ça ne tombe presque jamais en panne.

🏗️Exemple concret

Un Data Lake sur S3 : 'raw/' pour les données brutes, 'processed/' pour les données nettoyées, 'curated/' pour les données prêtes à l'analyse. AWS Glue ou dbt lit depuis « processed/ » et écrit dans « curated/ ». Athena fait du SQL directement sur les fichiers Parquet sans charger dans une base.

∑ Concept clé

Coût = (GB stockés $0.023/GB/mois) + (requêtes GET/PUT $0.0004/1000). Format Parquet recommandé : ~80% moins cher que CSV.

🎯Quand l'utiliser ?

✓Data Lake

✓Archivage de logs

✓Source pour Athena, Glue, Redshift Spectrum

✓Stockage de modèles ML SageMaker

✅ Avantages

+Pratiquement infini et très durable

+S'intègre avec tous les services AWS

+Classes de stockage (Glacier pour l'archivage à 0.004$/GB)

⚠️ Limites

−Pas de système de fichiers traditionnel (objet, pas dossiers réels)

−Les petits fichiers sont coûteux en requêtes (mieux vaut compacter)

−Latence trop élevée pour les bases transactionnelles

🛠️ Outils principaux

AWS CLI

Boto3 (Python SDK)

AWS Console

S3 Select (SQL direct)

AWSCloudStockageData LakeArchitecture

Concepts liés

☁️

Amazon Kinesis Data Streams

AWS - Streaming

☁️

Amazon Redshift

AWS - Data Warehouse

☁️

Amazon SageMaker

AWS - Machine Learning

📊

AWS Bedrock — IA Générative sur AWS

IA Générative Cloud

← Retour à l'encyclopédie