Data Universe
Newsletter
Accueil/Encyclopédie/Amazon S3 (Simple Storage Service)
🪣CloudDébutantAWS - Stockage

Amazon S3 (Simple Storage Service)

Le stockage objet d'AWS. Infinite, durable (99.999999999%), peu coûteux. Le point de départ de presque toute architecture data sur AWS.

💡Explication simple

S3, c'est comme un disque dur externe infini dans le cloud. Tu y stockes n'importe quoi : fichiers CSV, Parquet, images, modèles ML, logs. Tu l'organises en 'buckets' (seaux) puis en dossiers. Le grand avantage : tu payes uniquement ce que tu stockes, et ça ne tombe presque jamais en panne.

🏗️Exemple concret

Un Data Lake sur S3 : 'raw/' pour les données brutes, 'processed/' pour les données nettoyées, 'curated/' pour les données prêtes à l'analyse. AWS Glue ou dbt lit depuis « processed/ » et écrit dans « curated/ ». Athena fait du SQL directement sur les fichiers Parquet sans charger dans une base.

∑ Concept clé

Coût = (GB stockés × $0.023/GB/mois) + (requêtes GET/PUT × $0.0004/1000). Format Parquet recommandé : ~80% moins cher que CSV.

🎯Quand l'utiliser ?

Data Lake
Archivage de logs
Source pour Athena, Glue, Redshift Spectrum
Stockage de modèles ML SageMaker

✅ Avantages

+Pratiquement infini et très durable
+S'intègre avec tous les services AWS
+Classes de stockage (Glacier pour l'archivage à 0.004$/GB)

⚠️ Limites

Pas de système de fichiers traditionnel (objet, pas dossiers réels)
Les petits fichiers sont coûteux en requêtes (mieux vaut compacter)
Latence trop élevée pour les bases transactionnelles

🛠️ Outils principaux

AWS CLI
Boto3 (Python SDK)
AWS Console
S3 Select (SQL direct)
AWSCloudStockageData LakeArchitecture

Concepts liés

🌊

Amazon Kinesis Data Streams

AWS - Streaming

🏪

Amazon Redshift

AWS - Data Warehouse

🔬

Amazon SageMaker

AWS - Machine Learning

🏔️

AWS Bedrock — IA Générative sur AWS

IA Générative Cloud

← Retour à l'encyclopédie