Data Engineering

Pandas

Définition

Bibliothèque Python fondamentale pour la manipulation de données tabulaires, offrant des DataFrames (tables avec index et colonnes nommées) et Series (colonnes) avec une API intuitive inspirée de R et SQL. Pandas est incontournable pour le prototypage, l'exploration et les transformations ad hoc sur des datasets tenant en RAM. Ses opérations de base (read_csv, merge, groupby, apply, pivot) couvrent 90% des besoins d'analyse tabulaire. Sa limite principale est la scalabilité : les DataFrames Pandas sont mono-thread et limités par la RAM disponible. Pour dépasser quelques Go, Polars, Dask, ou Spark s'imposent. Des alternatives comme DuckDB permettent d'exécuter du SQL sur des DataFrames Pandas à grande vitesse.

Exemples concrets

pd.read_csv()groupby()merge()apply()

← Retour au glossaire Termes en “P”

Fiche rapide

CatégorieData Engineering

Exemples4 outils / technologies

Autres termes en Data Engineering

Apache Hudi →Backfill →Data Skew →DuckDB →Fact Table →