Data Universe
Newsletter
GlossaireWWebScraping
Engineering

WebScraping

Définition

Extraction automatisée de données publiquement accessibles depuis des pages web, en simulant ou pilotant un navigateur. Les approches varient selon la complexité : parsing HTML statique (BeautifulSoup sur le HTML téléchargé via requests), navigateur headless (Playwright, Puppeteer, Selenium pour les pages JavaScript rendues côté client), et interception des APIs sous-jacentes (souvent plus fiable que parser le HTML). Le scraping est soumis aux conditions d'utilisation des sites, au droit européen (données personnelles) et aux limitations techniques (rate limiting, CAPTCHAs, IP banning). Les sitemaps XML et les flux RSS sont des alternatives plus stables quand disponibles.

Exemples concrets

BeautifulSoupScrapyPlaywrightSelenium
← Retour au glossaireTermes en “W

Fiche rapide

CatégorieEngineering
Exemples4 outils / technologies