🌐Techniques AnalyticsIntermédiaireCollecte de données

Web Scraping

Technique pour extraire automatiquement des données de sites web. Transforme des pages HTML en données structurées exploitables.

💡Explication simple

Imagine que tu veux comparer les prix de 100 smartphones sur 5 sites. Faire ça à la main prendrait des heures. Le web scraping envoie un robot qui visite chaque page, identifie où est le prix dans le code HTML, l'extrait et le stocke dans un tableau. Ce qui prenait 8h se fait en 3 minutes.

🏗️Exemple concret

Scraper les offres d'emploi LinkedIn chaque jour pour analyser les tendances du marché data : quelles compétences sont demandées, dans quelles villes, à quel salaire. BeautifulSoup parse le HTML, Selenium clique sur « Voir plus » pour charger le contenu dynamique.

∑ Concept clé

Pipeline : Requête HTTP Parse HTML (BeautifulSoup / lxml) Extraction XPath/CSS Nettoyage Stockage

🎯Quand l'utiliser ?

✓Collecter des données absentes en API

✓Veille concurrentielle (prix, promotions)

✓Agrégation de données publiques (offres emploi, annonces)

✅ Avantages

+Accès à une quantité massive de données gratuites

+Automatisable et répétable

+Source de données unique pour des analyses concurrentielles

⚠️ Limites

−Zones grises légales (vérifier les CGU du site)

−Sites qui changent leur structure = scripts à mettre à jour

−Sites avec anti-bots (Cloudflare, CAPTCHA)

🛠️ Outils principaux

BeautifulSoup (Python)

Scrapy (framework complet)

Selenium (sites dynamiques)

Playwright

Apify (service cloud)

Data CollectionPythonETLAutomatisation

Concepts liés

🧪

A/B Testing

Expérimentation

👥

Analyse de cohortes

Analytics Produit

📉

Analyse d'entonnoir (Funnel Analysis)

Analytics Produit

📊

Analyse du panier — Market Basket Analysis

Analytics Retail

← Retour à l'encyclopédie