Expérimentation contrôlée qui divise aléatoirement les utilisateurs en deux groupes (A : groupe contrôle, B : groupe test) pour mesurer l'impact causal d'un changement (nouvelle feature, nouveau modèle, nouvelle UI) sur une métrique cible. La randomisation garantit que les deux groupes sont comparables, permettant d'attribuer causalement toute différence observée au traitement. La significativité statistique (p-value) et la puissance du test (éviter les faux négatifs) dictent la taille d'échantillon nécessaire. Les pièges courants sont le peeking (arrêter le test trop tôt), le SUTVA violation (interaction entre groupes) et les effets de nouveauté (performance artificielle au lancement).