Probabilité qu'un test statistique détecte un effet réel quand il existe (1 - β, où β est le taux de faux négatifs ou erreur de type II). Un test avec une puissance de 80% manquera 20% des vrais effets. La puissance dépend de quatre paramètres liés : taille d'échantillon (plus d'observations → plus de puissance), taille de l'effet (effets larges sont plus faciles à détecter), niveau de significativité α (baisser α diminue la puissance), et variabilité des données (plus de bruit → moins de puissance). En pratique, on effectue un calcul de puissance a priori pour déterminer la taille d'échantillon nécessaire pour détecter un effet d'une taille minimale d'intérêt avec une puissance de 80-90%. Les A/B tests sous-dimensionnés sont une cause fréquente de non-détection d'effets réels. Le package statsmodels et pingouin en Python automatisent ces calculs.