Tirer \(n\) boules, bleues ou rouges, avec remise
\(p_1, (1-p_1)\) : proportion de bleues/rouges [Wooclap]
\(X\), \(Y\) : nombres de boules bleues/rouges
Alors :
\(X \sim \mathrm{Bin}(n,p_1)\), \(Y=n-X \sim \mathrm{Bin}(n,1-p_1)\)
Si \(k_1 +k_2 = n\) :
\(\mathbb P((X,Y) = (k_1,k_2)) = \binom{n}{k_1}p_1^k(1-p_1)^{k_2}\)
Tirer \(n\) boules, \(m\) couleurs possibles, avec remise
\((p_1, \dots, p_m)\) : proportions de chaque couleur : \(\sum_{i=1}^m p_i = 1\)
\(X_1, \dots, X_m\) : effectifs de chaque couleur [Wooclap]
Alors :
\((X_1, \dots, X_m) \sim \mathrm{Mult}(n,(p_1, \dots, p_m))\)
Si \(k_1 + \dots + k_m = n\) et \(\dfrac{n!}{k_1!\dots k_m!} = \binom{n}{k_1,\dots, k_m}\) est un coefficient multinomial :
\(\mathbb P((X_1, \dots, X_m)=(k_1, \dots, k_m)) = \dfrac{n!}{k_1!\dots k_m!}p_1^{k_1} \dots p_m^{k_m}\)
Étape 1 : probabilité d’une séquence ordonnée avec effectifs \((k_1, \dots, k_m)\)
\[\underbrace{1, \dots, 1}_{k_1}, \underbrace{2, \dots, 2}_{k_2}, \dots, \underbrace{m, \dots, m}_{k_m} \quad \longrightarrow \quad p_1^{k_1} \cdots p_m^{k_m}\]
Étape 2 : nombre de telles séquences
Permutations de \(n\) objets avec \(k_i\) identiques de type \(i\) :
\[\frac{n!}{k_1! \dots k_m!}\]
Lancer un dé \(n\) fois. Cela suit une loi \(Mult(n, (1/6, \cdots, 1/6))\)
Demander à \(n\) personnes leur couleur préférée parmi \(k\) options : \(\text{Mult}(n, (p_1, \ldots, p_k))\).
Générer \(n\) mots depuis un vocabulaire de taille \(V\) : \(\text{Mult}(n, (p_1, \ldots, p_V))\).
Soit \((X_1, \dots, X_m) \sim \mathrm{Mult}(3,(1/4, 1/2, 1/4))\).
Quelle est la probabilité d’observer \((2, 1, 0)\) ?
\(\mathbb P((X_1,X_2,X_3)=(2,1,0)) = \frac{3!}{2!\,1!\,0!}\left(\frac{1}{4}\right)^2\left(\frac{1}{2}\right)^1\left(\frac{1}{4}\right)^0 \\= 3 \cdot \frac{1}{16} \cdot \frac{1}{2} = \frac{3}{32}\)
On observe \((X_1, \dots, X_m) \sim \mathrm{Mult}(n, q)\).
Cela correspond à \(n\) tirages : \(X_1 + \dots + X_m = n\)
\(q = (q_1, \dots, q_m)\) correspond aux probabilités d’obtenir la couleur \(1, \dots, m\)
Soit \(p = (p_1, \dots, p_m)\) un vecteur connu tel que \(p_1 + \dots + p_m = 1\).
\(H_0:~ q = p ~~~\text{ou}~~~ H_1: q \neq p \; .\)
Statistique du test du chi-deux :
\[\psi(X) = \sum_{i=1}^m\frac{(X_i-n_i)^2}{n_i} \; .\]
où \(n_i = np_i = \mathbb E[X_i]\) est l’effectif théorique attendu pour la couleur \(i\). Parfois écrit:
\(\psi(X) = \sum_{i=1}^m\frac{(O_i-E_i)^2}{E_i} \; ,\)
où \(O_i\) désigne l’effectif « observé » et \(E_i\) l’effectif « attendu »
Approximation chi-deux
Lorsque les \(np_i\) sont grands, sous \(H_0\) : \[\psi(X) \xrightarrow{d} \chi^2(m-1)\]
\(X \sim \text{Mult}(n, p)\) s’écrit \(X= \sum_{i=1}^n \xi_i\) où les \(\xi \in \mathbb \{0,1\}^k\) sont iid d’espérance \(p\) de matrice de covariance \(\Sigma\)
\[\Sigma_{ij} = \text{Cov}(\xi_{1i}, \xi_{1j}) = \begin{cases} p_i(1-p_i) & i = j \\ -p_ip_j & i \neq j \end{cases}\]
Par le TCL multivarié : \[\frac{X - np}{\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, \Sigma)\]
Posons \(Z = \text{diag}(p)^{-1/2}(X - np)/\sqrt{n}\), de sorte que \(\psi(X) = \|Z\|^2\). Par le théorème de la fonction continue :
\[Z \xrightarrow{d} \mathcal{N}(0,\, P), \quad P = I - \sqrt{p}\sqrt{p}^\top\]
En effet, la covariance de \(Z\) est \(\text{diag}(p)^{-1/2}\,\Sigma\,\text{diag}(p)^{-1/2}\), dont le coefficient \((i,j)\) vaut \[\frac{\Sigma_{ij}}{\sqrt{p_i}\sqrt{p_j}} = \frac{p_i\,\delta_{ij} - p_i p_j}{\sqrt{p_i}\sqrt{p_j}} = \delta_{ij} - \sqrt{p_i}\sqrt{p_j},\] ce qui est exactement le coefficient \((i,j)\) de \(I - \sqrt{p}\sqrt{p}^\top\).
Comme \(P\) est une projection orthogonale de rang \(m-1\), \(\mathcal{N}(0, P) \stackrel{d}{=} PG\) avec \(G \sim \mathcal{N}(0, I)\), donc : \[\psi(X) = \|Z\|^2 \xrightarrow{d} \|PG\|^2 \sim \chi^2(m-1)\]
On rejette \(H_0\) si \(\psi(X) > t_{1-\alpha}\), le quantile d’ordre \((1-\alpha)\) du \(\chi^2(m-1)\).
On rejette pour les grandes valeurs de \(\psi\) (test unilatéral à droite).
Question : On observe une statistique \(\chi^2\) égale à \(32\) pour 1000 lancers d’un dé supposé équilibré. Est-ce normal ?
Si on observe une statistique \(\chi^2\) égale à \(0{,}001\), qu’est-ce que cela signifie ?
| Couleur | Effectifs observés |
|---|---|
| Rouge | \(X_1=50\) |
| Vert | \(X_2=30\) |
| Jaune | \(X_3=20\) |
| Effectifs théoriques |
|---|
| \(n_1=40\) |
| \(n_2=35\) |
| \(n_3=25\) |
On tire indépendamment et avec remise parmi \(m\) catégories \((c_1, \dots, c_m)\). La probabilité d’obtenir la catégorie \(c_k\) est \(p_k\).
Soit \(Z_i\) la catégorie du \(i^{\text{ème}}\) tirage
Alors, si \(X_k= \sum_{i=1}^n \mathbf{1}\{Z_i = c_k\}\)
\((X_1, \dots, X_m) \sim Mult(n, (p_1, \dots, p_m))\)
On observe \((Z_1, \dots, Z_n) \in \mathbb R^n\)
On fixe des intervalles \((I_1, \dots, I_m)\) formant une partition de \(\mathbb R\)
Histogramme
\(\mathrm{effectifs}(I) = \sum_{i=1}^n \mathbf 1\{Z_i \in I\} \in \{1, \dots, n\}\;\)
\(\mathrm{freq}(I) = \mathrm{effectifs}(I)/n\)
\(\mathrm{hist}(a,b,k) = (\mathrm{effectifs}(I_1), \dots,\mathrm{effectifs}(I_m))\)
On utilise généralement des histogrammes équilibrés sur \([a,b)\) :
\(I_l = \big[a + (l-1)\tfrac{b-a}{m},a + l\tfrac{b-a}{m}\big)\)
On peut ajouter \((-\infty, a)\) et \([b, +\infty)\) pour obtenir une partition de \(\mathbb R\)
Normalisation
Peut être normalisé en effectifs (par défaut), fréquences, ou densité (aire sous la courbe = 1)
On peut définir de même formellement les histogrammes lorsque \(X_i \in \mathbb R^p\) (même s’il n’existe pas de représentation aussi simple).
Supposons que \((X_1, \dots, X_n)\) sont iid de distribution \(P\), et que \(a\), \(b\), \(m\) sont fixés
L’histogramme \(\mathrm{hist}(a,b,m)\) converge vers l’histogramme de la densité \(P\)
Soient \(I_j = \bigl[a + (j-1)\tfrac{b-a}{k},\ a + j\tfrac{b-a}{m}\bigr)\) pour \(j=1,\dots,m\) les classes. La hauteur de la \(j\)-ème barre est
\[\hat{h}_j = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{X_i \in I_j}.\]
Comme les \(X_i\) sont iid, les indicatrices \(\mathbf{1}_{X_i \in I_j}\) sont des variables de Bernoulli iid d’espérance \(P(I_j)\). Par la loi forte des grands nombres,
\[\hat{h}_j \xrightarrow{p.s.} P(I_j) \quad \text{quand } n\to\infty.\]
On observe \((X_1, \dots, X_n) \in \mathbb R^n\), iid de distribution inconnue \(P\).
On veut tester si \(P\) est égale à une distribution connue \(P_0\)
\(H_0\) : \(P = P_0\) contre \(H_1\) : \(P \neq P_0\)
[Wooclap]
Idée : partitionner \(\mathbb R\) et comparer les histogrammes empiriques et théoriques.
Si \((I_1, \dots, I_m)\) sont des intervalles disjoints,
on note \(p_1 = P_0(I_1), \dots, p_{m} = P_0(I_m)\) les probabilités théoriques
Important
Celles-ci sont connues car \(P_0\) est connue et les \(I_j\) sont fixés par nous-mêmes !
On note \(C_j = \sum_{i=1}^n \mathbf{1}\{X_{i} \in I_j\}\).
\(C_j\) est le nombre empirique de fois où l’on obtient des observations dans \(I_j\).
Par définition, sous \(P_0\), les \(C_j\) suivent une loi multinomiale \(\mathrm{Mult}(n, (p_1, \dots, p_{m}))\)
On veut comparer \(C_j\) (empirique) à \(np_j\) (théorique)
On observe \(X=(X_1, \dots, X_n) \in \mathbb R^n\), et on définit \(C_j := C_j(X) = \sum_{i=1}^n \mathbf{1}(X_i \in I_j)\)
Statistique du chi-deux :
\(\psi(X)=\sum_{j=1}^m \frac{(C_j - np_j)^2}{np_j}\)
Si les \(np_j\) sont suffisamment grands pour tout \(j\) (disons \(np_j \geq 15\)) alors \(\psi(X) \asymp \chi^2(m-1)\)
Région de rejet : \([t_{1-\alpha}, +\infty)\) où \(t_{1-\alpha}\) est le quantile d’ordre \((1-\alpha)\) du \(\chi^2(m-1)\)
C’est un test asymptotique
Si \(P_0\) est inconnue, appartenant à une famille paramétrique \(\mathcal{P} = \{P_\theta : \theta \in \Theta \subset \mathbb{R}^\ell\}\)
Estimer \(\theta\) par le MLE \(\hat\theta\) à partir des données \(X_1,\dots,X_n\)
Remplacer les probabilités théoriques par \(\hat p_j = P_{\hat\theta}(I_j)\)
Calculer la statistique corrigée :
\[\psi(X) = \sum_{j=1}^m \frac{(C_j - n\hat{p}_j)^2}{n\hat{p}_j}\]
Sous \(H_0\), chaque paramètre estimé coûte un degré de liberté :
\(\psi(X) \asymp \chi^2(m - 1 - \ell)\)
Intuition : l’estimation de \(\ell\) paramètres à partir des données impose \(\ell\) contraintes supplémentaires sur les effectifs \(C_j\),
réduisant les degrés de liberté effectifs de \(m-1\) à \(m-1-\ell\).
\(H_0\) : \(X_i\) iid \(\mathcal P(2)\)
| \(0\) | \(1\) | \(2\) | \(\geq 3\) | Total | |
|---|---|---|---|---|---|
| Effectifs observés | 16 | 8 | 3 | 3 | 30 |
| Effectifs théoriques | 4,06 | 8,1 | 8,1 | 9,7 |
(1-cdf(Poisson(2),2))*30(1-cdf(Chisq(3),36)) est très petit : on rejetteWarning
(1-cdf(Chisq(2),9.4)) \(\approx 0{,}009\). On rejette au niveau 1%[Wooclap]
On observe \(n=200\) tailles (en cm). On teste si elles suivent une loi \(\mathcal N(\mu, \sigma^2)\) avec \(\mu\) et \(\sigma^2\) inconnus (\(\ell = 2\) paramètres).
Estimation par MLE :
\[\hat\mu = \bar X \approx 169{,}78, \qquad \hat\sigma \approx 7{,}80\]
On choisit \(m=8\) classes équiprobables sous \(\mathcal N(\hat\mu, \hat\sigma^2)\) : chaque \(\hat p_j = 1/8\), donc \(n\hat p_j = 25 \geq 5\) pour tout \(j\) .
Bornes : \(\hat\mu + \hat\sigma\,\Phi^{-1}(j/8)\) pour \(j=1,\dots,7\).
| Classe | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|---|---|---|---|---|---|---|---|---|
| Observé \(O_j\) | 24 | 23 | 28 | 24 | 27 | 23 | 24 | 27 |
| Attendu \(n\hat p_j\) | 25 | 25 | 25 | 25 | 25 | 25 | 25 | 25 |
\[\psi(X) = \sum_{j=1}^{8} \frac{(O_j - 25)^2}{25} \approx 1{,}12\]
Degrés de liberté : \(m - 1 - \ell = 8 - 1 - 2 = 5\)
Note
\(p_{\text{valeur}} \gg 0{,}05\) : on ne rejette pas \(H_0\). Les données sont compatibles avec une loi gaussienne (ce qui est attendu puisqu’elles ont été simulées sous \(H_0\)).
On observe \((X_1, \dots, X_n) \in \mathbb R^n\) de fonction de répartition inconnue \(F\)
On veut tester si \(F= F_0\) :
\(H_0\) : \(F = F_0\) contre \(H_1\) : \(F \neq F_0\)
On note \(X_{(1)} \leq \dots \leq X_{(n)}\) les données ordonnées
quantile empirique d’ordre \(\frac{k}{n}\) : \(X_{(k)}\) [Wooclap]
quantile d’ordre \(\frac{k}{n}\) : \(x\) tel que \(F_0(x) = \frac{k}{n}\)
Idée : sous \(H_0\), \(X_{(k)}\) devrait être approximativement égal au quantile d’ordre \(k/n\) de \(F_0\)
Test de Kolmogorov-Smirnov
On observe \(n=50\) temps d’attente (en minutes). On se demande s’ils suivent une loi exponentielle de moyenne \(3\) minutes.
\(H_0 : F = F_{\mathcal E(1/3)}\) contre \(H_1 : F \neq F_{\mathcal E(1/3)}\)
Note
\(p_{\text{valeur}} > 0{,}05\) : on ne rejette pas \(H_0\). Les données sont compatibles avec une loi exponentielle de moyenne \(3\).
Beaucoup de tests classiques (Student, ANOVA, régression linéaire…) reposent sur l’hypothèse de normalité des données. Avant de les appliquer, il est naturel de vouloir la vérifier.
On a déjà vu plusieurs outils pour ça : \(\chi^2\) d’adéquation, Kolmogorov-Smirnov, QQ-plots. Le test de Shapiro-Wilk (1965) est le test dédié à la normalité, et c’est le plus puissant en pratique à petit échantillon.
On observe \(n\) variables aléatoires \(X_1, \dots, X_n\) i.i.d. de loi \(P\) inconnue.
On suppose que \(P\) est une loi continue (pas de masses de Dirac).
On veut tester :
\(H_0: P = \mathcal N(\mu, \sigma^2)\) pour un certain \((\mu, \sigma^2)\) contre \(H_1: P \neq \mathcal N(\mu, \sigma^2)\) pour tout \((\mu, \sigma^2)\)
Warning
Les paramètres \(\mu\) et \(\sigma^2\) sont inconnus : on ne teste pas « les données suivent \(\mathcal N(170, 64)\) » mais « les données suivent une loi gaussienne, peu importe laquelle ».
Soient \(X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}\) les statistiques d’ordre (données triées).
\[W = \dfrac{\left(\sum_{i=1}^n a_i\,X_{(i)}\right)^2}{\sum_{i=1}^n (X_i - \overline X)^2}\]
Les coefficients \(a_i\) sont tabulés : ils dépendent de \(n\) et proviennent de la covariance des statistiques d’ordre d’une gaussienne standard.
Warning
Pour \(\chi^2\) ou Kolmogorov-Smirnov, on disposait au moins d’une loi asymptotique explicite (\(\chi^2(k-1)\), loi de Kolmogorov). Pour \(W\), ni la loi exacte, ni la loi asymptotique ne sont connues sous forme close. Les p-valeurs s’obtiennent par :
Le numérateur \(\left(\sum_i a_i X_{(i)}\right)^2\) est une estimation de \(\sigma^2\) fondée sur les statistiques d’ordre — elle utilise les espacements entre quantiles empiriques.
Le dénominateur \(\sum_i (X_i - \bar X)^2 = (n-1)\hat\sigma^2\) est l’estimation classique de \(\sigma^2\).
Note
Règle de décision : on rejette \(H_0\) quand \(W\) est trop petit.
Si on trace les \(X_{(i)}\) contre les \(m_i = \mathbb E[Z_{(i)}]\) (espérances des statistiques d’ordre d’une \(\mathcal N(0,1)\)), on obtient le QQ-plot gaussien.
Le \(R^2\) de la régression linéaire de ce QQ-plot vaut \[ R^2 = \dfrac{\left(\sum_i m_i\,X_{(i)}\right)^2}{\sum_i m_i^2\,\cdot\,\sum_i (X_{(i)} - \overline X)^2} \]
C’est très proche de \(W\), mais pas tout à fait identique.
En remplaçant \(a_i\) par \(m_i/\sqrt{\sum_j m_j^2}\) dans la formule de \(W\), on obtient le test de Shapiro-Francia (1972) :
\[W' = \dfrac{\left(\sum_i m_i\,X_{(i)}\right)^2}{\sum_i m_i^2\,\cdot\,\sum_i (X_{(i)} - \overline X)^2}\]
C’est exactement le \(R^2\) de la régression linéaire du QQ-plot gaussien.
Note
Interprétation visuelle commune : plus les points du QQ-plot s’alignent sur une droite, plus la statistique est proche de \(1\). Rejeter \(H_0\) revient à dire que les points s’écartent trop d’une droite.
Avec R : shapiro.test(x) renvoie directement la statistique \(W\) et la p-valeur.
> shapiro.test(rnorm(30))
Shapiro-Wilk normality test
data: rnorm(30)
W = 0.9753, p-value = 0.6912
\(p > 0{,}05\) : on ne rejette pas \(H_0\). Les données sont compatibles avec une loi gaussienne. Cohérent, on les a simulées ainsi !
Avantages
Limites