TD4 : Homogénéité / Dépendance
Exercice 1
Un sociologue souhaite étudier si le choix du mode de transport (Voiture, Vélo ou Transports en commun) varie selon les habitants de trois villes différentes : Ville A, Ville B et Ville C.
Le sociologue a réalisé un sondage et les réponses sont résumées dans le tableau de contingence ci-dessous :
| Mode de transport | Ville A | Ville B | Ville C | Total |
|---|---|---|---|---|
| Voiture | 120 | 150 | 100 | 370 |
| Vélo | 80 | 60 | 90 | 230 |
| Transports en commun | 100 | 90 | 110 | 300 |
| Total | 300 | 300 | 300 | 900 |
- Formuler le problème de test d’hypothèses correspondant à l’objectif initial du sociologue. Introduire les notations.
- Répondre à la question initiale à l’aide d’un test du chi-deux au niveau de signification \(0{,}05\).
Exercice 2
Le statisticien d’une compagnie d’assurance est chargé d’étudier l’impact d’une campagne publicitaire menée dans 7 régions où la compagnie opère. Pour cela, il a extrait de la base de données le nombre de nouveaux clients acquis par un certain nombre d’agents dans chaque région.
| Région | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
|---|---|---|---|---|---|---|---|
| Nombre d’agents | 9 | 7 | 7 | 6 | 7 | 6 | 6 |
| Nombre moyen de nouveaux clients | 26,88 | 22,34 | 19,54 | 18,95 | 27,17 | 25,87 | 25,72 |
| Variance des nouveaux clients | 13,54 | 12,59 | 12,87 | 13,42 | 13,17 | 12,56 | 12,64 |
Le statisticien décide d’effectuer une analyse de la variance pour tester si le facteur régional influence le nombre de nouveaux clients. Soit \(X_{ik}\) le nombre de nouveaux clients de l’agent \(i\) dans la région \(k\), \(N_k\) le nombre d’agents dans la région \(k\), \(d = 7\) le nombre de régions et \(N_{\mathrm{tot}} = 48\) le nombre total d’agents. On suppose que les variables aléatoires \(X_{ik}\) sont normales de moyenne \(\mu_k\) et de variance \(\sigma^2\). On définit :
\[ \left.\begin{array}{cl} \overline X_k &= \frac{1}{N_k} \sum_{i=1}^{N_k} X_{ik}\\ \overline{X} &= \frac{1}{N_{\mathrm{tot}}} \sum_{k=1}^d N_k\overline X_{k} \end{array}\right. \qquad \left.\begin{array}{cl} V_k &= \frac{1}{N_k}\sum_{i=1}^{N_k} (X_{ik} - \overline X_k)^2 \\ V_W &= \frac{1}{N_{\mathrm{tot}}} \sum_{k=1}^d N_kV_k\\ V_B &= \frac{1}{N_{\mathrm{tot}}}\sum_{k=1}^d N_k(\overline X_k - \overline X)^2\\ V_{T} &= \frac{1}{N_{\mathrm{tot}}}\sum_{k=1}^d\sum_{i=1}^{N_k} (X_{ik} - \overline X)^2 \end{array} \right. \]
- Formuler le problème de test d’hypothèses pour tester si le nombre de nouveaux clients est homogène entre les régions.
- Que représentent \(\overline X_k\), \(\overline X\), \(V_k\), \(V_W\), \(V_B\), \(V_T\) ?
- Démontrer la formule de décomposition de la variance : \[V_T = V_W + V_B \; .\] Soustraire et ajouter \(\overline X_k\) dans la définition de \(V_T\).
- Calculer \(\overline X\), \(V_W\), \(V_B\) et \(V_T\).
- Écrire la définition de la statistique du test ANOVA en termes de \(V_W\) et \(V_B\).
- La campagne publicitaire a-t-elle eu le même impact dans toutes les régions ?
Exercice 3
Des données sont collectées auprès de 7 étudiants et on souhaite analyser la corrélation entre le nombre d’heures de révision avant un examen et leurs notes.
| Étudiant | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
|---|---|---|---|---|---|---|---|
| Heures de révision | 2,5 | 3,0 | 1,5 | 4,0 | 3,5 | 5,0 | 3,0 |
| Note à l’examen | 56 | 64 | 45 | 72 | 68 | 80 | 59 |
- Formuler le problème de test d’hypothèses pour un test de corrélation linéaire.
- Effectuer le test de corrélation linéaire au niveau \(0{,}05\).
Exercice 4
Voici les scores de stress de \(10\) patients avant et après une séance de sport :
| Participant | Score de stress (Avant) | Score de stress (Après) | Différence | Rang/Signe |
|---|---|---|---|---|
| 1 | 40 | 32 | ||
| 2 | 38 | 35 | ||
| 3 | 45 | 40 | ||
| 4 | 50 | 42,5 | ||
| 5 | 44 | 41,5 | ||
| 6 | 48 | 48 | ||
| 7 | 39 | 30 | ||
| 8 | 42 | 38 | ||
| 9 | 47 | 46 | ||
| 10 | 46,5 | 40 |
On veut tester si le sport a un effet sur le stress des patients.
- Formuler le problème de test d’hypothèses.
- Compléter le tableau ci-dessus.
- Effectuer un test des rangs signés de Wilcoxon.
Exercice 5
Soit \(X=(X_1, \dots, X_N)\) un vecteur gaussien \(\mathcal N(0, I_N)\) dans \(\mathbb R^N\) (c’est-à-dire que les \(X_i\) sont i.i.d. \(\mathcal N(0,1)\)).
- Quelle est la loi de \(QX\), si \(Q\) est une matrice orthogonale ? (\(QQ^T = I_N\))
- Quelle est la loi de \(\|PX\|^2\) si \(P\) est un projecteur orthogonal ?
Utiliser le rang de \(P\) défini par \(rg(P) = \dim(\mathrm{Im}(P))\).
Définition du projecteur orthogonal : \(P^2=P\) et \(P = P^T\). - Montrer que si \(P\) est un projecteur orthogonal, alors \(PX\) est indépendant de \((I-P)X\).
Utiliser le fait que deux vecteurs gaussiens centrés \(X\), \(Y\) sont indépendants si et seulement si \(\mathbb E[X_iY_j] = 0\) pour tout \(i,j\). Traduire cela sous forme matricielle. - Quelle est la loi de \(\dfrac{N - rg(P)}{rg(P)}\dfrac{\|PX\|^2}{\|(I-P)X\|^2}\) ?
- Montrer que si \(P\), \(P_0\) sont deux projecteurs orthogonaux tels que \(\mathrm{Im}(P_0) \subset \mathrm{Im}(P)\), alors \(P(I-P_0)X\) est indépendant de \((I-P)(I-P_0)X\). Quelle est la loi de \(\|P(I-P_0)X\|^2\) ?
Montrer d’abord que \(PP_0 = P_0P = P_0\), et que \(P - P_0\) est un projecteur orthogonal. - Quel est le projecteur orthogonal \(P_0\) sur \(\mathrm{Vect}(1, \dots, 1)\) ? En déduire que \((X_i - \overline X)\) est indépendant de \(\overline X\) pour tout \(i\).
- On divise \(N\) en \(d\) blocs : \(N = N_1 + \dots + N_d\). On écrit \((X_1, \dots, X_N) = ((X_{11}, \dots, X_{N_1 1}), (X_{12}, \dots, X_{N_2 2}), \dots, (X_{1d}, \dots, X_{N_d d}))\).
- Quel est le projecteur orthogonal sur \(\mathrm{Vect}(E_k)\), où \(E_k\) est le vecteur égal à \(1\) sur le bloc \(k\) et \(0\) ailleurs ?
- Donner le projecteur orthogonal \(P\) sur \(\mathrm{Vect}(E_1, \dots, E_d)\). Expliciter \((I-P)(I-P_0)X\) et \(P(I-P_0)X\).
- En déduire la loi de \(\dfrac{d-1}{N-d}\dfrac{\|P(I-P_0)X\|^2}{\|(I-P)(I-P_0)X\|^2}\) et la loi de la statistique du test ANOVA sous \(H_0\).