TD4 : Homogénéité / Dépendance

Exercice 1

Un sociologue souhaite étudier si le choix du mode de transport (Voiture, Vélo ou Transports en commun) varie selon les habitants de trois villes différentes : Ville A, Ville B et Ville C.

Le sociologue a réalisé un sondage et les réponses sont résumées dans le tableau de contingence ci-dessous :

Mode de transport Ville A Ville B Ville C Total
Voiture 120 150 100 370
Vélo 80 60 90 230
Transports en commun 100 90 110 300
Total 300 300 300 900
  1. Formuler le problème de test d’hypothèses correspondant à l’objectif initial du sociologue. Introduire les notations.
  2. Répondre à la question initiale à l’aide d’un test du chi-deux au niveau de signification \(0{,}05\).

Exercice 2

Le statisticien d’une compagnie d’assurance est chargé d’étudier l’impact d’une campagne publicitaire menée dans 7 régions où la compagnie opère. Pour cela, il a extrait de la base de données le nombre de nouveaux clients acquis par un certain nombre d’agents dans chaque région.

Région 1 2 3 4 5 6 7
Nombre d’agents 9 7 7 6 7 6 6
Nombre moyen de nouveaux clients 26,88 22,34 19,54 18,95 27,17 25,87 25,72
Variance des nouveaux clients 13,54 12,59 12,87 13,42 13,17 12,56 12,64

Le statisticien décide d’effectuer une analyse de la variance pour tester si le facteur régional influence le nombre de nouveaux clients. Soit \(X_{ik}\) le nombre de nouveaux clients de l’agent \(i\) dans la région \(k\), \(N_k\) le nombre d’agents dans la région \(k\), \(d = 7\) le nombre de régions et \(N_{\mathrm{tot}} = 48\) le nombre total d’agents. On suppose que les variables aléatoires \(X_{ik}\) sont normales de moyenne \(\mu_k\) et de variance \(\sigma^2\). On définit :

\[ \left.\begin{array}{cl} \overline X_k &= \frac{1}{N_k} \sum_{i=1}^{N_k} X_{ik}\\ \overline{X} &= \frac{1}{N_{\mathrm{tot}}} \sum_{k=1}^d N_k\overline X_{k} \end{array}\right. \qquad \left.\begin{array}{cl} V_k &= \frac{1}{N_k}\sum_{i=1}^{N_k} (X_{ik} - \overline X_k)^2 \\ V_W &= \frac{1}{N_{\mathrm{tot}}} \sum_{k=1}^d N_kV_k\\ V_B &= \frac{1}{N_{\mathrm{tot}}}\sum_{k=1}^d N_k(\overline X_k - \overline X)^2\\ V_{T} &= \frac{1}{N_{\mathrm{tot}}}\sum_{k=1}^d\sum_{i=1}^{N_k} (X_{ik} - \overline X)^2 \end{array} \right. \]

  1. Formuler le problème de test d’hypothèses pour tester si le nombre de nouveaux clients est homogène entre les régions.
  2. Que représentent \(\overline X_k\), \(\overline X\), \(V_k\), \(V_W\), \(V_B\), \(V_T\) ?
  3. Démontrer la formule de décomposition de la variance : \[V_T = V_W + V_B \; .\] Soustraire et ajouter \(\overline X_k\) dans la définition de \(V_T\).
  4. Calculer \(\overline X\), \(V_W\), \(V_B\) et \(V_T\).
  5. Écrire la définition de la statistique du test ANOVA en termes de \(V_W\) et \(V_B\).
  6. La campagne publicitaire a-t-elle eu le même impact dans toutes les régions ?

Exercice 3

Des données sont collectées auprès de 7 étudiants et on souhaite analyser la corrélation entre le nombre d’heures de révision avant un examen et leurs notes.

Étudiant 1 2 3 4 5 6 7
Heures de révision 2,5 3,0 1,5 4,0 3,5 5,0 3,0
Note à l’examen 56 64 45 72 68 80 59
  1. Formuler le problème de test d’hypothèses pour un test de corrélation linéaire.
  2. Effectuer le test de corrélation linéaire au niveau \(0{,}05\).

Exercice 4

Voici les scores de stress de \(10\) patients avant et après une séance de sport :

Participant Score de stress (Avant) Score de stress (Après) Différence Rang/Signe
1 40 32
2 38 35
3 45 40
4 50 42,5
5 44 41,5
6 48 48
7 39 30
8 42 38
9 47 46
10 46,5 40

On veut tester si le sport a un effet sur le stress des patients.

  1. Formuler le problème de test d’hypothèses.
  2. Compléter le tableau ci-dessus.
  3. Effectuer un test des rangs signés de Wilcoxon.

Exercice 5

Soit \(X=(X_1, \dots, X_N)\) un vecteur gaussien \(\mathcal N(0, I_N)\) dans \(\mathbb R^N\) (c’est-à-dire que les \(X_i\) sont i.i.d. \(\mathcal N(0,1)\)).

    1. Quelle est la loi de \(QX\), si \(Q\) est une matrice orthogonale ? (\(QQ^T = I_N\))
    2. Quelle est la loi de \(\|PX\|^2\) si \(P\) est un projecteur orthogonal ?
      Utiliser le rang de \(P\) défini par \(rg(P) = \dim(\mathrm{Im}(P))\).
      Définition du projecteur orthogonal : \(P^2=P\) et \(P = P^T\).
    3. Montrer que si \(P\) est un projecteur orthogonal, alors \(PX\) est indépendant de \((I-P)X\).
      Utiliser le fait que deux vecteurs gaussiens centrés \(X\), \(Y\) sont indépendants si et seulement si \(\mathbb E[X_iY_j] = 0\) pour tout \(i,j\). Traduire cela sous forme matricielle.
    4. Quelle est la loi de \(\dfrac{N - rg(P)}{rg(P)}\dfrac{\|PX\|^2}{\|(I-P)X\|^2}\) ?
    5. Montrer que si \(P\), \(P_0\) sont deux projecteurs orthogonaux tels que \(\mathrm{Im}(P_0) \subset \mathrm{Im}(P)\), alors \(P(I-P_0)X\) est indépendant de \((I-P)(I-P_0)X\). Quelle est la loi de \(\|P(I-P_0)X\|^2\) ?
      Montrer d’abord que \(PP_0 = P_0P = P_0\), et que \(P - P_0\) est un projecteur orthogonal.
    6. Quel est le projecteur orthogonal \(P_0\) sur \(\mathrm{Vect}(1, \dots, 1)\) ? En déduire que \((X_i - \overline X)\) est indépendant de \(\overline X\) pour tout \(i\).
  1. On divise \(N\) en \(d\) blocs : \(N = N_1 + \dots + N_d\). On écrit \((X_1, \dots, X_N) = ((X_{11}, \dots, X_{N_1 1}), (X_{12}, \dots, X_{N_2 2}), \dots, (X_{1d}, \dots, X_{N_d d}))\).
    1. Quel est le projecteur orthogonal sur \(\mathrm{Vect}(E_k)\), où \(E_k\) est le vecteur égal à \(1\) sur le bloc \(k\) et \(0\) ailleurs ?
    2. Donner le projecteur orthogonal \(P\) sur \(\mathrm{Vect}(E_1, \dots, E_d)\). Expliciter \((I-P)(I-P_0)X\) et \(P(I-P_0)X\).
    3. En déduire la loi de \(\dfrac{d-1}{N-d}\dfrac{\|P(I-P_0)X\|^2}{\|(I-P)(I-P_0)X\|^2}\) et la loi de la statistique du test ANOVA sous \(H_0\).