Les Maths en terminale ES

L'essentiel pour le bac

Fluctuation et estimation

Définition

On obtient un échantillon de taille $n$ si l'on répète $n$ fois une expérience à 2 issues (souvent appelées "succès" et "échec") et si les expériences sont indépendantes.

Exemple 1

On jette 100 fois de suite un dé et l'on compte le nombre de 6 obtenus.
On a là un échantillon de taille 100.
Notons que les 2 issues sont: "obtenir 6", et "ne pas obtenir 6".
Les expériences sont bien indépendantes car la probabilité d'obtenir 6 reste constante quels que soient les résultats précédents.

Exemple 2

On interroge 100 électeurs parmi 10000, et on leur demande à chaque fois s'ils vont voter pour le candidat Machin.
On peut considérer qu'on a là un échantillon de taille 100.
Mais cet échantillon est particulier.
En effet, une personne choisie ne sera pas réinterrogée. Et par là, la probabilité $p$ qu'une personne donnée vote pour Machin change légèrement à chaque nouvel interrogatoire (le nombre de personnes interrogeables diminue de 1, le nombre de votants pour Machin peut aussi diminuer de 1). Mais, comme la taille de l'échantillon (100) est bien plus petite que la taille de la population totale (10000), le changement de la valeur de $p$ est négligeable, et par là, on considèrera que les expériences sont indépendantes.

Définition

On considère un échantillon de taille $n$, associé à la probabilité de succès $p$ (ou à la proportion du caractère étudié $p$).
Soit $X=\B(n,p)$ la variable aléatoire dénombrant le nombre de succès.
Soit $F$ la variable aléatoire fréquence définie par $F={X}/{n}$.

Un intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$
contient la valeur prise par $F$ avec une probabilité
qui tend vers $0,95$ quand $n$ tend vers $+∞$.

L'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$
est l'intervalle $[p-1,96{√{p(1-p)}}/{√{n}}$ ; $p+1,96{√{p(1-p)}}/{√{n}}]$.

Prise de décision

Hypothèse: la probabilité de succès (ou la proportion du caractère étudié) vaut $p$.
On se demande si cette hypothèse est correcte.

On considère un échantillon de taille $n$ tel que:

  • $n≥30$ (l'échantillon est assez grand)
  • $np≥5$ et $n(1-p)≥5$ ($p$ n'est ni trop faible, ni trop forte)

Soit $f$ la fréquence de succès (ou la proportion du caractère étudié) observée.

  • Si $f$ appartient à l'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$, alors l'hypothèse est acceptée (attention! le risque de l'accepter à tort est inconnu).
  • Si $f$ n'appartient pas à l'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$, alors l'hypothèse est rejetée (mais le risque de la rejeter à tort est d'environ $5\%$).
Exemple

Jean possède une pièce équilibrée. Il va la lancer 100 fois.
Avant de commencer, il affirme que le nombre de "Pile" qu'il obtiendra sera compris entre 40 et 60.
A-t-il raison?
S'il a tort, d'où sort-il ces valeurs?

Solution...
Corrigé

Jean a forcément tort, car la seule proposition certaine est que le nombre de "Pile" obtenus sera compris entre 0 et 100 (au sens large).
Voyons comment Jean a sans doute déterminé les nombres 40 et 60.
La probabilité d'obtenir "Pile" en lançant une pièce vaut $p=0,5$.
Soit X le nombre de "Pile" obtenus.
Avec les notations usuelles, posons: $n=100$.
On a: $n≥30$.
De plus: $np=50$ et $n(1-p)=50$; et par là: $np≥5$ et $n(1-p)≥5$.
$p-1,96{√{p(1-p)}}/{√{n}}=0,50-1,96{√{0,50×0,50}}/{√{100}}=0,402$.
On note qu'une fréquence de 0,402 correspond à un nombre de lancers égal à 40 (en arrondissant à l'entier en dessous).
$p+1,96{√{p(1-p)}}/{√{n}}=0,50+1,96{√{0,50×0,50}}/{√{1000}}=0,598$.
On note qu'une fréquence de 0,598 correspond à un nombre de lancers égal à 60 (en arrondissant à l'entier au dessus).
L'intervalle de fluctuation asymptotique de X au seuil de $95\%$ de $X$ vaut $[40;60]$.
Donc Jean peut affirmer que le nombre de "Pile" sera dans cet intervalle avec une probabilité proche de 0,95.
Mais ce n'est pas certain!
La probabilité que le nombre de "Pile" ne soit pas dans cet intervalle vaut environ 0,05!

Réduire...
Exemple

Jean a récupéré une pièce truquée. L'ancien propriétaire affirme que la probabilité d'obtenir Pile vaut $0,43$.
Jean lance alors la pièce $1000$ fois de suite, et obtient 469 fois Pile.
L'ancien propriétaire a-t-il raison?

Solution...
Corrigé

Avec les notations usuelles, on pose: $n=1000$, $p=0,43$ et $f={469}/{1000}=0,469$.
On a: $n≥30$.
De plus: $np=430$ et $n(1-p)=570$; et par là: $np≥5$ et $n(1-p)≥5$.
$p-1,96{√{p(1-p)}}/{√{n}}=0,43-1,96{√{0,43×0,57}}/{√{1000}}≈0,399$ (par défaut).
$p+1,96{√{p(1-p)}}/{√{n}}=0,43+1,96{√{0,43×0,57}}/{√{1000}}≈0,461$ (par excès).
L'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$ vaut environ $[0,399;0,461]$ (en fait, il est légèrement plus petit).
Or $f$ n'est pas dedans.
Par conséquent, l'hypothèse est rejetée.
Jean peut affirmer que la probabilité d'obtenir Pile ne vaut pas $0,43$ (mais le risque qu'il se trompe est d'environ $5\%$).
On notera que, comme $f$ est au dessus de l'intervalle de fluctuation, la véritable valeur de $p$ est sans doute supérieure à 0,43.

Réduire...

Propriété

L'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$ est inclus dans l'intervalle de fluctuation (vu en seconde) $[p-{1}/{√{n}}$ ; $p+{1}/{√{n}}]$.
Il est donc plus précis.

Définition

On considère un échantillon de taille $n$, associé à la probabilité de succès $p$ (ou à la proportion du caractère étudié $p$).
Mais la valeur de $p$ est inconnue.

Un intervalle de confiance pour la proportion $p$ au niveau de confiance de $95\%$
permet d'estimer la valeur de la proportion $p$. Un tel intervalle donne un encadrement de $p$ correct dans au moins 95% des cas.

Si $f$ est la fréquence observée du caractère étudié,
si $n≥30$,
si $nf≥5$ et $n(1-f)≥5$,
alors l'intervalle de confiance pour la proportion $p$ au niveau de confiance de $95\%$ est l'intervalle $[f-{1}/{√{n}}$ ; $f+{1}/{√{n}}]$.


L’interprétation correcte de la notion d'intervalle de confiance est la suivante.
Si l'on considère l'ensemble de tous les échantillons de taille $n$ et si, pour chaque échantillon, on calcule un intervalle de confiance, alors, dans au moins 95% de ces intervalles on trouve $p$, et dans au plus 5% la proportion p est en dehors.
Mais une fois l'échantillon obtenu, l'intervalle de confiance est déterminé, et il n'y a plus d'aléatoire (soit p est dedans, soit elle ne l'est pas).
Il est donc incorrect de conclure par une phrase du type "p a $95\%$ de chances d'être dans l'intervalle de confiance en question".

Exemple

Jean a récupéré une pièce qui est peut-être truquée.
Il lance sa pièce $1000$ fois de suite, et obtient 469 fois Pile.
Il en déduit que la probabilité d'obtenir Pile en lançant cette pièce vaut $0,469$. A-t-il raison?

Solution...
Corrigé

Avec les notations usuelles, on pose: $n=1000$, $f={469}/{1000}=0,469$.
On a: $n≥30$.
De plus: $nf=469$ et $n(1-f)=531$; et par là: $nf≥5$ et $n(1-f)≥5$.
$f-{1}/{√{n}}=0,469-{1}/{√{1000}}≈0,437$ (par défaut).
$f+{1}/{√{n}}=0,469+{1}/{√{1000}}≈0,501$ (par excès).
L'intervalle de confiance pour la proportion $p$ au niveau de confiance de $95\%$ vaut environ $[0,437;0,501]$ (en fait, il est légèrement plus petit).
Mais Jean ne peut pas en déduire la valeur exacte de $p$.
La valeur 0,469, centre de l'intervalle, n'est qu'une estimation de $p$!
Et rappelons que $p$ peut même être en dehors de cet intervalle (mais ce cas n'arrive que dans moins de $5\%$ des intervalles de confiance).

Réduire...
Exemple

Le candidat Machin commande un sondage auprès de ses 100000 électeurs pour estimer la proportion $p$ d'électeurs ayant l'intention de voter pour lui.
Il impose un niveau de confiance de 0,95 avec une amplitude d'au plus 0,045.
Combien de personnes (au minimum) doit interroger l'institut de sondage?

Solution...
Corrigé

Avec les notations usuelles, l'intervalle de confiance pour la proportion $p$ au niveau de confiance de $95\%$ est $[f-{1}/{√{n}}$ ; $f+{1}/{√{n}}]$.
Son amplitude est donc: ${2}/{√n}$.
On doit donc avoir: ${2}/{√n}≤0,045$.
Donc: ${2}/{0,045}≤√n$. Et par là: $({2}/{0,045})^2≤n$.
Or $({2}/{0,045})^2≈1975,3$.
L'institut de sondage doit donc interroger au moins 1976 personnes pour répondre aux exigences du candidat.
On notera que 1976 est suffisamment faible par rapport à 100000 pour que l'on puisse parler d'échantillon.

Réduire...

Remarque:
On utilise un intervalle de fluctuation
lorsque la proportion p dans la population totale est connue
ou
si l’on fait une hypothèse sur sa valeur.

On utilise un intervalle de confiance
lorsque l’on veut estimer une proportion p inconnue dans une population totale. On l'estime à partir d'une fréquence $f$ observée dans un échantillon.


Remarque:
On rappelle que X suit une loi binomiale de paramètres $n$ et $p$. Par conséquent, lorsque les conditions requises pour utiliser l'intervalle de fluctuation asymptotique ne sont pas réunies, on cherche le plus petit entier $a$ tel que $p(X≥ a)\text">"0,025$ , ainsi que le plus petit entier $b$ tel que $p(X≥ b)≥0,975$. On sait alors que $p(a≤X≤b)$ vaut au moins 0,95, ce qui nous donne donc un intervalle de fluctuation convenable.

Exemple

$9\%$ de la population française est du groupe B.
Dans une ville isolée du massif central, on choisit au hasard 20 personnes.
Parmis elles, 5 sont du groupe B. Ce nombre semble élevé, et l'on peut se demander si $9\%$ de la population de cette ville est du groupe B.
La population de la ville est suffisamment importante pour que l'on puisse considérer qu'il s'agit de tirages avec remise.

  1. Soit X le nombre de personnes du groupe B dans un échantillon de 20 personnes. Quelle est la loi de X?
  2. Donner la formule donnant $p(X=4)$, puis déterminer la valeur de $p(X=4)$.
  3. Les conditions requises pour utiliser l'intervalle de fluctuation asymptotique sont-elles réunies?
  4. Déterminer le plus petit entier $a$ tel que $p(X≤ a)\text">"0,025$.
  5. Déterminer le plus petit entier $b$ tel que $p(X≤ b)≥0,975$.
  6. Que dire de $p(a≤X≤b)$?
  7. Peut-on considérer que $9\%$ de la population de la ville isolée est du groupe B?
Solution...
Corrigé
  1. X est une binomiale de paramètres $n=20$ et $p=0,09$.
    On note: $X=B(20;0,09)$.
  2. $p(X=4)= (\table 20; 4)0,09^{4}0,91^{20-4}≈0,0703$
  3. Les 3 conditions à vérifier sont: $n≥30$, $np≥5$ et $n(1-p)≥5$.
    Or $n=20$. Donc $n<30$.
    Par conséquent, les conditions requises pour utiliser l'intervalle de fluctuation asymptotique ne sont pas réunies.
  4. A la calculatrice: $p(0≤ X≤0)≈0,1516$. Donc $a=0$.
  5. A la calculatrice: $p(0≤ X≤4)≈0,9709$, $p(0≤ X≤5)≈0,9932$. Donc $b=5$.
  6. $p(a≤X≤b)$ vaut au moins 0,95.
    Preuve (non exigible): $a$ est le plus petit entier tel que $p(X≤ a)\text">"0,025$,
    donc $p(X\text"<"a)≤0,025$, et donc $-p(X\text"<"a)≥-0,025$.
    De plus $p(X≤ b)≥0,975$.
    Et comme $p(a≤X≤b)=p(X≤b)-p(X\text"<"a)$,
    on obtient: $p(a≤X≤b)≥0,975-0,025$, soit $p(a≤X≤b)≥0,95$.
  7. Or $X=6$. Cette valeur n'est pas comprise dans $[a;b]$. Donc on peut rejeter l'hypothèse que $9\%$ de la population de la ville isolée soit du groupe B ( le risque de se tromper est inférieur à $5\%$).
    Comme 6 est au dessus de l'intervalle de fluctuation de X, la proportion de personnes de groupe B est sans doute supérieure à $9\%$.
Réduire...

A retenir
$n$ et $f$ sont concrets et caractérisent l'échantillon.
$p$ est plus théorique; dans le cas d'une proportion, $p$ concerne l'ensemble de la population.