Les Maths en terminale ES

L'essentiel pour le bac

.

Fluctuation et estimation

Exercice 6

On choisit un nombre aléatoirement parmi un ensemble E de nombres entiers naturels.
Soit X la variable aléatoire donnant le premier chiffre du nombre choisi (dans son écriture décimale).
Les valeurs prises par X sont tous les entiers entre 1 et 9.
Par exemple, si le nombre choisi est 2017, alors X=2.

Il se trouve que, pour de nombreux ensembles E utilisés dans la vie courante, la variable X est telle que, pour tout entier $c$ entre 1 et 9, on a: $p(X=c)={\ln(c+1)-\ln(c)}/{ln(10)}$.
On dit alors que X suit la loi de Benford.

  1. Déterminer une valeur arrondie à 0,001 près de $p(X=1)$.
    Puis vérifier que $p(X=1)$ n'est pas égal à ${1}/{9}$.

    1. Dudule considère l'ensemble E des nombres donnant les populations des $36\,677$ communes françaises au premier janvier 2016.
      Il suppose que deux communes distinctes n'ont jamais le même nombre d'habitants, ce qui fait que l'ensemble E contient $36\,677$ nombres.
      Soit X la variable aléatoire donnant le premier chiffre d'un nombre choisi au hasard dans E.
      Dudule se demande si X suit la loi de Benford.

    2. Dudule considère alors une liste de 100 communes françaises prises au hasard parmi les communes françaises.
      Sa liste s'apparente à un tirage sans remise, mais, comme le nombre 100 est très inférieur à $36\,677$, Dudule considère qu'il dispose bien d'un échantillon de 100 communes.
      Parmi elles, il y a 21 communes dont la population est un nombre qui commence par le chiffre 1.
      Expliquer pourquoi Dudule peut en conclure que X ne suit pas la loi de Benford.
      Quel est alors le risque que sa conclusion soit fausse?

    3. Déçu par son résultat, Dudule ajoute à son échantillon 300 autres communes prises au hasard.
      Son échantillon contient alors 400 communes.
      Parmi elles, 116 ont une population qui est un nombre qui commence par le chiffre 1.
      Que peut conclure Dudule?

    4. Dudule, perturbé par ses conclusions, décide d'analyser l'ensemble du fichier des communes françaises, et constate qu'il contient exactement $11\,094$ communes dont la population est un nombre qui commence par le chiffre 1.
      Que peut conclure Dudule?
Solution...
Corrigé
  1. $p(X=1)={\ln(1+1)-\ln(1)}/{ln(10)}={\ln(2)-0}/{ln(10)}={\ln(2)}/{ln(10)}≈0,301$.
    Or ${1}/{9}≈0,111$.
    Il est donc clair que $p(X=1)$ n'est pas égal à ${1}/{9}$.
    La loi de Benford est donc contraire à l'intuition, qui voudrait que chacun des chiffres apparaisse de façon équiprobable.

    1. Dudule se demande si la loi de Benford est un modèle valide lorsque X est la variable aléatoire donnant le premier chiffre d'un nombre choisi au hasard dans l'ensemble E des populations des communes françaises au premier janvier 2016.
      On notera que, comme les communes n'ont jamais le même nombre d'habitants, choisir un nombre au hasard dans E est équivalent à choisir une commune française au hasard, puis considérer sa population au premier janvier 2016.

    2. Dudule va déjà tester si l'hypothèse      $p(X=1)={\ln(2)}/{ln(10)}≈0,301$      est valide.
      Soit F la variable aléatoire donnant la fréquence de communes de l'échantillon dont la population est un nombre qui commence par le chiffre 1.
      Avec les notations usuelles, Dudule pose: $n=100$, $p≈0,301$ et $f={21}/{100}=0,21$.
      Il constate que: $n≥30$.
      De plus: $np≈30$ et $n(1-p)≈70$; et par là: $np≥5$ et $n(1-p)≥5$.
      Les conditions pour utiliser l'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$ sont réunies.
      $p-1,96{√{p(1-p)}}/{√{n}}≈0,301-1,96{√{0,301×0,699}}/{√{100}}≈0,211$ (par défaut).
      $p+1,96{√{p(1-p)}}/{√{n}}≈0,301+1,96{√{0,301×0,699}}/{√{100}}≈0,391$ (par excès).
      L'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$ vaut environ $[0,211;0,391]$ (en fait, il est légèrement plus petit).
      Or $f$ n'est pas dedans.
      Par conséquent, Dudule peut rejeter l'hypothèse.
      Il peut affirmer que      $p(X=1)≠{\ln(2)}/{ln(10)}$      (mais le risque qu'il se trompe est d'environ $5\%$).
      Dudule estime donc que la valeur de $p(X=1)$ n'est pas convenable; cela lui suffit pour conclure que X ne suit pas la loi de Benford.

    3. Le nombre 400 étant très inférieur à $36\,677$, Dudule considère donc qu'il dispose à nouveau d'un échantillon.
      Il réitère ses calculs, en posant: $n=400$, $p≈0,301$ et $f={116}/{400}=0,29$.
      On a: $n≥30$.
      De plus: $np≈120$ et $n(1-p)≈280$; et par là: $np≥5$ et $n(1-p)≥5$.
      Les conditions pour utiliser l'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$ sont réunies.
      $p-1,96{√{p(1-p)}}/{√{n}}≈0,301-1,96{√{0,301×0,699}}/{√{400}}≈0,257$ (par excès).
      $p+1,96{√{p(1-p)}}/{√{n}}≈0,301+1,96{√{0,301×0,699}}/{√{400}}≈0,345$ (par défaut).
      L'intervalle de fluctuation asymptotique au seuil de $95\%$ de $F$ vaut environ $[0,257;0,345]$ (en fait, il est légèrement plus grand).
      Or $f$ est dedans.
      Par conséquent, Dudule ne peut pas rejeter l'hypothèse.
      Il admet que      $p(X=1)={\ln(2)}/{ln(10)}$.
      Attention! Il ne connait pas le risque d'accepter l'hypothèse à tort.
      Il ne faut surtout pas dire que le risque qu'il se trompe est d'environ $5\%$ !
      Finalement, Dudule est obligé d'admettre qu'il est possible que X suive la loi de Benford.
      En fait, pour davantage de certitude, il aurait été malin de tester également si $p(X=2)$, $p(X=3)$, ... $p(X=9)$ semblent également convenir.
      Il aurait alors été judicieux d'utiliser le test du Khi-deux (χ2), mais il est hors programme...


    4. Comme il y a exactement $11\,094$ communes dont la population est un nombre qui commence par le chiffre 1, la probabilité de choisir une telle commune est ${11\,094}/{36\,677}≈0,302$.
      On constate donc que      $p(X=1)≠{\ln(2)}/{ln(10)}$.
      Les valeurs sont très proches, mais néanmoins différentes.
      La conclusion est certaine; il n'y a pas de risque d'erreur!

      Par conséquent, Dudule peut en conclure que X ne suit pas la loi de Benford.
      Sa conclusion est sûre. Il ne peut pas se tromper.
      Si Dudule comptait le nombre de communes dont la population est un nombre qui commence par les chiffres $c=2$, $c=3$, ... et $c=9$, il pourrait vérifier que, à chaque fois, la formule $p(X=c)={\ln(c+1)-\ln(c)}/{ln(10)}$ est quasiment vérifiée. Par conséquent, X suit une loi qui est très proche de la loi de Benford.

      Remarque: l'utilisation de l'intervalle de fluctuation asymptotique dans cette question serait absurde.
      Primo, on peut difficilement parler d'échantillon si l'on choisit la totalité des communes sans remise!
      Secundo, il n'y a pas de caractère aléatoire dans les données de cette question qui ne sont que statistiques.

Réduire...