Taille d’Échantillon
Sondages, études de marché et statistiques.
En statistique, les informations relatives à une population sont souvent obtenues par l’étude d’un nombre fini d’individus issus de cette population, c’est-à-dire par échantillonnage. On suppose alors que les caractéristiques de cet échantillon sont représentatives de la population globale. Dans ce qui suit, nous supposons l’existence d’une population d’individus, dont une certaine proportion, p, diffère des autres (1-p) sur divers aspects ; par exemple, p pourrait être la proportion d’individus aux cheveux bruns, tandis que les autres (1-p) ont les cheveux noirs, blonds, roux, etc. Ainsi, pour estimer p dans la population, nous pourrions prélever un échantillon de n individus et calculer la proportion d’individus aux cheveux bruns dans cet échantillon, p̂. Malheureusement, à moins d’échantillonner la population entière, l’estimation p̂ ne sera probablement pas égale à la valeur réelle de p, car p̂ est affectée par le bruit d’échantillonnage ; autrement dit, elle dépend des individus échantillonnés. Cependant, les statistiques d’échantillonnage nous permettent de calculer ce que l’on appelle des intervalles de confiance, qui indiquent la proximité de l’estimation p̂ à la valeur réelle p.
Statistiques d’un échantillon aléatoire
L’incertitude associée à un échantillon aléatoire donné (c’est-à-dire que l’estimation de la proportion p̂ est supposée être une bonne approximation, mais non parfaite, de la proportion réelle p) peut être résumée en disant que l’estimation p̂ suit une loi normale de moyenne p et de variance p(1-p)/n. Pour comprendre pourquoi l’estimation de l’échantillon suit une loi normale, reportez-vous au théorème central limite. Comme défini ci-dessous, le niveau de confiance, les intervalles de confiance et les tailles d’échantillon sont tous calculés par rapport à cette loi d’échantillonnage. En bref, l’intervalle de confiance définit un intervalle autour de p dans lequel l’estimation p̂ a une forte probabilité de se situer. Le niveau de confiance indique précisément cette probabilité. Par exemple, un niveau de confiance de 95 % signifie que l’estimation p̂ a une forte probabilité de se situer dans l’intervalle de confiance pour 95 % des échantillons aléatoires qui pourraient être tirés. L’intervalle de confiance dépend de la taille de l’échantillon, n (la variance de la loi d’échantillonnage est inversement proportionnelle à n, ce qui signifie que l’estimation se rapproche de la proportion réelle à mesure que n augmente). Ainsi, nous pouvons également définir une marge d’erreur acceptable pour l’estimation, appelée marge d’erreur ε, et calculer la taille de l’échantillon nécessaire pour que l’intervalle de confiance choisi soit inférieur à ε ; ce calcul est appelé « calcul de la taille de l’échantillon ».
Niveau de confiance
Le niveau de confiance mesure la certitude quant à la représentativité d’un échantillon par rapport à la population étudiée, au sein d’un intervalle de confiance choisi. Les niveaux de confiance les plus couramment utilisés sont 90 %, 95 % et 99 %, chacun ayant sa propre valeur z (qui peut être calculée à l’aide d’une formule ou de tables courantes telles que celle fournie ci-dessous). Il est important de noter que l’utilisation des valeurs z suppose que la distribution d’échantillonnage suit une loi normale, comme décrit précédemment dans la section « Statistiques d’un échantillon aléatoire ». Puisqu’une expérience ou une enquête est répétée de nombreuses fois, le niveau de confiance indique essentiellement le pourcentage de fois où l’intervalle résultant des tests répétés contiendra le résultat réel.
Calcul de la taille de l’échantillon
La taille de l’échantillon est un concept statistique qui consiste à déterminer le nombre d’observations ou de réplicats (répétitions d’une condition expérimentale utilisées pour estimer la variabilité d’un phénomène) à inclure dans un échantillon statistique. C’est un aspect important de toute étude empirique nécessitant des inférences sur une population à partir d’un échantillon. Essentiellement, la taille de l’échantillon représente les portions d’une population choisies pour une enquête ou une expérience donnée. Pour effectuer ce calcul, définissez la marge d’erreur, ε, qui est la différence maximale acceptable entre l’estimation de l’échantillon et la valeur réelle. Pour ce faire, utilisez l’équation de l’intervalle de confiance ci-dessus, mais remplacez le terme à droite du signe ± par la marge d’erreur, puis résolvez l’équation résultante pour obtenir la taille de l’échantillon, n.
