Collecte de données
Le nombre d'échantillons prélevés lors d'une expérimentation influe sur l'analyse des résultats et la validité des données recueillies. Au fil des ans, j'ai constaté plusieurs avis contradictoires quant au nombre d'échantillons à prélever. Selon de nombreux manuels d'introduction aux statistiques, ce nombre dépend de la population. On considère qu'une petite population nécessite 30 échantillons ou moins, tandis qu'une grande population en nécessite plus de 30. Cependant, des domaines plus avancés des statistiques présentent des avis divergents, notamment en fonction des objectifs de l'analyse et du niveau de confiance attendu des résultats. Si l'on interrogeait un groupe de professionnels issus de différentes organisations et secteurs d'activité, on obtiendrait un ensemble d'opinions variées. Ceci s'explique par la diversité des points de vue : chaque personne et chaque organisation poursuit des objectifs différents, ce qui engendre une certaine diversité d'opinions.
Ce qu'il faut faire
Selon mon expertise, le nombre d'échantillons prélevés doit être proportionnel aux objectifs de votre organisation et au niveau de confiance attendu des résultats. Si votre laboratoire vise un niveau de confiance de 95,45 % (avec k = 2,00), je recommande de prélever 22 échantillons par expérience. Pour un niveau de confiance de 99 %, je recommande plutôt 100 échantillons. Pourquoi ? Grâce aux valeurs aberrantes. Ces dernières permettent de valider vos résultats. Avec 22 échantillons pour un niveau de confiance de 95,45 %, vous trouverez généralement une valeur aberrante. Ainsi, vous vous assurez d'atteindre le niveau de confiance souhaité. De plus, cela vous permet d'optimiser l'efficacité de votre collecte de données. Pourquoi prélever 100 échantillons si 22 suffisent, ou inversement ? Consacrez uniquement les ressources nécessaires à la réalisation de vos objectifs. Sinon, vous gaspillez votre temps et vos ressources qui pourraient être utilisées pour d'autres tâches. L'équation suivante vous permettra de déterminer le nombre d'échantillons à prélever pour atteindre un niveau de confiance donné. 
Analysons cela.
Je ne suis pas certain de la validité de ma théorie. Permettez-moi donc de vous présenter des résultats quantitatifs et qualitatifs qui étayent mon opinion. À l'aide d'une simulation de Monte Carlo, je générerai un ensemble de données aléatoires censées respecter un niveau de confiance spécifié (95,45 %) et suivre une distribution gaussienne. À partir de ces données, je calculerai la moyenne, l'écart type et les degrés de liberté, puis je vous présenterai les résultats afin que vous puissiez les évaluer. Vous pourrez ensuite vous forger votre propre opinion et choisir d'être d'accord ou non avec moi.
Les résultats
95,46 % des essais ont présenté une valeur aberrante ou moins.
68,18 % des essais ont présenté au moins une valeur aberrante.
4,54 % des essais ont présenté plus d'une valeur aberrante.
Remarques
1| Les nombres de la colonne de gauche représentent le numéro de l'échantillon pour chaque essai, totalisant 22.
2| Les chiffres de la rangée supérieure représentent le numéro de l'essai, totalisant 22.
3| Les limites supérieure et inférieure ont été quantifiées en calculant la somme et la différence de la moyenne et de deux fois l'écart type (c'est-à-dire 2 sigma).
4| Les valeurs non conformes, ou valeurs aberrantes, sont les cellules qui ne sont pas surlignées en vert.
5| Cliquez sur l'image pour l'agrandir
Maintenant que je vous ai fourni des informations et des méthodes que vous pouvez utiliser pour déterminer le nombre optimal d'échantillons à prélever pour vos expériences de répétabilité, combien d'échantillons allez-vous prélever ?





