La statistique est l'activité qui consiste à recueillir, traiter et interpréter un ensemble de données d'informations. Parmi les différentes branches que regroupe cette activité, il paraît nécessaire d'en distinguer deux principales
On appelle parfois les statistiques l'ensemble des données récoltées.
Ce n'est qu'au que l'on voit apparaître le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité.
La statistique mathématique s'appuie sur les premiers travaux concernant les probabilités développées par Fermat et Pascal. C'est probablement chez Thomas Bayes que l'on voit apparaître un embryon de statistique inférentielle. Condorcet et Laplace parlent encore de probabilité là où l'on parlerait aujourd'hui de fréquence. Mais c'est à Adolphe Quételet que l'on doit l'idée que la statistique est une science s'appuyant sur les probabilités.
Le voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données sont édictées. L'avènement , au , de l'informatique permet de traiter un plus grand nombre de données mais surtout de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours de ce même siècle, plusieurs courants de pensée vont s'affronter
La statistique a pour but de faire émerger des propriétés d'un ensemble de variables connues uniquement à travers quelques une de ses réalisations (qui constituent un échantillon de données).
Elle s'appuie sur les résultats de la statistique mathématique, qui applique des calculs mathématiques rigoureux aux résultats:
Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un indicateur. C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise le biais, l'incertitude et autres caractéristiques statistiques.
Aujourd'hui, le data mining (appelé aussi Knowledge Discovery) s'appuie sur la statistique pour découvrir des relations entre les variables de très vastes bases de données. Les avancées technologiques (augmentation de la fréquence des capteurs disponibles, des moyens de stockage, et de la puissance de calcul) donnent au data mining un vrai intérêt.
Il convient de distinguer
John Tukey disait qu'il y a deux approches en statitiques, entre lesquelles on jongle constamment: les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics):
Dans le cas le plus simple, on fait n mesures, et on obtient n valeurs (''xi).
Les valeurs numériques d'un caractère statistique se répartissent dans , il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voire milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques (voir aussi critères de position).
Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Elles peuvent aussi fournir une présentation plus élaborée : c'est le cas des quantiles et de l'histogramme.
Attention : la variance (notion de statistique descriptive) égale est la simple moyenne arithmétique des carrés des écarts à la moyenne arithmétique observée, mais la variance sans biais (notion de statistique mathématique, qui signifie que lorsque la taille de l'échantillon de données tends vers l'infini, la statistique --ici la variance-- tends vers sa valeur théorique) est fois la variance observée. La variance sans biais est donc supérieure à la variance observée.
La Loi des grands nombres garantit que la moyenne estimée est à une distance plus petite que de la moyenne théorique avec une probabilité
Par conséquent, lorsque la taille de l'échantillon
Quand l'ensemble de
Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties égales. On définit notamment les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de même effectif.
On parlera ainsi du « centile 90 » pour indiquer la valeur séparant les premiers 90% de la population des 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids est au-delà du centile 90, ou en deçà du centile 10, doit être l'objet d'un suivi particulier.
Avec les quantiles, le but est de localiser les frontières entre classes de même effectif. Ils sont souvent utilisés, par exemple en matière de revenus, pour comparer les deux classes extrêmes.
L'histogramme implique des classes souvent de même largeur et de hauteur variable pour donner une allure de la distribution qui peut fournir une compréhension intuitive du phénomène. En se dirigeant vers la statistique mathématique il peut aussi être comparé à une loi de probabilité. Une comparaison qualitative sur un graphique peut ensuite être précisée par l'utilisation Test du χ².
D'autres phénomènes sont corrélés de manière exponentielle, ou sous forme de puissance (voir série statistique à deux variables en mathématiques élémentaires).
L'utilisation de cette notion est souvent abusive, car le fait que deux variables aléatoires soient corrélées entraîne leur non-indépendance - au sens mathématique du terme. Ceci ne signifie généralement pas qu'elles soient dépendantes l'une de l'autre au sens courant (c'est-à-dire que la connaissance de la valeur de l'une permette de connaître exactement la valeur de l'autre).
D'autre part, une corrélation non nulle n'induit pas une relation de cause à effet entre les deux phénomènes mesurés, puisqu'ils peuvent être corrélés à un même phénomène-source : le nombre de coups de soleil observés dans une station balnéaire est ainsi fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n'est bien sûr la cause de l'autre ... Les médias laissent souvent à penser que des phénomènes corrélés (on ne sait d'ailleurs jamais s'il s'agit d'une corrélation forte ou pas) sont liés par une relation de cause à effet ; il s'agit là d'un détournement dangereux du concept mathématique.
L'analyse de la variance vise à expliquer la plus grande part possible de la variance d'une variable à expliquer par celle d'une variable explicative. C'est un très bon prélude à la modélisation statistique ainsi qu'à la classification statistique.
Classifier des données, c'est regrouper automatiquement des individus en groupes (des classes) homogènes (dont les membres se ressemblent beaucoup). L'idéal est que la dispertion des caractéristiques au sein d'un même groupe soient très proches, et que l'écart entre les membres de deux groupes différents soit grands.
- qualitative : exprimée par la une description naturelle du langage (ex: une couleur)
- quantitative : exprimée par des nombres (ex: une taille)
Un exemple: les variations de températures au cours du temps.
Compresser des données, c'est trouver un ensemble de variables
Il s'agit de compression statistique lorsque la façon de quantifier l'information que l'on veut conserver, et la méthodologie de compression proviennent des statistiques.
L'Analyse en composantes principales est une méthode de compression, au même titre que l'Analyse en composantes indépendantes.
La modélisation statistique doit être différenciée de la modélisation physique. Dans le second cas des physiciens (c'est aussi vrai pour des chimistes, biologistes, ou tout autre scientifique), cherchent à construire un modèle explicatif d'un phénomène, qui est soutenu par une théorie plus générale décrivant comment les phénomènes ont lieu en exploitant le principe de causalité.
Dans le cas de la modélisation statistique, le modèle va être construit à partir des données disponibles, sans aucun a priori sur les mécanismes entrant en jeux. Ce type de modélisation s'appelle ausssi modélisation empirique. Bien entendu, compléter une modélisation statistique par des équations physiques (souvent intégrées dans les pré traitements des données) est toujours positif.
Un modèle est avant tout un moyen de relier des variables à expliquer
Les modéles statistiques peuvent être regroupés en grandes familles (suivant la forme de la fonction
Les notions de corrélation et de régression développées dans cette section s'appliquent à des données dites quantitatives ou continues. Elles trouvent bien sûr des "équivalents" pour étudier les relations entre les autres types de variables (qualitatives-qualitatives, qualitatives-quantitatives, ordinales...).
Étudier la corrélation entre deux ou plusieurs variables quantitatives, c’est étudier l’intensité de la liaison qui peut exister entre ces variables. Pour étudier l’intensité de cette liaison, on calcule généralement ce que l’on appelle un coefficient de corrélation linéaire. Cela consiste à essayer de résumer la liaison qui existe en nos variables à l'aide d'une droite. On parle alors d'un ajustement linéaire.
Comment calculer les caractéristiques de cette droite ? En faisant en sorte que l'erreur que l'on commet en représentant la liaison entre nos variables par une droite soit la plus petite possible. Le critère formel le plus souvent utilisé, ce n'est donc pas le seul possible, est de minimiser la somme de toutes les erreurs au carré. On parle alors d'ajustement selon la méthode des moindres carrés ordinaires. La droite résultant de cet ajustement s'appelle une droite de régression. Plus la qualité globale de représentation de la liaison entre nos variables par cette droite est bonne, et plus le coefficient de corrélation linéaire associé l'est également. Il existe une équivalence formelle entre les deux concepts.
La liaison entre nos variables est donc représentée par un coefficient de corrélation linéaire. Ce coefficient indique dans quelle mesure les valeurs d’une variable sont proportionnelles à celles d’une autre variable. Il n’est pas sensible aux unités de chacune de nos variables. Ainsi par exemple, le coefficient de corrélation linéaire entre l’âge et le poids d’un individu sera identique que l’âge soit mesuré en semaine, en mois ou en année(s).
Les valeurs d'un coefficient de corrélation linéaire sont comprises entre -1 et 1. Une corrélation égale à 1 signifie que les variables sont linéairement parfaitement liées positivement. Une corrélation égale à -1 signifie que les variables sont linéairement parfaitement liées négativement. Une corrélation égale 0 signifie que les variables ne sont linéairement pas du tout liées.
Attention, il est toujours possible de calculer un coefficient de corrélation (sauf cas très particulier) mais un tel coefficient de corrélation n'arrive pas toujours à rendre compte de la relation qui existe en réalité entre des variables. En effet, il suppose que l'on essaye de juger de l'existence d'une relation linéaire entre nos variables. Il n'est donc pas adapté pour juger de corrélations qui ne seraient pas linéaires et non linéarisables. Il perd également de son intérêt lorsque les données étudiées sont très hétérogènes puisqu'il représente une relation moyenne et que l'on sait que la moyenne ne fait pas toujours sens, notamment si la distribution des données est multi modale.
Enfin, ce coefficient de corrélation va être très sensible à la présence de valeurs aberrantes et/ou extrêmes dans notre ensemble de données (valeurs très éloignées de la majorité des autres, pouvant être considérées comme des exceptions).
D'une manière générale, l'étude de la relation entre des variables, quelles qu'elles soient, doit s'accompagner de graphiques descriptifs, exhaustifs ou non dans l'appréhension des données à notre disposition, pour éviter de subir les limites purement techniques des calculs que nous utilisons. Néanmoins, dès qu'il s'agit de s'intéresser à des liaisons entre de nombreuses variables, les représentations graphiques peuvent ne plus être possibles ou être au mieux illisibles. Les calculs, comme ceux évoqués jusqu'à présent et donc limités par définition, nous aident alors à simplifier les interprétations que nous pouvons donner des liens entre nos variables, et c'est bien là leur intérêt principal. Il restera alors à vérifier que les principales hypothèses nécessaires à leur bonne lecture soit validées avant une quelconque interprétation.
tests pour vérifier que la loi choisie est judicieuse :
Par exemple, pour une partie de dés à six face:
Effectuent des recherches sur des concepts, des théories, des procédés et des méthodes statistiques, sous leurs aspects mathématiques et autres, les améliorent, et donnent des avis sur leurs applications dans des domaines tels que le commerce, la médecine, les sciences sociales et autres, ou les appliquent eux-mêmes.
Les statisticiens effectuent des recherches sur des concepts, des théories et des procédés et méthodes statistiques, sous leurs aspects mathématiques et autres, les améliorent ou en mettent au point de nouveaux, et donnent des avis sur leur application dans des domaines tels que le commerce ou la médecine ainsi que dans d'autres secteurs des sciences naturelles, des sciences sociales ou des sciences de la vie, ou les appliquent eux mêmes.
Leurs tâches consistent:
a) à étudier, améliorer et mettre au point des théories et des méthodologies statistiques;
b) à préparer et organiser des enquêtes et d'autres collectes de données statistiques, et à mettre au point des questionnaires;
c) à évaluer, traiter, analyser et interpréter des données statistiques et à les préparer en vue de leur publication;
d) à donner des avis sur divers modes de collecte des données, sur des méthodes et techniques statistiques, ou à les appliquer eux mêmes, et à déterminer la fiabilité des résultats de leur application, en particulier dans des domaines tels que le commerce ou la médecine ainsi que d'autres secteurs des sciences naturelles, des sciences sociales ou des sciences de la vie;
e) à préparer des communications scientifiques et des rapports;
f) à s'acquitter de fonctions connexes;
g) à surveiller d'autres travailleurs.
Parmi les professions qui entrent dans ce groupe de base figurent les suivantes: Démographe, Statisticien, Statisticien mathématicien,Statisticien, statistiques appliquées
Parmi les professions apparentées, classées ailleurs, figurent les suivantes: Assistant statisticien, Employé, service statistique
Statistiek Статистика পরিসংখ্যান Stadegouriezh Estadística Statistik Statistik Statistika Στατιστική Statistics Estadística Statistiko آمار Statistyk Staidreamh Estatística Statistiko Statistica Tölfræði Statistica סטטיסטיקה Statistika Statistik Sjtattestiek Statistik Statistiek 統計学 Statistikk Statystyka (nauka) Estatística Statistică Статистика Statistica Statistics Štatistika Statistika Statistis Tilastotiede Statistik Estadistika สถิติศาสตร์ Khoa học thống kê 统计学
This article is licensed under the GNU Free Documentation License.
It uses material from the
"Statistiques".
Home Page • arts • business • computers • games • health • hospitals • home • kids & teens • news • physicians • recreation• reference • regional • science • shopping • society • sports • world