article

La statistique est l'activité qui consiste à recueillir, traiter et interpréter un ensemble de données d'informations. Parmi les différentes branches que regroupe cette activité, il paraît nécessaire d'en distinguer deux principales

Cette distinction ne consiste pas à définir deux domaines étanches. En effet, le traitement et l'interprétation des données ne peuvent se faire que lorsque celles-ci ont été récoltées. Réciproquement, la statistique mathématique précise les règles et les méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées.

On appelle parfois les statistiques l'ensemble des données récoltées.

Histoire


Bien que le nom de statistique soit relativement récent - on attribue en général l'origine du nom au de l'allemand Staatskunde , cette activité semble exister dès la naissance des premières structures sociales. On a ainsi trace de recensements en Chine au ou en Égypte au . Ce système de recueil de données se poursuit jusqu'au . En Europe, le rôle de collecteur est souvent tenu par des guildes marchandes puis par les intendants de l'État.

Ce n'est qu'au que l'on voit apparaître le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité.

La statistique mathématique s'appuie sur les premiers travaux concernant les probabilités développées par Fermat et Pascal. C'est probablement chez Thomas Bayes que l'on voit apparaître un embryon de statistique inférentielle. Condorcet et Laplace parlent encore de probabilité là où l'on parlerait aujourd'hui de fréquence. Mais c'est à Adolphe Quételet que l'on doit l'idée que la statistique est une science s'appuyant sur les probabilités.

Le voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données sont édictées. L'avènement , au , de l'informatique permet de traiter un plus grand nombre de données mais surtout de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours de ce même siècle, plusieurs courants de pensée vont s'affronter

  • les objectivistes ou fréquentistes qui pensent que les probabilités fournissent un modèle permettant d'idéaliser la distribution en fréquence et que là s'arrêtent leur rôle.
  • les subjectivistes qui voient les probablités comme un moyen de mesurer la confiance que l'on peut avoir dans une prévision.
  • les néo-bayesiens qui soutiennent que les données statistiques seules ne permettent pas de donner le modèle probabiliste idéalisant la distribution en fréquence: il est nécessaire de proposer au départ une forme général du modèle.

La démarche statistique


La statistique a pour but de faire émerger des propriétés d'un ensemble de variables connues uniquement à travers quelques une de ses réalisations (qui constituent un échantillon de données).

Elle s'appuie sur les résultats de la statistique mathématique, qui applique des calculs mathématiques rigoureux aux résultats:

  • de la théorie des probabilités
  • et de la théorie de l'information
aux situations où on n'observe que quelques réalisations (expérimentations) du phénomène à étudier.

Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un indicateur. C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise le biais, l'incertitude et autres caractéristiques statistiques.

Aujourd'hui, le data mining (appelé aussi Knowledge Discovery) s'appuie sur la statistique pour découvrir des relations entre les variables de très vastes bases de données. Les avancées technologiques (augmentation de la fréquence des capteurs disponibles, des moyens de stockage, et de la puissance de calcul) donnent au data mining un vrai intérêt.

Il convient de distinguer

  • la statistique qui est la discipline scientifique,
  • des statistiques qui sont les méthodes issues de cette statistiques.
En statistique, on appelle une statistique un indicateur qui a certaines propriétés.

John Tukey disait qu'il y a deux approches en statitiques, entre lesquelles on jongle constamment: les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics):

  • on explore d'abord les données pour avoir une idée qualitative de leurs propriétés;
  • puis on fait des hypothèses de comportement que l'on confirme ou infirme en recourant à d'autres techniques statistiques.

L'acquisition de données


Planification (cf. la planification d'expériences)

Collecte des données

La première étape est de réaliser des mesures. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.

Dans le cas le plus simple, on fait n mesures, et on obtient n valeurs (''xi).

Incertitude de mesure

En physique et en chimie, on utilise souvent la loi de Student pour déterminer les incertitudes (intervalle de confiance) ; dans ces domaines, son utilisation se réduit souvent à multiplier l'estimateur de l'écart type par deux ou par trois pour avoir l'erreur acceptable. Le calcul d'erreur constitue un ensemble de méthodes de calcul permettant d'estimer les erreurs sur des résultats au départ de incertitudes ou erreur sur les mesures.

Traitement des données

Le pré traitement des données est extrêmement important, en effet, une transformation des données initiales (un passage au log, par exemple), peuvent considérablement faciliter les traitements statistiques suivants.

Techniques statistiques


Les principales techniques statistiques sont :

Interprétation

cf. l'interprétation de données statistiques.

Statistiques descriptives


Le résumé (cf. le résumé statistique de données).

Les valeurs numériques d'un caractère statistique se répartissent dans \mathbb{R}, il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voire milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques (voir aussi critères de position).

Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Elles peuvent aussi fournir une présentation plus élaborée : c'est le cas des quantiles et de l'histogramme.

Critères de position

La moyenne
voir article détaillé : moyenne
  • La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d'individus : \bar{X} = \frac{1}{n} \cdot \sum_{i = 1}^n x_i
  • La moyenne géométrique est utilisée dans l'étude des rapports, par exemple en matière économique dans la définition de certains nombres-indices. Il s'agit en effet de paramètres de position destinés à mesurer les variations relatives d'un ensemble de variables de même nature ou soumises à des influences communes (indice de prix ou de production). La formule pour la calculer est la suivante : G = \sqrt*{\prod x_i}
  • La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés.
  • La moyenne harmonique est l'inverse de la moyenne arithmétique des inverses : H = \frac{n}{\sum \frac{1}{x_i}}

La médiane
La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50% au dessus et 50% en dessous. La médiane peut avoir une valeur différente de la moyenne. En France, le salaire médian est inférieur au salaire moyen : il y a beaucoup de smicards et peu de très gros salaires. Cependant, les gros salaires tirent la moyenne vers le haut.

Le mode
Le mode correspond à la réalisation la plus fréquente.

Mesures de dispersion

  • Étendue : c'est l'intervalle entre la plus petite et la plus grande valeur. On dit d'un phénomène qu'il présente une « forte dynamique » lorsque l'étendue (ou la dispersion) est grande.
  • Variance : la variance empirique corrigée \hat{\sigma}^2 pour le carré de l'écart type (ou variance) :\hat{\sigma}^2 = \frac{1}{n-1} \cdot \sum_{i = 1}^n (x_i - \bar{X})^2
  • Écart-type \hat\sigma_X : c'est la racine carrée de la variance
  • Coefficient de variation : C.V. = \frac{\sigma}{\bar{x}}
  • Cote Z :

Attention : la variance (notion de statistique descriptive) égale est la simple moyenne arithmétique des carrés des écarts à la moyenne arithmétique observée, mais la variance sans biais (notion de statistique mathématique, qui signifie que lorsque la taille de l'échantillon de données tends vers l'infini, la statistique --ici la variance-- tends vers sa valeur théorique) est n / (n - 1) fois la variance observée. La variance sans biais est donc supérieure à la variance observée.

La Loi des grands nombres garantit que la moyenne estimée \bar X est à une distance plus petite que d de la moyenne théorique E(X) avec une probabilité P({Y\over \hat\sigma_X\sqrt{n}}, où Y suite une distribution gaussienne. Cela veut aussi dire que (q_\alpha est le quantile correspondant à \alpha pour une gaussienne):

P\left( E(X)\in \leftX-\alpha {\sigma_X\over\sqrt{n}}, \bar X+\alpha {\sigma_X\over\sqrt{n}} \right\right) = q_\alpha

Par conséquent, lorsque la taille de l'échantillon n augmente linéairement, la précision de l'estimateur de la moyenne augmente en 1/\sqrt{n}.

Quand l'ensemble de n point ne constitue pas un échantillon de la population, mais la population totale, la variance sans biais n'a pas à être utilisée, puisque l'on n'est plus dans un contexte d'estimation mais de mesure.

Quantiles

Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties égales. On définit notamment les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de même effectif.

On parlera ainsi du « centile 90 » pour indiquer la valeur séparant les premiers 90% de la population des 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids est au-delà du centile 90, ou en deçà du centile 10, doit être l'objet d'un suivi particulier.

Histogramme

L'histogramme est une des nombreuses représentations graphiques de données statistiques possibles. Comme les quantiles, l'histogramme découpe la population en classes mais le point de vue est radicalement différent.

Avec les quantiles, le but est de localiser les frontières entre classes de même effectif. Ils sont souvent utilisés, par exemple en matière de revenus, pour comparer les deux classes extrêmes.

L'histogramme implique des classes souvent de même largeur et de hauteur variable pour donner une allure de la distribution qui peut fournir une compréhension intuitive du phénomène. En se dirigeant vers la statistique mathématique il peut aussi être comparé à une loi de probabilité. Une comparaison qualitative sur un graphique peut ensuite être précisée par l'utilisation Test du χ².

Distributions de fréquences

Représentations graphiques

Statistiques sur plusieurs variables


Lorsque l'on collecte des mesures de deux grandeurs X et Y, on obtient une série de couples de valeurs (xi,yi). Le modèle mathématique correspondant est celui de deux grandeurs X et Y. Dans cas, les valeurs xi sont des réalisations de la grandeur X, et les valeurs yi des réalisations de Y. On dit que X et Y sont dépendantes s'il existe un lien entre les valeurs prises par X et par Y (et on peut alors espérer, connaissant la valeur de X, prédire la valeur de Y). Concrètement, cela peut vouloir dire que l'une des deux grandeurs X ou Y influence l'autre, ou encore que X et Y sont influencées simultanément par un autre phénomène.

Mesure de dépendance

Corrélation
Une mesure de la Corrélation des grandeurs X et Y est obtenue par le calcul du coefficient de corrélation linéaire (voir régression linéaire). Ce coefficient, qui est un nombre compris entre -1 et 1, mesure l'existence ou non d'un lien linéaire entre X et Y : plus ce coefficient est proche de 1 ou -1, plus forte est la corrélation linéaire entre les grandeurs. Dans le cas où ce coefficient vaut 0, on parle de variables aléatoires non corrélées (notons que des variables indépendantes sont toujours non corrélées, la réciproque n'est pas systématiquement juste).

D'autres phénomènes sont corrélés de manière exponentielle, ou sous forme de puissance (voir série statistique à deux variables en mathématiques élémentaires).

L'utilisation de cette notion est souvent abusive, car le fait que deux variables aléatoires soient corrélées entraîne leur non-indépendance - au sens mathématique du terme. Ceci ne signifie généralement pas qu'elles soient dépendantes l'une de l'autre au sens courant (c'est-à-dire que la connaissance de la valeur de l'une permette de connaître exactement la valeur de l'autre).

D'autre part, une corrélation non nulle n'induit pas une relation de cause à effet entre les deux phénomènes mesurés, puisqu'ils peuvent être corrélés à un même phénomène-source : le nombre de coups de soleil observés dans une station balnéaire est ainsi fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n'est bien sûr la cause de l'autre ... Les médias laissent souvent à penser que des phénomènes corrélés (on ne sait d'ailleurs jamais s'il s'agit d'une corrélation forte ou pas) sont liés par une relation de cause à effet ; il s'agit là d'un détournement dangereux du concept mathématique.

Analyse des données


Analyse en composantes principales

Lorsque l'on veut étudier la dépendance entre plusieurs variables aléatoires, on a souvent recours à une Analyse en composantes principales où à une Analyse en composantes indépendantes.

Analyse de la variance


L'article complet: analyse de la variance.

L'analyse de la variance vise à expliquer la plus grande part possible de la variance d'une variable à expliquer par celle d'une variable explicative. C'est un très bon prélude à la modélisation statistique ainsi qu'à la classification statistique.

Tests d'hypothèses


Les tests d'hypothèses permettent de quantifier la probabilité avec laquelle des variables (connues seulement à partir d'un échantillon) vérifient une propriété donnée.

Classification


Classifier des données, c'est regrouper automatiquement des individus en groupes (des classes) homogènes (dont les membres se ressemblent beaucoup). L'idéal est que la dispertion des caractéristiques au sein d'un même groupe soient très proches, et que l'écart entre les membres de deux groupes différents soit grands.

- qualitative : exprimée par la une description naturelle du langage (ex: une couleur)

- quantitative : exprimée par des nombres (ex: une taille)

Séries temporelles


Faire des statistiques sur une courbe constituée des réalisations successives d'une même variable au cours du temps, est une discipline qui a ses spécificités.

Un exemple: les variations de températures au cours du temps.

Compression statistique


Compresser des données, c'est trouver un ensemble de variables Y_1,\ldots,Y_K qui contiennent presque autant d'information que les variables X_1,\ldots,X_N (avec K beaucoup plus petit que N). On utilise aussi le terme de réduction de la dimension.

Il s'agit de compression statistique lorsque la façon de quantifier l'information que l'on veut conserver, et la méthodologie de compression proviennent des statistiques.

L'Analyse en composantes principales est une méthode de compression, au même titre que l'Analyse en composantes indépendantes.

Modélisation statistique


La modélisation statistique doit être différenciée de la modélisation physique. Dans le second cas des physiciens (c'est aussi vrai pour des chimistes, biologistes, ou tout autre scientifique), cherchent à construire un modèle explicatif d'un phénomène, qui est soutenu par une théorie plus générale décrivant comment les phénomènes ont lieu en exploitant le principe de causalité.

Dans le cas de la modélisation statistique, le modèle va être construit à partir des données disponibles, sans aucun a priori sur les mécanismes entrant en jeux. Ce type de modélisation s'appelle ausssi modélisation empirique. Bien entendu, compléter une modélisation statistique par des équations physiques (souvent intégrées dans les pré traitements des données) est toujours positif.

Un modèle est avant tout un moyen de relier des variables à expliquer Y à des variables explicatives X, par une relation fonctionnelle :

Y = F(X)

Les modéles statistiques peuvent être regroupés en grandes familles (suivant la forme de la fonction F):

  • les modèles linéaires
  • les modèles non linéaires
  • les modèles non paramétriques
Les modèles bayésiens (du nom de Bayes) peuvent être utilisés dans les trois catégories.

La régression linéaire

Corrélation et régression

  • Introduction

Les notions de corrélation et de régression développées dans cette section s'appliquent à des données dites quantitatives ou continues. Elles trouvent bien sûr des "équivalents" pour étudier les relations entre les autres types de variables (qualitatives-qualitatives, qualitatives-quantitatives, ordinales...).

Étudier la corrélation entre deux ou plusieurs variables quantitatives, c’est étudier l’intensité de la liaison qui peut exister entre ces variables. Pour étudier l’intensité de cette liaison, on calcule généralement ce que l’on appelle un coefficient de corrélation linéaire. Cela consiste à essayer de résumer la liaison qui existe en nos variables à l'aide d'une droite. On parle alors d'un ajustement linéaire.

Comment calculer les caractéristiques de cette droite ? En faisant en sorte que l'erreur que l'on commet en représentant la liaison entre nos variables par une droite soit la plus petite possible. Le critère formel le plus souvent utilisé, ce n'est donc pas le seul possible, est de minimiser la somme de toutes les erreurs au carré. On parle alors d'ajustement selon la méthode des moindres carrés ordinaires. La droite résultant de cet ajustement s'appelle une droite de régression. Plus la qualité globale de représentation de la liaison entre nos variables par cette droite est bonne, et plus le coefficient de corrélation linéaire associé l'est également. Il existe une équivalence formelle entre les deux concepts.

La liaison entre nos variables est donc représentée par un coefficient de corrélation linéaire. Ce coefficient indique dans quelle mesure les valeurs d’une variable sont proportionnelles à celles d’une autre variable. Il n’est pas sensible aux unités de chacune de nos variables. Ainsi par exemple, le coefficient de corrélation linéaire entre l’âge et le poids d’un individu sera identique que l’âge soit mesuré en semaine, en mois ou en année(s).

Les valeurs d'un coefficient de corrélation linéaire sont comprises entre -1 et 1. Une corrélation égale à 1 signifie que les variables sont linéairement parfaitement liées positivement. Une corrélation égale à -1 signifie que les variables sont linéairement parfaitement liées négativement. Une corrélation égale 0 signifie que les variables ne sont linéairement pas du tout liées.

Attention, il est toujours possible de calculer un coefficient de corrélation (sauf cas très particulier) mais un tel coefficient de corrélation n'arrive pas toujours à rendre compte de la relation qui existe en réalité entre des variables. En effet, il suppose que l'on essaye de juger de l'existence d'une relation linéaire entre nos variables. Il n'est donc pas adapté pour juger de corrélations qui ne seraient pas linéaires et non linéarisables. Il perd également de son intérêt lorsque les données étudiées sont très hétérogènes puisqu'il représente une relation moyenne et que l'on sait que la moyenne ne fait pas toujours sens, notamment si la distribution des données est multi modale.

Enfin, ce coefficient de corrélation va être très sensible à la présence de valeurs aberrantes et/ou extrêmes dans notre ensemble de données (valeurs très éloignées de la majorité des autres, pouvant être considérées comme des exceptions).

D'une manière générale, l'étude de la relation entre des variables, quelles qu'elles soient, doit s'accompagner de graphiques descriptifs, exhaustifs ou non dans l'appréhension des données à notre disposition, pour éviter de subir les limites purement techniques des calculs que nous utilisons. Néanmoins, dès qu'il s'agit de s'intéresser à des liaisons entre de nombreuses variables, les représentations graphiques peuvent ne plus être possibles ou être au mieux illisibles. Les calculs, comme ceux évoqués jusqu'à présent et donc limités par définition, nous aident alors à simplifier les interprétations que nous pouvons donner des liens entre nos variables, et c'est bien là leur intérêt principal. Il restera alors à vérifier que les principales hypothèses nécessaires à leur bonne lecture soit validées avant une quelconque interprétation.

  • corrélation :

tests pour vérifier que la loi choisie est judicieuse :

  • Test du χ² ou Khi-deux ou chi-carré (prononcer « ki-deux » ou « ki-carré ») : permet de mesurer l'indépendance des variables

Principe de la régression
Souvent, un phénomène physique est régi par une loi simple, qui se traduit par une relation affine entre deux grandeurs (c'est le cas le plus simple de variables corrélées) : Y = a X + b. À partir de mesures de couples de valeurs (xi,yi), on peut obtenir une estimation de a et b dès que X et Y sont corrélées. Cette estimation est d'autant meilleure que le coefficient de corrélation est proche de 1 ou -1. On réalise alors une régression linéaire.

Statistiques Mathématiques


Généralités

La théorie mathématiques des probabilités formalise les phénomènes aléatoires. Les statistiques mathématiques se consacrent à l'étude de phénomènes aléatoires que l'on connait via certaines de ses réalisations.

Par exemple, pour une partie de dés à six face:

  • Le point de vue probabiliste est de formaliser un tel jeu par une distribution de probabilités p_1,p_2,\ldots,p_6 associée aux événements la première, deuxième, ..., sixième face est tirée. La théorie des probabilités nous dit par exemple que pour que cette distribution soit une distribution de probabilités, il est nécessaire que \sum_{n=1}^6 p_n=1. On peut alors étudier différentes propriétés de ce jeu.
  • Une fois cela fixé, les statistiques s'interressent alors à ce genre de question: "si au bout de 100 parties, chaque face n a été tirée f_n fois, puis-je avoir une idée de la valeur des probabilités p_1,p_2,\ldots,p_6"?

Statisticiens


Analyse des données

  • J.P. Benzecri - l'inventeur de l'analyse des données
  • John Tukey - l'inventeur de l'analyse exploratoire des données
  • C. Hayashi - l'inventeur de la science des données

Le Métier


Le statisticien utilise des statistiques théoriques et appliquées dans le secteur privé et le secteur public. Le coeur du travail est de mesurer, interpréter et de décrire le monde en combinant généralement l'interprétation statistique avec des fortes connaissances sur le domaine d'étude. Les domaines d'applications sont très variés: la production, la recherche, les finances, la médecine, l'assurance et les statistiques descriptives au sujet de la société. Les statisticiens sont souvent employés en tant qu'aide à la décision. Historiquement les statistiques ont été employées dès l'Egypte antique pour le recensement de la population et les bétail.

Effectuent des recherches sur des concepts, des théories, des procédés et des méthodes statistiques, sous leurs aspects mathématiques et autres, les améliorent, et donnent des avis sur leurs applications dans des domaines tels que le commerce, la médecine, les sciences sociales et autres, ou les appliquent eux-mêmes.

Les statisticiens effectuent des recherches sur des concepts, des théories et des procédés et méthodes statistiques, sous leurs aspects mathématiques et autres, les améliorent ou en mettent au point de nouveaux, et donnent des avis sur leur application dans des domaines tels que le commerce ou la médecine ainsi que dans d'autres secteurs des sciences naturelles, des sciences sociales ou des sciences de la vie, ou les appliquent eux mêmes.

Leurs tâches consistent:

a) à étudier, améliorer et mettre au point des théories et des méthodologies statistiques;

b) à préparer et organiser des enquêtes et d'autres collectes de données statistiques, et à mettre au point des questionnaires;

c) à évaluer, traiter, analyser et interpréter des données statistiques et à les préparer en vue de leur publication;

d) à donner des avis sur divers modes de collecte des données, sur des méthodes et techniques statistiques, ou à les appliquer eux mêmes, et à déterminer la fiabilité des résultats de leur application, en particulier dans des domaines tels que le commerce ou la médecine ainsi que d'autres secteurs des sciences naturelles, des sciences sociales ou des sciences de la vie;

e) à préparer des communications scientifiques et des rapports;

f) à s'acquitter de fonctions connexes;

g) à surveiller d'autres travailleurs.

Parmi les professions qui entrent dans ce groupe de base figurent les suivantes: Démographe, Statisticien, Statisticien mathématicien,Statisticien, statistiques appliquées

Parmi les professions apparentées, classées ailleurs, figurent les suivantes: Assistant statisticien, Employé, service statistique

Liens dans Wikipedia


Voir aussi


Liens externes


Statistiques

Statistiek Статистика পরিসংখ্যান Stadegouriezh Estadística Statistik Statistik Statistika Στατιστική Statistics Estadística Statistiko آمار Statistyk Staidreamh Estatística Statistiko Statistica Tölfræði Statistica סטטיסטיקה Statistika Statistik Sjtattestiek Statistik Statistiek 統計学 Statistikk Statystyka (nauka) Estatística Statistică Статистика Statistica Statistics Štatistika Statistika Statistis Tilastotiede Statistik Estadistika สถิติศาสตร์ Khoa học thống kê 统计学

 

This article is licensed under the GNU Free Documentation License. It uses material from the "Statistiques".

Home Pageartsbusinesscomputersgameshealthhospitalshomekids & teensnewsphysiciansrecreationreferenceregionalscienceshoppingsocietysportsworld