ACP/ACM

Notre dataset est constitué de variables quantitatives (numériques) et qualitatives (catégorielles).
L’ACP (Analyse en Composantes Principales, PCA en anglais) et l’ACM (Analyse des Correspondances Multiples, MCA en anglais) vont permettre d’explorer ces données, de visualiser les relations qui peuvent exister entre elles ou non.
Il existe également l’AFDM (Analyse Factorielle de Données Mixtes, FAMD en anglais) qui permet de combiner ACP et ACM, mais nous ne nous y intéressons pas ici, car l’AFDM revient à une ACP ou une ACM après avoir transformé les variables catégorielles en variables numériques, ou inversement. De plus il convient de ne pas trop considérer de variables en même temps, afin que leurs projections restent lisibles.

1/ ACP

L’ACP porte sur les données numériques.
On se limite donc ici aux données numériques de notre dataset, après les avoir normalisées et centrées.
Chaque cheval est représenté par un vecteur de 14 composantes numériques: Numéro, Mois, Prix, Nb_chevaux_reel, Nb_non_partants,Distance, Distance_supp, Age, note_musique, Rapport_PMU_a10min, Rapport_PMU_a10min_rel, note_place, recence, note_prono.
Ces composantes sont soit liées proprement au cheval (Numéro, Distance_supp, Age, note_musique, Rapport_PMU_a10min, Rapport_PMU_a10min_rel, note_place, recence, note_prono), soit liées à la course et donc partagées par les mêmes chevaux d’une course (Mois, Prix, Nb_chevaux_reel, Nb_non_partants, Distance)
L’ACP va permettre de projeter ces vecteurs dans un espace plus réduit, dont on choisi la dimension.
Traditionnellement on choisit un espace de dimension 2 ou 3 afin de pouvoir visualiser les vecteurs projetés dans le plan ou en 3D, le cerveau humain ne parvenant pas à visualiser des données dans des espaces de dimensions supérieures.
Ici on va demander à projeter nos données dans un espace de dimension 2.
Notre algorithme va donc constituer 2 axes (les composantes principales), chaque axe étant une combinaison linéaire « optimale » des 14 composantes numériques, de façon à ce que ces axes soient orthogonaux et permettent la projection de nos données dans le plan, tout en permettant de visualiser au maximum la variance de nos données.

2/ ACM
L’ACM porte sur les données catégorielles. Comme nous l’évoquions précédemment nous pouvons cependant y inclure également des données numériques en les transformant en classes par discrétisation (ceci est plus simple que de transformer des données catégorielles en données numériques, car pour chacune de ces données il faut alors créer autant de colonnes que de classes, et leur attribuer la valeur 0 ou 1).
Nous rajoutons ainsi dans les données catégorielles les données numériques suivantes:

  • la donnée du rapport PMU à 10min, en discrétisant cette donnée en 5 classes: R1,R2,R3,R4,R5
  • la donnée de la note de place. On part d’une donnée entière (note place=5 pour les chevaux arrivant 1er, 4 pour les chevaux arrivant 2ème, etc et en ayant une note de 0 pour les chevaux non placés) qu’on transforme en donnée catégorielle, avec 6 catégories (de 0 à 5)

En effet ces 2 données sont importantes dans notre analyse, car c’est surtout par rapport à la place que nous voulons visualiser la corrélation des variables catégorielles, et nous savons également d’expérience que la donnée du rapport est une donnée importante.
La difficulté dans la visualisation de l’ACM est que pour chaque donnée chaque valeur de classe est représentée graphiquement, ce qui peut vite compliquer la lecture de la projection lorsqu’on a de nombreuses données catégorielles ayant chacune plusieurs classes possibles. Nous effectuerons donc plusieurs analyses ACM successives sur un nombre restreint de variables dont nous souhaitons étudier la corrélation, plutôt que d’essayer de faire une projection sur l’ensemble des variables.

Vous trouverez ci-dessous les principaux résultats de ces analyses ACP et ACM, pour les 2 disciplines Trot attelé et Plat.
Sans surprise, on retrouve globalement les mêmes conclusions que celles trouvées dans la partie Analyses statiques de ce site.
Celles-ci reposaient sur des matrices de contingence (comptage des cas pour estimer la dépendance de 2 variables), alors qu’ici on utilise des méthodes plus puissantes, puisqu’on peut analyser des corrélations de façon beaucoup plus rapide, plus visuelle, et sur plusieurs variables en même temps.

Trot attelé

On voit que les données liées au cheval et à sa performance se trouvent en grande partie sur l'axe horizontal de la PCA, alors que les données liées à la course et donc indépendantes des chevaux sont sur l'axe vertical; à l'exception du numéro, de l'âge et de la distance supplémentaire, propres au cheval mais donc a priori sans impact sur sa performance.
Les chevaux les moins bons ont des rapports forts, une note de musique élevée, il n'est donc pas surprenant de retrouver ces variables ensemble. La récence se rapproche de ces variables, ce qui est aussi cohérent avec le fait qu'un cheval n'ayant pas couru depuis longtemps est en général moins performant.
A l'inverse, note_place et note_prono se trouvent à l'opposé sur cet axe, car les meilleurs chevaux sont ceux avec une note_place élevée et une note_prono élevée

On retrouve aussi des corrélations connues comme le fait que la distance supplémentaire courue est corrélée au numéro sur les courses de trot: en effet au trot l’attribution des numéros se fait par ordre croissant des gains des chevaux, c’est-à-dire que plus le cheval est riche plus le numéro attribué est élevé, et la distance supplémentaire est également dépendante des gains (les meilleurs chevaux doivent courir une plus longue distance). Le nombre de chevaux réel varie logiquement de façon contraire au nombre de non partants.

On voit que la la place à l'arrivée est bien corrélée aux rapports probables.
Plus le rapport est faible (proche de R1), et mieux le cheval se place (proche de note_place=5)

On voit en plus sur cette projection, que le déferrage a une influence sur la place du cheval.
Les chevaux Non déferrés et non placés sont corrélés, alors que les chevaux déferrés des 4 puis ceux déferrés des postérieurs se rapprochent des meilleures places.
On retrouve ainsi ces résultats bien connus et déjà démontrés ici.

On rajoute ici le sexe et l'âge. On voit que la lecture des corrélations des variables commence à être plus difficile, à la fois parce qu'on a beaucoup de valeurs catégorielles, mais aussi parce que certaines corrélations peuvent apparaître sans pour autant qu'il y ait en réalité une causalité.
On retrouve globalement les résultats vus précédemment, plus certains autres introduits par les nouvelles variables, comme le fait que les chevaux les plus âgés (de 7 à 10ans) se retrouvent plus proches de la place 0 (c'est à dire non classés), que les plus jeunes, qui sont plus proches des meilleures places. Concernant le sexe, les mâles semblent dominer suivis des femelles puis des hongres.

On se focalise ici uniquement sur les courses sans autostart.
Afin que chaque numéro soit représenté de façon égale dans les courses analysées, on étudiera les courses de 16 chevaux minimum, qui sont assez nombreuses pour fournir des résultats intéressants.
On se limite aussi aux courses à maximum de 18 chevaux, car les courses à 19 et 20 chevaux sont sous-représentées et introduisent un biais.

On retrouve globalement quelque chose de connu (et déjà démontré ici): au trot l’attribution des numéros se fait par ordre croissant des gains des chevaux, c’est-à-dire que plus le cheval est riche (et donc meilleur est le cheval), plus le numéro attribué est élevé.
Cette corrélation numéro élevé/note de place élevée est bien visible sur cette projection.

On se focalise ici uniquement sur les courses avec autostart.
Afin que chaque numéro soit représenté de façon égale dans les courses analysées, on étudiera les courses de 16 chevaux minimum, qui sont assez nombreuses pour fournir des résultats intéressants.
On se limite aussi aux courses à maximum de 18 chevaux, car les courses à 19 et 20 chevaux sont sous-représentées et introduisent un biais.
On voit que dans ce cas, globalement ce ne sont pas les chevaux aux numéros élevés les meilleurs, mais ceux situés en première ligne

Plat

On ne considère ici que les données liées au cheval.
On voit que la performance (note_place) est portée sur l'axe des X.
Meilleure est la place (note_place=5 pour les chevaux gagnants) et meilleure est la note de pronostics.
Le poids varie dans le même sens, ce qui semble indiquer que malgré leur handicap de poids, les meilleurs chevaux restent gagnants.
Le numéro, la musique et le rapports sont à l'opposé sur l'axe des X, ce qui reflète que plus ils sont bas et meilleur est le cheval.
En effet rappelons que au galop, en cas de handicap, ce sont les chevaux les plus riches (et les plus lourds) qui ont les plus petits numéros.

On voit que la place à l'arrivée est bien corrélée aux rapports probables.
Plus le rapport est faible, et mieux le cheval se place.

On voit que les chevaux sans oeillères sont davantage corrélés aux meilleures places alors que les chevaux avec oeillères (australiennes ou standards) se trouvent à l'opposé sur l'axe des X, du côté des chevaux non placés (np=0).
On retrouve ainsi un résultat bien connu et également démontré ici

On voit que les chevaux dans la catégorie de corde la plus élevée sont ceux qui ne se placent pas à l'arrivée, alors qu'à l'inverse les catégories les plus basses se rapprochent des chevaux les mieux placés, sur la projection sur l'axe des X. On retrouve ainsi un résultat connu, les chevaux à faible numéro de corde sont avantagés car ils parcourent moins de distance, comme nous l'avons également montré ici

Pour le fun, on effectue maintenant une MCA avec l'ensemble des variables propres au cheval:
Numéro, Sexe, Age, Oeilleres, Rapport_PMU_a10min (discrétisé), Corde (discrétisée), note_place (transformée en variable catégorielle), récence (discrétisée), note musique (discrétisée), note_prono (discrétisée)

Comme évoqué en préambule, la lecture est plus compliquée, il faut zoomer sur le graphique.
On retrouve les mêmes conclusions que sur le trot attelé à savoir que les variables principales qui influencent la place à l'arrivée sont le pronostic, la musique et le rapport. On a ensuite le numéro du cheval - ceux avec le plus petit numéro sont les meilleurs (à gauche sur l'axe des X). Les numéros 19 et 20 sont peu représentés et ils apparaissent ainsi comme des outliers. On voit aussi que les meilleurs chevaux sont les plus jeunes globalement mais il faut faire attention à cette donnée, il peut y avoir un biais car tous les ages ne sont pas représentés dans chaque course et les courses se font souvent pour une tranche d'âge donnée.