Kendall correlation : comprendre, calculer et interpréter la corrélation de Kendall dans l’analyse de données

La Kendall correlation est une mesure robuste et interprétable de l’association entre deux variables ordinales ou continues, particulièrement utile lorsque les hypothèses classiques de la corrélation linéaire ne tiennent pas. À la croisée des statistiques non paramétriques et de l’analyse des rangs, elle offre une alternative solide au coefficient de corrélation de Pearson et au rang de Spearman. Dans cet article, nous explorons en profondeur la Kendall correlation, ses variantes tau de Kendall, son calcul pratique, ses interprétations et ses limites, avec de nombreux exemples concrets et des tutoriels pas à pas pour Python et R.
Kendall correlation : définition et intuition
La Kendall correlation, ou corrélation de Kendall, est une mesure d’association qui repose sur les paires concordantes et discordantes entre les observations de deux variables. Elle capture l’idée qu’en moyenne, les paires de données qui augmentent ensemble tendent à être concordantes, tandis que celles qui augmentent d’un côté et diminuent de l’autre sont discordantes. Cette approche par rangs rend la Kendall correlation robuste face aux valeurs extrêmes et non paramétrique : elle ne suppose pas une relation linéaire ou une distribution normale des données.
Plus formellement, si l’on considère toutes les paires d’observations (i, j) avec i < j, on peut dénombrer les paires concordantes et discordantes. Une paire est concordante si l’ordre relatif des valeurs des deux variables est le même dans les deux variables (x_i < x_j et y_i < y_j, ou x_i > x_j et y_i > y_j). Elle est discordante si l’ordre des valeurs s’oppose (x_i < x_j et y_i > y_j, ou x_i > x_j et y_i < y_j). La Kendall correlation τ est ensuite définie comme la différence entre le nombre de paires concordantes et le nombre de paires discordantes, divisé par le nombre total de paires comparables.
La version la plus utilisée est le tau-b ou tau-c, adaptée pour gérer les liens et les rangs liés (ties). Cette correction permet d’obtenir des valeurs dans l’intervalle [-1, 1] quelle que soit la présence de valeurs identiques dans les données.
Kendall correlation et variantes : tau de Kendall, tau-b et tau-c
Le terme générique Kendall correlation recouvre plusieurs variantes qui s’adaptent à des contextes différents :
- Kendall tau (τ) : en pratique, on se réfère souvent à la version non corrigée qui compte les paires concordantes et discordantes sans ajustement particulier pour les égalités. Cette version est pédagogique mais peut sous-estimer la corrélation quand des ties sont présents.
- Kendall tau-b : cette variante ajuste les décomptes pour les égalités dans les deux variables, ce qui est fréquent dans des données quantitatives discrètes ou avec des pas de mesure fixes. tau-b est robuste et interprétable même en présence de valeurs identiques.
- Kendall tau-c : utile lorsque l’échelle des données est fortement asymétrique ou lorsque le nombre de catégories est inégal entre les deux variables. Tau-c peut mieux refléter l’association lorsque les rangs ne se répartissent pas de façon symétrique.
En pratique, lorsque l’on parle de la “corrélation de Kendall” sans précisions, on pense souvent à Kendall tau-b ou tau-c, selon le contexte et les données. L’objectif principal reste le même : mesurer l’association monotone entre deux variables sans imposer de forme linéaire stricte.
Calcul et interprétation : comment lire un coefficient de Kendall correlation
Le calcul de la Kendall correlation nécessite de compter les paires concordantes et discordantes, puis d’appliquer la formule adaptée à la variante choisie. Voici les idées clés :
Intuition du calcul
Imaginons une base de données avec n observations. Pour chaque paire (i, j) avec i < j, on examine l’ordre relatif des valeurs de x et y. Si les ordres concordent, on incrémente le compteur des concordances; s’ils divergent, on incrémente le compteur des discordances. Les ties (valeurs identiques) introduisent des ajustements qui dépendent de la variante tau-b ou tau-c.
Interprétation des valeurs
- τ ≈ 1 indique une association monotone forte et positive entre les deux variables.
- τ ≈ -1 indique une association monotone forte et négative.
- τ ≈ 0 suggère peu ou pas d’association monotone.
Contrairement au coefficient de corrélation de Pearson, qui mesure une liaison linéaire, Kendall correlation quantifie l’ordre relatif des observations. Cela rend l’interprétation très naturelle lorsque les données ne suivent pas une distribution bien-behavior ou lorsqu’on privilégie une relation monotone plutôt que linéaire.
Calculs pratiques et implémentation en science des données
Dans le monde moderne de l’analyse, les outils logiciel offrent des implémentations optimisées pour le calcul de Kendall correlation. Voici les principales approches et conseils pratiques :
Utiliser Python et SciPy
Dans Python, la bibliothèque SciPy propose une fonction adaptée pour calculer Kendall correlation, incluant les variantes tau-b et tau-c. Exemple rapide :
<code>from scipy.stats import kendalltau tau, p_value = kendalltau(x, y, method='auto') # method peut être 'asymptotic' ou 'b'/'c' selon la version </code>
La valeur tau mesure l’intensité de l’association et p_value permet d’évaluer la significativité statistique. Pour des jeux de données volumineux, SciPy applique des algorithmes optimisés afin de rester performant même avec des millions d’observations.
Utiliser R
En R, plusieurs paquets offrent des fonctions dédiées. La fonction cor(x, y, method = « kendall ») retourne le Kendall correlation. Pour les variantes tau-b et tau-c, on peut recourir à des packages spécialisés comme Kendall ou psych qui proposent des implémentations détaillées et des options de correction pour les égalités.
<code># Exemple R x <- c(...) ; y <- c(...) tau <- cor(x, y, method = "kendall") # tau-b et tau-c nécessitent parfois des packages spécifiques </code>
Kendall correlation vs Spearman : quand privilégier l’un ou l’autre
Deux mesures non paramétriques de corrélation, Kendall correlation et Spearman, dominent l’analyse des associations basées sur les rangs. Le choix entre les deux dépend de la nature des données et des hypothèses sous-jacentes :
est généralement plus robuste et plus fiable sur des échantillons petits ou modérés et lorsque des ties sont présents. Sa distribution sous l’hypothèse nulle est souvent mieux caractérisée dans ces situations, et il offre une estimation plus précise du rang ordinaire des observations. peut apparaître différemment pour des jeux de données très petits ou avec des égalités marquées. Spearman est parfois plus intuitive et peut mieux capter de fortes associations linéaires monotones lorsque les données se comportent bien et que les égalités sont rares.
En pratique, il est courant de calculer les deux mesures pour obtenir une image complète de la relation entre les variables. Si les résultats convergent (taux de corrélation proches et significatifs), on gagne en confiance dans l’existence d’une association monotone robuste.
Applications concrètes de Kendall correlation
La corrélation de Kendall trouve des usages dans de nombreux domaines, où les données ne respectent pas les hypothèses des méthodes paramétriques. Voici quelques cas types et les bénéfices associés :
Évaluation de la fiabilité et de la reproductibilité
Dans des expériences répétées, la Kendall correlation peut mesurer l’accord entre des mesures prises par différents opérateurs ou instruments, en tenant compte des éventuels ties et des biais non linéaires. Elle peut aussi être utilisée pour évaluer la stabilité des classements entre les sets de données au fil du temps.
Études en sciences sociales et économie
Les données ordinales ou discrètes, comme des classements, des réponses de Likert ou des indices socio-économiques, bénéficient de la Kendall correlation pour révéler des associations monotones sans imposer de forme particulière à la distribution. Cela renforce la robustesse des conclusions dans des contextes réels, non idéalisés.
Biostatistique et épidémiologie
Dans les analyses de risque et d’associations entre facteurs cliniques, la corrélation de Kendall peut aider à comprendre comment des marqueurs biologiques ou des scores de gravité évoluent ensemble sans supposer de relation linéaire directe ou de normalité des données.
Limitations et conseils méthodologiques
Comme toute statistique, Kendall correlation a ses limites et ses précautions d’emploi :
- Elle mesure une association monotone et non nécessairement une causalité. Une corrélation élevée n’implique pas qu’un facteur provoque l’autre.
- Les résultats peuvent être sensibles au nombre de paires et à la présence d’outliers extrêmes dans certains cas, bien que la méthode soit plus robuste que les mesures paramétriques classiques.
- Les égalités dans les données peuvent influencer l’estimation; privilégier tau-b ou tau-c est souvent recommandé lorsque des valeurs identiques sont fréquentes.
- Dans des données fortement non linéaires, Kendall correlation peut ne pas capter des relations complexes non monotones. Dans ces cas, d’autres approches (modèles non linéaires, apprentissage supervisé) peuvent être plus adaptées.
Étapes pratiques : tutoriel rapide pour calculer Kendall correlation
Ce volet propose un petit guide pratique pour calculer la kendall correlation dans deux environnements courants : Python et R, avec des exemples simples et reproductibles.
Tutoriel Python : Kendal correlation avec SciPy
Supposons que vous disposez de deux listes ou tableaux NumPy x et y :
<code>from scipy.stats import kendalltau
import numpy as np
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 5, 7, 11])
tau, p_value = kendalltau(x, y, method='asymptotic')
print("Kendall tau:", tau)
print("p-value:", p_value)
</code>
Conseil : pour des grands jeux de données, privilégier les méthodes asymptotiques et vérifier les p-values avec la significativité ajustée selon le contexte (niveau de signification, tests multiples, etc.).
Tutoriel R : calcul de la corrélation de Kendall
En R, une approche simple consiste à utiliser la fonction cor avec method = « kendall » :
<code>x <- c(...); y <- c(...) tau <- cor(x, y, method = "kendall") print(tau) </code>
Pour des variantes tau-b et tau-c, on peut recourir à des packages comme Kendall ou DescTools qui offrent des fonctions dédiées et des options avancées pour la gestion des égalités et des configurations de données spécifiques.
Cas d’études et exemples illustratifs
Pour rendre tangible l’usage de la corrélation de Kendall, voici deux scénarios pratiques qui mettent en évidence son interprétation et sa robustesse :
Exemple 1 : classement étudiant et réussite académique
Imaginons une étude évaluant le rang d’un étudiant en mathématiques et sa réussite finale mesurée par un score global. Les données étant souvent ordonnées et sujettes à des égalités (plusieurs étudiants peuvent obtenir le même rang), Kendall correlation tau-b ou tau-c offre une estimation fiable de l’association monotone entre ces deux mesures. Une valeur de τ proche de 0.65 suggère une relation monotone modérée à forte : les étudiants qui obtiennent de meilleures notes relatives en mathématiques ont généralement un meilleur score global, sans supposer une relation linéaire précise.
Exemple 2 : évaluation de l’impact d’un paramètre environnemental sur une espèce
Supposons une étude écologique mesurant la vitesse de croissance d’une espèce en fonction de l’intensité lumineuse. Les données sont parfois bruitées et présentent des valeurs proches entre certaines conditions, rendant les tests paramétriques sensibles. L’utilisation de la corrélation de Kendall permet d’évaluer l’association monotone entre l’intensité lumineuse et la vitesse de croissance sans imposer une forme particulière de dépendance. Un τ positif et significatif indique que les conditions lumineuses plus élevées sont généralement associées à une croissance plus rapide, de manière robuste face aux valeurs aberrantes et aux ties.
Bonnes pratiques et conseils avancés
Pour tirer le meilleur parti de la Kendall correlation, voici quelques recommandations :
- Préparez vos données : vérifiez les valeurs manquantes, les valeurs extrêmes, et les éventuels ties. Considérez les imputation prudentes ou l’analyse des sous-groupes si nécessaire.
- Signification statistique : ne vous contentez pas de la valeur de τ. Inspectez le p-value et le contexte du test (taille de l’échantillon, biais potentiels, corrections pour tests multiples).
- Rapports et visualisations : présentez la kendall correlation avec des graphiques de dépendance par rang (nuage de points avec lignes de tendance non paramétriques) et mentionnez la variante (tau-b, tau-c) utilisée pour que les lecteurs comprennent les ajustements pour les égalités.
- Comparaisons : lorsque cela est pertinent, calculez également Kendall correlation et Spearman pour comparer les résultats et étoffer l’interprétation.
- Documentation et reproductibilité : consignez les paramètres (variant tau-b ou tau-c, gestion des valeurs manquantes, version de la bibliothèque utilisée) pour que vos analyses soient reproductibles.
Terminologie et langage autour de Kendall correlation
Dans la littérature et les présentations, vous rencontrerez plusieurs formulations autour de Kendall correlation :
- corrélation de Kendall, ou Kendall correlation, terme anglais utilisé dans les documents techniques, rapports et codes.
- tau de Kendall (τ de Kendall), version statistiquement centrale, avec ou sans correction pour les égalités.
- Kendall tau-b et Kendall tau-c, variantes qui adapteront l’estimation selon le contexte des données et la présence de ties.
- corrélation basée sur les rangs, ou corrélation de rangs, expression générale qui décrit l’esprit non paramétrique de l’approche.
Conclusion : pourquoi choisir la Kendall correlation pour vos analyses
La Kendall correlation est un outil puissant, élégant et robuste pour évaluer l’association entre deux variables sans exiger des hypothèses fortes sur la distribution ou la forme de la relation. Son approche fondée sur les rangs et son cadre non paramétrique en font une option privilégiée dans de nombreuses disciplines, notamment lorsque les données comportent des valeurs identiques, des outliers ou des distributions inconnues. En complément des autres mesures de corrélation, la corrélation de Kendall vous offre une vision fiable de la dépendance monotone, facile à interpréter et adaptée à la complexité du monde réel.
FAQ rapide sur la Kendall correlation
Voici quelques réponses succinctes aux questions fréquemment posées par les chercheurs et praticiens :
- Q : Quelle est la différence entre Kendall correlation et la corrélation de Pearson ?
- A : Kendall correlation est non paramétrique et repose sur les rangs, tandis que Pearson suppose une relation linéaire et une distribution normale des données. Kendall est plus robuste en présence de non-linéarité et de valeurs extrêmes.
- Q : Quand préférer tau-b à tau-c ?
- A : Tau-b est généralement utilisé lorsque les égalités existent dans les deux variables et que vous gérez des données discrètes; tau-c peut être préféré pour des distributions asymétriques avec un grand nombre de catégories.
- Q : Est-ce que une corrélation élevée signifie causalité ?
- A : Non. Comme pour toute corrélation, elle indique une association, pas une causalité. Des analyses complémentaires et un raisonnement mécanistique sont nécessaires pour explorer les causalités.