4. La qualité de l'équation de régression (1/3)
En analyse de régression linéaire, on peut se poser la question " Quelle est la qualité de l'ajustement de l'équation de régression ? " On peut répondre à une telle question en utilisant le Coefficient de Détermination, c'est-à-dire la valeur du R2.
Rappelez-vous que l'ajustement par moindres carrés est fait pour minimiser les sommes des carrés des résidus de l'ajustement, , en minimisant où .
Cette valeur est appelée la Somme des Carrés due à l'Erreur, ou SSE (Sums of Squares due to Error).
Nous pouvons également considérer deux autres types de résidus :
- les résidus de la moyenne des observations et
- les résidus entre la fonction ajustée et la valeur moyenne.
Résidus de la moyenne
= résidus entre la fonction et la moyenne
+ résidus dus à l'erreur
Cette équation est applicable pour tous les résidus, et nous pouvons donc aussi l'utiliser pour la somme et les carrés des résidus, tant qu'il n'y a pas de corrélation entre les observations.
S'il y avait une corrélation entre les observations, le terme des produits des carrés contiendrait des valeurs qui détruiraient cette relation. Sans corrélation, ces termes valent tous zéro.
Dans cette équation, nous savons que le ; le terme de la partie gauche est appelé la somme totale des carrés (Total Sum of Squares - SST) : ; enfin, le terme restant est appelé la somme ses carrés dus à la régression (Sum of squares due to the Regression - SSR) : . Dès lors, nous obtenons :
Le SST et SSE sont relativement faciles à calculer, et ils sont généralement utilisés pour trouver le coefficient de détermination, R2.
Rappelez-vous que la méthode des moindres carrés minimise le SSE. Si SSE = 0 comme c'est le cas se les données sont parfaitement ajustées à la droite de régression, alors R2 = 1,0. Si la régression n'apporte aucune assistance, alors SSE = SST et R2 = 0,0. Vous pouvez dès lors voir que 0,0 < R2 < 1,0 et que plus la valeur du coefficient de détermination est proche de 1,0, mieux la régression explique ou rend compte de la variation des valeurs de données y relativement aux valeurs de l'axe des x.