4. La qualité de l'équation de régression (1/3)

En analyse de régression linéaire, on peut se poser la question " Quelle est la qualité de l'ajustement de l'équation de régression ? " On peut répondre à une telle question en utilisant le Coefficient de Détermination, c'est-à-dire la valeur du R2.

Rappelez-vous que l'ajustement par moindres carrés est fait pour minimiser les sommes des carrés des résidus de l'ajustement, y ˆ = b 0 + b 1 ·x , en minimisant ( Δy ) 2 Δy=y y ˆ .

Cette valeur est appelée la Somme des Carrés due à l'Erreur, ou SSE (Sums of Squares due to Error).

SSE= ( Δy ) 2 = ( y y ˆ ) 2 = ( y( b 0 + b 1 ·x ) ) 2

Nous pouvons également considérer deux autres types de résidus :

  • les résidus de la moyenne des observations et
  • les résidus entre la fonction ajustée et la valeur moyenne.
La relation entre eux est la suivante:

        Résidus de la moyenne
            = résidus entre la fonction et la moyenne
                 + résidus dus à l'erreur

y Y ˆ =( y ˆ Y ˆ )+( y y ˆ )

Cette équation est applicable pour tous les résidus, et nous pouvons donc aussi l'utiliser pour la somme et les carrés des résidus, tant qu'il n'y a pas de corrélation entre les observations.

S'il y avait une corrélation entre les observations, le terme des produits des carrés contiendrait des valeurs qui détruiraient cette relation. Sans corrélation, ces termes valent tous zéro.

( y Y ˆ )= ( y ˆ Y ˆ )+ ( y y ˆ )

Dans cette équation, nous savons que le SSE= ( y y ˆ ) ; le terme de la partie gauche est appelé la somme totale des carrés (Total Sum of Squares - SST) : SST= ( y Y ˆ ) ; enfin, le terme restant est appelé la somme ses carrés dus à la régression (Sum of squares due to the Regression - SSR) : SSR= ( y ˆ Y ˆ ) . Dès lors, nous obtenons :

SST=SSR+SSE

Le SST et SSE sont relativement faciles à calculer, et ils sont généralement utilisés pour trouver le coefficient de détermination, R2.

R 2 = SSR SST = (SSTSSE) SST

Rappelez-vous que la méthode des moindres carrés minimise le SSE. Si SSE = 0 comme c'est le cas se les données sont parfaitement ajustées à la droite de régression, alors R2 = 1,0. Si la régression n'apporte aucune assistance, alors SSE = SST et R2 = 0,0. Vous pouvez dès lors voir que 0,0 < R2 < 1,0 et que plus la valeur du coefficient de détermination est proche de 1,0, mieux la régression explique ou rend compte de la variation des valeurs de données y relativement aux valeurs de l'axe des x.