4. La qualité de l'équation de régression (2/3)

On peut interpréter le SST comme une mesure de la capacité de la valeur moyenne à estimer y en fonction de x. Mieux cette variation est expliquée par l'équation de régression, meilleure est cette équation à estimer y grâce aux valeurs de x. Dès lors, plus le SSR est proche du SST, mieux l'équation de régression explique les variations de y en fonction de x. Le coefficient de détermination montre la proportion des résidus expliqués par l'équation de régression.

Dans notre exemple, 85,95% de la variation du GLAI est expliquée pour le blé d'hiver, et 79,42% est expliquée pour l'orge de printemps en utilisant une régression linéaire simple. Il est possible d'atteindre de meilleurs résultats en utilisant une fonction polynomiale d'ordre plus élevé.

Un problème du coefficient de détermination est qu'il ne prend pas en compte la taille de l'échantillon. Dès lors, avec seulement deux observations, on peut trouver un modèle linéaire qui s'alignerait parfaitement sur les deux points avec un R2 égal à 1,0. Quoi qu'il en soit, personne ne ferait vraiment confiance à seulement deux observations pour représenter une population.

Pour résoudre ce problème, le F statistique (F de Snedecor) est utilisé comme meilleur test de qualité de régression, expliquant mieux les variations des valeurs de y en fonction des valeurs de x. Le F statistique est en fait utilisé pour tester l'hypothèse que la valeur du gain de régression (b1) est zéro, appelée hypothèse NULLE. Si b1 = 0, alors il n'y a pas de relation entre les variables indépendantes et dépendantes.

The probability distribution associated with the regression line
Distribution de probabilité associée à la droite de régression. La variance tend à augmenter depuis le centre de la droite vers ses extrémités.

La logique d'utilisation du F statistique est basée sur notre habilité à trouver deux estimations de variances associées aux résidus de la régression. Le SSE donne une estimation de cette variance. Si la valeur du gain est zéro, c'est-à-dire si la régression n'est pas significative, alors le SSR sera la base de la seconde estimation de la variance des résidus. Le F statistique est le rapport entre ces deux estimations de la variance. Si le F statistique est proche de un, alors l'hypothèse NULLE est acceptée, ce qui veut dire que la régression n'est pas significative. Si l'hypothèse NULLE est rejetée, on peut accepter la régression comme significative.

F= MSR MSE = SSR RDF SSE N1RDF