Ergänzung 2.1: Punktwolken und Ausgleichsgeraden (3/3)
Der Korrelationskoeffizient
Wir untersuchen eine Punktwolke , mit i=1, ..., n. Die Punkte sind durch einen Satz von n Merkmalspaaren und definiert. Wie bereits gezeigt, kann der Schwerpunkt der Punktwolke und die Ausgleichsgerade bestimmt werden. Wir interessieren uns für eine Größe, die angibt, wie sehr die Punkte von der Ausgleichsgerade abweichen. Hierzu betrachten wir als Beispiel den Punkt in der unten dargestellten Grafik, und seine durch die Ausgleichsgerade vorhergesagte Position .
Die Lage von wird, wie im unten dargestellten Diagramm dargestellt, in zwei Schritten erklärt:
-
die Lage des durch die Ausgleichsgerade vorhergesagten Punktes bei gleichem x=x5:
(durch die Ausgleichsgerade vorhergesagte Abweichung) -
die Abweichung von zu :
(unerklärte Abweichung)
Dieses Konzept kann auf alle Punkte der Punktwolke übertragen werden, um ihre Abweichung von der Ausgleichsgeraden darzustellen.
Der lineare Korrelationskoeffizient
Die in Kapitel 2 auf der Seite Lineare Regressionsanalyse (3/3) genutzte Gleichung für den Korrelationskoeffizienten unterscheidet sich von der Beziehung in der linken Spalte. Sie gilt ausschließlich für Ausgleichsgeraden (daher: linearer Korrelationskoeffizient), während die Gleichung links auch für gekrümmte Ausgleichsfunktionen richtig ist.
Die Gleichung für den linearen Korrelationskoeffizienten erhält man durch Quadrieren der Gleichung in der linken Spalte und Ersetzen von durch :
Mit der auf der vorherigen Seite angegebenen Steigung a folgt:
Durch Kürzen vereinfacht sich dies zu:
Ziehen der Wurzel ergibt schließlich:
Lässt man die Betragsstriche weg,
so kann der linearer Korrelationskoeffizient auch negative Werte einnehmen: man gibt üblicherweise r das gleiche Vorzeichen wie a.
Vorteilhaft an der Gleichung ist, dass ausschließlich die Koordinaten des Schwerpunkts und der Datenpunkte eingehen, die Gleichung in der linken Spalte erfordert auch Koordinatenwerte der Ausgleichsfunktion.