Ergänzung 2.1: Punktwolken und Ausgleichsgeraden (3/3)

Der Korrelationskoeffizient

Wir untersuchen eine Punktwolke P( x i , y i ) , mit i=1, ..., n. Die Punkte sind durch einen Satz von n Merkmalspaaren x i und y i definiert. Wie bereits gezeigt, kann der Schwerpunkt der Punktwolke und die Ausgleichsgerade bestimmt werden. Wir interessieren uns für eine Größe, die angibt, wie sehr die Punkte von der Ausgleichsgerade abweichen. Hierzu betrachten wir als Beispiel den Punkt P( x 5 , y 5 ) in der unten dargestellten Grafik, und seine durch die Ausgleichsgerade vorhergesagte Position P( x 5 ,f( x 5 ) ).

Zoom Sign
Wassertemperaturen im Oktober
Wassertemperaturen im Oktober bei Spiekeroog (blaue Datenpunkte), Ausgleichsgerade (rote durchbrochene Linie) und Schwerpunkt P( x ¯ , y ¯ ) . Der Datenpunkt P( x 5 , y 5 ) ist verglichen mit seinem durch die Ausgleichsgerade vorhergesagten Wert P( x 5 ,f( x 5 ) ) .

Die Lage von P( x 5 , y 5 ) wird, wie im unten dargestellten Diagramm dargestellt, in zwei Schritten erklärt:

  • die Lage des durch die Ausgleichsgerade vorhergesagten Punktes P( x 5 ,f( x 5 ) ) bei gleichem x=x5:   f( x 5 ) y ¯
    (durch die Ausgleichsgerade vorhergesagte Abweichung)
  • die Abweichung von P( x 5 , y 5 ) zu P( x 5 ,f( x 5 ) ) : y 5 f( x 5 )
    (unerklärte Abweichung)
Zoom Sign
Abweichungen von Punkt 5
Erklärung der Lage von P( x 5 , y 5 ) in zwei Schritten: durch die Ausgleichsgerade vorhergesagter Teil (untere Klammer) und unerklärter Teil (obere Klammer).

Dieses Konzept kann auf alle Punkte der Punktwolke übertragen werden, um ihre Abweichung von der Ausgleichsgeraden darzustellen.

Die Größe, welche nun angibt, wie gut die Punktwolke durch die Aus- gleichsgerade wiedergegeben wird, ist der Korrelationskoeffizient r, der folgendermaßen definiert ist:
r= Wurzel aus den vorhergesagten quadratischen Abweichungen Wurzel aus den gesamten quadratischen Abweichungen

r= 1 n i=1 n ( f( x i ) y ¯ ) 2 1 n i=1 n ( y i y ¯ ) 2 = i=1 n ( f( x i ) y ¯ ) 2 i=1 n ( y i y ¯ ) 2

Der lineare Korrelationskoeffizient

Die in Kapitel 2 auf der Seite Lineare Regressionsanalyse (3/3) genutzte Gleichung für den Korrelationskoeffizienten unterscheidet sich von der Beziehung in der linken Spalte. Sie gilt ausschließlich für Ausgleichsgeraden (daher: linearer Korrelationskoeffizient), während die Gleichung links auch für gekrümmte Ausgleichsfunktionen richtig ist.

Die Gleichung für den linearen Korrelationskoeffizienten erhält man durch Quadrieren der Gleichung in der linken Spalte und Ersetzen von f( x i ) y ¯ durch a( x i x ¯ ) :

r 2 = a 2 i=1 n ( x i x ¯ ) 2 i=1 n ( y i y ¯ ) 2

Mit der auf der vorherigen Seite angegebenen Steigung a folgt:

r 2 = ( i=1 n ( x i x ¯ )( y i y ¯ ) ) 2 ( i=1 n ( x i x ¯ ) 2 ) 2 i=1 n ( x i x ¯ ) 2 i=1 n ( y i y ¯ ) 2

Durch Kürzen vereinfacht sich dies zu:

r 2 = ( i=1 n ( x i x ¯ )( y i y ¯ ) ) 2 i=1 n ( x i x ¯ ) 2 i=1 n ( y i y ¯ ) 2

Ziehen der Wurzel ergibt schließlich:

r= | i=1 n ( x i x ¯ )( y i y ¯ ) | i=1 n ( x i x ¯ ) 2 i=1 n ( y i y ¯ ) 2

Lässt man die Betragsstriche weg,

r= i=1 n ( x i x ¯ )( y i y ¯ ) i=1 n ( x i x ¯ ) 2 i=1 n ( y i y ¯ ) 2

so kann der linearer Korrelationskoeffizient auch negative Werte einnehmen: man gibt üblicherweise r das gleiche Vorzeichen wie a.

Vorteilhaft an der Gleichung ist, dass ausschließlich die Koordinaten des Schwerpunkts und der Datenpunkte eingehen, die Gleichung in der linken Spalte erfordert auch Koordinatenwerte der Ausgleichsfunktion.