Oft werden zwei Merkmale daraufhin untersucht, wie stark sie miteinander zusammenhängen (korrelieren). Ein Maß dafür ist die Kovarianz:
("Mittelwert der Produkte minus Produkt der Mittelwerte")
Eine andere Möglichkeit besteht darin, die Daten durch eine geeignete Funktion möglichst gut anzunähern.
Bei der Methode der linearen Regression nimmt man an, dass zwischen den beiden
Werten ein linearer Zusammenhang besteht, das heißt:
y = a·x + b + ein zufälliger Fehler
Die Konstanten a und b werden so bestimmt, dass die Summe der Quadrate der Fehler möglichst klein
wird (Methode der kleinsten Fehlerquadrate von C.F. Gauß).
Anschaulich können wir uns das so vorstellen, dass wir x und y als Koordinaten von Punkten
auffassen und in ein Koordinatensystem einzeichnen. Wir suchen dann die Gerade,
die diese Punktwolke am besten annähert (Regressionsgerade, siehe
Beispiel). Diese Aufgabe kann man mit Hilfe der Differentialrechnung
lösen und erhält als Gleichung der Regressionsgeraden:
y = a·x + b, wobei
Die zweite Formel ergibt sich daraus, dass die Regressionsgerade durch den "Schwerpunkt" der Punktwolke geht.
Der Korrelationskoeffizient r liefert ein Mass dafür, wie gut die gegebenen Werte durch diese lineare Funktion angenähert werden. Er ist definiert durch
Der Wert von r liegt immer zwischen −1 und 1. Dabei bedeutet
r nahe bei 1: starker positiver Zusammenhang (je größer x, umso größer y)
r nahe bei −1: starker negativer Zusammenhang (je größer x, umso kleiner y)
r nahe bei 0: schwacher oder gar kein Zusammenhang
Manchmal verwendet man auch das Bestimmtheitsmaß r2. Es gibt an, welcher Anteil der Abweichungen vom Mittelwert durch die Korrelation erklärt wird.
Achtung: Eine starke Korrelation muss noch keinen ursächlichen Zusammenhang bedeuten! (Es gibt zwar eine positive Korrelation zwischen der Anzahl der Störche im Burgenland und der Zahl der Geburten, aber daraus kann man nicht schließen, dass der Storch die Kinder bringt!)
Normalerweise ermittelt man die Regressionsgerade mit der Statistikfunktion des Taschenrechners oder anderer geeigneter Technologie.
In manchen Fällen kann es zweckmäßiger sein, die gegebenen Daten durch eine quadratische Funktion, eine Exponentialfunktion usw. anzunähern. Dann spricht man von quadratischer Regression bzw. exponentieller Regression ... Auch diese Funktionen kann man mit der Statistikfunktion des Taschenrechners finden.
Beispiel:
Wir wollen anhand der Angaben aus dem vorigen Beispiel untersuchen, ob zwischen Körpergröße (x) und Schuhgröße (y) ein linearer Zusammenhang besteht.
Wir zeichnen die Werte in ein Koordinatensystem:Um die Regressionsgerade mit der Hand zu ermitteln, machen wir am besten eine Tabelle:
i
xi
yi
xi2
yi2
xi·yi
1
168
39
28224
1521
6552
2
170
39
28900
1521
6630
3
161
38
25921
1444
6118
4
168
38
28224
1444
6384
5
162
37
26244
1369
5994
6
172
41
29584
1681
7052
7
164
38
26896
1444
6232
8
167
38
27889
1444
6346
9
170
40
28900
1600
6800
10
158
37
24964
1369
5846
Summe
1660
385
275746
14837
63954
: n =
166
38,5
27574,6
1483,7
6395,4
V(x) = 27574,6 − 1662 = 18,6
V(y) = 1483,7 − 38,52 = 1,45
Cov(x,y) = 6395,4 − 166·38,5 = 4,4
a = 4,4/18,6 = 0,237
b = 38,5 − 0,237·166 = −0,769
r = 4,4/√(18,6·1,45) = 0,847 Die Gleichung der Regressiongeraden lautet also
y = 0,237·x − 0,769 Das heißt: Pro Zentimeter Körpergröße nimmt die Schuhgröße um durchschnittlich 0,237 zu.
Der Korrelationskoeffizient liegt nahe bei 1, es handelt sich also um einen starken positiven Zusammenhang.
Mithilfe der Regressionsrechnung kann man auch einen Trend abschätzen. Das ist vor allem dann von Bedeutung, wenn es sich bei den Daten um eine Zeitreihe handelt.
Beispiel:
Der Pkw-Bestand in Österreich betrug (in Tausend):
1970: 1197
1975: 1721
1980: 2247
1985: 2531
1990: 2991
Ermittle die lineare Regressionsfunktion und erstelle eine Prognose für 2000.Wenn wir 1970 als Jahr 0 annehmen, lautet die Gleichung der Regressionsgeraden:
y = 87,96·x + 1257,8 Für 2000 (Jahr 30) erhalten wir dann den Wert
y(30) = 87,96·30 + 1257,8 = 3896,6 Wir können also für 2000 einen Pkw-Bestand von 3896600 erwarten (blauer Punkt). Tatsächlich waren es 4097000 Pkw, die Prognose ist also ziemlich gut.