Bei der linearen Regression wird ein Modell gesucht, das die vorliegenden empirischen Daten möglichst gut abbildet.
Dabei ist es sehr unwahrscheinlich, dass das gefundene Modell die Daten perfekt abbildet.
Stattdessen wird versucht, das Modell – im Fall der bivariaten linearen Regression also die Lineargleichung – derart für die
Punktewolke zu konstruieren, dass es möglichst optimal ist. Diese (in diesem Fall) optimale Regressionsgrade
muss zunächst erst einmal gefunden werden. Aber – welche Gerade ist denn die Beste?
OLS-Verfahren
Das OLS-Verfahren (ordinary least squares) geht auf den Mathematiker Carl Friedrich Gauß zurück.
Es dient der Ermittlung der Regressionsgeraden, die für die empirischen Daten am besten geeignet ist.
D.h., wie im Video bereits aufgezeigt, dass die sogenannten Residuen, also die lotrechten Abstände von
den real gemessenen Daten zur Regressionsgeraden, möglichst gering sind. Je geringer die Abweichungen der
empirischen Daten von der Geraden sind, desto besser kann das gefundene Modell die Daten abbilden.
Die durch das OLS-Verfahren ermittelte Regressionsgerade geht dabei stets durch den Schwerpunkt der Punktewolke von X und Y.
Wichtig bei der OLS-Methode ist, dass die Summe der QUADRIERTEN Abstände minimal sein soll
(deshalb ordinary least SQUARES). Die Quadrierung der Abstände ist nötig, da die empirischen Werte mal
über der Regressionsgeraden und mal darunterliegen. D.h. dass wir als Abstände sowohl positive als auch negative Werte
erhalten können. Addieren wir diese Werte mit unterschiedlichem Vorzeichen,
verfälscht dies die Summe der Abstände. Deshalb arbeiten wir bei der OLS-Methode mit den
quadrierten Abständen.
Wir finden die best fitted line – die Regressionsgerade, die unsere Daten am besten
darstellt – also im Prinzip wie folgt: Wir haben eine Punktewolke und suchen für das Modell die
Gerade mit den geringsten Abständen zu allen Punkten.
Residuen
Die Durchschnittswerte von Hermines Daten, die sie auf ihren verschiedenen Fahrten für die gefahrene Strecke und ihre
Auswirkung auf den Erschöpfungsgrad gesammelt hat, bilden eine Punktewolke an Daten.
Damit sie schätzen kann, wie sich der gefahrene Weg im Durchschnitt auf die Erschöpfung auswirkt,
ermittelt sie mit dem OLS-Verfahren die Modellgerade, die durch den Schwerpunkt
der Punktewolke geht und diese am besten abbildet.
Dabei liegen nun aber nicht alle Werte auf der Geraden, sondern einige streuen
stärker, andere schwächer um die Gerade herum, sodass es bei den Daten Abweichungen nach oben und
nach unten gibt. Die Abweichungen der empirischen Werte von der Geraden heißen Residuen.
Sie sind die Vorhersagefehler, die wir bei der Anwendung der linearen Regression in Kauf nehmen,
nachdem wir sie durch die OLS-Methode minimiert haben. Die Residuen lassen sich zur
Residualvariable U zusammenfassen und bilden den nicht erklärten Anteil der VarianzSAQnicht erklärt (-> siehe Varianzzerlegung).