Skip to main content

Lineare Regression – die Suche nach Abhängigkeiten

  • Chapter
  • First Online:
Mathematik

Zusammenfassung

Fausts Wunsch „… dass ich erkenne, was die Welt im Innersten zusammenhält …“ ist auch heute noch Inbegriff menschlichen Forschens; nämlich erstens die Beziehung zwischen Variablen zu entdecken und zu beschreiben und zweitens sie nach Ursache und Wirkung, Input und Output zu trennen. Im weitesten Sinne ist die Beschäftigung mit dieser Aufgabe das Thema dieses letzten Kapitels. Dabei werden wir ganz bescheiden uns allein mit linearen Zusammenhängen beschäftigen. Während Korrelationen lineare Zusammenhänge zwischen gleichartigen Variablen beschreiben, haben wir es in der Regressionsrechnung mit der Wirkung \(\mu\left(\boldsymbol{x}\right)\) einer determinierten Größe x auf eine davon abhängige Variable y zu tun. Unser Grundmodell ist

$$\begin{aligned}\displaystyle\text{Beobachtung}&\displaystyle=\text{Systematische }\mu(\boldsymbol{x})\text{-Komponente plus St{\"o}rung}\\ \displaystyle y&\displaystyle=\mu\left(\boldsymbol{x}\right)+\varepsilon.\end{aligned}$$

Dabei steht x für eine noch näher zu definierende ein- oder mehrdimensionale Variable.

Die geschätzte \(\mu(\boldsymbol{x})\)-Komponente soll „möglichst nah“ bei y liegen und der nicht erfasste Rest möglichst wenig mit der x-Komponente zu tun haben.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Subscribe and save

Springer+ Basic
$34.99 /Month
  • Get 10 units per month
  • Download Article/Chapter or eBook
  • 1 Unit = 1 Article or 1 Chapter
  • Cancel anytime
Subscribe now

Buy Now

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 69.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Similar content being viewed by others

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Tilo Arens .

Appendices

Zusammenfassung

1.1 Im Regressionsmodell untersucht man die Wirkung mehrerer determinierter Einflussgrößen auf eine zufällige Zielgröße

Die Einflussgrößen sind die Regressoren, die systematische Komponente ist \(\mu\left(\boldsymbol{x}\right)\), die Zielgröße \(Y\) ist der Regressand, die Störgröße ist \(\varepsilon\). Die Einflüsse überlagern sich additiv.

Die Gleichungen des linearen Modells

Die Strukturgleichung, die \(i\)-te Beobachtungsgleichung und die vektoriell zusammengefassten Beobachtungsgleichungen des linearen Modells sind

$$\begin{aligned}\displaystyle y&\displaystyle=\mu+\varepsilon=\sum_{j=0}^{m}\beta_{j}x_{j}+\varepsilon,\\ \displaystyle y_{i}&\displaystyle=\mu_{i}+\varepsilon_{i}=\sum_{j=0}^{m}x_{ij}\beta_{j}+\varepsilon_{i},\\ \displaystyle\boldsymbol{y}&\displaystyle={\boldsymbol{\mu}}+{\boldsymbol{\varepsilon}}\,=\sum_{j=0}^{m}\boldsymbol{x}_{j}\beta_{j}+{\boldsymbol{\varepsilon}}=\boldsymbol{X\boldsymbol{\beta}}+{\boldsymbol{\varepsilon}}.\end{aligned}$$

Die Einflussgrößen \(\boldsymbol{x}_{0},\ldots,\boldsymbol{x}_{m}\) spannen den Modellraum \(\mathrm{M}\) \(=\left\langle\boldsymbol{X}\right\rangle=\left\langle\boldsymbol{x}_{0},\ldots,\boldsymbol{x}_{m}\right\rangle\) auf. Die Aussage \({\boldsymbol{\mu}}=\sum_{j=0}^{m}\boldsymbol{x}_{j}\beta_{j}\) ist äquivalent mit der Aussage \(\boldsymbol{{\boldsymbol{\mu}}\in\mathrm{M}.}\) Je nachdem, ob der Vektor \(\boldsymbol{1}\), dessen Komponenten sämtlich aus Einsen bestehen, in \(\mathrm{M}\) enthalten ist oder nicht, unterscheiden wir Modelle mit Eins oder Modelle ohne Eins. Ist die Identifikationsbedingung erfüllt, so ist jeder Vektor des Modellraums eindeutig als Linearkombination der Regressoren darstellbar.

Die Identifikationsbedingung

Die Einflussgrößen sind linear unabhängig. Die Designmatrix \(\boldsymbol{X}\) hat den vollen Spaltenrang \(m+1\). Die Dimension des Modellraums ist \(m+1\).

1.2 Der Schätzwert \(\widehat{\mu}\) ist die Projektion von \(\boldsymbol{y}\) in den Modellraum

Der Kleinst-Quadrat-Schätzer

Die Methode der kleinsten Quadrate schätzt das unbekannte \({\boldsymbol{\mu}}\) durch den Vektor \(\widehat{\boldsymbol{\boldsymbol{\mu}}}\in\mathrm{M}\) mit minimalem Abstand zu \(\boldsymbol{y}\),

$$\displaystyle\widehat{{\boldsymbol{\mu}}}=\mathop{*}{\mathrm{argmin}}_{\boldsymbol{m}\in\mathrm{M}}\left\|\boldsymbol{m}-\boldsymbol{y}\right\|^{2}.$$

Jede Lösung \(\widehat{{\boldsymbol{\beta}}}\) von \(\widehat{{\boldsymbol{\mu}}}=\boldsymbol{\boldsymbol{X}}\widehat{{\boldsymbol{\beta}}}\) heißt Kleinst-Quadrat-Schätzer von \({\boldsymbol{\beta}.}\) Ist der Parametervektor \({\boldsymbol{\gamma}}=\boldsymbol{A}{\boldsymbol{\mu}}\) eine lineare Funktion von \({\boldsymbol{\mu}}\), so heißt \(\widehat{{\boldsymbol{\gamma}}}=\boldsymbol{A}\widehat{{\boldsymbol{\mu}}}\) der Kleinst-Quadrat-Schätzer von \({\boldsymbol{\gamma}}\).

Die Eigenschaften des Kleinst-Quadrat-Schätzers folgen aus den Eigenschaften der orthogonalen Projektion \(\boldsymbol{P}_{\mathrm{M}}\) in einem endlichdimensionalen Vektorraum \(\mathrm{M}\).

Eigenschaften des Kleinst-Quadrat-Schätzers

Der KQ-Schätzer \(\widehat{{\boldsymbol{\mu}}}\) ist die Orthogonalprojektion von \(\boldsymbol{y}\) in den Modellraum \(\mathrm{M}\),

$$\displaystyle\widehat{{\boldsymbol{\mu}}}=\boldsymbol{P}_{\mathrm{M}}\boldsymbol{y=XX}^{+}\boldsymbol{y}.$$

\(\widehat{{\boldsymbol{\mu}}}\) existiert stets, ist eindeutig und invariant gegenüber allen Transformationen der Regressoren, die den Raum \(\mathrm{M}\) invariant lassen. Ein Kleinst-Quadrat-Schätzer von \({\boldsymbol{\beta}}\) ist \(\widehat{{\boldsymbol{\beta}}}=\boldsymbol{X}^{+}\boldsymbol{y.}\) Ist die Identifikationsbedingung erfüllt, so ist

$$\displaystyle\widehat{{\boldsymbol{\mu}}}=\boldsymbol{X}(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})^{-1}\boldsymbol{X}^{\mathrm{T}}\boldsymbol{y}.$$

Dann ist auch \(\widehat{{\boldsymbol{\beta}}}\) eindeutig bestimmt als

$$\displaystyle\widehat{{\boldsymbol{\beta}}}=(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})^{-1}\boldsymbol{X}^{\mathrm{T}}\boldsymbol{y}.$$

Die Abweichung zwischen der Beobachtung \(\boldsymbol{y}\) und dem geschätzten Erwartungswert \(\widehat{{\boldsymbol{\mu}}}\) ist das Residuum \(\ \widehat{{\boldsymbol{\varepsilon}}}=\boldsymbol{y}-\widehat{{\boldsymbol{\mu}}}\boldsymbol{.}\) Aus den stets lösbaren Normalgleichungen lassen sich \(\widehat{{\boldsymbol{\mu}}}\) und \(\widehat{{\boldsymbol{\beta}}}\) bestimmen.

Die Normalgleichungen

Der KQ-Schätzer \(\widehat{{\boldsymbol{\beta}}}\) ist Lösung der Normalgleichung

$$\displaystyle\boldsymbol{X}^{\mathrm{T}}\boldsymbol{y}=\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X}\widehat{{\boldsymbol{\beta}}}.$$

1.3 Die systematische Komponente ist der Erwartungswert von \(\boldsymbol{y}\)

Die Einflussgrößen \(\boldsymbol{x}_{j}\), die Koeffizienten \(\beta_{j}\) und damit die systematische Komponente \({\boldsymbol{\mu}}\) sind determinierte, nicht zufällige Größen. Allein die Störgröße \({\boldsymbol{\varepsilon}}\) und die Beobachtungen sind zufällige Variable

$$\begin{aligned}\displaystyle\boldsymbol{y}&\displaystyle=\boldsymbol{{\boldsymbol{\mu}}+{\boldsymbol{\varepsilon}}},\\ \displaystyle\mathrm{E}\left(\boldsymbol{y}\right)&\displaystyle=\boldsymbol{\mu},\\ \displaystyle\mathrm{E}\left({\boldsymbol{\varepsilon}}\right)&\displaystyle=\boldsymbol{0}.\end{aligned}$$

Im richtig spezifizierten oder korrekten Modell ist \({\boldsymbol{\mu}}\in\mathrm{M}\); anderenfalls ist das Modell falsch spezifiziert.

Erwartungstreue der Kleinst-Quadrat-Schätzer

Im korrekten Modell ist der Kleinst-Quadrat-Schätzer \(\widehat{{\boldsymbol{\mu}}}\) erwartungstreu. Für einen Parametervektor \({\boldsymbol{\gamma}}\) existiert genau dann eine lineare erwartungstreue Schätzfunktion, wenn \(\boldsymbol{\boldsymbol{\gamma}}\) lineare Funktion von \({\boldsymbol{\mu}}\) ist. Ist speziell die Identifikationsbedingung erfüllt, so ist auch \(\widehat{{\boldsymbol{\beta}}}\) erwartungstreu,

$$\displaystyle\mathrm{E}(\widehat{{\boldsymbol{\mu}}})={\boldsymbol{\mu}}\text{ und }\mathrm{E}(\widehat{{\boldsymbol{\beta}}})={\boldsymbol{\beta}}.$$

Der Annahme über die Erwartungswerte werden Annahmen über die Varianzen und Kovarianzen hinzu gefügt.

Die Kovarianzstruktur der Beobachtungen

Die \(n\) Beobachtungen \(y_{i}\) sind untereinander unkorreliert und besitzen dieselbe von \(\boldsymbol{x}\) und \(i\) unabhängige Varianz \(\sigma^{2}\)

$$\displaystyle\begin{aligned}\displaystyle\mathop{\mathrm{Var}}\left(y_{i}\right)&\displaystyle=\mathop{\mathrm{Var}}\left(\varepsilon_{i}\right)=\sigma^{2}&\displaystyle&\displaystyle\text{f{\"u}r alle }i,\\ \displaystyle\mathop{\mathrm{Cov}}\left(y_{i},y_{j}\right)&\displaystyle=\mathop{\mathrm{Cov}}\left(\varepsilon_{i},\varepsilon_{j}\right)=0&\displaystyle&\displaystyle\text{f{\"u}r alle }i\neq j,\\ \displaystyle\mathop{\mathrm{Cov}}\left(\boldsymbol{y}\right)&\displaystyle=\mathop{\mathrm{Cov}}\left({\boldsymbol{\varepsilon}}\right)=\sigma^{2}\boldsymbol{I}.\end{aligned}$$

Daraus lassen sich die folgenden Aussagen ableiten.

Die Kovarianzmatrizen der Schätzer

Hat die Matrix \(\boldsymbol{X}\) den vollen Spaltenrang, so gilt im korrekten Modell

$$\begin{aligned}\displaystyle\mathop{\mathrm{Cov}}(\widehat{{\boldsymbol{\mu}}})&\displaystyle=\sigma^{2}\boldsymbol{P}_{\mathrm{M}}=\sigma^{2}\boldsymbol{X}(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})^{-1}\boldsymbol{X}^{\mathrm{T}},\\ \displaystyle\mathop{\mathrm{Cov}}(\widehat{{\boldsymbol{\beta}}})&\displaystyle=\sigma^{2}(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})^{-1},\\ \displaystyle\mathop{\mathrm{Cov}}(\widehat{{\boldsymbol{\mu}}};\widehat{{\boldsymbol{\varepsilon}}})&\displaystyle=0.\end{aligned}$$

Während die in \(\mathrm{M}\) liegende Komponente \(\boldsymbol{P}_{\mathrm{M}}\boldsymbol{y}\) den Schätzer \(\widehat{{\boldsymbol{\mu}}}\) liefert, gewinnen wir aus dem zu \(\mathrm{M}\) orthogonalen Residuum \(\widehat{{\boldsymbol{\varepsilon}}}=\boldsymbol{y}-\boldsymbol{P}_{\mathrm{M}}\boldsymbol{y}\) den Schätzer für \(\sigma\).

Ein erwartungstreuer Schätzer für \(\sigma^{2}\)

Ist das Modell korrekt, also \(\mathrm{E}\left(\boldsymbol{y}\right)={\boldsymbol{\mu}}\in\mathrm{M}\), dann wird \(\sigma^{2}\) erwartungstreu geschätzt durch

$$\displaystyle\widehat{\sigma}^{2}=\frac{\mathrm{SSE}}{n-d}=\frac{\left\|\widehat{{\boldsymbol{\varepsilon}}}\right\|^{2}}{n-d}=\frac{1}{n-d}\sum\widehat{\varepsilon}_{i}^{2}.$$

Dabei ist \(d\) die Dimension des Modellraums, also der Rang der Designmatrix \(\boldsymbol{X}\). Ist die Identifikationsbedingung erfüllt, ist \(d=m+1\).

Sind die Störgrößen \(\varepsilon_{i}\) unabhängig voneinander normalverteilt, so lassen sich daraus die Verteilungen aller Schätzer gewinnen.

Die Verteilung der Schätzer

Ist \({\boldsymbol{\varepsilon}}\sim\mathrm{N}_{n}(\boldsymbol{0};\sigma^{2}\boldsymbol{I})\) bzw. gleichwertig \(\boldsymbol{y}\sim\mathrm{N}_{n}({\boldsymbol{\mu}};\sigma^{2}\boldsymbol{I})\), so folgt:

$$\begin{aligned}\displaystyle\widehat{{\boldsymbol{\mu}}}&\displaystyle\sim\mathrm{N}_{n}({\boldsymbol{\mu}};\sigma^{2}\boldsymbol{P}_{\mathrm{M}}),\\ \displaystyle\widehat{{\boldsymbol{\beta}}}&\displaystyle\sim\mathrm{N}_{m+1}({\boldsymbol{\beta}};\sigma^{2}(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})^{-1}),\\ \displaystyle\widehat{\beta_{j}}&\displaystyle\sim\mathrm{N}(\beta_{j};\sigma^{2}(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})_{jj}^{-1}).\end{aligned}$$

Dabei ist \((\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})_{jj}^{-1}\) das \(j\)-te Diagonalelement von \((\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})^{-1}\). Ersetzt man \(\sigma^{2}\) durch die erwartungstreue Schätzung \(\widehat{\sigma}^{2}\), dann sind die studentisierten Regressionskoeffizienten

$$\displaystyle\frac{\widehat{\beta_{j}}-\beta_{j}}{\widehat{\sigma}_{\hat{\beta_{j}}}}=\frac{\widehat{\beta_{j}}-\beta_{j}}{\widehat{\sigma}_{\sqrt{(\boldsymbol{X}+\boldsymbol{X})_{jj}^{-1}}}}\sim t(n-m-1)$$

t-verteilt mit \(n-m-1\) Freiheitsgraden.

1.4 Zu jedem Schätzer gehört eine Aussage über seine Genauigkeit

Sind die Störgrößen i.i.d. standardnormalverteilt, so sind die KQ-Schätzer identisch mit den Maximum-LikelihoodSchätzer, sie sind darüber hinaus effizient. Verzichtet man auf die Annahme der Normalverteilung und beschränkt sich nur auf die Grundforderung \(\mathop{\mathrm{Cov}}\left(\boldsymbol{y}\right)=\sigma^{2}\boldsymbol{I}\), bleiben die KQ-Schätzer in einer eingeschränkten Klasse noch optimal.

Der Satz von Gauß-Markov

In der Klasse der in \(\boldsymbol{y}\) linearen erwartungstreuen Schätzer von \({\boldsymbol{\mu}}\) ist der KQ-Schätzer \(\widehat{\mu_{i}}\) für alle \(i\) der eindeutig bestimmte Schätzer von \(\mu_{i}\) mit minimaler Varianz. Sind die Spalten von \(\boldsymbol{X}\) linear unabhängig, so ist \(\widehat{\beta_{j}}\) für alle \(j\) der eindeutig bestimmte Schätzer von \(\beta_{j}\) mit minimaler Varianz.

Ist \(\boldsymbol{1}\in\mathrm{M,}\) so ist das Bestimmtheitsmaß \(R^{2}\) der quadrierte empirische Korrelationskoeffizient zwischen dem beobachteten Vektor \(\boldsymbol{y}\) und dem geschätzten Vektor \(\widehat{{\boldsymbol{\mu}}}\). Das adjustierte Bestimmtheitsmaß \(R_{\mathrm{adj}}^{2}\) berücksichtigt besser die Kosten einer Modellerweiterung als \(R^{2}\).

Die Bestimmtheitsmaße

Das Bestimmtheitsmaß ist \({R^{2}}\), das adjustierte Bestimmtheitsmaß ist \(R_{\mathrm{adj}}^{2}\),

$$\displaystyle{R^{2}}=\frac{\mathrm{SSR}}{\mathrm{SST}},\quad R_{\mathrm{adj}}^{2}=1-\frac{\left(n-1\right)}{\left(n-d\right)}\left(1-R^{2}\right).$$

1.5 Der einfachste Spezialfall des linearen Modells ist die lineare Einfachregression \(y=\beta_{0}+\beta_{1}x+\varepsilon\)

Die Konfidenzintervalle für \(\mu\left(\xi\right)=\) \(\beta_{0}+\beta_{1}\xi\) ergeben den Konfidenzgürtel. Dieser ist an der Stelle \(\xi=\overline{x}\) am schmalsten und wird mit wachsender Entfernung von der Stelle \(\left|\xi-\overline{x}\right|\) breiter. Um eine zukünftige Beobachtung \(y\) bei einem Regressorwert \(\xi\) zu prognostizieren, müssen wir zuerst \(\mu(\xi)\) schätzen. Danach können wir ein \(\left(1-\alpha\right)\)-Prognoseintervall für \(y\left(\xi\right)\) bestimmen. Bei der inversen Regression wird zu gegebenem \(y\) der \(x\)-Wert geschätzt.

Bonusmaterial

Im Bonusmaterial werden wir die Aussagen über die Verteilungen der Schätzer und deren Varianzen beweisen. Dabei werden wir Eigenschaften der \(t\)-, \(\chi^{2}\)- und \(F\)-Verteilungen und vor allem den Satz von Cochran benutzen. Damit können wir auch allgemeinere Fragen von Tests in linearen Modellen behandeln. Wir werden den Satz von Gauß-Markov beweisen und spezielle Fragen der Schätztheorie aufgreifen.

Aufgaben

Die Aufgaben gliedern sich in drei Kategorien: Anhand der Verständnisfragen können Sie prüfen, ob Sie die Begriffe und zentralen Aussagen verstanden haben, mit den Rechenaufgaben üben Sie Ihre technischen Fertigkeiten und die Anwendungsprobleme geben Ihnen Gelegenheit, das Gelernte an praktischen Fragestellungen auszuprobieren.

Ein Punktesystem unterscheidet leichte Aufgaben •, mittelschwere •• und anspruchsvolle ••• Aufgaben. Lösungshinweise am Ende des Buches helfen Ihnen, falls Sie bei einer Aufgabe partout nicht weiterkommen. Dort finden Sie auch die Lösungen – betrügen Sie sich aber nicht selbst und schlagen Sie erst nach, wenn Sie selber zu einer Lösung gekommen sind. Ausführliche Lösungswege, Beweise und Abbildungen finden Sie auf der Website zum Buch.

Viel Spaß und Erfolg bei den Aufgaben!

3.1 Verständnisfragen

41.1

•• Zeigen Sie, dass die Normalgleichungen stets lösbar sind und bestimmen Sie die allgemeine Lösung.

41.2

• Wieso gilt in einem Modell mit Eins \(\sum_{i=1}^{n}\widehat{\varepsilon}_{i}=0\) sowie \(\sum_{i=1}^{n}\widehat{\mu}_{i}=\sum_{i=1}^{n}y_{i}?\) Warum gilt dies in einem Modell ohne Eins nicht?

41.3

• Was ist der KQ-Schätzer für \(\beta\) bei der linearen Einfachregression \(y_{i}=\beta x_{i}+\varepsilon_{i}\) ohne Absolutglied?

41.4

• Im Ansatz \(y=\beta_{0}+\beta_{1}x+\beta_{2}x^{2}+\beta_{3}x^{3}+\beta_{4}x^{4}+\beta_{5}x^{5}+\varepsilon\) wird die Abhängigkeit einer Variablen \(Y\) von \(x\) modelliert. Dabei sind die \(\varepsilon_{i}\) voneinander unabhängige, \(N(0;\sigma^{2})\)-verteilte Störterme.

  1. (a)

    Wann handelt es sich um ein lineares Regressionsmodell?

  2. (b)

    Was ist oder sind die Einflussvariable(n)?

  3. (c)

    Wie groß ist die Anzahl der Regressoren?

  4. (d)

    Wie groß ist die Anzahl der unbekannten Parameter?

  5. (e)

    Wie groß ist die Dimension des Modellraums?

  6. (f)

    Aufgrund einer Stichprobe von \(n=37\) Wertepaaren \((x_{i},y_{i})\) wurden die Parameter wie folgt geschätzt:

    Regressor

    1

    \(x\)

    \(x^{2}\)

    \(x^{3}\)

    \(x^{4}\)

    \(x^{5}\)

    \(\widehat{\beta}\)

    3

    20

    0.5

    10

    5

    7

    \(\widehat{\sigma}_{\hat{\beta}}\)

    0.2

    1

    1.5

    25

    4

    6

    Welche Parameter sind „bei jedem vernünftigen \(\alpha\)“ signifikant von null verschieden?

  7. (g)

    Wie lautet die geschätzte systematische Komponente \(\widehat{\mu}(\xi),\) wenn alle nicht signifikanten Regressoren im Modell gestrichen werden?

  8. (h)

    Wie schätzen Sie \(\widehat{\mu}\) an der Stelle \(\xi=2\)?

41.5

• Zeigen Sie: Bei der linearen Einfachregression gilt für das Bestimmtheitsmaß \(R^{2}\) die Darstellung:

$$\displaystyle R^{2}=\widehat{\beta}_{1}^{2}\frac{\operatorname{var}\left(\boldsymbol{x}\right)}{\operatorname{var}\left(\boldsymbol{y}\right)}=r^{2}\left(\boldsymbol{x},\boldsymbol{y}\right).$$

Das heißt, \(R^{2}\) ist gerade das Quadrat des gewöhnlichen Korrelationskoeffizienten \(r(\boldsymbol{x},\boldsymbol{y})\).

41.6

••• Beobachtet werden die folgenden \(4\) Punktepaare \((x_{i};y_{i})\), nämlich \(\left(-z,-z^{3}\right)\), \(\left(-1,0\right)\), \(\left(1,0\right)\) und \(\left(z,z^{3}\right).\) Dabei ist \(z\) noch eine feste, aber frei wählbare Zahl. Suchen Sie den KQ-Schätzer \(\widehat{\beta}\), der

$$\displaystyle\sum(y_{i}-x_{i}^{\beta})^{2}=\|\boldsymbol{y}-\boldsymbol{x}^{\beta}\|^{2}$$

minimiert. Sei \(\widehat{\mu}=x^{\widehat{\beta}}\) der geglättete \(y\)-Wert. Zeigen Sie, dass die empirische Varianz \(\operatorname{var}\left(\boldsymbol{y}\right)\) der Ausgangswerte kleiner ist als \(\operatorname{var}\left(\widehat{{\boldsymbol{\mu}}}\right)\), die Varianz der geglätteten Werte. Zeigen Sie, dass das Bestimmtheitsmaß \(R^{2}=\frac{\operatorname{var}(\widehat{\boldsymbol{\mu}})}{\operatorname{var}\left(\boldsymbol{y}\right)}> 1\) ist. Interpretieren Sie das Ergebnis.

41.7

•••  Im folgenden Beispiel sind die Regressoren und der Regressand wie folgt konstruiert: Die Regressoren sind orthogonal: \(\boldsymbol{x}_{1}\perp\boldsymbol{1}\) und \(\boldsymbol{x}_{2}\perp\boldsymbol{1}\), außerdem wurde \(\boldsymbol{y}=\boldsymbol{x}_{1}+\boldsymbol{x}_{2}+6\cdot\boldsymbol{1}\) gesetzt.

\(y\)

8

8

2

4

8

\(x_{1}\)

2

\(-\)1

\(-\)3

0

2

\(x_{2}\)

0

3

\(-\)1

\(-\)2

0

Nun wird an diese Werte ein lineares Modell ohne Absolutglied angepasst: \(\widehat{\mu}=\widehat{\beta}_{1}x_{1}+\widehat{\beta}_{2}x_{2}.\) Bestimmen Sie \(\widehat{\beta}_{1}\) und \(\widehat{\beta}_{2}.\) Zeigen Sie: \(\overline{y}\neq\overline{\widehat{\mu}}.\) Berechnen Sie das Bestimmtheitsmaß einmal als \(R^{2}=\frac{\operatorname{var}(\widehat{{\boldsymbol{\mu}}})}{\operatorname{var}(\boldsymbol{y})}\) und zum anderen \(R^{2}=\frac{\sum(\widehat{\mu}_{i}-\overline{y})^{2}}{\sum(y_{i}-\overline{y})^{2}}.\) Interpretieren Sie das Ergebnis.

41.8

•• In der Abb. 41.10 ist eine \(\left(x,y\right)\)-Punktwolke durch diejenige Ellipse angedeutet, die am besten Lage und Gestalt der Punktwolke wiedergibt. Zeichnen Sie in diese Ellipse die nach der Methode der kleinsten Quadrate bestimmte Ausgleichsgerade von \(y\) nach \(x\) ein.

Abb. 41.10
figure 10

Die Ellipse deutet die Punktwolke an

3.2 Rechenaufgaben

41.9

•• Berechnen Sie die Hauptachse einer Punktwolke und bestätigen Sie die Formeln (41.1) und (41.2) von S. 1547.

41.10

•• Zeigen Sie: Ist \(\widehat{{\boldsymbol{\mu}}}=\boldsymbol{P}_{\boldsymbol{M}}\boldsymbol{y}\) der KQ-Schätzer von \({\boldsymbol{\mu}}\) und \(\operatorname{Cov}\left(\boldsymbol{y}\right)=\sigma^{2}\boldsymbol{I},\) dann ist \(\operatorname{Cov}\left(\widehat{{\boldsymbol{\mu}}}\right)=\sigma^{2}\boldsymbol{P}_{\boldsymbol{M}}\), \(\ \operatorname{Cov}\left(\widehat{{\boldsymbol{\varepsilon}}}\right)=\sigma^{2}\left(\boldsymbol{I}-\boldsymbol{P}_{\boldsymbol{M}}\right),\) \(\operatorname{Cov}\left(\widehat{{\boldsymbol{\mu}}};\widehat{{\boldsymbol{\varepsilon}}}\right)=0\). Hat die Matrix \(\boldsymbol{X}\) den vollen Spaltenrang, dann ist weiter \(\operatorname{Cov}(\widehat{{\boldsymbol{\beta}}})=\sigma^{2}(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X})^{-1}.\)

41.11

•• Bestimmen Sie den ML-Schätzer für \(x\) bei der inversen Regression im Modell der linearen Einfachregression.

3.3 Anwendungsprobleme

41.12

•• Ein wichtiges Flugzeugteil scheint sich mit den Jahren, die ein Flugzeug im Einsatz ist, stärker abzunutzen, als man ursprünglich annahm. Eine Kenngröße \(Y\) beschreibt den Schaden an dem Gerät. Man geht davon aus, dass \(Y\) linear von der Zeit \(X\) abhängt. Wegen des großen Aufwands der Kenngrößenberechnung können nicht mehr als 10 Maschinen in die Untersuchung einbezogen werden. Sie wollen den Anstieg \(\beta_{1}\) und \(\beta_{0}\) möglichst genau schätzen und planen dazu eine Versuchsreihe aus 10 Messungen. Bei der Auswahl der 10 Maschinen können Sie unter den Möglichkeiten a, b, c, d und e wählen:

 

Alter der Maschinen in Jahren \(X\)

 
 

\(x_{1}\)

\(x_{2}\)

\(x_{3}\)

\(x_{4}\)

\(x_{5}\)

\(x_{6}\)

\(x_{7}\)

\(x_{8}\)

\(x_{9}\)

\(x_{10}\)

 

a

1

1

1

1

1

1

1

1

1

10

 

b

1

1

1

1

1

10

10

10

10

10

 

c

1

2

3

4

5

6

7

8

9

10

 

d

1

10

10

10

10

10

10

10

10

10

 

e

1

5

5

5

5

5

5

5

5

10

 
  1. 1.

    Inwiefern hat der Versuchsplan Einfluss auf die Genauigkeit des Schätzers? An welchem Parameter kann man dies ablesen?

  2. 2.

    Welche dieser 5 Versuchsreihen führen Sie durch und warum?

  3. 3.

    Welchen Versuch würden Sie wählen, wenn es nicht so sicher wäre, ob der Zusammenhang zwischen \(X\) und \(Y\) linear ist?

41.13

•• Bei einem Befragungsinstitut legen 14 Interviewer die Aufwandsabrechnung über die geleisteten Interviews vor. Dabei sei \(y\) der Zeitaufwand in Stunden, \(x_{1}\) die Anzahl der jeweils durchgeführten Interviews, \(x_{2}\) die Anzahl der zurückgelegten Kilometer.

Durch eine Regressionsrechnung soll die Abhängigkeit der aufgewendeten Zeit von den erledigten Interviews und der gefahrenen Strecke bestimmt werden. Die Daten:

\(i\)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

\(y\)

52

25

49

30

82

42

56

21

28

36

69

39

23

35

\(x_{1}\)

17

6

13

11

23

16

15

5

10

12

20

12

8

8

\(x_{2}\)

36

11

29

26

51

27

31

10

19

25

40

33

24

29

  1. 1.

    Wählen Sie zuerst ein lineares Modell mit beiden Regressoren \(y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\varepsilon\).

  2. 2.

    Wählen Sie nun ein lineares Modell mit nur einem der beiden Regressoren, z. B. \(y=\beta_{0}+\beta_{1}x_{1}+\varepsilon.\) Wie groß sind in beiden Modellen die Koeffizienten? Sind sie signifikant von null verschieden? Wie groß ist \(R^{2}\)? Interpretieren Sie das Ergebnis.

41.14

••  Stellen wir uns vor, ein Neurologe misst an einem zentralen Nervenknoten die Reaktion \(y\) auf die Reize \(x\) an vier paarig gelegenen Rezeptoren:

\(y\)

\(x_{1}\)

\(x_{2}\)

\(x_{3}\)

\(x_{4}\)

7.3314

0.009 77

\(-\)0.039 38

0.458 40

0.562 91

3.9664

\(-\)0.554 47

\(-\)0.601 13

\(-\)0.219 01

\(-\)0.284 51

3.1442

\(-\)0.336 33

\(-\)0.317 52

\(-\)0.280 20

\(-\)0.294 25

7.9933

0.352 60

0.307 14

0.203 06

0.105 71

1.6787

\(-\)0.174 42

\(-\)0.066 24

\(-\)0.168 00

\(-\)0.043 02

\(-\)0.0758

0.163 56

0.356 31

0.271 28

0.207 12

2.9497

0.502 65

0.617 95

\(-\)0.223 25

\(-\)0.230 55

8.7032

\(-\)0.154 34

\(-\)0.284 02

0.040 19

0.024 56

7.4931

0.333 32

0.234 49

\(-\)0.543 96

\(-\)0.479 37

7.4827

\(-\)0.142 34

\(-\)0.207 60

0.461 48

0.431 38

  1. (a)

    Schätzen Sie die Koeffizienten im vollen Modell \(\boldsymbol{M}_{1\,234}=\left\langle\boldsymbol{1},\boldsymbol{x}_{1},\boldsymbol{x}_{2},\boldsymbol{x}_{3},\boldsymbol{x}_{4}\right\rangle\).

  2. (b)

    Verzichten Sie nun auf den Regressor \(\boldsymbol{x}_{4}\) und schätzen Sie die Koeffizienten im Modell \(\boldsymbol{M}_{123}=\left\langle\boldsymbol{1},\boldsymbol{x}_{1},\boldsymbol{x}_{2},\boldsymbol{x}_{3}\right\rangle\).

  3. (c)

    Verzichten Sie nun auf den Regressor \(\boldsymbol{x}_{2}\) und schätzen Sie die Koeffizienten im Modell \(\boldsymbol{M}_{134}=\left\langle\boldsymbol{1},\boldsymbol{x}_{1},\boldsymbol{x}_{3},\boldsymbol{x}_{4}\right\rangle\).

Interpretieren Sie die Ergebnisse.

41.15

•• Ein Immobilien-Auktionator fragt sich, ob der im Auktionskatalog genannte Wert \(x\) eines Hauses überhaupt eine Prognose über den in der Auktion realisierten Erlös \(y\) zulässt. (Alle Angaben in Tausend €.) Er beauftragt Sie mit einer entsprechenden Analyse und überlässt Ihnen dazu die in der folgenden Tabelle enthaltenen Unterlagen von zehn zufällig ausgewählten und bereits versteigerten Häusern. Unterstellen Sie einen durch Zufallsschwankungen gestörten linearen Zusammenhang zwischen Katalogpreis \(x\) und Auktionserlös \(y\).

\(x_{i}\)

132

337

241

187

292

159

208

98

284

52

\(y_{i}\)

145

296

207

165

319

124

154

117

256

34

  1. 1.

    Thema Schätzung:

    1. (a)

      Modellieren Sie diesen Zusammenhang als lineare Gleichung. Wie hängt demnach – in Ihrem Modell – der \(i\)-te Auktionserlös vom \(i\)-ten Katalogpreis ab.

    2. (b)

      Wie groß sind die empirischen Verteilungsparameter der \(x\)- bzw \(y\)-Werte? Dabei können Sie auf folgende Zahlen zurückgreifen:

       

      \(x_{i}\)

      \(y_{i}\)

      \(x_{i}y_{i}\)

      \(x_{i}^{2}\)

      \(y_{i}^{2}\)

      \(\sum_{i=1}^{n}\)

      1990

      1817

      430 468

      470 816

      399 949

    3. (b)

      Schätzen Sie \(\widehat{\beta}_{0}\) und \(\widehat{\beta}_{1}\) mit der Methode der kleinsten Quadrate.

    4. (c)

      Wie lautet nun Ihre Schätzgleichung für \(\widehat{\mu}\)?

    5. (d)

      Zu welchem Preis werden Häuser mit einem Katalogwert von 190 Tausend € im Mittel verkauft?

    6. (e)

      Zu welchem Preis werden Häuser mit einem Katalogwert von 0 € im Mittel verkauft? Was können Sie dem Auktionator sagen, der daraufhin Ihre Rechnungen in den Papierkorb werfen will?

  2. 2.

    Thema Wie aussagekräftig sind Ihre Schätzungen?:

    1. (a)

      Welche Annahmen machen Sie über die Verteilung der Störkomponenten, ehe Sie überhaupt Aussagen über Güte und Genauigkeit der Schätzungen machen können?

    2. (b)

      Schätzen Sie die \(\sigma^{2}\), wenn sich aus der Rechnung \(\sum_{i=1}^{n}\widehat{\varepsilon}_{i}^{2}=6\,367\) ergibt.

    3. (c)

      Schätzen Sie die Standardabweichung von \(\widehat{\beta}_{0}\).

    4. (d)

      Der Auktionator war überzeugt, dass im Mittel der erzielte Preis proportional zum Katalogpreis ist. Also \(\mathrm{E}\left(Y\right)=\beta x\). Sprechen die Daten gegen die Vermutung?

    5. (e)

      Schätzen Sie die Standardabweichung von \(\widehat{\beta}_{1}\). Innerhalb welcher Grenzen liegt \(\beta_{1}\)? Geben Sie ein Konfidenzintervall zum Niveau \(1-\alpha=0.99\) an.

  3. 3.

    Thema Preisprognosen: In der aktuellen Auktion werden im Katalog zwei Häuser mit 190 Tausend € bzw. 300 Tausend € angeboten.

    1. (a)

      Machen Sie eine Prognose zum Niveau \(1-\alpha=0.99\), zu welchen Preis das billigere der beiden Häuser verkauft werden wird.

    2. (b)

      Wie wird im Vergleich dazu die Prognose über das teurere der beiden Häuser sein? Wird das Prognoseintervall schmaler, gleich breit, breiter oder nicht vergleichbar sein. Begründen Sie Ihre Antwort ohne Rechnung.

41.16

••• Die Wassertemperatur \(y\left(x\right)\) Ihres Durchlauferhitzer schwankt sehr stark, wenn sich die Wassermenge \(x\) ändert. Zur Kontrolle haben Sie die Wassertemperatur \(y\left(x\right)\) in Grad Celsius bei variierender Wassermenge \(x\) Liter pro 10 s gemessen. Die notierten \(n=17\) Werte sind:

\(x\)

1.5

2.1

2.3

0.8

0.2

1

1

1.9

\(y\)

24.5

40

42.5

33

22

26

29

44.5

\(x\)

1.6

1.8

1.8

2.1

1.5

1.3

0.9

0.7

0.6

\(y\)

53

51

49.5

46

26.5

27

31

18.5

15

  1. 1.

    Unterstellen Sie einen linearen Zusammenhang der Merkmale Temperatur und Wassermenge und führen Sie eine lineare Einfachregression durch. Betrachten Sie die \(\left(x,y\right)\)-Punktwolke mit der geschätzten Regressionsgerade. Ist die Anpassung befriedigend?

  2. 2.

    Sie erfahren aus der Betriebsanleitung, dass das Gerät zwei Erhitzungsstufen hat. Bei einer Durchflussmenge von \(1.5\,\mathrm{l}/10\,\mathrm{s}\) springt das Gerät in eine andere Schaltstufe. Versuchen Sie, das Modell dem Sachverhalt durch abschnittsweise Modellierung noch besser anzupassen. Gehen Sie davon aus, dass die Messfehler \(\varepsilon_{i}\) unabhängig von der Schaltstufe sind.

    Wie lauten jetzt die Geradengleichungen?

    Wie sieht Ihre Designmatrix aus? Wie groß ist die Anzahl der linear unabhängigen Regressoren? Enthält Ihr Modell die Eins? Schätzen Sie nun die Parameter des Modells.

  3. 3.

    Mit welcher mittleren Temperatur können Sie rechnen, falls Sie den Wasserhahn durch einen größeren ersetzen, der \(6\,\mathrm{l}/10\,\mathrm{s}\) Wasser durchfließen lässt? Ist das Ergebnis sinnvoll?

41.17

••• Alternative Energieversorgungsanlagen, wie Wind- und Sonnenkraftwerke, werden in Zukunft immer mehr an Bedeutung gewinnen. Eine solche Anlage befindet sich auf der Nordseeinsel Pellworm und soll den Energiebedarf des dortigen Kurzentrums decken. Gegenstand der Betrachtung sollen nur die Windenergiekonverter des Typs AEROMAN 11/20 der Firma M.A.N. sein. Die Rotoren sind jeweils in einer Höhe von 15 m installiert und zeigten bei einer Untersuchung folgendes Leistungsverhalten:

\(x\)

3

4

5

6

7

8

9

10

11

12

13

14

15

\(y\)

10

35

41

45

51

61

55

64

65

52

42

34

31

Dabei ist \(x\) die Windgeschwindigkeit in m/s und \(y\) die elektrische Leistung in kW. Es soll der tendenzielle Verlauf dieses Leistungsverhaltens untersucht werden: 1. Berechnen Sie die Parameter der geschätzten Regressionsgeraden. Wie lautet die Geradengleichung? 2. Überprüfen Sie das gewählte Modell anhand eines Residuenplots. 3. Untersuchen Sie, ob sich Ihre Anpassung durch die Verwendung von \(x^{2}\) als zusätzlichen Regressor verbessern lässt.

Antworten der Selbstfragen

Antwort 1

Der gleiche Modellraum lässt sich auch mit anderen Regressoren erzeugen. Werden die Regressoren zum Beispiel orthogonalisiert, ändert sich \(\boldsymbol{X}\), aber der Modellraum \(\mathrm{M}\) bleibt invariant. Auch können bei linear abhängigen Regressoren überflüssige Vektoren weggelassen werden, ohne dass \(\mathrm{M}\) sich ändert.

Antwort 2

1. Für jedes \(\boldsymbol{m}\) \(\in\mathrm{M}\) ist \(\boldsymbol{m=P}_{\mathrm{M}}\boldsymbol{m}\). Also

$$\begin{aligned}\displaystyle\boldsymbol{m}^{\mathrm{T}}\widehat{{\boldsymbol{\varepsilon}}}&\displaystyle=(\boldsymbol{P}_{\mathrm{M}}\boldsymbol{m}){{}^{\mathrm{T}}}(\boldsymbol{I}-\boldsymbol{P}_{\mathrm{M}})\boldsymbol{y}\\ \displaystyle&\displaystyle={m}{{}^{\mathrm{T}}}(\boldsymbol{P}_{\mathrm{M}}){{}^{\mathrm{T}}}(\boldsymbol{I}-\boldsymbol{P}_{\mathrm{M}})\boldsymbol{y}\\ \displaystyle&\displaystyle=\boldsymbol{m}{{}^{\mathrm{T}}}\boldsymbol{P}_{\mathrm{M}}(\boldsymbol{I}-\boldsymbol{P}_{\mathrm{M}})\boldsymbol{y}={0}.\end{aligned}$$

2. Ist also \(\boldsymbol{1}\) \(\in\mathrm{M}\), so ist \(\widehat{{\boldsymbol{\varepsilon}}}^{\mathrm{T}}\boldsymbol{1}=\sum_{i=1}^{n}\widehat{\varepsilon}_{i}=0\). Ist dagegen \(\boldsymbol{1}\) \(\notin\boldsymbol{M,}\) so braucht \(\widehat{{\boldsymbol{\varepsilon}}}^{\mathrm{T}}\boldsymbol{1}=0\) nicht zu gelten.

Antwort 3

Die Residuen \(\widehat{{\boldsymbol{\varepsilon}}}\) sind lineare Funktionen der \({\boldsymbol{\varepsilon}}\), nämlich gewichtete Summen der \(\varepsilon_{i}\). Zum Beispiel wirkt sich eine zufällig sehr große Störung \(\varepsilon_{1}\) über die Schätzgleichungen auf alle anderen \(\widehat{\varepsilon}_{i}\) aus.

Antwort 4

Antwort: Nur die 2. Aussage ist falsch.

Antwort 5

1. Es ist \(\widehat{{\boldsymbol{\mu}}}\) \(=\boldsymbol{XX}^{+}\boldsymbol{y}\) und \(\widehat{{\boldsymbol{\beta}}}=\boldsymbol{X}^{+}\boldsymbol{y.}\) Beide Schätzer haben also die Gestalt: nichtstochastische Matrix mal Beobachtungsvektor \(\boldsymbol{y}\). Sie sind daher lineare Funktionen von \(\boldsymbol{y}\).

2. Sind die Spalten von \(\boldsymbol{X}\) linear abhängig, so ist \(\widehat{{\boldsymbol{\beta}}}\) überhaupt nicht eindeutig bestimmt.

Antwort 6

Das Modell enthält die Konstante \(1\). Daher ist \(\sum_{i=1}^{n}\widehat{\varepsilon}_{i}=0\). Aus \(y_{i}=\widehat{\mu}_{i}+\widehat{\varepsilon}_{i}\) folgt \(\sum_{i=1}^{n}y_{i}=\sum_{i=1}^{n}\widehat{\mu}_{i}+\sum_{i=1}^{n}\widehat{\varepsilon}_{i}=\sum_{i=1}^{n}\widehat{\mu}_{i}\).

Antwort 7

\(\widehat{\beta}_{0}\) ist eine zufällige Variable und \(\widehat{\mathop{\mathrm{Var}}}(\widehat{\beta}_{0})\) ist die geschätzte Varianz dieser Zufallsvariable. Dagegen ist \(\boldsymbol{x}\) ein determinierter Zahlenvektor und \(\mathop{\mathrm{var}}(\boldsymbol{x})\) die empirische Varianz dieser Zahlenmenge.

Antwort 8

1. ist falsch: Auch wenn \(\beta_{1}\) null ist, kann \(\widehat{\beta}_{1}\neq 0\) sein. 2. Richtig. 3. Falsch: Bei diesem kleinen \(\alpha\) kann die Wahrscheinlichkeit des Fehlers zweiter Art groß sein. 4. Falsch.

Antwort 9

\(\widehat{\xi}\) ist der Quotient zweier korrelierter normalverteilter Variabler. \(\widehat{\xi}\) besitzt daher keine der uns bereits bekannten Verteilungen.

Antwort 10

Allein 3. ist falsch.

Rights and permissions

Reprints and permissions

Copyright information

© 2018 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Arens, T., Hettlich, F., Karpfinger, C., Kockelkorn, U., Lichtenegger, K., Stachel, H. (2018). Lineare Regression – die Suche nach Abhängigkeiten. In: Mathematik. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-56741-8_41

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-56741-8_41

  • Published:

  • Publisher Name: Springer Spektrum, Berlin, Heidelberg

  • Print ISBN: 978-3-662-56740-1

  • Online ISBN: 978-3-662-56741-8

  • eBook Packages: Life Science and Basic Disciplines (German Language)

Publish with us

Policies and ethics