20 Ch3 linear regression

1. Analyse des Skripts

Das Skript führt lineare Regression als einfachen, aber wichtigen Ansatz für Supervised Learning ein. Der rote Faden ist: Modellannahme formulieren, Koeffizienten mit Least Squares schätzen, Modell und Koeffizienten statistisch bewerten, dann das Modell auf mehrere Featuretypen und Erweiterungen ausbauen.

Zentrale Begriffe: Label Y, Feature X, Koeffizienten β₀, β₁, ..., Fehlerterm ε, Residuum e_i, RSS, RSE, R², Standardfehler, Konfidenzintervall, p-Wert, Kollinearität, Dummyvariable, Interaktion und Polynomterm.

Kapitelblock	Folienschwerpunkt	Klausurrelevanz
Folien 1-12	Grundmodell, Advertising-Daten, Least Squares, Residuen	Modellgleichung, Vorhersage, RSS, Matrixform, Residuenplot deuten
Folien 13-21	Standardfehler, Konfidenzintervalle, Hypothesentests, RSE, R²	Koeffizienten und p-Werte korrekt interpretieren
Folien 22-35	Multiple Regression, Kollinearität, Feature Selection	„Bei konstanten anderen Features“ erklären, Modellwahl begründen
Folien 36-45	Kategoriale Features, Dummy-Coding, Baseline	Dummyvariablen und Baseline-Koeffizienten sicher auswerten
Folien 46-54	Interaktionseffekte	Interaktionsterme interpretieren, Hierarchieprinzip anwenden
Folien 55-63	Nichtlinearität, Polynome, Lab-Aufgaben	Overfitting erkennen, train/test sauber trennen, Modell interpretieren

2. Grundidee der linearen Regression

Lineare Regression modelliert den Zusammenhang zwischen einem Zielwert und einem oder mehreren Features als lineare Kombination der Features. In der Realität sind Zusammenhänge selten exakt linear. Das ist kein Widerspruch: Ein Modell muss nicht wahr sein, um für Vorhersage, Erklärung oder als Baseline nützlich zu sein.

Einfaches lineares Modell: Y = β₀ + β₁X + ε

Y: Label bzw. Zielvariable, z. B. sales.
X: Feature bzw. erklärende Variable, z. B. TV-Werbebudget.
β₀: Y-Achsenabschnitt: erwarteter Wert von Y, wenn X = 0.
β₁: Steigung: erwartete Änderung von Y bei Erhöhung von X um eine Einheit.
ε: Modellfehler: alles, was durch die lineare Beziehung nicht erklärt wird.

Vorhersage mit geschätzten Koeffizienten: ŷ = β̂₀ + β̂₁x

Die Hüte kennzeichnen Schätzwerte. β̂₀ und β̂₁ werden aus Trainingsdaten gelernt; x ist ein neuer Featurewert.

Folie 2: Einfaches lineares Modell mit Streudiagramm und Regressionsgerade — Folie 2: Grundbild der linearen Regression. Die Gerade fasst den durchschnittlichen linearen Trend zusammen; die Punkte streuen um diese Gerade.

Advertising-Daten als Leitbeispiel

Das Skript nutzt die Advertising-Daten. Das Label ist sales, die Features sind Werbebudgets für TV, Radio und Newspaper. Typische Fragen sind: Gibt es einen Zusammenhang zwischen Budget und Umsatz? Wie stark ist er? Ist er linear? Welche Medien tragen erklärend bei? Gibt es Synergien zwischen Medien? Wie gut lässt sich zukünftiger Umsatz vorhersagen?

Folie 5: Advertising-Daten mit mehreren Streudiagrammen — Folie 5: Advertising-Daten. Bereits visuell ist TV stärker mit sales verbunden als Newspaper; solche Beobachtungen müssen später statistisch geprüft werden.

Prüfungsfalle: Eine Regressionsgerade bedeutet nicht, dass der Zusammenhang wirklich linear oder kausal ist. Sie ist zuerst ein geschätzter Zusammenhang in Daten. Kausalität kommt aus Studiendesign und Fachwissen, nicht aus einem kleinen p-Wert allein.

3. Least Squares und Residuen

Die Methode der kleinsten Quadrate wählt die Koeffizienten so, dass die Summe der quadrierten Residuen auf den Trainingsdaten minimal wird. Das Residuum ist die Differenz zwischen beobachtetem Wert und Modellvorhersage.

Vorhersage und Residuum für Trainingspunkt i: ŷ_i = β̂₀ + β̂₁x_i e_i = y_i - ŷ_i

x_i: Featurewert des i-ten Trainingspunkts.
y_i: Beobachtetes Label des i-ten Trainingspunkts.
ŷ_i: Vom Modell vorhergesagter Wert.
e_i: Residuum; positiv, wenn das Modell zu niedrig vorhersagt.

Residual Sum of Squares: RSS = e₁² + e₂² + ... + e_n² = ∑_i=1ⁿ(y_i - ŷ_i)²

Quadrate verhindern, dass positive und negative Abweichungen sich gegenseitig aufheben, und bestrafen große Fehler stärker.

Folie 12: Advertising-Daten mit Regressionsgerade und vertikalen Residuen — Folie 12: Vertikale Linien sind Residuen. Least Squares sucht die blaue Gerade, bei der die Summe der quadrierten Linienlängen minimal ist.

Analytische Lösung in Matrixform

Die Least-Squares-Lösung kann analytisch bestimmt werden. Die Designmatrix X enthält die Featurewerte. Üblicherweise enthält sie zusätzlich eine Spalte aus Einsen für den Achsenabschnitt.

β̂ = (X^TX)^-1X^Ty X^TXβ̂ = X^Ty

Die erste Gleichung ist die theoretische Normalengleichung. In Software wird die Inverse meist nicht explizit berechnet; numerisch stabiler ist das direkte Lösen des linearen Gleichungssystems.

Prüfungsfalle: RSS wird beim Training minimiert. Ein kleiner Trainings-RSS ist kein Beweis für gute Vorhersage auf Testdaten. Für Generalisierung braucht man Testfehler, Cross-Validation oder zumindest eine saubere train/test-Trennung.

Typische Rechenaufgabe: Gegeben β̂₀ = 7.12, β̂₁ = 0.0469 und x = 100. Dann ist ŷ = 7.12 + 0.0469 · 100 = 11.81. Ist der beobachtete Wert y = 13, dann ist e = 1.19.

4. Bewertung von Koeffizienten und Modell

Nach dem Fit ist die klausurrelevante Frage nicht nur „Welche Gerade kommt heraus?“, sondern: Wie unsicher sind die Koeffizienten? Ist ein Zusammenhang statistisch erkennbar? Wie gut erklärt das Modell die Variation im Label?

Standardfehler und Konfidenzintervalle

Der Standardfehler eines Koeffizienten beschreibt, wie stark die Koeffizientenschätzung über wiederholte Stichproben schwanken würde. Große Standardfehler bedeuten unsichere Schätzungen.

SE(β̂₁)² = σ² / ∑_i=1ⁿ(x_i - x̄)² SE(β̂₀)² = σ² · [1/n + x̄² / ∑_i=1ⁿ(x_i - x̄)²]

σ²: Varianz des Fehlerterms, in der Praxis geschätzt.
x̄: Mittelwert der Featurewerte.
n: Anzahl der Trainingsbeobachtungen.

Ein approximatives 95 %-Konfidenzintervall wird im Skript als Schätzung plus/minus zwei Standardfehler angegeben:

[β̂_j - 2 · SE(β̂_j), β̂_j + 2 · SE(β̂_j)]

Für die Advertising-Daten liegt das 95 %-Intervall für den TV-Koeffizienten etwa bei [0.042, 0.053]. Da das Intervall deutlich über null liegt, spricht das für einen positiven Zusammenhang.

Prüfungsfalle: Ein Konfidenzintervall bedeutet nicht sauber formuliert „der wahre Parameter liegt mit 95 % Wahrscheinlichkeit in diesem konkreten Intervall“. Besser: Das Verfahren erzeugt bei wiederholten Stichproben in etwa 95 % der Fälle Intervalle, die den wahren Parameter enthalten.

Hypothesentests und p-Werte

Für Koeffizienten wird typischerweise getestet, ob ein Feature überhaupt einen linearen Zusammenhang mit dem Label zeigt.

Nullhypothese für Feature j: H₀: β_j = 0

Wenn der p-Wert klein ist, häufig p < 0.05, wird H₀ verworfen. Dann gibt es Hinweise, dass der Koeffizient nicht null ist. Wenn der p-Wert groß ist, wird H₀ nicht verworfen. Das ist kein Beweis, dass kein Zusammenhang existiert.

Prüfungsfalle: Der p-Wert ist nicht die Wahrscheinlichkeit, dass H₀ wahr ist. Er bewertet, wie extrem Daten unter der Annahme der Nullhypothese wären. Außerdem sagt ein p-Wert nichts über Kausalität.

Modellgüte: RSS, TSS, RSE und R²

Einzelne Koeffizienten beantworten, welche Features statistisch auffallen. Die Modellgüte beantwortet, wie viel das Modell insgesamt erklärt und wie groß typische Residuen sind.

RSS = ∑_i=1ⁿ(y_i - ŷ_i)² TSS = ∑_i=1ⁿ(y_i - ȳ)² RSE = √(RSS / (n - 2)) (einfache lineare Regression) RSE = √(RSS / (n - p - 1)) (allgemein bei p Features) R² = 1 - RSS/TSS

R² ist der Anteil der erklärten Varianz. Ein Wert nahe eins ist oft gut, aber nicht automatisch realistisch oder sinnvoll. Manche Daten enthalten viel irreduziblen Fehler, der mit den vorhandenen Features nicht erklärt werden kann.

Modell	Wichtige Ergebnisse	Interpretation
sales ~ TV	β̂₀ = 7.1199, β̂_TV = 0.0469, RSE = 3.346, R² = 0.6091, p-Wert für TV < 2e-16	TV erklärt im einfachen Modell etwa 60 % der Varianz. Pro TV-Einheit steigt sales im Mittel um etwa 0.047 Dateneinheiten.
sales ~ TV + radio + newspaper	TV und radio sehr kleine p-Werte, newspaper p-Wert 0.758, RSE = 1.516, R² = 0.9214	Mit mehreren Features erklärt das Modell deutlich mehr Varianz. Newspaper liefert hier keinen statistischen Hinweis auf zusätzlichen linearen Beitrag, wenn TV und radio bereits im Modell sind.

Typische Interpretationsaufgabe: „Der Koeffizient für TV ist 0.04455“ bedeutet im multiplen Modell: Wenn TV um eine Einheit steigt und radio sowie newspaper konstant bleiben, steigt sales im Mittel um 0.04455 Dateneinheiten. Der Nebensatz „bei konstanten anderen Features“ gehört zur vollen Punktzahl.

5. Multiple lineare Regression

Bei mehreren Features wird der Zielwert als lineare Kombination aller Features modelliert. Die Grundidee bleibt Least Squares, aber die Interpretation der Koeffizienten wird konditional.

Y = β₀ + β₁X₁ + β₂X₂ + ... + β_pX_p + ε ŷ = β̂₀ + β̂₁x₁ + β̂₂x₂ + ... + β̂_px_p

β_j ist die durchschnittliche Änderung in Y bei einer Einheit mehr in X_j, wenn alle anderen Featurewerte konstant bleiben.

Folie 28: Multiple lineare Regression als Ebene mit zwei Features — Folie 28: Bei zwei Features wird die Regressionsgerade zur Ebene. Die Residuen sind vertikale Abstände zur geschätzten Ebene.

Kollinearität

Kollinearität bedeutet, dass Features untereinander stark korreliert sind. Dann wird es schwieriger, den Effekt eines einzelnen Features isoliert zu schätzen, weil sich die Features in den Daten typischerweise gemeinsam ändern.

Auswirkungen von Kollinearität: Die Varianz der Koeffizientenschätzungen steigt, Standardfehler können groß werden, p-Werte werden instabil, numerische Lösung kann schlechter konditioniert sein, und die fachliche Interpretation wird heikel.

Prüfungsfalle: Das Vorzeichen eines Koeffizienten im einfachen Modell kann sich im multiplen Modell ändern. Grund: Im einfachen Modell misst der Koeffizient eine marginale Beziehung; im multiplen Modell misst er eine Beziehung bei konstant gehaltenen anderen Features.

Das Münzbeispiel aus dem Skript illustriert diese Falle: Der Wert der Münzen hängt von der Anzahl bestimmter Münzarten und von der Gesamtzahl der Münzen ab. Wird die Gesamtzahl konstant gehalten, bedeutet „eine Münzart mehr“ implizit, dass eine andere Münzart weniger vorhanden ist. Genau deshalb kann sich die Interpretation des Koeffizienten ändern.

Advertising-Ergebnis mit drei Features

Für sales = β₀ + β₁TV + β₂radio + β₃newspaper + ε ergibt das Skript ungefähr:

Koeffizient	Schätzung	p-Wert	Klausurinterpretation
Intercept	2.59068	sehr klein	Erwartete sales bei allen Budgets null, falls dieser Punkt fachlich sinnvoll ist.
TV	0.04455	sehr klein	Positiver Zusammenhang mit sales, wenn radio und newspaper konstant bleiben.
radio	0.20623	sehr klein	Starker positiver Zusammenhang mit sales, wenn TV und newspaper konstant bleiben.
newspaper	0.002187	0.758	Kein statistischer Hinweis auf zusätzlichen linearen Beitrag in diesem Modell.

6. Feature Selection

Feature Selection entscheidet, welche Features im Modell bleiben. Naiv könnte man alle Features mit hohen p-Werten entfernen. Das kann funktionieren, ist aber nicht immer ideal, besonders bei Kollinearität oder wenn Features gemeinsam wichtig sind.

Brute Force und Komplexität

Der direkteste Ansatz trainiert ein Modell für jede mögliche Featurekombination und wählt das beste nach einem Kriterium. Bei p Features gibt es 2^p Kombinationen. Für p = 40 sind das mehr als eine Billion Modelle und praktisch nicht vollständig durchsuchbar.

Stepwise Forward Selection

Beginne mit leerem Modell: nur Intercept.
Trainiere alle Modelle, die genau ein bisher fehlendes Feature zusätzlich enthalten.
Wähle das Modell, das ein Auswahlkriterium am besten erfüllt.
Stoppe, wenn ein Abbruchkriterium erfüllt ist; sonst wiederhole Schritt 2.

Auswahlkriterien

Gute Kriterien bestrafen Modelle, die nur durch zusätzliche Komplexität besser auf Trainingsdaten passen. Im Skript genannt werden Mallows C_p, AIC, BIC und adjusted R². Für Prüfungsantworten reicht meist: Kriterien sollen Vorhersagegüte und Modellkomplexität gegeneinander abwägen.

Adjusted R² als typische Idee: R²_adj = 1 - (1 - R²) · (n - 1) / (n - p - 1)

Normales R² sinkt beim Hinzufügen von Features praktisch nicht. Adjusted R² bestraft zusätzliche Features über die Freiheitsgrade.

Prüfungsfalle: Das beste Modell nach Trainings-RSS ist oft zu komplex. Für Vorhersage muss die Auswahl an Testdaten oder Cross-Validation gemessen werden. Besonders bei vielen Featurekombinationen besteht Overfitting-Gefahr durch die Auswahl selbst.

7. Kategoriale Features

Kategoriale Features beschreiben Kategorien statt numerische Größen, z. B. Beruf, Materialart, Automarke, Student ja/nein, verheiratet ja/nein oder Region. Die möglichen Kategorien heißen Ausprägungen. Lineare Regression braucht dafür numerische Kodierungen.

Folie 38: Kreditkartendaten mit quantitativen und kategorialen Features — Folie 38: Kreditkartendaten. Das Label ist Credit card balance; Features sind quantitative Größen und kategoriale Variablen wie Student, Married, Own und Region.

Binäre kategoriale Features

Für ein Feature mit zwei Ausprägungen genügt eine Dummyvariable. Im Student-Beispiel:

x_i = 1, wenn Person i Student ist; sonst x_i = 0 ŷ_i = β̂₀ + β̂₁x_i Nicht-Student: ŷ_i = β̂₀; Student: ŷ_i = β̂₀ + β̂₁

Im Skript ist die Schätzung für StudentYes ungefähr 362.72 mit kleinem p-Wert. Interpretation: Studenten haben in diesem einfachen Modell im Mittel eine um etwa 363 höhere Balance als Nicht-Studenten. Das Modell erklärt trotzdem nur etwa 5 % der Varianz, also ist der Gruppenunterschied nicht gleichbedeutend mit guter Gesamtvorhersage.

Folie 39: Kreditkartendaten mit hervorgehobenen Studenten und Hausbesitzern — Folie 39: Kategoriale Gruppen können sich im Streudiagramm sichtbar unterscheiden. Sichtbarkeit ersetzt aber nicht den Modelltest.

Mehr als zwei Ausprägungen

Bei k Ausprägungen verwendet man mit Intercept typischerweise k - 1 Dummyvariablen. Die weggelassene Ausprägung ist die Baseline. Alle Dummy-Koeffizienten sind Differenzen relativ zu dieser Baseline.

Region mit Baseline east: x_i1 = 1, wenn Region south; sonst 0 x_i2 = 1, wenn Region west; sonst 0 ŷ_i = β̂₀ + β̂₁x_i1 + β̂₂x_i2

East: β̂₀, south: β̂₀ + β̂₁, west: β̂₀ + β̂₂.

Dummy vs. One-Hot

Bei One-Hot-Codierung würde man für jede Ausprägung eine Spalte erzeugen. In einer linearen Regression mit Intercept führt das zu linearer Abhängigkeit: Die Summe aller One-Hot-Spalten ist genau die Intercept-Spalte. Das ist die Dummy-Variable-Trap.

Prüfungsfalle: Bei k Kategorien und Intercept nur k - 1 Dummies verwenden. Sonst ist die Designmatrix singulär, und ein Koeffizient kann nicht eindeutig geschätzt werden.

Im Region-Modell sind die p-Werte hoch. Daraus folgt: Es gibt keinen Nachweis, dass Region mit Balance zusammenhängt. Daraus folgt nicht: Die Regionen sind sicher gleich. Außerdem gibt es je Dummyvariable eine eigene Nullhypothese.

8. Interaktionen

Ein additives lineares Modell nimmt an, dass der Effekt jedes Features unabhängig von den anderen Features ist. Interaktionen modellieren Fälle, in denen der Effekt eines Features von einem anderen Feature abhängt.

Additives Advertising-Modell: sales = β₀ + β₁TV + β₂radio + β₃newspaper + ε Mit TV-radio-Interaktion: sales = β₀ + β₁TV + β₂radio + β₃(TV · radio) + ε

Wenn Radio-Werbung die Wirksamkeit von TV-Werbung erhöht, ist der TV-Effekt nicht konstant. Marketing nennt das Synergieeffekt; Statistik nennt es Interaktion. Wichtig: Interaktion ist nicht dasselbe wie Korrelation oder Kollinearität.

Folie 49: Muster der Über- und Unterschätzung als Hinweis auf Interaktion — Folie 49: Systematische Residuenmuster können Interaktionen anzeigen. Wenn das additive Modell bei gleichzeitig hohen oder niedrigen TV- und radio-Werten unterschätzt und bei gemischten Werten überschätzt, fehlt ein Interaktionsterm.

Interpretation der Interaktionskoeffizienten

Das Skript formt das Modell um:

sales = β₀ + (β₁ + β₃radio) · TV + β₂radio + ε

Der marginale Effekt von TV ist also β₁ + β₃radio. Je höher radio ist, desto stärker wird der TV-Effekt, wenn β₃ positiv ist.

Interaktionsmodell	Schätzung	Interpretation
TV	0.01998	TV-Effekt, wenn radio null ist.
radio	0.04386	Radio-Effekt, wenn TV null ist.
TV:radio	0.001021	Positive Interaktion: TV und radio verstärken sich gegenseitig.
Modellgüte	RSE = 0.8939, R² = 0.9727	Deutlich bessere Anpassung als das additive Modell.

Typische Rechenaufgabe: Mit β̂₁ ≈ 0.02 und β̂₃ ≈ 0.001 ist der TV-Effekt bei radio = 30: 0.02 + 0.001 · 30 = 0.05. Der Effekt ist also nicht mehr nur eine einzelne Zahl.

Hierarchieprinzip

Wenn ein Interaktionsterm im Modell ist, sollten die zugehörigen Haupteffekte normalerweise ebenfalls enthalten sein, auch wenn deren p-Werte größer sind. Ohne Haupteffekte ändert sich die Bedeutung des Interaktionsterms und wird schwer interpretierbar.

Prüfungsfalle: Ein Modell nur mit TV · radio, aber ohne TV und radio, ist nicht „einfacher interpretierbar“. Es verletzt typischerweise das Hierarchieprinzip und vermischt Haupteffekte mit Interaktion.

Interaktion numerisch mal kategorial

Bei Kreditkartendaten kann der Zusammenhang zwischen Income und Balance für Studenten anders verlaufen als für Nicht-Studenten.

balance_i ≈ β₀ + β₁income_i + β₂student_i + β₃(income_i · student_i)

Nicht-Student: β₀ + β₁income_i. Student: (β₀ + β₂) + (β₁ + β₃)income_i.

Folie 54: Kreditkartendaten ohne und mit Interaktion zwischen Einkommen und Studentenstatus — Folie 54: Ohne Interaktion haben Gruppen parallele Linien. Mit Interaktion dürfen sich sowohl Achsenabschnitt als auch Steigung zwischen Student und Nicht-Student unterscheiden.

9. Nichtlinearität

Lineare Regression ist linear in den Koeffizienten, nicht zwingend linear in den Rohfeatures. Man kann transformierte Features wie Quadrate oder höhere Potenzen aufnehmen und bleibt trotzdem in einem linearen Regressionsmodell.

sales = β₀ + β₁TV + β₂TV² + ε sales = β₀ + β₁TV + β₂TV² + β₃TV³ + β₄TV⁴ + ... + ε

Das Advertising-Beispiel zeigt: Bei kleinen TV-Werten überschätzt ein einfaches lineares Modell die sales teilweise. Das deutet auf eine nichtlineare Wirkung hin. Ein quadratischer Term kann diese Krümmung besser auffangen.

Folie 56: Nichtlinearität in Advertising-Daten — Folie 56: Ein systematisches Muster in den Abweichungen vom linearen Modell ist ein Hinweis, dass ein linearer Term allein nicht ausreicht.

Folie 58: Quadratischer Zusammenhang — Folie 58: Quadratisches Modell. Ein zusätzlicher Term TV² erlaubt Krümmung.

Folie 59: Polynom Grad 5 — Folie 59: Polynom 5. Grades. Mehr Flexibilität kann helfen, erhöht aber Overfitting-Risiko.

Folie 60: Polynom Grad 50 — Folie 60: Polynom 50. Grades. Sehr flexible Modelle können Trainingsdaten stark verfolgen und außerhalb der Datenbereiche instabil werden.

Prüfungsfalle: Ein Polynom hohen Grades kann Trainingsdaten gut treffen, aber auf Testdaten schlecht sein. Die Frage „Overfit oder Underfit?“ wird nicht mit dem Trainingsplot allein beantwortet, sondern mit Testdaten oder Cross-Validation.

10. Klausurtraining: typische Aufgaben und Rechenwege

Aufgabe 1: Vorhersage und Residuum

Gegeben: β̂₀ = 2.59, β̂_TV = 0.0446, β̂_radio = 0.2062, β̂_newspaper = 0.0022. Für TV = 100, radio = 20, newspaper = 30:

ŷ = 2.59 + 0.0446 · 100 + 0.2062 · 20 + 0.0022 · 30 = 11.24

Ist y = 12.5, dann ist e = 12.5 - 11.24 = 1.26.

Aufgabe 2: p-Wert interpretieren

Fragestellung: Newspaper hat p-Wert 0.758 im multiplen Advertising-Modell. Was heißt das?

Antwort: Die Nullhypothese H₀: β_newspaper = 0 wird nicht verworfen. Es gibt in diesem Modell keinen statistischen Hinweis auf einen zusätzlichen linearen Zusammenhang von Newspaper mit sales, wenn TV und radio bereits kontrolliert sind. Es ist kein Beweis, dass Newspaper nie relevant ist.

Aufgabe 3: Dummyvariable auswerten

Gegeben: β̂₀ = 484.8, β̂_StudentYes = 362.7.

Nicht-Student: balance = 484.8. Student: balance = 484.8 + 362.7 = 847.5. Der Koeffizient ist die Differenz zur Baseline, nicht der absolute Wert für Studenten.

Aufgabe 4: Interaktion auswerten

Gegeben: sales = 6.467 + 0.01998TV + 0.04386radio + 0.001021(TV · radio).

TV-Effekt bei radio = 40: 0.01998 + 0.001021 · 40 = 0.06082. Radio-Effekt bei TV = 200: 0.04386 + 0.001021 · 200 = 0.24806.

Aufgabe 5: Lab-Aufgabe Credit-Daten

Das Lab fordert ein gutes Modell für Balance im Kreditkartendatensatz: Feature Selection, Interaktionsterme, Nichtlinearität, Overfit/Underfit mit Testdaten und Koeffizienteninterpretation.

Beobachtung aus vollem Credit-Modell	Klausurinterpretation
R² = 0.9604, adjusted R² = 0.9581	Sehr hohe erklärte Varianz im Trainingsmodell; trotzdem Testdaten prüfen.
Income negativer Koeffizient, Limit positiv, Rating nicht signifikant	Interpretation ist konditional. Income kann wegen Kontrolle von Limit/Rating negativ erscheinen; Kollinearität beachten.
StudentYes stark positiv	Bei sonst gleichen Features wird für Studenten höhere Balance vorhergesagt. Nicht automatisch kausal.
Region, Own, Married, Education nicht auffällig	Kein Nachweis für zusätzlichen Effekt in diesem Modell, kein Beweis für Gleichheit oder Irrelevanz in jedem Modell.

Prüfungsfalle: „Wie erreicht man Balance = 0?“ darf nicht kausal überinterpretiert werden. Ein Regressionsmodell sagt, welche Featurewerte mit niedriger vorhergesagter Balance verbunden sind. Es beweist nicht, dass man durch Manipulation dieser Features Balance kausal senkt.

11. Kompakte Lerncheckliste

Ich kann das einfache Modell Y = β₀ + β₁X + ε erklären.
Ich kann aus Koeffizienten eine Vorhersage ŷ berechnen.
Ich kann Residuen und RSS berechnen und im Plot erkennen.
Ich weiß, dass Least Squares den Trainings-RSS minimiert.
Ich kann die Normalengleichung einordnen und weiß, warum die Inverse praktisch nicht explizit berechnet wird.
Ich kann Standardfehler, Konfidenzintervall und p-Wert sprachlich sauber interpretieren.
Ich verwechsle p-Wert nicht mit der Wahrscheinlichkeit, dass die Nullhypothese wahr ist.
Ich kann RSS, TSS, RSE und R² unterscheiden.
Ich kann Koeffizienten in multipler Regression mit „bei konstanten anderen Features“ interpretieren.
Ich kenne Kollinearität und ihre Folgen für Standardfehler, Stabilität und Interpretation.
Ich kann Forward Selection, Backward Selection und Brute Force grob erklären.
Ich weiß, warum 2^p Featurekombinationen schnell unpraktisch werden.
Ich kann Dummyvariablen, Baseline und k - 1-Kodierung erklären.
Ich erkenne die Dummy-Variable-Trap bei One-Hot mit Intercept.
Ich kann Interaktionsterme interpretieren und marginale Effekte berechnen.
Ich kenne das Hierarchieprinzip für Interaktionen.
Ich weiß, wie polynomielle Terme Nichtlinearität abbilden.
Ich kann Overfitting bei hohen Polynomgraden begründen und Testdaten als Prüfung nennen.

Mögliche Klausurfragen

Leiten Sie aus gegebenen Koeffizienten eine Vorhersage und ein Residuum ab.
Erklären Sie RSS und warum Residuen quadriert werden.
Interpretieren Sie einen Koeffizienten im einfachen und im multiplen Modell.
Erklären Sie den Unterschied zwischen statistischem Zusammenhang und Kausalität.
Interpretieren Sie einen p-Wert von 0.758 für einen Regressionskoeffizienten.
Berechnen oder interpretieren Sie ein 95 %-Konfidenzintervall.
Vergleichen Sie zwei Modelle anhand von RSE und R².
Erklären Sie, warum Kollinearität Koeffizienten instabil machen kann.
Beschreiben Sie Forward Selection und nennen Sie geeignete Auswahlkriterien.
Kodieren Sie ein kategoriales Feature mit drei Ausprägungen und interpretieren Sie die Baseline.
Erklären Sie, warum vollständiges One-Hot-Encoding mit Intercept problematisch ist.
Berechnen Sie in einem Interaktionsmodell den Effekt von TV bei gegebenem radio.
Erklären Sie das Hierarchieprinzip bei Interaktionen.
Begründen Sie, wann ein quadratischer Term sinnvoll sein kann.
Erklären Sie anhand eines Polynoms hohen Grades Overfitting und wie man es prüft.

12. Abdeckungstabelle

Die Tabelle dokumentiert, wo die Inhalte des Skripts in dieser Zusammenfassung verarbeitet wurden.

Folie/Kapitel	Inhalt	In Zusammenfassung enthalten?	Wo behandelt?
1	Titel: KI und ML, Lineare Regression	Ja	Titel und Metadaten
2	Kapitelstart Lineare Regression	Ja	Abschnitt 2, Abbildung Folie 2
3	Lineare Regression als einfacher Supervised-Learning-Ansatz	Ja	Abschnitt 2
4	Box-Zitat: Modelle sind falsch, aber nützlich	Ja	Abschnitt 2, Modellnutzen trotz Vereinfachung
5	Advertising-Daten, Streudiagramme	Ja	Abschnitt 2, Abbildung Folie 5
6	Fragen an Advertising-Daten	Ja	Abschnitt 2
7	Einfaches lineares Modell mit einem Feature	Ja	Abschnitt 2, Formeln und Variablen
8	Least Squares	Ja	Abschnitt 3
9	Vorhersage, Residuum, RSS	Ja	Abschnitt 3
10	Least Squares, MLE, Training statt Test	Ja	Abschnitt 3, Prüfungsfalle Training/Test
11	Lineare Algebra, Normalengleichung, Designmatrix	Ja	Abschnitt 3, Matrixform
12	Advertising-Fit mit Residuen	Ja	Abschnitt 3, Abbildung Folie 12
13	Bewertung des Modells und der Koeffizienten	Ja	Abschnitt 4
14	Standardfehler der Koeffizienten	Ja	Abschnitt 4, SE-Formeln
15	Konfidenzintervall	Ja	Abschnitt 4
16	Hypothesentests	Ja	Abschnitt 4
17	p-Wert-Interpretation	Ja	Abschnitt 4, Prüfungsfalle
18	Kleine/große p-Werte, Korrelation nicht Kausalität	Ja	Abschnitt 4
19	Advertising: TV-Modell in R	Ja	Abschnitt 4, Ergebnis-Tabelle
20	RSS, TSS, RSE, R²	Ja	Abschnitt 4, Modellgüte
21	Advertising: RSE und R² interpretieren	Ja	Abschnitt 4
22	Kapitelstart Multiple lineare Regression	Ja	Abschnitt 5
23	Multiples Modell und Koeffizienteninterpretation	Ja	Abschnitt 5
24	Unkorrelierte Features und Interpretation	Ja	Abschnitt 5
25	Kollinearität	Ja	Abschnitt 5, Prüfungsfalle
26	Münzbeispiel für Kollinearität	Ja	Abschnitt 5
27	Schätzung und Vorhersage multiple Regression	Ja	Abschnitt 5, Formeln
28	Vorhersage mit zwei Features	Ja	Abschnitt 5, Abbildung Folie 28
29	Advertising: Multiples Modell	Ja	Abschnitt 5, Koeffiziententabelle
30	Kapitelstart Feature Selection	Ja	Abschnitt 6
31	Featurekombinationen, 2^p, p-Werte	Ja	Abschnitt 6
32	Stepwise Forward und Backward Selection	Ja	Abschnitt 6
33	Forward Selection Gesamtablauf	Ja	Abschnitt 6, Abbildung Folie 33
34	Auswahlkriterien: C_p, AIC, BIC, adjusted R²	Ja	Abschnitt 6
35	Alternativen: Optimierungsproblem, Lasso	Ja	Abschnitt 6, weitere Alternativen erwähnt
36	Kapitelstart Kategoriale Features	Ja	Abschnitt 7
37	Kategoriale Features und Ausprägungen	Ja	Abschnitt 7
38	Kreditkartendaten	Ja	Abschnitt 7, Abbildung Folie 38
39	Kreditkartendaten mit hervorgehobenen Gruppen	Ja	Abschnitt 7, Abbildung Folie 39
40	Dummyvariable Student	Ja	Abschnitt 7, binäre Dummies
41	Student-Modell Ergebnis	Ja	Abschnitt 7
42	Kategoriale Features mit mehr als zwei Ausprägungen	Ja	Abschnitt 7
43	Baseline und Differenzinterpretation	Ja	Abschnitt 7
44	Dummy vs. One-Hot, Singularität	Ja	Abschnitt 7, Dummy-Variable-Trap
45	Region-Modell Ergebnis	Ja	Abschnitt 7
46	Kapitelstart Interaktionen	Ja	Abschnitt 8
47	Additives Advertising-Modell	Ja	Abschnitt 8
48	Synergieeffekt Radio und TV	Ja	Abschnitt 8
49	Interaktion in Advertising-Daten	Ja	Abschnitt 8, Abbildung Folie 49
50	Interaktionsmodell Formel	Ja	Abschnitt 8, Modellformel
51	Interaktionsmodell Ergebnisse	Ja	Abschnitt 8, Ergebnistabelle und Rechenaufgabe
52	Hierarchieprinzip	Ja	Abschnitt 8
53	Interaktion numerisch mal kategorial	Ja	Abschnitt 8
54	Kreditdaten mit/ohne Interaktion	Ja	Abschnitt 8, Abbildung Folie 54
55	Kapitelstart Nichtlinearität	Ja	Abschnitt 9
56	Nichtlinearer Zusammenhang Advertising	Ja	Abschnitt 9, Abbildung Folie 56
57	Polynomielle Terme	Ja	Abschnitt 9, Formeln
58	Quadratisches Modell	Ja	Abschnitt 9, Abbildung Folie 58
59	Polynom 5. Grades	Ja	Abschnitt 9, Abbildung Folie 59
60	Polynom 50. Grades	Ja	Abschnitt 9, Abbildung Folie 60
61	Lab	Ja	Abschnitt 10
62	Kreditkartendaten volles Modell	Ja	Abschnitt 10, Credit-Modell-Tabelle
63	Lab tasks	Ja	Abschnitt 10 und 11