Klausurzusammenfassung: Lineare Regression

Vorlesungsskript 20_Ch.3: Lineare Regression, KI und ML: Supervised Learning

Umfang des Skripts63 Folien
FokusDefinitionen, Formeln, Interpretation, Rechenwege, Prüfungsfallen
DruckDIN A4, browserfähig, Bilder inline eingebettet

1. Analyse des Skripts

Das Skript führt lineare Regression als einfachen, aber wichtigen Ansatz für Supervised Learning ein. Der rote Faden ist: Modellannahme formulieren, Koeffizienten mit Least Squares schätzen, Modell und Koeffizienten statistisch bewerten, dann das Modell auf mehrere Featuretypen und Erweiterungen ausbauen.

Zentrale Begriffe: Label Y, Feature X, Koeffizienten β0, β1, ..., Fehlerterm ε, Residuum ei, RSS, RSE, R2, Standardfehler, Konfidenzintervall, p-Wert, Kollinearität, Dummyvariable, Interaktion und Polynomterm.
KapitelblockFolienschwerpunktKlausurrelevanz
Folien 1-12Grundmodell, Advertising-Daten, Least Squares, ResiduenModellgleichung, Vorhersage, RSS, Matrixform, Residuenplot deuten
Folien 13-21Standardfehler, Konfidenzintervalle, Hypothesentests, RSE, R2Koeffizienten und p-Werte korrekt interpretieren
Folien 22-35Multiple Regression, Kollinearität, Feature Selection„Bei konstanten anderen Features“ erklären, Modellwahl begründen
Folien 36-45Kategoriale Features, Dummy-Coding, BaselineDummyvariablen und Baseline-Koeffizienten sicher auswerten
Folien 46-54InteraktionseffekteInteraktionsterme interpretieren, Hierarchieprinzip anwenden
Folien 55-63Nichtlinearität, Polynome, Lab-AufgabenOverfitting erkennen, train/test sauber trennen, Modell interpretieren

2. Grundidee der linearen Regression

Lineare Regression modelliert den Zusammenhang zwischen einem Zielwert und einem oder mehreren Features als lineare Kombination der Features. In der Realität sind Zusammenhänge selten exakt linear. Das ist kein Widerspruch: Ein Modell muss nicht wahr sein, um für Vorhersage, Erklärung oder als Baseline nützlich zu sein.

Einfaches lineares Modell: Y = β0 + β1X + ε
Y
Label bzw. Zielvariable, z. B. sales.
X
Feature bzw. erklärende Variable, z. B. TV-Werbebudget.
β0
Y-Achsenabschnitt: erwarteter Wert von Y, wenn X = 0.
β1
Steigung: erwartete Änderung von Y bei Erhöhung von X um eine Einheit.
ε
Modellfehler: alles, was durch die lineare Beziehung nicht erklärt wird.
Vorhersage mit geschätzten Koeffizienten: ŷ = β̂0 + β̂1x

Die Hüte kennzeichnen Schätzwerte. β̂0 und β̂1 werden aus Trainingsdaten gelernt; x ist ein neuer Featurewert.

Folie 2: Einfaches lineares Modell mit Streudiagramm und Regressionsgerade
Folie 2: Grundbild der linearen Regression. Die Gerade fasst den durchschnittlichen linearen Trend zusammen; die Punkte streuen um diese Gerade.

Advertising-Daten als Leitbeispiel

Das Skript nutzt die Advertising-Daten. Das Label ist sales, die Features sind Werbebudgets für TV, Radio und Newspaper. Typische Fragen sind: Gibt es einen Zusammenhang zwischen Budget und Umsatz? Wie stark ist er? Ist er linear? Welche Medien tragen erklärend bei? Gibt es Synergien zwischen Medien? Wie gut lässt sich zukünftiger Umsatz vorhersagen?

Folie 5: Advertising-Daten mit mehreren Streudiagrammen
Folie 5: Advertising-Daten. Bereits visuell ist TV stärker mit sales verbunden als Newspaper; solche Beobachtungen müssen später statistisch geprüft werden.
Prüfungsfalle: Eine Regressionsgerade bedeutet nicht, dass der Zusammenhang wirklich linear oder kausal ist. Sie ist zuerst ein geschätzter Zusammenhang in Daten. Kausalität kommt aus Studiendesign und Fachwissen, nicht aus einem kleinen p-Wert allein.

3. Least Squares und Residuen

Die Methode der kleinsten Quadrate wählt die Koeffizienten so, dass die Summe der quadrierten Residuen auf den Trainingsdaten minimal wird. Das Residuum ist die Differenz zwischen beobachtetem Wert und Modellvorhersage.

Vorhersage und Residuum für Trainingspunkt i: i = β̂0 + β̂1xi ei = yi - ŷi
xi
Featurewert des i-ten Trainingspunkts.
yi
Beobachtetes Label des i-ten Trainingspunkts.
i
Vom Modell vorhergesagter Wert.
ei
Residuum; positiv, wenn das Modell zu niedrig vorhersagt.
Residual Sum of Squares: RSS = e12 + e22 + ... + en2 = ∑i=1n(yi - ŷi)2

Quadrate verhindern, dass positive und negative Abweichungen sich gegenseitig aufheben, und bestrafen große Fehler stärker.

Folie 12: Advertising-Daten mit Regressionsgerade und vertikalen Residuen
Folie 12: Vertikale Linien sind Residuen. Least Squares sucht die blaue Gerade, bei der die Summe der quadrierten Linienlängen minimal ist.

Analytische Lösung in Matrixform

Die Least-Squares-Lösung kann analytisch bestimmt werden. Die Designmatrix X enthält die Featurewerte. Üblicherweise enthält sie zusätzlich eine Spalte aus Einsen für den Achsenabschnitt.

β̂ = (XTX)-1XTy XTXβ̂ = XTy

Die erste Gleichung ist die theoretische Normalengleichung. In Software wird die Inverse meist nicht explizit berechnet; numerisch stabiler ist das direkte Lösen des linearen Gleichungssystems.

Prüfungsfalle: RSS wird beim Training minimiert. Ein kleiner Trainings-RSS ist kein Beweis für gute Vorhersage auf Testdaten. Für Generalisierung braucht man Testfehler, Cross-Validation oder zumindest eine saubere train/test-Trennung.
Typische Rechenaufgabe: Gegeben β̂0 = 7.12, β̂1 = 0.0469 und x = 100. Dann ist ŷ = 7.12 + 0.0469 · 100 = 11.81. Ist der beobachtete Wert y = 13, dann ist e = 1.19.

4. Bewertung von Koeffizienten und Modell

Nach dem Fit ist die klausurrelevante Frage nicht nur „Welche Gerade kommt heraus?“, sondern: Wie unsicher sind die Koeffizienten? Ist ein Zusammenhang statistisch erkennbar? Wie gut erklärt das Modell die Variation im Label?

Standardfehler und Konfidenzintervalle

Der Standardfehler eines Koeffizienten beschreibt, wie stark die Koeffizientenschätzung über wiederholte Stichproben schwanken würde. Große Standardfehler bedeuten unsichere Schätzungen.

SE(β̂1)2 = σ2 / ∑i=1n(xi - x̄)2 SE(β̂0)2 = σ2 · [1/n + x̄2 / ∑i=1n(xi - x̄)2]
σ2
Varianz des Fehlerterms, in der Praxis geschätzt.
Mittelwert der Featurewerte.
n
Anzahl der Trainingsbeobachtungen.

Ein approximatives 95 %-Konfidenzintervall wird im Skript als Schätzung plus/minus zwei Standardfehler angegeben:

[β̂j - 2 · SE(β̂j), β̂j + 2 · SE(β̂j)]

Für die Advertising-Daten liegt das 95 %-Intervall für den TV-Koeffizienten etwa bei [0.042, 0.053]. Da das Intervall deutlich über null liegt, spricht das für einen positiven Zusammenhang.

Prüfungsfalle: Ein Konfidenzintervall bedeutet nicht sauber formuliert „der wahre Parameter liegt mit 95 % Wahrscheinlichkeit in diesem konkreten Intervall“. Besser: Das Verfahren erzeugt bei wiederholten Stichproben in etwa 95 % der Fälle Intervalle, die den wahren Parameter enthalten.

Hypothesentests und p-Werte

Für Koeffizienten wird typischerweise getestet, ob ein Feature überhaupt einen linearen Zusammenhang mit dem Label zeigt.

Nullhypothese für Feature j: H0: βj = 0

Wenn der p-Wert klein ist, häufig p < 0.05, wird H0 verworfen. Dann gibt es Hinweise, dass der Koeffizient nicht null ist. Wenn der p-Wert groß ist, wird H0 nicht verworfen. Das ist kein Beweis, dass kein Zusammenhang existiert.

Prüfungsfalle: Der p-Wert ist nicht die Wahrscheinlichkeit, dass H0 wahr ist. Er bewertet, wie extrem Daten unter der Annahme der Nullhypothese wären. Außerdem sagt ein p-Wert nichts über Kausalität.

Modellgüte: RSS, TSS, RSE und R2

Einzelne Koeffizienten beantworten, welche Features statistisch auffallen. Die Modellgüte beantwortet, wie viel das Modell insgesamt erklärt und wie groß typische Residuen sind.

RSS = ∑i=1n(yi - ŷi)2 TSS = ∑i=1n(yi - ȳ)2 RSE = √(RSS / (n - 2)) (einfache lineare Regression) RSE = √(RSS / (n - p - 1)) (allgemein bei p Features) R2 = 1 - RSS/TSS

R2 ist der Anteil der erklärten Varianz. Ein Wert nahe eins ist oft gut, aber nicht automatisch realistisch oder sinnvoll. Manche Daten enthalten viel irreduziblen Fehler, der mit den vorhandenen Features nicht erklärt werden kann.

ModellWichtige ErgebnisseInterpretation
sales ~ TV β̂0 = 7.1199, β̂TV = 0.0469, RSE = 3.346, R2 = 0.6091, p-Wert für TV < 2e-16 TV erklärt im einfachen Modell etwa 60 % der Varianz. Pro TV-Einheit steigt sales im Mittel um etwa 0.047 Dateneinheiten.
sales ~ TV + radio + newspaper TV und radio sehr kleine p-Werte, newspaper p-Wert 0.758, RSE = 1.516, R2 = 0.9214 Mit mehreren Features erklärt das Modell deutlich mehr Varianz. Newspaper liefert hier keinen statistischen Hinweis auf zusätzlichen linearen Beitrag, wenn TV und radio bereits im Modell sind.
Typische Interpretationsaufgabe: „Der Koeffizient für TV ist 0.04455“ bedeutet im multiplen Modell: Wenn TV um eine Einheit steigt und radio sowie newspaper konstant bleiben, steigt sales im Mittel um 0.04455 Dateneinheiten. Der Nebensatz „bei konstanten anderen Features“ gehört zur vollen Punktzahl.

5. Multiple lineare Regression

Bei mehreren Features wird der Zielwert als lineare Kombination aller Features modelliert. Die Grundidee bleibt Least Squares, aber die Interpretation der Koeffizienten wird konditional.

Y = β0 + β1X1 + β2X2 + ... + βpXp + ε ŷ = β̂0 + β̂1x1 + β̂2x2 + ... + β̂pxp

βj ist die durchschnittliche Änderung in Y bei einer Einheit mehr in Xj, wenn alle anderen Featurewerte konstant bleiben.

Folie 28: Multiple lineare Regression als Ebene mit zwei Features
Folie 28: Bei zwei Features wird die Regressionsgerade zur Ebene. Die Residuen sind vertikale Abstände zur geschätzten Ebene.

Kollinearität

Kollinearität bedeutet, dass Features untereinander stark korreliert sind. Dann wird es schwieriger, den Effekt eines einzelnen Features isoliert zu schätzen, weil sich die Features in den Daten typischerweise gemeinsam ändern.

Auswirkungen von Kollinearität: Die Varianz der Koeffizientenschätzungen steigt, Standardfehler können groß werden, p-Werte werden instabil, numerische Lösung kann schlechter konditioniert sein, und die fachliche Interpretation wird heikel.
Prüfungsfalle: Das Vorzeichen eines Koeffizienten im einfachen Modell kann sich im multiplen Modell ändern. Grund: Im einfachen Modell misst der Koeffizient eine marginale Beziehung; im multiplen Modell misst er eine Beziehung bei konstant gehaltenen anderen Features.

Das Münzbeispiel aus dem Skript illustriert diese Falle: Der Wert der Münzen hängt von der Anzahl bestimmter Münzarten und von der Gesamtzahl der Münzen ab. Wird die Gesamtzahl konstant gehalten, bedeutet „eine Münzart mehr“ implizit, dass eine andere Münzart weniger vorhanden ist. Genau deshalb kann sich die Interpretation des Koeffizienten ändern.

Advertising-Ergebnis mit drei Features

Für sales = β0 + β1TV + β2radio + β3newspaper + ε ergibt das Skript ungefähr:

KoeffizientSchätzungp-WertKlausurinterpretation
Intercept2.59068sehr kleinErwartete sales bei allen Budgets null, falls dieser Punkt fachlich sinnvoll ist.
TV0.04455sehr kleinPositiver Zusammenhang mit sales, wenn radio und newspaper konstant bleiben.
radio0.20623sehr kleinStarker positiver Zusammenhang mit sales, wenn TV und newspaper konstant bleiben.
newspaper0.0021870.758Kein statistischer Hinweis auf zusätzlichen linearen Beitrag in diesem Modell.

6. Feature Selection

Feature Selection entscheidet, welche Features im Modell bleiben. Naiv könnte man alle Features mit hohen p-Werten entfernen. Das kann funktionieren, ist aber nicht immer ideal, besonders bei Kollinearität oder wenn Features gemeinsam wichtig sind.

Brute Force und Komplexität

Der direkteste Ansatz trainiert ein Modell für jede mögliche Featurekombination und wählt das beste nach einem Kriterium. Bei p Features gibt es 2p Kombinationen. Für p = 40 sind das mehr als eine Billion Modelle und praktisch nicht vollständig durchsuchbar.

Stepwise Forward Selection

  1. Beginne mit leerem Modell: nur Intercept.
  2. Trainiere alle Modelle, die genau ein bisher fehlendes Feature zusätzlich enthalten.
  3. Wähle das Modell, das ein Auswahlkriterium am besten erfüllt.
  4. Stoppe, wenn ein Abbruchkriterium erfüllt ist; sonst wiederhole Schritt 2.
Folie 33: Ablauf der Stepwise Forward Selection
Folie 33: Forward Selection prüft schrittweise Erweiterungen und merkt sich pro Schritt das beste Modell. Am Ende muss trotzdem ein Kriterium entscheiden, welches der farbigen Kandidaten gewählt wird.

Auswahlkriterien

Gute Kriterien bestrafen Modelle, die nur durch zusätzliche Komplexität besser auf Trainingsdaten passen. Im Skript genannt werden Mallows Cp, AIC, BIC und adjusted R2. Für Prüfungsantworten reicht meist: Kriterien sollen Vorhersagegüte und Modellkomplexität gegeneinander abwägen.

Adjusted R2 als typische Idee: R2adj = 1 - (1 - R2) · (n - 1) / (n - p - 1)

Normales R2 sinkt beim Hinzufügen von Features praktisch nicht. Adjusted R2 bestraft zusätzliche Features über die Freiheitsgrade.

Prüfungsfalle: Das beste Modell nach Trainings-RSS ist oft zu komplex. Für Vorhersage muss die Auswahl an Testdaten oder Cross-Validation gemessen werden. Besonders bei vielen Featurekombinationen besteht Overfitting-Gefahr durch die Auswahl selbst.

7. Kategoriale Features

Kategoriale Features beschreiben Kategorien statt numerische Größen, z. B. Beruf, Materialart, Automarke, Student ja/nein, verheiratet ja/nein oder Region. Die möglichen Kategorien heißen Ausprägungen. Lineare Regression braucht dafür numerische Kodierungen.

Folie 38: Kreditkartendaten mit quantitativen und kategorialen Features
Folie 38: Kreditkartendaten. Das Label ist Credit card balance; Features sind quantitative Größen und kategoriale Variablen wie Student, Married, Own und Region.

Binäre kategoriale Features

Für ein Feature mit zwei Ausprägungen genügt eine Dummyvariable. Im Student-Beispiel:

xi = 1, wenn Person i Student ist; sonst xi = 0 i = β̂0 + β̂1xi Nicht-Student: ŷi = β̂0; Student: ŷi = β̂0 + β̂1

Im Skript ist die Schätzung für StudentYes ungefähr 362.72 mit kleinem p-Wert. Interpretation: Studenten haben in diesem einfachen Modell im Mittel eine um etwa 363 höhere Balance als Nicht-Studenten. Das Modell erklärt trotzdem nur etwa 5 % der Varianz, also ist der Gruppenunterschied nicht gleichbedeutend mit guter Gesamtvorhersage.

Folie 39: Kreditkartendaten mit hervorgehobenen Studenten und Hausbesitzern
Folie 39: Kategoriale Gruppen können sich im Streudiagramm sichtbar unterscheiden. Sichtbarkeit ersetzt aber nicht den Modelltest.

Mehr als zwei Ausprägungen

Bei k Ausprägungen verwendet man mit Intercept typischerweise k - 1 Dummyvariablen. Die weggelassene Ausprägung ist die Baseline. Alle Dummy-Koeffizienten sind Differenzen relativ zu dieser Baseline.

Region mit Baseline east: xi1 = 1, wenn Region south; sonst 0 xi2 = 1, wenn Region west; sonst 0 i = β̂0 + β̂1xi1 + β̂2xi2

East: β̂0, south: β̂0 + β̂1, west: β̂0 + β̂2.

Dummy vs. One-Hot

Bei One-Hot-Codierung würde man für jede Ausprägung eine Spalte erzeugen. In einer linearen Regression mit Intercept führt das zu linearer Abhängigkeit: Die Summe aller One-Hot-Spalten ist genau die Intercept-Spalte. Das ist die Dummy-Variable-Trap.

Prüfungsfalle: Bei k Kategorien und Intercept nur k - 1 Dummies verwenden. Sonst ist die Designmatrix singulär, und ein Koeffizient kann nicht eindeutig geschätzt werden.

Im Region-Modell sind die p-Werte hoch. Daraus folgt: Es gibt keinen Nachweis, dass Region mit Balance zusammenhängt. Daraus folgt nicht: Die Regionen sind sicher gleich. Außerdem gibt es je Dummyvariable eine eigene Nullhypothese.

8. Interaktionen

Ein additives lineares Modell nimmt an, dass der Effekt jedes Features unabhängig von den anderen Features ist. Interaktionen modellieren Fälle, in denen der Effekt eines Features von einem anderen Feature abhängt.

Additives Advertising-Modell: sales = β0 + β1TV + β2radio + β3newspaper + ε Mit TV-radio-Interaktion: sales = β0 + β1TV + β2radio + β3(TV · radio) + ε

Wenn Radio-Werbung die Wirksamkeit von TV-Werbung erhöht, ist der TV-Effekt nicht konstant. Marketing nennt das Synergieeffekt; Statistik nennt es Interaktion. Wichtig: Interaktion ist nicht dasselbe wie Korrelation oder Kollinearität.

Folie 49: Muster der Über- und Unterschätzung als Hinweis auf Interaktion
Folie 49: Systematische Residuenmuster können Interaktionen anzeigen. Wenn das additive Modell bei gleichzeitig hohen oder niedrigen TV- und radio-Werten unterschätzt und bei gemischten Werten überschätzt, fehlt ein Interaktionsterm.

Interpretation der Interaktionskoeffizienten

Das Skript formt das Modell um:

sales = β0 + (β1 + β3radio) · TV + β2radio + ε

Der marginale Effekt von TV ist also β1 + β3radio. Je höher radio ist, desto stärker wird der TV-Effekt, wenn β3 positiv ist.

InteraktionsmodellSchätzungInterpretation
TV0.01998TV-Effekt, wenn radio null ist.
radio0.04386Radio-Effekt, wenn TV null ist.
TV:radio0.001021Positive Interaktion: TV und radio verstärken sich gegenseitig.
ModellgüteRSE = 0.8939, R2 = 0.9727Deutlich bessere Anpassung als das additive Modell.
Typische Rechenaufgabe: Mit β̂1 ≈ 0.02 und β̂3 ≈ 0.001 ist der TV-Effekt bei radio = 30: 0.02 + 0.001 · 30 = 0.05. Der Effekt ist also nicht mehr nur eine einzelne Zahl.

Hierarchieprinzip

Wenn ein Interaktionsterm im Modell ist, sollten die zugehörigen Haupteffekte normalerweise ebenfalls enthalten sein, auch wenn deren p-Werte größer sind. Ohne Haupteffekte ändert sich die Bedeutung des Interaktionsterms und wird schwer interpretierbar.

Prüfungsfalle: Ein Modell nur mit TV · radio, aber ohne TV und radio, ist nicht „einfacher interpretierbar“. Es verletzt typischerweise das Hierarchieprinzip und vermischt Haupteffekte mit Interaktion.

Interaktion numerisch mal kategorial

Bei Kreditkartendaten kann der Zusammenhang zwischen Income und Balance für Studenten anders verlaufen als für Nicht-Studenten.

balancei ≈ β0 + β1incomei + β2studenti + β3(incomei · studenti)

Nicht-Student: β0 + β1incomei. Student: 0 + β2) + (β1 + β3)incomei.

Folie 54: Kreditkartendaten ohne und mit Interaktion zwischen Einkommen und Studentenstatus
Folie 54: Ohne Interaktion haben Gruppen parallele Linien. Mit Interaktion dürfen sich sowohl Achsenabschnitt als auch Steigung zwischen Student und Nicht-Student unterscheiden.

9. Nichtlinearität

Lineare Regression ist linear in den Koeffizienten, nicht zwingend linear in den Rohfeatures. Man kann transformierte Features wie Quadrate oder höhere Potenzen aufnehmen und bleibt trotzdem in einem linearen Regressionsmodell.

sales = β0 + β1TV + β2TV2 + ε sales = β0 + β1TV + β2TV2 + β3TV3 + β4TV4 + ... + ε

Das Advertising-Beispiel zeigt: Bei kleinen TV-Werten überschätzt ein einfaches lineares Modell die sales teilweise. Das deutet auf eine nichtlineare Wirkung hin. Ein quadratischer Term kann diese Krümmung besser auffangen.

Folie 56: Nichtlinearität in Advertising-Daten
Folie 56: Ein systematisches Muster in den Abweichungen vom linearen Modell ist ein Hinweis, dass ein linearer Term allein nicht ausreicht.
Folie 58: Quadratischer Zusammenhang
Folie 58: Quadratisches Modell. Ein zusätzlicher Term TV2 erlaubt Krümmung.
Folie 59: Polynom Grad 5
Folie 59: Polynom 5. Grades. Mehr Flexibilität kann helfen, erhöht aber Overfitting-Risiko.
Folie 60: Polynom Grad 50
Folie 60: Polynom 50. Grades. Sehr flexible Modelle können Trainingsdaten stark verfolgen und außerhalb der Datenbereiche instabil werden.
Prüfungsfalle: Ein Polynom hohen Grades kann Trainingsdaten gut treffen, aber auf Testdaten schlecht sein. Die Frage „Overfit oder Underfit?“ wird nicht mit dem Trainingsplot allein beantwortet, sondern mit Testdaten oder Cross-Validation.

10. Klausurtraining: typische Aufgaben und Rechenwege

Aufgabe 1: Vorhersage und Residuum

Gegeben: β̂0 = 2.59, β̂TV = 0.0446, β̂radio = 0.2062, β̂newspaper = 0.0022. Für TV = 100, radio = 20, newspaper = 30:

ŷ = 2.59 + 0.0446 · 100 + 0.2062 · 20 + 0.0022 · 30 = 11.24

Ist y = 12.5, dann ist e = 12.5 - 11.24 = 1.26.

Aufgabe 2: p-Wert interpretieren

Fragestellung: Newspaper hat p-Wert 0.758 im multiplen Advertising-Modell. Was heißt das?

Antwort: Die Nullhypothese H0: βnewspaper = 0 wird nicht verworfen. Es gibt in diesem Modell keinen statistischen Hinweis auf einen zusätzlichen linearen Zusammenhang von Newspaper mit sales, wenn TV und radio bereits kontrolliert sind. Es ist kein Beweis, dass Newspaper nie relevant ist.

Aufgabe 3: Dummyvariable auswerten

Gegeben: β̂0 = 484.8, β̂StudentYes = 362.7.

Nicht-Student: balance = 484.8. Student: balance = 484.8 + 362.7 = 847.5. Der Koeffizient ist die Differenz zur Baseline, nicht der absolute Wert für Studenten.

Aufgabe 4: Interaktion auswerten

Gegeben: sales = 6.467 + 0.01998TV + 0.04386radio + 0.001021(TV · radio).

TV-Effekt bei radio = 40: 0.01998 + 0.001021 · 40 = 0.06082. Radio-Effekt bei TV = 200: 0.04386 + 0.001021 · 200 = 0.24806.

Aufgabe 5: Lab-Aufgabe Credit-Daten

Das Lab fordert ein gutes Modell für Balance im Kreditkartendatensatz: Feature Selection, Interaktionsterme, Nichtlinearität, Overfit/Underfit mit Testdaten und Koeffizienteninterpretation.

Beobachtung aus vollem Credit-ModellKlausurinterpretation
R2 = 0.9604, adjusted R2 = 0.9581Sehr hohe erklärte Varianz im Trainingsmodell; trotzdem Testdaten prüfen.
Income negativer Koeffizient, Limit positiv, Rating nicht signifikantInterpretation ist konditional. Income kann wegen Kontrolle von Limit/Rating negativ erscheinen; Kollinearität beachten.
StudentYes stark positivBei sonst gleichen Features wird für Studenten höhere Balance vorhergesagt. Nicht automatisch kausal.
Region, Own, Married, Education nicht auffälligKein Nachweis für zusätzlichen Effekt in diesem Modell, kein Beweis für Gleichheit oder Irrelevanz in jedem Modell.
Prüfungsfalle: „Wie erreicht man Balance = 0?“ darf nicht kausal überinterpretiert werden. Ein Regressionsmodell sagt, welche Featurewerte mit niedriger vorhergesagter Balance verbunden sind. Es beweist nicht, dass man durch Manipulation dieser Features Balance kausal senkt.

11. Kompakte Lerncheckliste

Mögliche Klausurfragen

  1. Leiten Sie aus gegebenen Koeffizienten eine Vorhersage und ein Residuum ab.
  2. Erklären Sie RSS und warum Residuen quadriert werden.
  3. Interpretieren Sie einen Koeffizienten im einfachen und im multiplen Modell.
  4. Erklären Sie den Unterschied zwischen statistischem Zusammenhang und Kausalität.
  5. Interpretieren Sie einen p-Wert von 0.758 für einen Regressionskoeffizienten.
  6. Berechnen oder interpretieren Sie ein 95 %-Konfidenzintervall.
  7. Vergleichen Sie zwei Modelle anhand von RSE und R2.
  8. Erklären Sie, warum Kollinearität Koeffizienten instabil machen kann.
  9. Beschreiben Sie Forward Selection und nennen Sie geeignete Auswahlkriterien.
  10. Kodieren Sie ein kategoriales Feature mit drei Ausprägungen und interpretieren Sie die Baseline.
  11. Erklären Sie, warum vollständiges One-Hot-Encoding mit Intercept problematisch ist.
  12. Berechnen Sie in einem Interaktionsmodell den Effekt von TV bei gegebenem radio.
  13. Erklären Sie das Hierarchieprinzip bei Interaktionen.
  14. Begründen Sie, wann ein quadratischer Term sinnvoll sein kann.
  15. Erklären Sie anhand eines Polynoms hohen Grades Overfitting und wie man es prüft.

12. Abdeckungstabelle

Die Tabelle dokumentiert, wo die Inhalte des Skripts in dieser Zusammenfassung verarbeitet wurden.

Folie/Kapitel Inhalt In Zusammenfassung enthalten? Wo behandelt?
1Titel: KI und ML, Lineare RegressionJaTitel und Metadaten
2Kapitelstart Lineare RegressionJaAbschnitt 2, Abbildung Folie 2
3Lineare Regression als einfacher Supervised-Learning-AnsatzJaAbschnitt 2
4Box-Zitat: Modelle sind falsch, aber nützlichJaAbschnitt 2, Modellnutzen trotz Vereinfachung
5Advertising-Daten, StreudiagrammeJaAbschnitt 2, Abbildung Folie 5
6Fragen an Advertising-DatenJaAbschnitt 2
7Einfaches lineares Modell mit einem FeatureJaAbschnitt 2, Formeln und Variablen
8Least SquaresJaAbschnitt 3
9Vorhersage, Residuum, RSSJaAbschnitt 3
10Least Squares, MLE, Training statt TestJaAbschnitt 3, Prüfungsfalle Training/Test
11Lineare Algebra, Normalengleichung, DesignmatrixJaAbschnitt 3, Matrixform
12Advertising-Fit mit ResiduenJaAbschnitt 3, Abbildung Folie 12
13Bewertung des Modells und der KoeffizientenJaAbschnitt 4
14Standardfehler der KoeffizientenJaAbschnitt 4, SE-Formeln
15KonfidenzintervallJaAbschnitt 4
16HypothesentestsJaAbschnitt 4
17p-Wert-InterpretationJaAbschnitt 4, Prüfungsfalle
18Kleine/große p-Werte, Korrelation nicht KausalitätJaAbschnitt 4
19Advertising: TV-Modell in RJaAbschnitt 4, Ergebnis-Tabelle
20RSS, TSS, RSE, R2JaAbschnitt 4, Modellgüte
21Advertising: RSE und R2 interpretierenJaAbschnitt 4
22Kapitelstart Multiple lineare RegressionJaAbschnitt 5
23Multiples Modell und KoeffizienteninterpretationJaAbschnitt 5
24Unkorrelierte Features und InterpretationJaAbschnitt 5
25KollinearitätJaAbschnitt 5, Prüfungsfalle
26Münzbeispiel für KollinearitätJaAbschnitt 5
27Schätzung und Vorhersage multiple RegressionJaAbschnitt 5, Formeln
28Vorhersage mit zwei FeaturesJaAbschnitt 5, Abbildung Folie 28
29Advertising: Multiples ModellJaAbschnitt 5, Koeffiziententabelle
30Kapitelstart Feature SelectionJaAbschnitt 6
31Featurekombinationen, 2p, p-WerteJaAbschnitt 6
32Stepwise Forward und Backward SelectionJaAbschnitt 6
33Forward Selection GesamtablaufJaAbschnitt 6, Abbildung Folie 33
34Auswahlkriterien: Cp, AIC, BIC, adjusted R2JaAbschnitt 6
35Alternativen: Optimierungsproblem, LassoJaAbschnitt 6, weitere Alternativen erwähnt
36Kapitelstart Kategoriale FeaturesJaAbschnitt 7
37Kategoriale Features und AusprägungenJaAbschnitt 7
38KreditkartendatenJaAbschnitt 7, Abbildung Folie 38
39Kreditkartendaten mit hervorgehobenen GruppenJaAbschnitt 7, Abbildung Folie 39
40Dummyvariable StudentJaAbschnitt 7, binäre Dummies
41Student-Modell ErgebnisJaAbschnitt 7
42Kategoriale Features mit mehr als zwei AusprägungenJaAbschnitt 7
43Baseline und DifferenzinterpretationJaAbschnitt 7
44Dummy vs. One-Hot, SingularitätJaAbschnitt 7, Dummy-Variable-Trap
45Region-Modell ErgebnisJaAbschnitt 7
46Kapitelstart InteraktionenJaAbschnitt 8
47Additives Advertising-ModellJaAbschnitt 8
48Synergieeffekt Radio und TVJaAbschnitt 8
49Interaktion in Advertising-DatenJaAbschnitt 8, Abbildung Folie 49
50Interaktionsmodell FormelJaAbschnitt 8, Modellformel
51Interaktionsmodell ErgebnisseJaAbschnitt 8, Ergebnistabelle und Rechenaufgabe
52HierarchieprinzipJaAbschnitt 8
53Interaktion numerisch mal kategorialJaAbschnitt 8
54Kreditdaten mit/ohne InteraktionJaAbschnitt 8, Abbildung Folie 54
55Kapitelstart NichtlinearitätJaAbschnitt 9
56Nichtlinearer Zusammenhang AdvertisingJaAbschnitt 9, Abbildung Folie 56
57Polynomielle TermeJaAbschnitt 9, Formeln
58Quadratisches ModellJaAbschnitt 9, Abbildung Folie 58
59Polynom 5. GradesJaAbschnitt 9, Abbildung Folie 59
60Polynom 50. GradesJaAbschnitt 9, Abbildung Folie 60
61LabJaAbschnitt 10
62Kreditkartendaten volles ModellJaAbschnitt 10, Credit-Modell-Tabelle
63Lab tasksJaAbschnitt 10 und 11