Klausurzusammenfassung: Classification

Vorlesungsskript 30_Ch.4, KI und ML: Supervised Learning

Fokus: Definitionen, Zusammenhänge, Formeln, Rechenwege, Diagrammdeutung, typische Klausuraufgaben und Prüfungsfallen.

1. Überblick und klausurrelevanter Kern

Klassifikation ist überwachtes Lernen mit einem kategorischen Zielwert. Anders als bei Regression ist das Label nicht eine Zahl auf einer metrischen Skala, sondern eine Klasse, zum Beispiel {spam, ham}, {ok, wartungsbedarf, kaputt} oder {setosa, versicolor, virginica}. Ein Klassifikationsmodell soll neue Beobachtungen einer Klasse zuordnen und idealerweise zusätzlich angeben, wie sicher diese Zuordnung ist.

Prüfungskern: Du solltest erklären können, warum logistische Regression Wahrscheinlichkeiten liefert, warum ihre Entscheidungsgrenze bei linearen Features trotzdem eine Hyperebene ist, warum exakt trennbare Daten Probleme verursachen, wann LDA/QDA sinnvoll sind und warum Accuracy bei unausgewogenen Klassen täuschen kann.

Gliederung

  1. Grundlagen der Klassifikation und Default-Beispiel
  2. Binäre lineare Klassifikation und Hyperebenen
  3. Lineare Regression als Klassifikator?
  4. Logistische Regression
  5. Confounding und Case-Control-Sampling
  6. Mehrklassenfall und Nichtlinearität
  7. Exakt trennbare Daten
  8. Diskriminanzanalyse: LDA, QDA, Naive Bayes
  9. Modellbewertung bei unausgewogenen Daten
  10. Iris-Lab und multinomiale logistische Regression
  11. Klausuraufgaben, Checkliste und Folienabdeckung

2. Grundlagen der Klassifikation

2.1 Klassifikationsproblem

Gegeben sind Features X = (X1, X2, ..., Xp) und ein kategorisches Label Y. Ein Klassifikator c bildet eine Beobachtung x auf eine Klasse ab. Bei binärer Klassifikation gibt es zwei Klassen; bei Mehrklassenklassifikation gibt es K > 2 Klassen.

Klassifikator und Klassenwahrscheinlichkeitc(x) ∈ {1, ..., K}pk(x) = Pr(Y = k | X = x)c(x) = arg maxk pk(x)

Variablen: x ist eine konkrete Beobachtung, K die Anzahl der Klassen, pk(x) die bedingte Wahrscheinlichkeit für Klasse k. Die Entscheidungsregel wählt die Klasse mit der größten geschätzten Wahrscheinlichkeit.

2.2 Ziele der Klassifikation

Das Skript nennt fünf Ziele: ein Label für neue Daten vorhersagen, die Zugehörigkeitswahrscheinlichkeit zu einer Klasse schätzen, die Unsicherheit der Vorhersage beurteilen, die Modellqualität bewerten und den Einfluss einzelner Features verstehen. Diese Ziele gehören zusammen: Ein reiner Klassenname ist oft zu wenig, weil eine Entscheidung mit 51 % geschätzter Wahrscheinlichkeit anders zu behandeln ist als eine mit 99 %.

Klausurfokus: Bei einer Aufgabe reicht es selten, nur die vorhergesagte Klasse zu nennen. Gib bei logistischer Regression häufig auch die berechnete Wahrscheinlichkeit, die Entscheidungsgrenze und eine kurze Unsicherheitsinterpretation an.

2.3 Beispiel Credit Card Default

Das erste durchgehende Beispiel ist der Credit-Card-Default-Datensatz. Das Label ist Y ∈ {Yes, No}, also ob ein Zahlungsausfall eintritt. Die Features sind student ∈ {Yes, No}, balance ∈ R und income ∈ R. Das Skript verwendet einen reproduzierbaren 50/50-Train/Test-Split mit set.seed(1).

Folie 7, Income nach Default
Folie 7, Income nach Default: Die Einkommensverteilung unterscheidet sich zwischen Default und No-Default nur schwach. Allein daraus ist keine robuste Trennung zu erwarten.
Folie 7, Balance nach Default
Folie 7, Balance nach Default: Die Balance ist bei Default-Fällen deutlich höher. Dieses Feature ist deshalb stark klassifikationsrelevant.
Prüfungsfalle: Ein sichtbarer Unterschied in einem Boxplot ist noch kein kausaler Effekt. Später zeigt das Skript beim Feature student, dass marginale und bedingte Zusammenhänge unterschiedliche Vorzeichen haben können.

3. Binäre lineare Klassifikation und Hyperebenen

3.1 Linear bedeutet lineare Entscheidungsgrenze

Bei binärer linearer Klassifikation wird der Featureraum in zwei Hälften geteilt. In zwei Dimensionen ist die Entscheidungsgrenze eine Gerade, in drei Dimensionen eine Ebene und in d Dimensionen eine Hyperebene. Die Klassen liegen auf verschiedenen Seiten dieser Grenze.

3.2 Geraden, Ebenen und Hyperebenen

Eine Gerade kann in Parameterform oder Koordinatenform beschrieben werden. Eine Ebene im dreidimensionalen Raum wird analog durch zwei Richtungsvektoren oder durch eine Koordinatengleichung beschrieben. Für Klassifikation ist die Koordinatenform besonders wichtig, weil sie direkt eine Seite der Grenze definiert.

Hyperebene in RdH = {x ∈ Rd : nTx + n0 = 0}nTx = n1x1 + n2x2 + ... + ndxd

Variablen: x ist ein Punkt im Featureraum, n = (n1, ..., nd) der Normalenvektor, n0 der Achsenabschnitt. Falls n0 = 0, verläuft die Hyperebene durch den Ursprung; sonst ist sie ein affiner Unterraum.

Folie 13, grafische Hyperebene
Folie 13, grafische Hyperebene: Die schattierte Fläche ist die Hyperebene. Der Normalenvektor steht orthogonal darauf; das Vorzeichen von nTx+n0 bestimmt die Seite der Grenze.
Typische Aufgabe: Gegeben sei β0 + β1x1 + β2x2 = 0. Zeichne die Entscheidungsgrenze und klassifiziere Punkte anhand des Vorzeichens. Rechenweg: Wert einsetzen, Vorzeichen bestimmen, Klasse zuordnen.

4. Kann man lineare Regression zur Klassifikation verwenden?

4.1 Dummy-Codierung und Schwellenwert

Für zwei Klassen kann man das Label künstlich als Y* ∈ {0,1} codieren und eine lineare Regression trainieren. Danach klassifiziert man mit einem Schwellenwert, häufig 0.5.

Schwellenregel für ein lineares Regressionsmodellĉ(x) = 1, falls f̂(x) > 0.5ĉ(x) = 0, sonst

Variablen: f̂(x) ist der durch lineare Regression vorhergesagte numerische Wert, ĉ(x) die daraus abgeleitete Klassenentscheidung.

4.2 Warum das nur begrenzt gut ist

Für zwei Klassen kann diese Idee grundsätzlich funktionieren. Das Problem ist die Interpretation: Eine lineare Regression kann Werte kleiner als 0 oder größer als 1 ausgeben. Solche Werte sind keine Wahrscheinlichkeiten. Gerade für Unsicherheit, Risikobewertung oder Schwellenentscheidungen braucht man aber eine echte Wahrscheinlichkeit zwischen 0 und 1.

Folie 18, lineare Regression auf Default-Daten
Folie 18, lineare Regression auf Default-Daten: Die blaue Regressionsgerade steigt mit balance, bleibt aber ein unbeschränkter linearer Wert. Sie ist deshalb kein sauberer Wahrscheinlichkeitsmodellierer.

4.3 Mehrklassenproblem

Bei mehr als zwei Klassen wird eine einzelne numerische Codierung problematisch. Wenn Symptome als 1, 2 und 3 codiert werden, unterstellt das Modell eine künstliche Ordnung und Abstände zwischen Klassen. Das ist fachlich oft unsinnig: stroke, overdose und seizure sind Kategorien, keine metrische Skala.

Prüfungsfalle: Eine beliebige Zahlenkodierung kategorialer Klassen ist keine harmlose Formalität. Sie kann eine Ordnung erzwingen, die im Problem nicht existiert. Für Mehrklassenfälle braucht man ein geeignetes Mehrklassenmodell, etwa multinomiale logistische Regression, LDA/QDA oder One-vs-Rest/One-vs-One-Strategien mit sauberer Interpretation.

5. Logistische Regression

5.1 Logistische Funktion

Die logistische Regression modelliert die Wahrscheinlichkeit, dass eine Beobachtung zur Klasse 1 gehört. Der lineare Prädiktor kann beliebige reelle Werte annehmen; die logistische Funktion transformiert ihn in das Intervall [0,1].

Binäre logistische Regressionp(x) = Pr(Y = 1 | X = x)η(x) = β0 + β1x1 + ... + βpxpp(x) = eη(x) / (1 + eη(x)) = 1 / (1 + e-η(x))

Variablen: p(x) ist die Klassenwahrscheinlichkeit, η(x) der lineare Prädiktor, β0 der Achsenabschnitt, βj der Koeffizient von Feature xj. Weil eη(x) > 0, liegt p(x) immer zwischen 0 und 1.

5.2 Log-Odds und Interpretation der Koeffizienten

Durch die Logit-Transformation wird die logistische Regression wieder linear interpretierbar. Die linke Seite sind die Log-Odds, also der natürliche Logarithmus der Chance p(x)/(1-p(x)). Ein Koeffizient erhöht oder senkt die Log-Odds additiv; exponentiert man ihn, erhält man einen multiplikativen Effekt auf die Odds.

Logit-Transformationln( p(x) / (1 - p(x)) ) = β0 + β1x1 + ... + βpxp

Variablen: ln ist der natürliche Logarithmus. Die Odds sind p(x)/(1-p(x)); sie sind nicht dasselbe wie die Wahrscheinlichkeit.

Prüfungsfalle: βj ist kein direkter Prozentpunkt-Effekt auf p(x). Der direkte lineare Effekt gilt auf den Log-Odds. Die Wahrscheinlichkeit ändert sich nicht konstant, sondern abhängig vom Ausgangsniveau.

5.3 Entscheidungsgrenze

Bei zwei Klassen wird oft mit Schwelle 0.5 klassifiziert. Dann liegt die Entscheidungsgrenze dort, wo p̂(x)=0.5. Für die logistische Funktion entspricht das η(x)=0, also wieder einer Hyperebene im ursprünglichen Featureraum, solange nur lineare Features verwendet werden.

Entscheidungsgrenze bei Schwelle 0.5p̂(x) = 0.5 ⇔ eη(x) = 1 ⇔ η(x) = 0β0 + β1x1 + ... + βpxp = 0

Variablen: Die Gleichung beschreibt die Entscheidungsgrenze. Punkte mit η(x) > 0 haben p̂(x) > 0.5, Punkte mit η(x) < 0 haben p̂(x) < 0.5.

Folie 24, logistische Regression und Entscheidungsgrenze
Folie 24, logistische Regression und Entscheidungsgrenze: Die blaue Kurve ist die geschätzte Default-Wahrscheinlichkeit. Die rote vertikale Linie markiert die Balance, bei der p̂(x)=0.5 erreicht wird.

5.4 Lineare vs. logistische Regression

Logistische Regression ist nicht deshalb „nichtlinear“, weil die Wahrscheinlichkeit S-förmig ist. Sie ist linear im Prädiktor: Die Log-Odds sind eine lineare Funktion der Features. Bei linearen Features entsteht deshalb eine lineare Entscheidungsgrenze. Der Unterschied zur linearen Regression ist die korrekte Wahrscheinlichkeitsmodellierung.

5.5 Rechenbeispiele aus dem Default-Datensatz

Für ein Modell nur mit balance liefert das Skript die Koeffizienten β0 = -10.512597012 und β1 = 0.005447527.

Wahrscheinlichkeit für eine gegebene Balanceη(x) = -10.512597012 + 0.005447527 · balancep(x) = eη(x) / (1 + eη(x))

Beispiele: Für balance = 1000 ergibt sich p(x) ≈ 0.00627. Für balance = 2000 ergibt sich p(x) ≈ 0.59447. Die 0.5-Grenze liegt bei ungefähr balance = 1930.

Für ein Modell nur mit student sind die Koeffizienten β0 = -3.372880 und βstudent = 0.197655. Daraus folgen ungefähr 4.01 % Default-Wahrscheinlichkeit für Studierende und 3.32 % für Nicht-Studierende. Diese marginale Aussage kippt aber, sobald balance kontrolliert wird.

Typische Rechenaufgabe: Setze die Features in η(x) ein, berechne s=eη(x), dann p(x)=s/(1+s). Vergleiche anschließend mit dem Schwellenwert, zum Beispiel 0.5.

6. Confounding und Case-Control-Sampling

6.1 Warum der Student-Koeffizient das Vorzeichen wechselt

Im Modell mit allen Default-Features wird der Koeffizient für studentYes negativ (-0.5992), obwohl das Modell nur mit student vorher einen positiven Effekt zeigte. Das ist kein Widerspruch, sondern ein Confounding-Beispiel: Studierende haben im Datensatz tendenziell höhere Kreditkartensalden, und höhere balance erhöht die Default-Wahrscheinlichkeit stark. Vergleicht man aber zwei Personen mit gleicher balance, haben Studierende im Modell eine niedrigere Default-Wahrscheinlichkeit.

BetrachtungAussageInterpretation
Nur studentStudierende wirken riskanter.Marginaler Zusammenhang, Balance fehlt.
student plus balanceStudierende wirken bei gleicher Balance weniger riskant.Bedingter Zusammenhang, Confounder kontrolliert.
Prüfungsfalle: Koeffizienten in einem multiplen Modell sind bedingte Effekte: „wenn alle anderen Features konstant gehalten werden“. Sie müssen nicht dasselbe Vorzeichen haben wie ein isolierter oder deskriptiver Zusammenhang.

6.2 Heart-Disease-Beispiel

Das Heart-Disease-Beispiel umfasst 303 Patienten, davon 139 mit Herzerkrankung. Das Ziel ist die Identifikation potenzieller Risikofaktoren einschließlich Wirkstärke. Das logistische Modell verwendet AHD als Faktor und alle Features als Prädiktoren. In der Ausgabe sind unter anderem Sex, mehrere ChestPain-Kategorien, RestBP und Ca signifikant; sechs Beobachtungen werden wegen fehlender Werte gelöscht.

Folie 31, Heart-Disease-Pairs-Plot
Folie 31, Heart-Disease-Pairs-Plot: Der Pairs-Plot dient der explorativen Sicht auf Feature-Zusammenhänge und Klassentrennung. Für die Klausur wichtig ist die Interpretation als Voranalyse, nicht als endgültiger Modellbeweis.

6.3 Case-Control-Samples und Prävalenzkorrektur

Bei Krankheiten sind Fälle oft selten und teuer zu erheben. Deshalb werden in Case-Control-Studien häufig alle verfügbaren Cases und eine begrenzte Zahl Controls genutzt. Mehr Controls reduzieren Varianz, aber der Nutzen nimmt ab; im Skript wird als Faustregel bis etwa das Fünffache der Case-Anzahl genannt. Wenn das Case-Control-Verhältnis in der Stichprobe nicht der Bevölkerung entspricht, ist besonders der Achsenabschnitt der logistischen Regression verzerrt.

Korrektur des Achsenabschnitts bei Case-Control-Samplingβ0 = β0* + ln( a / (1-a) ) - ln( ã / (1-ã) )

Variablen: β0* ist der in der Fall-Kontroll-Stichprobe geschätzte Achsenabschnitt, β0 der für die Bevölkerung korrigierte Achsenabschnitt, a die echte oder angenommene Prävalenz in der Bevölkerung, ã die Fallrate in der Stichprobe.

Im Heart-Datensatz liegt die beobachtete Fallrate bei 139/303 ≈ 46 %. Eine angenommene Bevölkerungprävalenz von etwa 5 % wäre deutlich niedriger. Die Korrektur senkt dann den Achsenabschnitt, damit die vorhergesagten Grundwahrscheinlichkeiten zur Bevölkerung passen.

7. Erweiterungen und Grenzen der logistischen Regression

7.1 Mehrklassen-logistische Regression

Die bisherige logistische Regression ist binär. Für K > 2 Klassen kann man eine multinomiale logistische Regression verwenden. Dabei wird pro Klasse eine lineare Bewertungsfunktion gelernt; die Softmax-Transformation macht daraus Wahrscheinlichkeiten, die zusammen 1 ergeben.

Softmax-Prinzip für Mehrklassenmodelleηk(x) = β0k + β1kx1 + ... + βpkxppk(x) = eηk(x) / ∑l=1K eηl(x)

Variablen: ηk(x) ist der lineare Score für Klasse k, pk(x) die zugehörige Klassenwahrscheinlichkeit. Die Summe aller Klassenwahrscheinlichkeiten ist 1.

Im Skript wird für den Mehrklassenfall auf Pakete wie glmnet verwiesen. Wichtig ist: Mehrklassenmodelle sind nicht dasselbe wie eine beliebige Zahlenkodierung der Klassen.

7.2 Nichtlinearität durch neue Features

Eine logistische Regression mit linearen Features erzeugt eine lineare Grenze. Nichtlinear wird die Grenze, wenn das Modell nichtlineare Features enthält, zum Beispiel Quadrate, höhere Potenzen oder Interaktionen. Mathematisch bleibt das Modell linear in den neu konstruierten Features; im ursprünglichen Featureraum wirkt die Grenze jedoch gekrümmt.

Folie 38, lineares Default-Modell
Folie 38, lineares Default-Modell: Nur balance und income: die Entscheidungsgrenze ist eine Gerade.
Folie 39, Modell mit Interaktion und Quadraten
Folie 39, Modell mit Interaktion und Quadraten: Interaktion und quadratische Terme erlauben eine gekrümmte Grenze, die die Datenstruktur flexibler abbildet.
Folie 40, hochgradiges nichtlineares Modell
Folie 40, hochgradiges nichtlineares Modell: Viele hohe Polynome können sehr flexible Grenzen erzeugen. Das sieht auf Trainingsdaten oft gut aus, erhöht aber die Overfitting-Gefahr.
Prüfungsfalle: „Nichtlinear“ heißt hier nicht automatisch „besser“. Mehr Terme senken häufig den Trainingsfehler, können aber den Testfehler erhöhen. Modellkomplexität muss mit Validierung oder Testdaten beurteilt werden.

8. Exakt trennbare Daten

8.1 Warum Separation ein Problem ist

Wenn zwei Klassen durch eine Hyperebene perfekt getrennt werden können, hat die logistische Regression ein Maximumproblem: Die Lage der Entscheidungsgrenze kann stimmen, aber die Koeffizienten sind nicht eindeutig skaliert. Multipliziert man alle Koeffizienten mit einem großen Faktor, bleibt die Grenze η(x)=0 an derselben Stelle, die geschätzten Wahrscheinlichkeiten werden aber immer extremer.

Gleiche Grenze, andere Steilheitη1(x) = -1.5 + 1 · x1η10(x) = -15 + 10 · x1η1(x)=0 und η10(x)=0 beide bei x1=1.5

Interpretation: Die Entscheidungsgrenze ist identisch, aber die zweite Kurve ist deutlich steiler. Für perfekt getrennte Daten treibt die Optimierung die Koeffizienten theoretisch gegen unendlich.

Folie 41, exakt trennbare Daten
Folie 41, exakt trennbare Daten: Die Klassen sind mit einer vertikalen Grenze trennbar. Das ist für Klassifikation scheinbar einfach, für die Maximum-Likelihood-Schätzung der logistischen Regression aber problematisch.

8.2 Logistische Kurve wird beliebig steil

Folie 44, Steilheit 1
Folie 44, Steilheit 1: Die logistische Kurve ist noch relativ flach; viele Punkte erhalten Wahrscheinlichkeiten zwischen 0 und 1.
Folie 45, Steilheit 100
Folie 45, Steilheit 100: Die Kurve nähert sich einer Sprungfunktion an. Die Wahrscheinlichkeiten liegen fast nur noch bei 0 oder 1.

8.3 Symptome in R-Ausgaben

Bei exakt trennbaren Daten zeigt glm(..., family = binomial) Warnungen wie „Algorithmus konvergierte nicht“ oder „angepasste Wahrscheinlichkeiten mit numerischem Wert 0 oder 1 aufgetreten“. Die Koeffizienten und Standardfehler werden sehr groß, z-Werte können trotz scheinbar perfekter Trennung unbrauchbar werden.

Folie 48, weiteres exakt trennbares Beispiel
Folie 48, weiteres exakt trennbares Beispiel: Auch nach Rotation/Transformation bleibt eine perfekte Trennung möglich. Das Modell kann dadurch nicht stabil geschätzt werden.
Folie 50, nicht exakt trennbares Beispiel
Folie 50, nicht exakt trennbares Beispiel: Sobald sich Klassen überlappen, existiert wieder eine endliche Lösung; die logistische Regression kann normal konvergieren.
SituationTypische AusgabeFolgerung
Exakt trennbarNichtkonvergenz, Wahrscheinlichkeiten 0/1, riesige StandardfehlerKoeffizienten nicht sinnvoll interpretieren.
Nicht exakt trennbarEndliche Koeffizienten, normale SignifikanztestsSchätzung ist numerisch stabiler.

8.4 Lösungsansätze

Das Skript nennt zwei zentrale Lösungen: Regularisierung, also eine Bestrafung zu großer Koeffizienten, und alternative Modelle wie lineare Diskriminanzanalyse. In der Praxis sind penalized logistic regression, LDA oder andere robuste Klassifikatoren oft besser geeignet als eine unregularisierte logistische Regression auf perfekt getrennten Daten.

Prüfungsfalle: Perfekte Trainingsklassifikation ist kein automatischer Erfolg. Bei logistischer Regression kann sie gerade das Signal sein, dass die Koeffizientenschätzung degeneriert.

9. Diskriminanzanalyse: LDA, QDA und Naive Bayes

9.1 Grundidee der Diskriminanzanalyse

Diskriminanzanalyse modelliert nicht direkt Pr(Y=k|X=x) über eine logistische Funktion, sondern zuerst die Feature-Verteilung innerhalb jeder Klasse. Für jede Klasse wird eine Dichte fk(x) geschätzt. Die Vorhersage wählt die Klasse mit der größten posterioren Wahrscheinlichkeit.

Bayes-Regel für KlassifikationPr(Y = k | X = x) = πk fk(x) / ∑l=1K πl fl(x)c(x) = arg maxk πk fk(x)

Variablen: πk ist die Prior-Wahrscheinlichkeit von Klasse k, fk(x) die Dichte der Features in Klasse k, K die Anzahl der Klassen.

9.2 Lineare Diskriminanzanalyse (LDA)

LDA nimmt an, dass die Features innerhalb jeder Klasse normalverteilt sind und alle Klassen dieselbe Kovarianzmatrix haben. Dadurch entstehen lineare Entscheidungsgrenzen. LDA ist besonders attraktiv, wenn n klein ist, die Normalannahme ungefähr passt, Klassen gut getrennt sind oder mehr als zwei Klassen vorliegen. Ein weiterer Vorteil: LDA leidet nicht in derselben Weise unter exakt trennbaren Daten wie unregularisierte logistische Regression.

LDA-Diskriminanzfunktionδk(x) = xTΣ-1μk - 1/2 μkTΣ-1μk + ln(πk)

Variablen: μk ist der Mittelwertvektor der Klasse k, Σ die gemeinsame Kovarianzmatrix, πk der Klassenprior. Klassifiziert wird in die Klasse mit größtem δk(x).

Folie 56, LDA-Beispiel
Folie 56, LDA-Beispiel: Gleiche Kovarianzannahme erzeugt lineare Trennlinien; Ellipsen zeigen die Klassenstreuung.
Folie 58, zweites LDA-Beispiel
Folie 58, zweites LDA-Beispiel: Auch bei anderer Lage der Klassen bleiben die LDA-Grenzen linear, weil die Kovarianzmatrix gemeinsam geschätzt wird.

9.3 QDA und Naive Bayes

QDA erlaubt jeder Klasse eine eigene Kovarianzmatrix. Dadurch werden Entscheidungsgrenzen quadratisch und flexibler, benötigen aber mehr Daten. Naive Bayes geht in eine andere Richtung: Es nimmt bedingte Unabhängigkeit der Features innerhalb jeder Klasse an und schreibt die gemeinsame Dichte als Produkt eindimensionaler Dichten. Das kann trotz starker Vereinfachung bei hochdimensionalen oder gemischten Featuretypen sehr gut funktionieren.

QDA-Diskriminanzfunktionδk(x) = -1/2 ln|Σk| - 1/2(x-μk)TΣk-1(x-μk) + ln(πk)

Variablen: Σk ist die klassenspezifische Kovarianzmatrix. Weil Σk von k abhängt, entstehen quadratische Grenzen.

Folie 59, QDA für dieselben Daten
Folie 59, QDA für dieselben Daten: QDA passt klassenspezifische Kovarianzen an. Die Grenze ist gekrümmt und kann bei ausreichend Daten besser passen als LDA.
ModellAnnahmeGrenzeWann sinnvoll?
Logistische RegressionLineare Log-OddsLinear bei linearen FeaturesNicht perfekt trennbare Daten, wenige Klassen, gute Interpretierbarkeit
LDANormalverteilung, gleiche KovarianzLinearKleines n, gut getrennte Klassen, Mehrklassenfall
QDANormalverteilung, unterschiedliche KovarianzenQuadratischMehr Flexibilität, ausreichend Daten
Naive BayesBedingte Feature-UnabhängigkeitAbhängig von DichtenGroßes p, gemischte Featuretypen, robuste einfache Baseline

10. Modellbewertung bei unausgewogenen Daten

10.1 Trainingsfehler ist nicht genug

Für die Default-Daten erzielt LDA auf dem Trainingsdatensatz eine Fehlerrate von 2.78 %: (16+123)/5000. Das klingt gut, ist aber zunächst nur Trainingsfehler. Selbst wenn Overfitting bei großem n=5000 und kleinem p=3 weniger wahrscheinlich ist, muss ein Modell auf Testdaten beurteilt werden.

TrainingsdatenObserved 0Observed 1
Predicted 04808123
Predicted 11653

10.2 Warum Accuracy täuschen kann

Auf dem Testdatensatz beträgt die LDA-Fehlerrate 4.52 %, denn (69+157)/5000 = 4.52 %. Das klingt immer noch gut. Bei genauer Betrachtung erkennt das Modell aber keinen einzigen tatsächlichen Default-Fall korrekt: Für die Klasse Yes beträgt der Fehler 100 %. Ein trivialer Klassifikator, der immer No vorhersagt, hätte nur 3.14 % Fehler, wäre aber fachlich wertlos.

TestdatenObserved 0Observed 1Interpretation
Predicted 04774157Alle Default-Fälle werden als No vorhergesagt.
Predicted 1690Keine echte positive Entdeckung.
Prüfungsfalle: Bei unausgewogenen Daten kann hohe Accuracy bedeuten, dass das Modell fast nur die Mehrheitsklasse vorhersagt. Immer Confusion Matrix und klassenbezogene Fehler prüfen.

10.3 Bessere Maße

Das Skript nennt F1-Score, Balanced Error und Balanced Accuracy. Balanced Error mittelt die Fehler pro Klasse und verhindert, dass die Mehrheitsklasse das Ergebnis dominiert. Für das LDA-Testbeispiel ergibt sich (1.42 % + 100 %) / 2 = 50.71 %. Das ist deutlich realistischer als die einfache Fehlerrate.

Metriken aus der Confusion MatrixAccuracy = (TP + TN) / (TP + TN + FP + FN)Precision = TP / (TP + FP)Recall = TP / (TP + FN)F1 = 2 · Precision · Recall / (Precision + Recall)Balanced Error = 1/K · ∑k=1K Errork

Variablen: TP sind korrekt positive, TN korrekt negative, FP falsch positive und FN falsch negative Vorhersagen. Errork ist der Fehler innerhalb Klasse k.

11. Iris-Lab und multinomiale logistische Regression

11.1 Iris-Daten

Der Iris-Datensatz hat vier numerische Features und drei Klassen mit jeweils 50 Beobachtungen: setosa, versicolor und virginica. LDA klassifiziert im Skript alle bis auf drei der 150 Trainingsbeispiele richtig. Der Datensatz ist außerdem ein gutes Beispiel dafür, dass manche Klassen nahezu oder exakt trennbar sein können.

Folie 66, Iris-Kontext
Folie 66, Iris-Kontext: Die Folie zeigt den biologischen Kontext; prüfungsrelevant sind danach die vier Messfeatures und die drei Spezies.
Folie 67, Iris-Pairs-Plot
Folie 67, Iris-Pairs-Plot: Setosa ist klar separiert, Versicolor und Virginica überlappen stärker. Das erklärt die typische Verwechslung zwischen diesen beiden Klassen.

11.2 Warum glm hier nicht reicht

Ein normales glm(..., family="binomial") passt nicht, weil Iris drei Klassen hat. Außerdem sind zwei Klassen exakt trennbar, was die unregularisierte binäre logistische Regression zusätzlich problematisch macht. One-vs-Rest-Modelle wären möglich, liefern aber nicht automatisch sauber normalisierte Klassenwahrscheinlichkeiten. Das Skript nutzt deshalb caret mit glmnet, family="multinomial" und Regularisierung.

SchrittInhaltWarum klausurrelevant?
Split80 % Training, 20 % Test mit createDataPartitionTrain/Test-Trennung bleibt auch im Lab wichtig.
CV5-fold Cross-Validation mit KlassenwahrscheinlichkeitenHyperparameter werden auf Trainingsdaten gewählt.
Modellglmnet, family="multinomial"Regularisierte Mehrklassenlogistik statt binärem glm.
TuningKombinationen aus α und λλ steuert Regularisierungsstärke; α Art der Regularisierung.

11.3 Evaluation

Auf dem Testdatensatz erreicht das Beispiel eine Accuracy von 0.9333. Setosa wird perfekt erkannt. Zwei Virginica-Beobachtungen werden als Versicolor klassifiziert, daher liegt die Sensitivität für Virginica bei 0.8. Die Klassenwahrscheinlichkeiten aus predict(..., type="prob") erlauben zusätzlich eine Unsicherheitsinterpretation.

PredictionReference setosaReference versicolorReference virginica
setosa1000
versicolor0102
virginica008

11.4 Entscheidungsflächen visualisieren

Die Plotfunktion im Skript erzeugt ein Raster über zwei ausgewählte Features, setzt alle anderen numerischen Features auf ihren Mittelwert und zeichnet die vorhergesagte Klasse als Hintergrund. Das ist eine sinnvolle Visualisierung, aber keine vollständige Darstellung des hochdimensionalen Modells: Sie zeigt einen zweidimensionalen Schnitt.

Folie 74, Iris-Entscheidungsfläche
Folie 74, Iris-Entscheidungsfläche: Die Entscheidungsfläche für Petal.Length und Petal.Width zeigt klare Setosa-Trennung und die schwierigere Grenze zwischen Versicolor und Virginica.

11.5 Lab-Aufgaben

Die abschließenden Lab-Aufgaben fordern nichtlineare Modelle, etwa nichtlineare logistische Regression oder QDA, und einen Modellvergleich. Klausurorientiert heißt das: Modell nicht nur fitten, sondern mit geeigneter Validierung, Confusion Matrix und passenden Metriken begründen, welches Modell am besten passt.

12. Typische Klausuraufgaben und Rechenwege

Aufgabe 1: Logistische Wahrscheinlichkeit berechnen. Gegeben sind β0, β1 und ein Featurewert. Rechne zuerst η(x), dann s=eη(x), dann p(x)=s/(1+s). Vergleiche mit der Schwelle.
Aufgabe 2: Entscheidungsgrenze bestimmen. Setze p̂(x)=0.5. Daraus folgt η(x)=0. Bei einem Feature ist die Grenze x=-β01; bei mehreren Features ist es eine Gerade, Ebene oder Hyperebene.
Aufgabe 3: Confusion Matrix auswerten. Berechne Accuracy, klassenbezogene Fehler, Precision, Recall, F1 und Balanced Error. Prüfe bei unausgewogenen Klassen immer, ob ein Mehrheitsklassen-Baseline-Modell besser aussieht.
Aufgabe 4: Modellwahl begründen. Logistische Regression für interpretierbare Wahrscheinlichkeiten und nicht perfekt trennbare Daten; LDA bei ungefähr normalverteilten Klassen und kleinerem n; QDA bei unterschiedlichen Kovarianzen und genug Daten; Naive Bayes bei hohem p oder gemischten Featuretypen.
Aufgabe 5: Separation diagnostizieren. Achte auf perfekte Trennbarkeit im Plot, Warnungen der Optimierung, sehr große Koeffizienten, riesige Standardfehler und Wahrscheinlichkeiten nahe 0 oder 1. Nenne Regularisierung oder LDA als Lösung.

13. Häufige Fehler und Prüfungsfallen

Wahrscheinlichkeit vs. Label: Ein Klassifikator gibt ein Label aus; logistische Regression liefert zunächst eine Wahrscheinlichkeit, die erst durch eine Schwelle in ein Label übersetzt wird.
Lineare Regression als Wahrscheinlichkeit: Werte außerhalb [0,1] sind keine Wahrscheinlichkeiten. Für Unsicherheit ist lineare Regression auf Dummy-Labels ungeeignet.
Koeffizienten falsch interpretieren: Logistische Koeffizienten wirken linear auf Log-Odds, nicht direkt auf Wahrscheinlichkeiten.
Confounding übersehen: Der Effekt eines Features kann sich beim Hinzufügen anderer Features ändern. Marginal und bedingt sind verschiedene Aussagen.
Accuracy bei Unbalanced Data: Eine niedrige Fehlerrate kann ein schlechtes Modell verdecken, wenn die Minderheitsklasse nicht erkannt wird.
Perfekte Trennung feiern: Exakt trennbare Daten können unregularisierte logistische Regression numerisch zerstören.
2D-Plot überinterpretieren: Eine Entscheidungsfläche für zwei Features ist oft nur ein Schnitt durch ein höherdimensionales Modell.

14. Kompakte Lerncheckliste

Kann ich ...?Ja/Nein
Regression und Klassifikation anhand des Zieltyps unterscheiden?
Eine Hyperebene in Koordinatenform erklären und als Entscheidungsgrenze nutzen?
Erklären, warum lineare Regression keine saubere Klassifikationswahrscheinlichkeit liefert?
Die logistische Funktion, Logit-Transformation und Entscheidungsgrenze herleiten?
Wahrscheinlichkeiten aus logistischen Koeffizienten berechnen?
Confounder und Vorzeichenwechsel in multiplen Modellen erklären?
Case-Control-Prävalenzkorrektur des Achsenabschnitts anwenden?
Exakt trennbare Daten und R-Warnungen richtig deuten?
LDA, QDA, Naive Bayes und logistische Regression vergleichen?
Accuracy, F1, Balanced Error und Confusion Matrix bei unbalanced data interpretieren?
Multinomiale logistische Regression mit regularisiertem Training einordnen?

15. Mögliche Klausurfragen

  1. Warum ist eine lineare Regression mit Dummy-Label für binäre Klassifikation nur eingeschränkt geeignet?
  2. Leite aus der logistischen Funktion die Log-Odds-Gleichung her.
  3. Bestimme für gegebene Koeffizienten die Default-Wahrscheinlichkeit und die Entscheidungsgrenze.
  4. Erkläre am Student-Balance-Default-Beispiel, was ein Confounder ist.
  5. Warum wird bei Case-Control-Samples vor allem der Achsenabschnitt korrigiert?
  6. Woran erkennt man exakt trennbare Daten in einer logistischen Regression?
  7. Vergleiche LDA und QDA anhand von Annahmen, Entscheidungsgrenzen und Datenbedarf.
  8. Warum kann ein Modell mit 95 % Accuracy bei unbalanced data schlecht sein?
  9. Berechne Balanced Error aus einer Confusion Matrix.
  10. Warum ist glm(..., family="binomial") für Iris nicht direkt geeignet?

16. Folienabdeckung

Folie/KapitelInhaltIn Zusammenfassung enthalten?Wo behandelt?
1Titel: 30_Ch.4 ClassificationJaTitel und Gesamtstruktur
2Kapitelstart KlassifikationJaAbschnitt 1
3Regression vs. Klassifikation; kategorisches LabelJaAbschnitt 2.1
4Ziele: Klassifikator, Wahrscheinlichkeit, Unsicherheit, Güte, FeatureeinflussJaAbschnitt 2.2
5Credit Card Default: Label, Features, Train/Test-SplitJaAbschnitt 2.3
6Default-Scatterplot Balance/Income/Student/DefaultJaAbschnitt 2.3 und 5.5
7Boxplots Income und Balance nach DefaultJaAbschnitt 2.3
8Kapitelstart binäre lineare KlassifikationJaAbschnitt 3
9Binär, linear, Hyperebene als EntscheidungsgrenzeJaAbschnitt 3.1
10Geraden: Parameterform und KoordinatenformJaAbschnitt 3.2
11Ebenen: Parameterform und KoordinatenformJaAbschnitt 3.2
12Hyperebene in Rd, Normalenvektor, affine UnterräumeJaAbschnitt 3.2
13Grafische HyperebeneJaAbschnitt 3.2
14Kapitelstart lineare Regression für KlassifikationJaAbschnitt 4
15Dummy-Codierung, Schwelle 0.5JaAbschnitt 4.1
16Problem: lineare Regression liefert Werte außerhalb [0,1]JaAbschnitt 4.2
17Mehr als zwei Klassen und künstliche Ordnung durch 1/2/3-CodierungJaAbschnitt 4.3
18Lineares Modell mit Balance auf Default-DatenJaAbschnitt 4.2
19Kapitelstart logistische RegressionJaAbschnitt 5
20Logistische FunktionJaAbschnitt 5.1
21Wertebereich der logistischen FunktionJaAbschnitt 5.1
22Logit-/Log-Odds-TransformationJaAbschnitt 5.2
23Default: logistische Regression mit BalanceJaAbschnitt 5.3
24Entscheidungsgrenze bei p̂(x)=0.5JaAbschnitt 5.3
25Lineare vs. logistische RegressionJaAbschnitt 5.4
26Vorhersagewahrscheinlichkeiten für Balance 1000 und 2000JaAbschnitt 5.5
27Vorhersagewahrscheinlichkeiten für Student/Nicht-StudentJaAbschnitt 5.5
28Alle Features gleichzeitig; student-Koeffizient wird negativJaAbschnitt 6.1
29Confounder-Erklärung Student, Balance, DefaultJaAbschnitt 6.1
30Heart-Disease-DatenJaAbschnitt 6.2
31Heart-Disease-Pairs-PlotJaAbschnitt 6.2
32Logistisches Heart-Modell und signifikante EffekteJaAbschnitt 6.2
33Case-Control-SamplingJaAbschnitt 6.3
34Prävalenzkorrektur des AchsenabschnittsJaAbschnitt 6.3
35Kapitelstart Erweiterungen/GrenzenJaAbschnitt 7
36Mehrklassen-logistische RegressionJaAbschnitt 7.1
37Nichtlinearität durch Feature-TransformationenJaAbschnitt 7.2
38Streng lineares Default-ModellJaAbschnitt 7.2
39Nichtlineares Default-Modell mit Interaktion und QuadratenJaAbschnitt 7.2
40Hochgradiges Default-Modell und Overfitting-GefahrJaAbschnitt 7.2
41Exakt trennbare DatenJaAbschnitt 8.1
42Nicht eindeutige Hyperebenen-KoeffizientenJaAbschnitt 8.1
43Skalierung treibt Wahrscheinlichkeiten gegen 0/1JaAbschnitt 8.1
44Logistische Kurve mit Faktor 1 und 5JaAbschnitt 8.2
45Logistische Kurve mit Faktor 10 und 100JaAbschnitt 8.2
46R-Warnungen bei SeparationJaAbschnitt 8.3
47Unproblematisches Gegenbeispiel mit ÜberlappungJaAbschnitt 8.3
48Weiteres exakt trennbares BeispielJaAbschnitt 8.3
49Nicht konvergierendes Modell beim exakt trennbaren BeispielJaAbschnitt 8.3
50Nicht exakt trennbares VergleichsbeispielJaAbschnitt 8.3
51Konvergierendes Modell beim nicht exakt trennbaren BeispielJaAbschnitt 8.3
52Lösungsansätze: Regularisierung, DAJaAbschnitt 8.4
53Kapitelstart DiskriminanzanalyseJaAbschnitt 9
54Prinzip der DiskriminanzanalyseJaAbschnitt 9.1
55Warum LDA? kleine n, Normalannahme, mehrere KlassenJaAbschnitt 9.2
56LDA-BeispielJaAbschnitt 9.2
57LDA, QDA, Naive BayesJaAbschnitt 9.3
58LDA-Beispiel 2JaAbschnitt 9.2
59QDA für dieselben DatenJaAbschnitt 9.3
60Modellwahl-ZusammenfassungJaAbschnitt 9.4
61Modellbewertung: Macht das Modell das Richtige?JaAbschnitt 10
62LDA Default TrainingsfehlerJaAbschnitt 10.1
63LDA Default Testfehler und MehrheitsklassenproblemJaAbschnitt 10.2
64F1, Balanced Error, Balanced AccuracyJaAbschnitt 10.3
65Kapitelstart LabJaAbschnitt 11
66Iris-KontextJaAbschnitt 11.1
67Iris-Daten und LDA-ErgebnisJaAbschnitt 11.1
68Warum binäres glm nicht passtJaAbschnitt 11.2
69caret/glmnet Konfiguration, Split, Cross-ValidationJaAbschnitt 11.2
70Multinomiales glmnet-Training und KoeffizientenJaAbschnitt 11.2
71Evaluation mit Confusion MatrixJaAbschnitt 11.3
72KlassenwahrscheinlichkeitenJaAbschnitt 11.3
73Plotfunktion für EntscheidungsflächenJaAbschnitt 11.4
74Iris-EntscheidungsflächeJaAbschnitt 11.4
75Lab-Aufgaben: nichtlineare Modelle, QDA, ModellvergleichJaAbschnitt 11.5