Klausurzusammenfassung: Classification

Vorlesungsskript 30_Ch.4, KI und ML: Supervised Learning

Fokus: Definitionen, Zusammenhänge, Formeln, Rechenwege, Diagrammdeutung, typische Klausuraufgaben und Prüfungsfallen.

Druckhinweis: Im Browser über Drucken > Als PDF speichern exportieren. Sinnvolle Einstellungen: Papierformat A4, Skalierung 100 %, Browser-Kopf-/Fußzeilen deaktivieren und Hintergrundgrafiken aktivieren.

1. Überblick und klausurrelevanter Kern

Klassifikation ist überwachtes Lernen mit einem kategorischen Zielwert. Anders als bei Regression ist das Label nicht eine Zahl auf einer metrischen Skala, sondern eine Klasse, zum Beispiel {spam, ham}, {ok, wartungsbedarf, kaputt} oder {setosa, versicolor, virginica}. Ein Klassifikationsmodell soll neue Beobachtungen einer Klasse zuordnen und idealerweise zusätzlich angeben, wie sicher diese Zuordnung ist.

Prüfungskern: Du solltest erklären können, warum logistische Regression Wahrscheinlichkeiten liefert, warum ihre Entscheidungsgrenze bei linearen Features trotzdem eine Hyperebene ist, warum exakt trennbare Daten Probleme verursachen, wann LDA/QDA sinnvoll sind und warum Accuracy bei unausgewogenen Klassen täuschen kann.

Gliederung

Grundlagen der Klassifikation und Default-Beispiel
Binäre lineare Klassifikation und Hyperebenen
Lineare Regression als Klassifikator?
Logistische Regression
Confounding und Case-Control-Sampling
Mehrklassenfall und Nichtlinearität
Exakt trennbare Daten
Diskriminanzanalyse: LDA, QDA, Naive Bayes
Modellbewertung bei unausgewogenen Daten
Iris-Lab und multinomiale logistische Regression
Klausuraufgaben, Checkliste und Folienabdeckung

2. Grundlagen der Klassifikation

2.1 Klassifikationsproblem

Gegeben sind Features X = (X₁, X₂, ..., X_p) und ein kategorisches Label Y. Ein Klassifikator c bildet eine Beobachtung x auf eine Klasse ab. Bei binärer Klassifikation gibt es zwei Klassen; bei Mehrklassenklassifikation gibt es K > 2 Klassen.

Klassifikator und Klassenwahrscheinlichkeitc(x) ∈ {1, ..., K}p_k(x) = Pr(Y = k | X = x)c(x) = arg max_k p_k(x)

Variablen: x ist eine konkrete Beobachtung, K die Anzahl der Klassen, p_k(x) die bedingte Wahrscheinlichkeit für Klasse k. Die Entscheidungsregel wählt die Klasse mit der größten geschätzten Wahrscheinlichkeit.

2.2 Ziele der Klassifikation

Das Skript nennt fünf Ziele: ein Label für neue Daten vorhersagen, die Zugehörigkeitswahrscheinlichkeit zu einer Klasse schätzen, die Unsicherheit der Vorhersage beurteilen, die Modellqualität bewerten und den Einfluss einzelner Features verstehen. Diese Ziele gehören zusammen: Ein reiner Klassenname ist oft zu wenig, weil eine Entscheidung mit 51 % geschätzter Wahrscheinlichkeit anders zu behandeln ist als eine mit 99 %.

Klausurfokus: Bei einer Aufgabe reicht es selten, nur die vorhergesagte Klasse zu nennen. Gib bei logistischer Regression häufig auch die berechnete Wahrscheinlichkeit, die Entscheidungsgrenze und eine kurze Unsicherheitsinterpretation an.

2.3 Beispiel Credit Card Default

Das erste durchgehende Beispiel ist der Credit-Card-Default-Datensatz. Das Label ist Y ∈ {Yes, No}, also ob ein Zahlungsausfall eintritt. Die Features sind student ∈ {Yes, No}, balance ∈ R und income ∈ R. Das Skript verwendet einen reproduzierbaren 50/50-Train/Test-Split mit set.seed(1).

**Folie 7, Income nach Default:** Die Einkommensverteilung unterscheidet sich zwischen Default und No-Default nur schwach. Allein daraus ist keine robuste Trennung zu erwarten.

**Folie 7, Balance nach Default:** Die Balance ist bei Default-Fällen deutlich höher. Dieses Feature ist deshalb stark klassifikationsrelevant.

Prüfungsfalle: Ein sichtbarer Unterschied in einem Boxplot ist noch kein kausaler Effekt. Später zeigt das Skript beim Feature student, dass marginale und bedingte Zusammenhänge unterschiedliche Vorzeichen haben können.

3. Binäre lineare Klassifikation und Hyperebenen

3.1 Linear bedeutet lineare Entscheidungsgrenze

Bei binärer linearer Klassifikation wird der Featureraum in zwei Hälften geteilt. In zwei Dimensionen ist die Entscheidungsgrenze eine Gerade, in drei Dimensionen eine Ebene und in d Dimensionen eine Hyperebene. Die Klassen liegen auf verschiedenen Seiten dieser Grenze.

3.2 Geraden, Ebenen und Hyperebenen

Eine Gerade kann in Parameterform oder Koordinatenform beschrieben werden. Eine Ebene im dreidimensionalen Raum wird analog durch zwei Richtungsvektoren oder durch eine Koordinatengleichung beschrieben. Für Klassifikation ist die Koordinatenform besonders wichtig, weil sie direkt eine Seite der Grenze definiert.

Hyperebene in R^dH = {x ∈ R^d : n^Tx + n₀ = 0}n^Tx = n₁x₁ + n₂x₂ + ... + n_dx_d

Variablen: x ist ein Punkt im Featureraum, n = (n₁, ..., n_d) der Normalenvektor, n₀ der Achsenabschnitt. Falls n₀ = 0, verläuft die Hyperebene durch den Ursprung; sonst ist sie ein affiner Unterraum.

**Folie 13, grafische Hyperebene:** Die schattierte Fläche ist die Hyperebene. Der Normalenvektor steht orthogonal darauf; das Vorzeichen von n^Tx+n₀ bestimmt die Seite der Grenze.

Typische Aufgabe: Gegeben sei β₀ + β₁x₁ + β₂x₂ = 0. Zeichne die Entscheidungsgrenze und klassifiziere Punkte anhand des Vorzeichens. Rechenweg: Wert einsetzen, Vorzeichen bestimmen, Klasse zuordnen.

4. Kann man lineare Regression zur Klassifikation verwenden?

4.1 Dummy-Codierung und Schwellenwert

Für zwei Klassen kann man das Label künstlich als Y^* ∈ {0,1} codieren und eine lineare Regression trainieren. Danach klassifiziert man mit einem Schwellenwert, häufig 0.5.

Schwellenregel für ein lineares Regressionsmodellĉ(x) = 1, falls f̂(x) > 0.5ĉ(x) = 0, sonst

Variablen: f̂(x) ist der durch lineare Regression vorhergesagte numerische Wert, ĉ(x) die daraus abgeleitete Klassenentscheidung.

4.2 Warum das nur begrenzt gut ist

Für zwei Klassen kann diese Idee grundsätzlich funktionieren. Das Problem ist die Interpretation: Eine lineare Regression kann Werte kleiner als 0 oder größer als 1 ausgeben. Solche Werte sind keine Wahrscheinlichkeiten. Gerade für Unsicherheit, Risikobewertung oder Schwellenentscheidungen braucht man aber eine echte Wahrscheinlichkeit zwischen 0 und 1.

**Folie 18, lineare Regression auf Default-Daten:** Die blaue Regressionsgerade steigt mit balance, bleibt aber ein unbeschränkter linearer Wert. Sie ist deshalb kein sauberer Wahrscheinlichkeitsmodellierer.

4.3 Mehrklassenproblem

Bei mehr als zwei Klassen wird eine einzelne numerische Codierung problematisch. Wenn Symptome als 1, 2 und 3 codiert werden, unterstellt das Modell eine künstliche Ordnung und Abstände zwischen Klassen. Das ist fachlich oft unsinnig: stroke, overdose und seizure sind Kategorien, keine metrische Skala.

Prüfungsfalle: Eine beliebige Zahlenkodierung kategorialer Klassen ist keine harmlose Formalität. Sie kann eine Ordnung erzwingen, die im Problem nicht existiert. Für Mehrklassenfälle braucht man ein geeignetes Mehrklassenmodell, etwa multinomiale logistische Regression, LDA/QDA oder One-vs-Rest/One-vs-One-Strategien mit sauberer Interpretation.

5. Logistische Regression

5.1 Logistische Funktion

Die logistische Regression modelliert die Wahrscheinlichkeit, dass eine Beobachtung zur Klasse 1 gehört. Der lineare Prädiktor kann beliebige reelle Werte annehmen; die logistische Funktion transformiert ihn in das Intervall [0,1].

Binäre logistische Regressionp(x) = Pr(Y = 1 | X = x)η(x) = β₀ + β₁x₁ + ... + β_px_pp(x) = e^η(x) / (1 + e^η(x)) = 1 / (1 + e^-η(x))

Variablen: p(x) ist die Klassenwahrscheinlichkeit, η(x) der lineare Prädiktor, β₀ der Achsenabschnitt, β_j der Koeffizient von Feature x_j. Weil e^η(x) > 0, liegt p(x) immer zwischen 0 und 1.

5.2 Log-Odds und Interpretation der Koeffizienten

Durch die Logit-Transformation wird die logistische Regression wieder linear interpretierbar. Die linke Seite sind die Log-Odds, also der natürliche Logarithmus der Chance p(x)/(1-p(x)). Ein Koeffizient erhöht oder senkt die Log-Odds additiv; exponentiert man ihn, erhält man einen multiplikativen Effekt auf die Odds.

Logit-Transformationln( p(x) / (1 - p(x)) ) = β₀ + β₁x₁ + ... + β_px_p

Variablen: ln ist der natürliche Logarithmus. Die Odds sind p(x)/(1-p(x)); sie sind nicht dasselbe wie die Wahrscheinlichkeit.

Prüfungsfalle: β_j ist kein direkter Prozentpunkt-Effekt auf p(x). Der direkte lineare Effekt gilt auf den Log-Odds. Die Wahrscheinlichkeit ändert sich nicht konstant, sondern abhängig vom Ausgangsniveau.

5.3 Entscheidungsgrenze

Bei zwei Klassen wird oft mit Schwelle 0.5 klassifiziert. Dann liegt die Entscheidungsgrenze dort, wo p̂(x)=0.5. Für die logistische Funktion entspricht das η(x)=0, also wieder einer Hyperebene im ursprünglichen Featureraum, solange nur lineare Features verwendet werden.

Entscheidungsgrenze bei Schwelle 0.5p̂(x) = 0.5 ⇔ e^η(x) = 1 ⇔ η(x) = 0β₀ + β₁x₁ + ... + β_px_p = 0

Variablen: Die Gleichung beschreibt die Entscheidungsgrenze. Punkte mit η(x) > 0 haben p̂(x) > 0.5, Punkte mit η(x) < 0 haben p̂(x) < 0.5.

**Folie 24, logistische Regression und Entscheidungsgrenze:** Die blaue Kurve ist die geschätzte Default-Wahrscheinlichkeit. Die rote vertikale Linie markiert die Balance, bei der p̂(x)=0.5 erreicht wird.

5.4 Lineare vs. logistische Regression

Logistische Regression ist nicht deshalb „nichtlinear“, weil die Wahrscheinlichkeit S-förmig ist. Sie ist linear im Prädiktor: Die Log-Odds sind eine lineare Funktion der Features. Bei linearen Features entsteht deshalb eine lineare Entscheidungsgrenze. Der Unterschied zur linearen Regression ist die korrekte Wahrscheinlichkeitsmodellierung.

5.5 Rechenbeispiele aus dem Default-Datensatz

Für ein Modell nur mit balance liefert das Skript die Koeffizienten β₀ = -10.512597012 und β₁ = 0.005447527.

Wahrscheinlichkeit für eine gegebene Balanceη(x) = -10.512597012 + 0.005447527 · balancep(x) = e^η(x) / (1 + e^η(x))

Beispiele: Für balance = 1000 ergibt sich p(x) ≈ 0.00627. Für balance = 2000 ergibt sich p(x) ≈ 0.59447. Die 0.5-Grenze liegt bei ungefähr balance = 1930.

Für ein Modell nur mit student sind die Koeffizienten β₀ = -3.372880 und β_student = 0.197655. Daraus folgen ungefähr 4.01 % Default-Wahrscheinlichkeit für Studierende und 3.32 % für Nicht-Studierende. Diese marginale Aussage kippt aber, sobald balance kontrolliert wird.

Typische Rechenaufgabe: Setze die Features in η(x) ein, berechne s=e^η(x), dann p(x)=s/(1+s). Vergleiche anschließend mit dem Schwellenwert, zum Beispiel 0.5.

6. Confounding und Case-Control-Sampling

6.1 Warum der Student-Koeffizient das Vorzeichen wechselt

Im Modell mit allen Default-Features wird der Koeffizient für studentYes negativ (-0.5992), obwohl das Modell nur mit student vorher einen positiven Effekt zeigte. Das ist kein Widerspruch, sondern ein Confounding-Beispiel: Studierende haben im Datensatz tendenziell höhere Kreditkartensalden, und höhere balance erhöht die Default-Wahrscheinlichkeit stark. Vergleicht man aber zwei Personen mit gleicher balance, haben Studierende im Modell eine niedrigere Default-Wahrscheinlichkeit.

Betrachtung	Aussage	Interpretation
Nur student	Studierende wirken riskanter.	Marginaler Zusammenhang, Balance fehlt.
student plus balance	Studierende wirken bei gleicher Balance weniger riskant.	Bedingter Zusammenhang, Confounder kontrolliert.

Prüfungsfalle: Koeffizienten in einem multiplen Modell sind bedingte Effekte: „wenn alle anderen Features konstant gehalten werden“. Sie müssen nicht dasselbe Vorzeichen haben wie ein isolierter oder deskriptiver Zusammenhang.

6.2 Heart-Disease-Beispiel

Das Heart-Disease-Beispiel umfasst 303 Patienten, davon 139 mit Herzerkrankung. Das Ziel ist die Identifikation potenzieller Risikofaktoren einschließlich Wirkstärke. Das logistische Modell verwendet AHD als Faktor und alle Features als Prädiktoren. In der Ausgabe sind unter anderem Sex, mehrere ChestPain-Kategorien, RestBP und Ca signifikant; sechs Beobachtungen werden wegen fehlender Werte gelöscht.

**Folie 31, Heart-Disease-Pairs-Plot:** Der Pairs-Plot dient der explorativen Sicht auf Feature-Zusammenhänge und Klassentrennung. Für die Klausur wichtig ist die Interpretation als Voranalyse, nicht als endgültiger Modellbeweis.

6.3 Case-Control-Samples und Prävalenzkorrektur

Bei Krankheiten sind Fälle oft selten und teuer zu erheben. Deshalb werden in Case-Control-Studien häufig alle verfügbaren Cases und eine begrenzte Zahl Controls genutzt. Mehr Controls reduzieren Varianz, aber der Nutzen nimmt ab; im Skript wird als Faustregel bis etwa das Fünffache der Case-Anzahl genannt. Wenn das Case-Control-Verhältnis in der Stichprobe nicht der Bevölkerung entspricht, ist besonders der Achsenabschnitt der logistischen Regression verzerrt.

Korrektur des Achsenabschnitts bei Case-Control-Samplingβ₀ = β₀^* + ln( a / (1-a) ) - ln( ã / (1-ã) )

Variablen: β₀^* ist der in der Fall-Kontroll-Stichprobe geschätzte Achsenabschnitt, β₀ der für die Bevölkerung korrigierte Achsenabschnitt, a die echte oder angenommene Prävalenz in der Bevölkerung, ã die Fallrate in der Stichprobe.

Im Heart-Datensatz liegt die beobachtete Fallrate bei 139/303 ≈ 46 %. Eine angenommene Bevölkerungprävalenz von etwa 5 % wäre deutlich niedriger. Die Korrektur senkt dann den Achsenabschnitt, damit die vorhergesagten Grundwahrscheinlichkeiten zur Bevölkerung passen.

7. Erweiterungen und Grenzen der logistischen Regression

7.1 Mehrklassen-logistische Regression

Die bisherige logistische Regression ist binär. Für K > 2 Klassen kann man eine multinomiale logistische Regression verwenden. Dabei wird pro Klasse eine lineare Bewertungsfunktion gelernt; die Softmax-Transformation macht daraus Wahrscheinlichkeiten, die zusammen 1 ergeben.

Softmax-Prinzip für Mehrklassenmodelleη_k(x) = β_0k + β_1kx₁ + ... + β_pkx_pp_k(x) = e^η_k(x) / ∑_l=1^K e^η_l(x)

Variablen: η_k(x) ist der lineare Score für Klasse k, p_k(x) die zugehörige Klassenwahrscheinlichkeit. Die Summe aller Klassenwahrscheinlichkeiten ist 1.

Im Skript wird für den Mehrklassenfall auf Pakete wie glmnet verwiesen. Wichtig ist: Mehrklassenmodelle sind nicht dasselbe wie eine beliebige Zahlenkodierung der Klassen.

7.2 Nichtlinearität durch neue Features

Eine logistische Regression mit linearen Features erzeugt eine lineare Grenze. Nichtlinear wird die Grenze, wenn das Modell nichtlineare Features enthält, zum Beispiel Quadrate, höhere Potenzen oder Interaktionen. Mathematisch bleibt das Modell linear in den neu konstruierten Features; im ursprünglichen Featureraum wirkt die Grenze jedoch gekrümmt.

**Folie 38, lineares Default-Modell:** Nur balance und income: die Entscheidungsgrenze ist eine Gerade.

**Folie 39, Modell mit Interaktion und Quadraten:** Interaktion und quadratische Terme erlauben eine gekrümmte Grenze, die die Datenstruktur flexibler abbildet.

**Folie 40, hochgradiges nichtlineares Modell:** Viele hohe Polynome können sehr flexible Grenzen erzeugen. Das sieht auf Trainingsdaten oft gut aus, erhöht aber die Overfitting-Gefahr.

Prüfungsfalle: „Nichtlinear“ heißt hier nicht automatisch „besser“. Mehr Terme senken häufig den Trainingsfehler, können aber den Testfehler erhöhen. Modellkomplexität muss mit Validierung oder Testdaten beurteilt werden.

8. Exakt trennbare Daten

8.1 Warum Separation ein Problem ist

Wenn zwei Klassen durch eine Hyperebene perfekt getrennt werden können, hat die logistische Regression ein Maximumproblem: Die Lage der Entscheidungsgrenze kann stimmen, aber die Koeffizienten sind nicht eindeutig skaliert. Multipliziert man alle Koeffizienten mit einem großen Faktor, bleibt die Grenze η(x)=0 an derselben Stelle, die geschätzten Wahrscheinlichkeiten werden aber immer extremer.

Gleiche Grenze, andere Steilheitη₁(x) = -1.5 + 1 · x₁η₁₀(x) = -15 + 10 · x₁η₁(x)=0 und η₁₀(x)=0 beide bei x₁=1.5

Interpretation: Die Entscheidungsgrenze ist identisch, aber die zweite Kurve ist deutlich steiler. Für perfekt getrennte Daten treibt die Optimierung die Koeffizienten theoretisch gegen unendlich.

**Folie 41, exakt trennbare Daten:** Die Klassen sind mit einer vertikalen Grenze trennbar. Das ist für Klassifikation scheinbar einfach, für die Maximum-Likelihood-Schätzung der logistischen Regression aber problematisch.

8.2 Logistische Kurve wird beliebig steil

**Folie 44, Steilheit 1:** Die logistische Kurve ist noch relativ flach; viele Punkte erhalten Wahrscheinlichkeiten zwischen 0 und 1.

**Folie 45, Steilheit 100:** Die Kurve nähert sich einer Sprungfunktion an. Die Wahrscheinlichkeiten liegen fast nur noch bei 0 oder 1.

8.3 Symptome in R-Ausgaben

Bei exakt trennbaren Daten zeigt glm(..., family = binomial) Warnungen wie „Algorithmus konvergierte nicht“ oder „angepasste Wahrscheinlichkeiten mit numerischem Wert 0 oder 1 aufgetreten“. Die Koeffizienten und Standardfehler werden sehr groß, z-Werte können trotz scheinbar perfekter Trennung unbrauchbar werden.

**Folie 48, weiteres exakt trennbares Beispiel:** Auch nach Rotation/Transformation bleibt eine perfekte Trennung möglich. Das Modell kann dadurch nicht stabil geschätzt werden.

**Folie 50, nicht exakt trennbares Beispiel:** Sobald sich Klassen überlappen, existiert wieder eine endliche Lösung; die logistische Regression kann normal konvergieren.

Situation	Typische Ausgabe	Folgerung
Exakt trennbar	Nichtkonvergenz, Wahrscheinlichkeiten 0/1, riesige Standardfehler	Koeffizienten nicht sinnvoll interpretieren.
Nicht exakt trennbar	Endliche Koeffizienten, normale Signifikanztests	Schätzung ist numerisch stabiler.

8.4 Lösungsansätze

Das Skript nennt zwei zentrale Lösungen: Regularisierung, also eine Bestrafung zu großer Koeffizienten, und alternative Modelle wie lineare Diskriminanzanalyse. In der Praxis sind penalized logistic regression, LDA oder andere robuste Klassifikatoren oft besser geeignet als eine unregularisierte logistische Regression auf perfekt getrennten Daten.

Prüfungsfalle: Perfekte Trainingsklassifikation ist kein automatischer Erfolg. Bei logistischer Regression kann sie gerade das Signal sein, dass die Koeffizientenschätzung degeneriert.

9. Diskriminanzanalyse: LDA, QDA und Naive Bayes

9.1 Grundidee der Diskriminanzanalyse

Diskriminanzanalyse modelliert nicht direkt Pr(Y=k|X=x) über eine logistische Funktion, sondern zuerst die Feature-Verteilung innerhalb jeder Klasse. Für jede Klasse wird eine Dichte f_k(x) geschätzt. Die Vorhersage wählt die Klasse mit der größten posterioren Wahrscheinlichkeit.

Bayes-Regel für KlassifikationPr(Y = k | X = x) = π_k f_k(x) / ∑_l=1^K π_l f_l(x)c(x) = arg max_k π_k f_k(x)

Variablen: π_k ist die Prior-Wahrscheinlichkeit von Klasse k, f_k(x) die Dichte der Features in Klasse k, K die Anzahl der Klassen.

9.2 Lineare Diskriminanzanalyse (LDA)

LDA nimmt an, dass die Features innerhalb jeder Klasse normalverteilt sind und alle Klassen dieselbe Kovarianzmatrix haben. Dadurch entstehen lineare Entscheidungsgrenzen. LDA ist besonders attraktiv, wenn n klein ist, die Normalannahme ungefähr passt, Klassen gut getrennt sind oder mehr als zwei Klassen vorliegen. Ein weiterer Vorteil: LDA leidet nicht in derselben Weise unter exakt trennbaren Daten wie unregularisierte logistische Regression.

LDA-Diskriminanzfunktionδ_k(x) = x^TΣ^-1μ_k - 1/2 μ_k^TΣ^-1μ_k + ln(π_k)

Variablen: μ_k ist der Mittelwertvektor der Klasse k, Σ die gemeinsame Kovarianzmatrix, π_k der Klassenprior. Klassifiziert wird in die Klasse mit größtem δ_k(x).

**Folie 56, LDA-Beispiel:** Gleiche Kovarianzannahme erzeugt lineare Trennlinien; Ellipsen zeigen die Klassenstreuung.

**Folie 58, zweites LDA-Beispiel:** Auch bei anderer Lage der Klassen bleiben die LDA-Grenzen linear, weil die Kovarianzmatrix gemeinsam geschätzt wird.

9.3 QDA und Naive Bayes

QDA erlaubt jeder Klasse eine eigene Kovarianzmatrix. Dadurch werden Entscheidungsgrenzen quadratisch und flexibler, benötigen aber mehr Daten. Naive Bayes geht in eine andere Richtung: Es nimmt bedingte Unabhängigkeit der Features innerhalb jeder Klasse an und schreibt die gemeinsame Dichte als Produkt eindimensionaler Dichten. Das kann trotz starker Vereinfachung bei hochdimensionalen oder gemischten Featuretypen sehr gut funktionieren.

QDA-Diskriminanzfunktionδ_k(x) = -1/2 ln|Σ_k| - 1/2(x-μ_k)^TΣ_k^-1(x-μ_k) + ln(π_k)

Variablen: Σ_k ist die klassenspezifische Kovarianzmatrix. Weil Σ_k von k abhängt, entstehen quadratische Grenzen.

**Folie 59, QDA für dieselben Daten:** QDA passt klassenspezifische Kovarianzen an. Die Grenze ist gekrümmt und kann bei ausreichend Daten besser passen als LDA.

Modell	Annahme	Grenze	Wann sinnvoll?
Logistische Regression	Lineare Log-Odds	Linear bei linearen Features	Nicht perfekt trennbare Daten, wenige Klassen, gute Interpretierbarkeit
LDA	Normalverteilung, gleiche Kovarianz	Linear	Kleines n, gut getrennte Klassen, Mehrklassenfall
QDA	Normalverteilung, unterschiedliche Kovarianzen	Quadratisch	Mehr Flexibilität, ausreichend Daten
Naive Bayes	Bedingte Feature-Unabhängigkeit	Abhängig von Dichten	Großes p, gemischte Featuretypen, robuste einfache Baseline

10. Modellbewertung bei unausgewogenen Daten

10.1 Trainingsfehler ist nicht genug

Für die Default-Daten erzielt LDA auf dem Trainingsdatensatz eine Fehlerrate von 2.78 %: (16+123)/5000. Das klingt gut, ist aber zunächst nur Trainingsfehler. Selbst wenn Overfitting bei großem n=5000 und kleinem p=3 weniger wahrscheinlich ist, muss ein Modell auf Testdaten beurteilt werden.

Trainingsdaten	Observed 0	Observed 1
Predicted 0	4808	123
Predicted 1	16	53

10.2 Warum Accuracy täuschen kann

Auf dem Testdatensatz beträgt die LDA-Fehlerrate 4.52 %, denn (69+157)/5000 = 4.52 %. Das klingt immer noch gut. Bei genauer Betrachtung erkennt das Modell aber keinen einzigen tatsächlichen Default-Fall korrekt: Für die Klasse Yes beträgt der Fehler 100 %. Ein trivialer Klassifikator, der immer No vorhersagt, hätte nur 3.14 % Fehler, wäre aber fachlich wertlos.

Testdaten	Observed 0	Observed 1	Interpretation
Predicted 0	4774	157	Alle Default-Fälle werden als No vorhergesagt.
Predicted 1	69	0	Keine echte positive Entdeckung.

Prüfungsfalle: Bei unausgewogenen Daten kann hohe Accuracy bedeuten, dass das Modell fast nur die Mehrheitsklasse vorhersagt. Immer Confusion Matrix und klassenbezogene Fehler prüfen.

10.3 Bessere Maße

Das Skript nennt F1-Score, Balanced Error und Balanced Accuracy. Balanced Error mittelt die Fehler pro Klasse und verhindert, dass die Mehrheitsklasse das Ergebnis dominiert. Für das LDA-Testbeispiel ergibt sich (1.42 % + 100 %) / 2 = 50.71 %. Das ist deutlich realistischer als die einfache Fehlerrate.

Metriken aus der Confusion MatrixAccuracy = (TP + TN) / (TP + TN + FP + FN)Precision = TP / (TP + FP)Recall = TP / (TP + FN)F1 = 2 · Precision · Recall / (Precision + Recall)Balanced Error = 1/K · ∑_k=1^K Error_k

Variablen: TP sind korrekt positive, TN korrekt negative, FP falsch positive und FN falsch negative Vorhersagen. Error_k ist der Fehler innerhalb Klasse k.

11. Iris-Lab und multinomiale logistische Regression

11.1 Iris-Daten

Der Iris-Datensatz hat vier numerische Features und drei Klassen mit jeweils 50 Beobachtungen: setosa, versicolor und virginica. LDA klassifiziert im Skript alle bis auf drei der 150 Trainingsbeispiele richtig. Der Datensatz ist außerdem ein gutes Beispiel dafür, dass manche Klassen nahezu oder exakt trennbar sein können.

**Folie 66, Iris-Kontext:** Die Folie zeigt den biologischen Kontext; prüfungsrelevant sind danach die vier Messfeatures und die drei Spezies.

**Folie 67, Iris-Pairs-Plot:** Setosa ist klar separiert, Versicolor und Virginica überlappen stärker. Das erklärt die typische Verwechslung zwischen diesen beiden Klassen.

11.2 Warum glm hier nicht reicht

Ein normales glm(..., family="binomial") passt nicht, weil Iris drei Klassen hat. Außerdem sind zwei Klassen exakt trennbar, was die unregularisierte binäre logistische Regression zusätzlich problematisch macht. One-vs-Rest-Modelle wären möglich, liefern aber nicht automatisch sauber normalisierte Klassenwahrscheinlichkeiten. Das Skript nutzt deshalb caret mit glmnet, family="multinomial" und Regularisierung.

Schritt	Inhalt	Warum klausurrelevant?
Split	80 % Training, 20 % Test mit createDataPartition	Train/Test-Trennung bleibt auch im Lab wichtig.
CV	5-fold Cross-Validation mit Klassenwahrscheinlichkeiten	Hyperparameter werden auf Trainingsdaten gewählt.
Modell	glmnet, family="multinomial"	Regularisierte Mehrklassenlogistik statt binärem glm.
Tuning	Kombinationen aus α und λ	λ steuert Regularisierungsstärke; α Art der Regularisierung.

11.3 Evaluation

Auf dem Testdatensatz erreicht das Beispiel eine Accuracy von 0.9333. Setosa wird perfekt erkannt. Zwei Virginica-Beobachtungen werden als Versicolor klassifiziert, daher liegt die Sensitivität für Virginica bei 0.8. Die Klassenwahrscheinlichkeiten aus predict(..., type="prob") erlauben zusätzlich eine Unsicherheitsinterpretation.

Prediction	Reference setosa	Reference versicolor	Reference virginica
setosa	10	0	0
versicolor	0	10	2
virginica	0	0	8

11.4 Entscheidungsflächen visualisieren

Die Plotfunktion im Skript erzeugt ein Raster über zwei ausgewählte Features, setzt alle anderen numerischen Features auf ihren Mittelwert und zeichnet die vorhergesagte Klasse als Hintergrund. Das ist eine sinnvolle Visualisierung, aber keine vollständige Darstellung des hochdimensionalen Modells: Sie zeigt einen zweidimensionalen Schnitt.

**Folie 74, Iris-Entscheidungsfläche:** Die Entscheidungsfläche für Petal.Length und Petal.Width zeigt klare Setosa-Trennung und die schwierigere Grenze zwischen Versicolor und Virginica.

11.5 Lab-Aufgaben

Die abschließenden Lab-Aufgaben fordern nichtlineare Modelle, etwa nichtlineare logistische Regression oder QDA, und einen Modellvergleich. Klausurorientiert heißt das: Modell nicht nur fitten, sondern mit geeigneter Validierung, Confusion Matrix und passenden Metriken begründen, welches Modell am besten passt.

12. Typische Klausuraufgaben und Rechenwege

Aufgabe 1: Logistische Wahrscheinlichkeit berechnen. Gegeben sind β₀, β₁ und ein Featurewert. Rechne zuerst η(x), dann s=e^η(x), dann p(x)=s/(1+s). Vergleiche mit der Schwelle.

Aufgabe 2: Entscheidungsgrenze bestimmen. Setze p̂(x)=0.5. Daraus folgt η(x)=0. Bei einem Feature ist die Grenze x=-β₀/β₁; bei mehreren Features ist es eine Gerade, Ebene oder Hyperebene.

Aufgabe 3: Confusion Matrix auswerten. Berechne Accuracy, klassenbezogene Fehler, Precision, Recall, F1 und Balanced Error. Prüfe bei unausgewogenen Klassen immer, ob ein Mehrheitsklassen-Baseline-Modell besser aussieht.

Aufgabe 4: Modellwahl begründen. Logistische Regression für interpretierbare Wahrscheinlichkeiten und nicht perfekt trennbare Daten; LDA bei ungefähr normalverteilten Klassen und kleinerem n; QDA bei unterschiedlichen Kovarianzen und genug Daten; Naive Bayes bei hohem p oder gemischten Featuretypen.

Aufgabe 5: Separation diagnostizieren. Achte auf perfekte Trennbarkeit im Plot, Warnungen der Optimierung, sehr große Koeffizienten, riesige Standardfehler und Wahrscheinlichkeiten nahe 0 oder 1. Nenne Regularisierung oder LDA als Lösung.

13. Häufige Fehler und Prüfungsfallen

Wahrscheinlichkeit vs. Label: Ein Klassifikator gibt ein Label aus; logistische Regression liefert zunächst eine Wahrscheinlichkeit, die erst durch eine Schwelle in ein Label übersetzt wird.

Lineare Regression als Wahrscheinlichkeit: Werte außerhalb [0,1] sind keine Wahrscheinlichkeiten. Für Unsicherheit ist lineare Regression auf Dummy-Labels ungeeignet.

Koeffizienten falsch interpretieren: Logistische Koeffizienten wirken linear auf Log-Odds, nicht direkt auf Wahrscheinlichkeiten.

Confounding übersehen: Der Effekt eines Features kann sich beim Hinzufügen anderer Features ändern. Marginal und bedingt sind verschiedene Aussagen.

Accuracy bei Unbalanced Data: Eine niedrige Fehlerrate kann ein schlechtes Modell verdecken, wenn die Minderheitsklasse nicht erkannt wird.

Perfekte Trennung feiern: Exakt trennbare Daten können unregularisierte logistische Regression numerisch zerstören.

2D-Plot überinterpretieren: Eine Entscheidungsfläche für zwei Features ist oft nur ein Schnitt durch ein höherdimensionales Modell.

14. Kompakte Lerncheckliste

Kann ich ...?	Ja/Nein
Regression und Klassifikation anhand des Zieltyps unterscheiden?
Eine Hyperebene in Koordinatenform erklären und als Entscheidungsgrenze nutzen?
Erklären, warum lineare Regression keine saubere Klassifikationswahrscheinlichkeit liefert?
Die logistische Funktion, Logit-Transformation und Entscheidungsgrenze herleiten?
Wahrscheinlichkeiten aus logistischen Koeffizienten berechnen?
Confounder und Vorzeichenwechsel in multiplen Modellen erklären?
Case-Control-Prävalenzkorrektur des Achsenabschnitts anwenden?
Exakt trennbare Daten und R-Warnungen richtig deuten?
LDA, QDA, Naive Bayes und logistische Regression vergleichen?
Accuracy, F1, Balanced Error und Confusion Matrix bei unbalanced data interpretieren?
Multinomiale logistische Regression mit regularisiertem Training einordnen?

15. Mögliche Klausurfragen

Warum ist eine lineare Regression mit Dummy-Label für binäre Klassifikation nur eingeschränkt geeignet?
Leite aus der logistischen Funktion die Log-Odds-Gleichung her.
Bestimme für gegebene Koeffizienten die Default-Wahrscheinlichkeit und die Entscheidungsgrenze.
Erkläre am Student-Balance-Default-Beispiel, was ein Confounder ist.
Warum wird bei Case-Control-Samples vor allem der Achsenabschnitt korrigiert?
Woran erkennt man exakt trennbare Daten in einer logistischen Regression?
Vergleiche LDA und QDA anhand von Annahmen, Entscheidungsgrenzen und Datenbedarf.
Warum kann ein Modell mit 95 % Accuracy bei unbalanced data schlecht sein?
Berechne Balanced Error aus einer Confusion Matrix.
Warum ist glm(..., family="binomial") für Iris nicht direkt geeignet?

16. Folienabdeckung

Folie/Kapitel	Inhalt	In Zusammenfassung enthalten?	Wo behandelt?
1	Titel: 30_Ch.4 Classification	Ja	Titel und Gesamtstruktur
2	Kapitelstart Klassifikation	Ja	Abschnitt 1
3	Regression vs. Klassifikation; kategorisches Label	Ja	Abschnitt 2.1
4	Ziele: Klassifikator, Wahrscheinlichkeit, Unsicherheit, Güte, Featureeinfluss	Ja	Abschnitt 2.2
5	Credit Card Default: Label, Features, Train/Test-Split	Ja	Abschnitt 2.3
6	Default-Scatterplot Balance/Income/Student/Default	Ja	Abschnitt 2.3 und 5.5
7	Boxplots Income und Balance nach Default	Ja	Abschnitt 2.3
8	Kapitelstart binäre lineare Klassifikation	Ja	Abschnitt 3
9	Binär, linear, Hyperebene als Entscheidungsgrenze	Ja	Abschnitt 3.1
10	Geraden: Parameterform und Koordinatenform	Ja	Abschnitt 3.2
11	Ebenen: Parameterform und Koordinatenform	Ja	Abschnitt 3.2
12	Hyperebene in R^d, Normalenvektor, affine Unterräume	Ja	Abschnitt 3.2
13	Grafische Hyperebene	Ja	Abschnitt 3.2
14	Kapitelstart lineare Regression für Klassifikation	Ja	Abschnitt 4
15	Dummy-Codierung, Schwelle 0.5	Ja	Abschnitt 4.1
16	Problem: lineare Regression liefert Werte außerhalb [0,1]	Ja	Abschnitt 4.2
17	Mehr als zwei Klassen und künstliche Ordnung durch 1/2/3-Codierung	Ja	Abschnitt 4.3
18	Lineares Modell mit Balance auf Default-Daten	Ja	Abschnitt 4.2
19	Kapitelstart logistische Regression	Ja	Abschnitt 5
20	Logistische Funktion	Ja	Abschnitt 5.1
21	Wertebereich der logistischen Funktion	Ja	Abschnitt 5.1
22	Logit-/Log-Odds-Transformation	Ja	Abschnitt 5.2
23	Default: logistische Regression mit Balance	Ja	Abschnitt 5.3
24	Entscheidungsgrenze bei p̂(x)=0.5	Ja	Abschnitt 5.3
25	Lineare vs. logistische Regression	Ja	Abschnitt 5.4
26	Vorhersagewahrscheinlichkeiten für Balance 1000 und 2000	Ja	Abschnitt 5.5
27	Vorhersagewahrscheinlichkeiten für Student/Nicht-Student	Ja	Abschnitt 5.5
28	Alle Features gleichzeitig; student-Koeffizient wird negativ	Ja	Abschnitt 6.1
29	Confounder-Erklärung Student, Balance, Default	Ja	Abschnitt 6.1
30	Heart-Disease-Daten	Ja	Abschnitt 6.2
31	Heart-Disease-Pairs-Plot	Ja	Abschnitt 6.2
32	Logistisches Heart-Modell und signifikante Effekte	Ja	Abschnitt 6.2
33	Case-Control-Sampling	Ja	Abschnitt 6.3
34	Prävalenzkorrektur des Achsenabschnitts	Ja	Abschnitt 6.3
35	Kapitelstart Erweiterungen/Grenzen	Ja	Abschnitt 7
36	Mehrklassen-logistische Regression	Ja	Abschnitt 7.1
37	Nichtlinearität durch Feature-Transformationen	Ja	Abschnitt 7.2
38	Streng lineares Default-Modell	Ja	Abschnitt 7.2
39	Nichtlineares Default-Modell mit Interaktion und Quadraten	Ja	Abschnitt 7.2
40	Hochgradiges Default-Modell und Overfitting-Gefahr	Ja	Abschnitt 7.2
41	Exakt trennbare Daten	Ja	Abschnitt 8.1
42	Nicht eindeutige Hyperebenen-Koeffizienten	Ja	Abschnitt 8.1
43	Skalierung treibt Wahrscheinlichkeiten gegen 0/1	Ja	Abschnitt 8.1
44	Logistische Kurve mit Faktor 1 und 5	Ja	Abschnitt 8.2
45	Logistische Kurve mit Faktor 10 und 100	Ja	Abschnitt 8.2
46	R-Warnungen bei Separation	Ja	Abschnitt 8.3
47	Unproblematisches Gegenbeispiel mit Überlappung	Ja	Abschnitt 8.3
48	Weiteres exakt trennbares Beispiel	Ja	Abschnitt 8.3
49	Nicht konvergierendes Modell beim exakt trennbaren Beispiel	Ja	Abschnitt 8.3
50	Nicht exakt trennbares Vergleichsbeispiel	Ja	Abschnitt 8.3
51	Konvergierendes Modell beim nicht exakt trennbaren Beispiel	Ja	Abschnitt 8.3
52	Lösungsansätze: Regularisierung, DA	Ja	Abschnitt 8.4
53	Kapitelstart Diskriminanzanalyse	Ja	Abschnitt 9
54	Prinzip der Diskriminanzanalyse	Ja	Abschnitt 9.1
55	Warum LDA? kleine n, Normalannahme, mehrere Klassen	Ja	Abschnitt 9.2
56	LDA-Beispiel	Ja	Abschnitt 9.2
57	LDA, QDA, Naive Bayes	Ja	Abschnitt 9.3
58	LDA-Beispiel 2	Ja	Abschnitt 9.2
59	QDA für dieselben Daten	Ja	Abschnitt 9.3
60	Modellwahl-Zusammenfassung	Ja	Abschnitt 9.4
61	Modellbewertung: Macht das Modell das Richtige?	Ja	Abschnitt 10
62	LDA Default Trainingsfehler	Ja	Abschnitt 10.1
63	LDA Default Testfehler und Mehrheitsklassenproblem	Ja	Abschnitt 10.2
64	F1, Balanced Error, Balanced Accuracy	Ja	Abschnitt 10.3
65	Kapitelstart Lab	Ja	Abschnitt 11
66	Iris-Kontext	Ja	Abschnitt 11.1
67	Iris-Daten und LDA-Ergebnis	Ja	Abschnitt 11.1
68	Warum binäres glm nicht passt	Ja	Abschnitt 11.2
69	caret/glmnet Konfiguration, Split, Cross-Validation	Ja	Abschnitt 11.2
70	Multinomiales glmnet-Training und Koeffizienten	Ja	Abschnitt 11.2
71	Evaluation mit Confusion Matrix	Ja	Abschnitt 11.3
72	Klassenwahrscheinlichkeiten	Ja	Abschnitt 11.3
73	Plotfunktion für Entscheidungsflächen	Ja	Abschnitt 11.4
74	Iris-Entscheidungsfläche	Ja	Abschnitt 11.4
75	Lab-Aufgaben: nichtlineare Modelle, QDA, Modellvergleich	Ja	Abschnitt 11.5