Klausurzusammenfassung: Classification
Vorlesungsskript 30_Ch.4, KI und ML: Supervised Learning
1. Überblick und klausurrelevanter Kern
Klassifikation ist überwachtes Lernen mit einem kategorischen Zielwert. Anders als bei Regression ist das Label nicht eine Zahl auf einer metrischen Skala, sondern eine Klasse, zum Beispiel {spam, ham}, {ok, wartungsbedarf, kaputt} oder {setosa, versicolor, virginica}. Ein Klassifikationsmodell soll neue Beobachtungen einer Klasse zuordnen und idealerweise zusätzlich angeben, wie sicher diese Zuordnung ist.
Gliederung
- Grundlagen der Klassifikation und Default-Beispiel
- Binäre lineare Klassifikation und Hyperebenen
- Lineare Regression als Klassifikator?
- Logistische Regression
- Confounding und Case-Control-Sampling
- Mehrklassenfall und Nichtlinearität
- Exakt trennbare Daten
- Diskriminanzanalyse: LDA, QDA, Naive Bayes
- Modellbewertung bei unausgewogenen Daten
- Iris-Lab und multinomiale logistische Regression
- Klausuraufgaben, Checkliste und Folienabdeckung
2. Grundlagen der Klassifikation
2.1 Klassifikationsproblem
Gegeben sind Features X = (X1, X2, ..., Xp) und ein kategorisches Label Y. Ein Klassifikator c bildet eine Beobachtung x auf eine Klasse ab. Bei binärer Klassifikation gibt es zwei Klassen; bei Mehrklassenklassifikation gibt es K > 2 Klassen.
Variablen: x ist eine konkrete Beobachtung, K die Anzahl der Klassen, pk(x) die bedingte Wahrscheinlichkeit für Klasse k. Die Entscheidungsregel wählt die Klasse mit der größten geschätzten Wahrscheinlichkeit.
2.2 Ziele der Klassifikation
Das Skript nennt fünf Ziele: ein Label für neue Daten vorhersagen, die Zugehörigkeitswahrscheinlichkeit zu einer Klasse schätzen, die Unsicherheit der Vorhersage beurteilen, die Modellqualität bewerten und den Einfluss einzelner Features verstehen. Diese Ziele gehören zusammen: Ein reiner Klassenname ist oft zu wenig, weil eine Entscheidung mit 51 % geschätzter Wahrscheinlichkeit anders zu behandeln ist als eine mit 99 %.
2.3 Beispiel Credit Card Default
Das erste durchgehende Beispiel ist der Credit-Card-Default-Datensatz. Das Label ist Y ∈ {Yes, No}, also ob ein Zahlungsausfall eintritt. Die Features sind student ∈ {Yes, No}, balance ∈ R und income ∈ R. Das Skript verwendet einen reproduzierbaren 50/50-Train/Test-Split mit set.seed(1).
3. Binäre lineare Klassifikation und Hyperebenen
3.1 Linear bedeutet lineare Entscheidungsgrenze
Bei binärer linearer Klassifikation wird der Featureraum in zwei Hälften geteilt. In zwei Dimensionen ist die Entscheidungsgrenze eine Gerade, in drei Dimensionen eine Ebene und in d Dimensionen eine Hyperebene. Die Klassen liegen auf verschiedenen Seiten dieser Grenze.
3.2 Geraden, Ebenen und Hyperebenen
Eine Gerade kann in Parameterform oder Koordinatenform beschrieben werden. Eine Ebene im dreidimensionalen Raum wird analog durch zwei Richtungsvektoren oder durch eine Koordinatengleichung beschrieben. Für Klassifikation ist die Koordinatenform besonders wichtig, weil sie direkt eine Seite der Grenze definiert.
Variablen: x ist ein Punkt im Featureraum, n = (n1, ..., nd) der Normalenvektor, n0 der Achsenabschnitt. Falls n0 = 0, verläuft die Hyperebene durch den Ursprung; sonst ist sie ein affiner Unterraum.
4. Kann man lineare Regression zur Klassifikation verwenden?
4.1 Dummy-Codierung und Schwellenwert
Für zwei Klassen kann man das Label künstlich als Y* ∈ {0,1} codieren und eine lineare Regression trainieren. Danach klassifiziert man mit einem Schwellenwert, häufig 0.5.
Variablen: f̂(x) ist der durch lineare Regression vorhergesagte numerische Wert, ĉ(x) die daraus abgeleitete Klassenentscheidung.
4.2 Warum das nur begrenzt gut ist
Für zwei Klassen kann diese Idee grundsätzlich funktionieren. Das Problem ist die Interpretation: Eine lineare Regression kann Werte kleiner als 0 oder größer als 1 ausgeben. Solche Werte sind keine Wahrscheinlichkeiten. Gerade für Unsicherheit, Risikobewertung oder Schwellenentscheidungen braucht man aber eine echte Wahrscheinlichkeit zwischen 0 und 1.
4.3 Mehrklassenproblem
Bei mehr als zwei Klassen wird eine einzelne numerische Codierung problematisch. Wenn Symptome als 1, 2 und 3 codiert werden, unterstellt das Modell eine künstliche Ordnung und Abstände zwischen Klassen. Das ist fachlich oft unsinnig: stroke, overdose und seizure sind Kategorien, keine metrische Skala.
5. Logistische Regression
5.1 Logistische Funktion
Die logistische Regression modelliert die Wahrscheinlichkeit, dass eine Beobachtung zur Klasse 1 gehört. Der lineare Prädiktor kann beliebige reelle Werte annehmen; die logistische Funktion transformiert ihn in das Intervall [0,1].
Variablen: p(x) ist die Klassenwahrscheinlichkeit, η(x) der lineare Prädiktor, β0 der Achsenabschnitt, βj der Koeffizient von Feature xj. Weil eη(x) > 0, liegt p(x) immer zwischen 0 und 1.
5.2 Log-Odds und Interpretation der Koeffizienten
Durch die Logit-Transformation wird die logistische Regression wieder linear interpretierbar. Die linke Seite sind die Log-Odds, also der natürliche Logarithmus der Chance p(x)/(1-p(x)). Ein Koeffizient erhöht oder senkt die Log-Odds additiv; exponentiert man ihn, erhält man einen multiplikativen Effekt auf die Odds.
Variablen: ln ist der natürliche Logarithmus. Die Odds sind p(x)/(1-p(x)); sie sind nicht dasselbe wie die Wahrscheinlichkeit.
5.3 Entscheidungsgrenze
Bei zwei Klassen wird oft mit Schwelle 0.5 klassifiziert. Dann liegt die Entscheidungsgrenze dort, wo p̂(x)=0.5. Für die logistische Funktion entspricht das η(x)=0, also wieder einer Hyperebene im ursprünglichen Featureraum, solange nur lineare Features verwendet werden.
Variablen: Die Gleichung beschreibt die Entscheidungsgrenze. Punkte mit η(x) > 0 haben p̂(x) > 0.5, Punkte mit η(x) < 0 haben p̂(x) < 0.5.
5.4 Lineare vs. logistische Regression
Logistische Regression ist nicht deshalb „nichtlinear“, weil die Wahrscheinlichkeit S-förmig ist. Sie ist linear im Prädiktor: Die Log-Odds sind eine lineare Funktion der Features. Bei linearen Features entsteht deshalb eine lineare Entscheidungsgrenze. Der Unterschied zur linearen Regression ist die korrekte Wahrscheinlichkeitsmodellierung.
5.5 Rechenbeispiele aus dem Default-Datensatz
Für ein Modell nur mit balance liefert das Skript die Koeffizienten β0 = -10.512597012 und β1 = 0.005447527.
Beispiele: Für balance = 1000 ergibt sich p(x) ≈ 0.00627. Für balance = 2000 ergibt sich p(x) ≈ 0.59447. Die 0.5-Grenze liegt bei ungefähr balance = 1930.
Für ein Modell nur mit student sind die Koeffizienten β0 = -3.372880 und βstudent = 0.197655. Daraus folgen ungefähr 4.01 % Default-Wahrscheinlichkeit für Studierende und 3.32 % für Nicht-Studierende. Diese marginale Aussage kippt aber, sobald balance kontrolliert wird.
6. Confounding und Case-Control-Sampling
6.1 Warum der Student-Koeffizient das Vorzeichen wechselt
Im Modell mit allen Default-Features wird der Koeffizient für studentYes negativ (-0.5992), obwohl das Modell nur mit student vorher einen positiven Effekt zeigte. Das ist kein Widerspruch, sondern ein Confounding-Beispiel: Studierende haben im Datensatz tendenziell höhere Kreditkartensalden, und höhere balance erhöht die Default-Wahrscheinlichkeit stark. Vergleicht man aber zwei Personen mit gleicher balance, haben Studierende im Modell eine niedrigere Default-Wahrscheinlichkeit.
| Betrachtung | Aussage | Interpretation |
|---|---|---|
| Nur student | Studierende wirken riskanter. | Marginaler Zusammenhang, Balance fehlt. |
| student plus balance | Studierende wirken bei gleicher Balance weniger riskant. | Bedingter Zusammenhang, Confounder kontrolliert. |
6.2 Heart-Disease-Beispiel
Das Heart-Disease-Beispiel umfasst 303 Patienten, davon 139 mit Herzerkrankung. Das Ziel ist die Identifikation potenzieller Risikofaktoren einschließlich Wirkstärke. Das logistische Modell verwendet AHD als Faktor und alle Features als Prädiktoren. In der Ausgabe sind unter anderem Sex, mehrere ChestPain-Kategorien, RestBP und Ca signifikant; sechs Beobachtungen werden wegen fehlender Werte gelöscht.
6.3 Case-Control-Samples und Prävalenzkorrektur
Bei Krankheiten sind Fälle oft selten und teuer zu erheben. Deshalb werden in Case-Control-Studien häufig alle verfügbaren Cases und eine begrenzte Zahl Controls genutzt. Mehr Controls reduzieren Varianz, aber der Nutzen nimmt ab; im Skript wird als Faustregel bis etwa das Fünffache der Case-Anzahl genannt. Wenn das Case-Control-Verhältnis in der Stichprobe nicht der Bevölkerung entspricht, ist besonders der Achsenabschnitt der logistischen Regression verzerrt.
Variablen: β0* ist der in der Fall-Kontroll-Stichprobe geschätzte Achsenabschnitt, β0 der für die Bevölkerung korrigierte Achsenabschnitt, a die echte oder angenommene Prävalenz in der Bevölkerung, ã die Fallrate in der Stichprobe.
Im Heart-Datensatz liegt die beobachtete Fallrate bei 139/303 ≈ 46 %. Eine angenommene Bevölkerungprävalenz von etwa 5 % wäre deutlich niedriger. Die Korrektur senkt dann den Achsenabschnitt, damit die vorhergesagten Grundwahrscheinlichkeiten zur Bevölkerung passen.
7. Erweiterungen und Grenzen der logistischen Regression
7.1 Mehrklassen-logistische Regression
Die bisherige logistische Regression ist binär. Für K > 2 Klassen kann man eine multinomiale logistische Regression verwenden. Dabei wird pro Klasse eine lineare Bewertungsfunktion gelernt; die Softmax-Transformation macht daraus Wahrscheinlichkeiten, die zusammen 1 ergeben.
Variablen: ηk(x) ist der lineare Score für Klasse k, pk(x) die zugehörige Klassenwahrscheinlichkeit. Die Summe aller Klassenwahrscheinlichkeiten ist 1.
Im Skript wird für den Mehrklassenfall auf Pakete wie glmnet verwiesen. Wichtig ist: Mehrklassenmodelle sind nicht dasselbe wie eine beliebige Zahlenkodierung der Klassen.
7.2 Nichtlinearität durch neue Features
Eine logistische Regression mit linearen Features erzeugt eine lineare Grenze. Nichtlinear wird die Grenze, wenn das Modell nichtlineare Features enthält, zum Beispiel Quadrate, höhere Potenzen oder Interaktionen. Mathematisch bleibt das Modell linear in den neu konstruierten Features; im ursprünglichen Featureraum wirkt die Grenze jedoch gekrümmt.
8. Exakt trennbare Daten
8.1 Warum Separation ein Problem ist
Wenn zwei Klassen durch eine Hyperebene perfekt getrennt werden können, hat die logistische Regression ein Maximumproblem: Die Lage der Entscheidungsgrenze kann stimmen, aber die Koeffizienten sind nicht eindeutig skaliert. Multipliziert man alle Koeffizienten mit einem großen Faktor, bleibt die Grenze η(x)=0 an derselben Stelle, die geschätzten Wahrscheinlichkeiten werden aber immer extremer.
Interpretation: Die Entscheidungsgrenze ist identisch, aber die zweite Kurve ist deutlich steiler. Für perfekt getrennte Daten treibt die Optimierung die Koeffizienten theoretisch gegen unendlich.
8.2 Logistische Kurve wird beliebig steil
8.3 Symptome in R-Ausgaben
Bei exakt trennbaren Daten zeigt glm(..., family = binomial) Warnungen wie „Algorithmus konvergierte nicht“ oder „angepasste Wahrscheinlichkeiten mit numerischem Wert 0 oder 1 aufgetreten“. Die Koeffizienten und Standardfehler werden sehr groß, z-Werte können trotz scheinbar perfekter Trennung unbrauchbar werden.
| Situation | Typische Ausgabe | Folgerung |
|---|---|---|
| Exakt trennbar | Nichtkonvergenz, Wahrscheinlichkeiten 0/1, riesige Standardfehler | Koeffizienten nicht sinnvoll interpretieren. |
| Nicht exakt trennbar | Endliche Koeffizienten, normale Signifikanztests | Schätzung ist numerisch stabiler. |
8.4 Lösungsansätze
Das Skript nennt zwei zentrale Lösungen: Regularisierung, also eine Bestrafung zu großer Koeffizienten, und alternative Modelle wie lineare Diskriminanzanalyse. In der Praxis sind penalized logistic regression, LDA oder andere robuste Klassifikatoren oft besser geeignet als eine unregularisierte logistische Regression auf perfekt getrennten Daten.
9. Diskriminanzanalyse: LDA, QDA und Naive Bayes
9.1 Grundidee der Diskriminanzanalyse
Diskriminanzanalyse modelliert nicht direkt Pr(Y=k|X=x) über eine logistische Funktion, sondern zuerst die Feature-Verteilung innerhalb jeder Klasse. Für jede Klasse wird eine Dichte fk(x) geschätzt. Die Vorhersage wählt die Klasse mit der größten posterioren Wahrscheinlichkeit.
Variablen: πk ist die Prior-Wahrscheinlichkeit von Klasse k, fk(x) die Dichte der Features in Klasse k, K die Anzahl der Klassen.
9.2 Lineare Diskriminanzanalyse (LDA)
LDA nimmt an, dass die Features innerhalb jeder Klasse normalverteilt sind und alle Klassen dieselbe Kovarianzmatrix haben. Dadurch entstehen lineare Entscheidungsgrenzen. LDA ist besonders attraktiv, wenn n klein ist, die Normalannahme ungefähr passt, Klassen gut getrennt sind oder mehr als zwei Klassen vorliegen. Ein weiterer Vorteil: LDA leidet nicht in derselben Weise unter exakt trennbaren Daten wie unregularisierte logistische Regression.
Variablen: μk ist der Mittelwertvektor der Klasse k, Σ die gemeinsame Kovarianzmatrix, πk der Klassenprior. Klassifiziert wird in die Klasse mit größtem δk(x).
9.3 QDA und Naive Bayes
QDA erlaubt jeder Klasse eine eigene Kovarianzmatrix. Dadurch werden Entscheidungsgrenzen quadratisch und flexibler, benötigen aber mehr Daten. Naive Bayes geht in eine andere Richtung: Es nimmt bedingte Unabhängigkeit der Features innerhalb jeder Klasse an und schreibt die gemeinsame Dichte als Produkt eindimensionaler Dichten. Das kann trotz starker Vereinfachung bei hochdimensionalen oder gemischten Featuretypen sehr gut funktionieren.
Variablen: Σk ist die klassenspezifische Kovarianzmatrix. Weil Σk von k abhängt, entstehen quadratische Grenzen.
| Modell | Annahme | Grenze | Wann sinnvoll? |
|---|---|---|---|
| Logistische Regression | Lineare Log-Odds | Linear bei linearen Features | Nicht perfekt trennbare Daten, wenige Klassen, gute Interpretierbarkeit |
| LDA | Normalverteilung, gleiche Kovarianz | Linear | Kleines n, gut getrennte Klassen, Mehrklassenfall |
| QDA | Normalverteilung, unterschiedliche Kovarianzen | Quadratisch | Mehr Flexibilität, ausreichend Daten |
| Naive Bayes | Bedingte Feature-Unabhängigkeit | Abhängig von Dichten | Großes p, gemischte Featuretypen, robuste einfache Baseline |
10. Modellbewertung bei unausgewogenen Daten
10.1 Trainingsfehler ist nicht genug
Für die Default-Daten erzielt LDA auf dem Trainingsdatensatz eine Fehlerrate von 2.78 %: (16+123)/5000. Das klingt gut, ist aber zunächst nur Trainingsfehler. Selbst wenn Overfitting bei großem n=5000 und kleinem p=3 weniger wahrscheinlich ist, muss ein Modell auf Testdaten beurteilt werden.
| Trainingsdaten | Observed 0 | Observed 1 |
|---|---|---|
| Predicted 0 | 4808 | 123 |
| Predicted 1 | 16 | 53 |
10.2 Warum Accuracy täuschen kann
Auf dem Testdatensatz beträgt die LDA-Fehlerrate 4.52 %, denn (69+157)/5000 = 4.52 %. Das klingt immer noch gut. Bei genauer Betrachtung erkennt das Modell aber keinen einzigen tatsächlichen Default-Fall korrekt: Für die Klasse Yes beträgt der Fehler 100 %. Ein trivialer Klassifikator, der immer No vorhersagt, hätte nur 3.14 % Fehler, wäre aber fachlich wertlos.
| Testdaten | Observed 0 | Observed 1 | Interpretation |
|---|---|---|---|
| Predicted 0 | 4774 | 157 | Alle Default-Fälle werden als No vorhergesagt. |
| Predicted 1 | 69 | 0 | Keine echte positive Entdeckung. |
10.3 Bessere Maße
Das Skript nennt F1-Score, Balanced Error und Balanced Accuracy. Balanced Error mittelt die Fehler pro Klasse und verhindert, dass die Mehrheitsklasse das Ergebnis dominiert. Für das LDA-Testbeispiel ergibt sich (1.42 % + 100 %) / 2 = 50.71 %. Das ist deutlich realistischer als die einfache Fehlerrate.
Variablen: TP sind korrekt positive, TN korrekt negative, FP falsch positive und FN falsch negative Vorhersagen. Errork ist der Fehler innerhalb Klasse k.
11. Iris-Lab und multinomiale logistische Regression
11.1 Iris-Daten
Der Iris-Datensatz hat vier numerische Features und drei Klassen mit jeweils 50 Beobachtungen: setosa, versicolor und virginica. LDA klassifiziert im Skript alle bis auf drei der 150 Trainingsbeispiele richtig. Der Datensatz ist außerdem ein gutes Beispiel dafür, dass manche Klassen nahezu oder exakt trennbar sein können.
11.2 Warum glm hier nicht reicht
Ein normales glm(..., family="binomial") passt nicht, weil Iris drei Klassen hat. Außerdem sind zwei Klassen exakt trennbar, was die unregularisierte binäre logistische Regression zusätzlich problematisch macht. One-vs-Rest-Modelle wären möglich, liefern aber nicht automatisch sauber normalisierte Klassenwahrscheinlichkeiten. Das Skript nutzt deshalb caret mit glmnet, family="multinomial" und Regularisierung.
| Schritt | Inhalt | Warum klausurrelevant? |
|---|---|---|
| Split | 80 % Training, 20 % Test mit createDataPartition | Train/Test-Trennung bleibt auch im Lab wichtig. |
| CV | 5-fold Cross-Validation mit Klassenwahrscheinlichkeiten | Hyperparameter werden auf Trainingsdaten gewählt. |
| Modell | glmnet, family="multinomial" | Regularisierte Mehrklassenlogistik statt binärem glm. |
| Tuning | Kombinationen aus α und λ | λ steuert Regularisierungsstärke; α Art der Regularisierung. |
11.3 Evaluation
Auf dem Testdatensatz erreicht das Beispiel eine Accuracy von 0.9333. Setosa wird perfekt erkannt. Zwei Virginica-Beobachtungen werden als Versicolor klassifiziert, daher liegt die Sensitivität für Virginica bei 0.8. Die Klassenwahrscheinlichkeiten aus predict(..., type="prob") erlauben zusätzlich eine Unsicherheitsinterpretation.
| Prediction | Reference setosa | Reference versicolor | Reference virginica |
|---|---|---|---|
| setosa | 10 | 0 | 0 |
| versicolor | 0 | 10 | 2 |
| virginica | 0 | 0 | 8 |
11.4 Entscheidungsflächen visualisieren
Die Plotfunktion im Skript erzeugt ein Raster über zwei ausgewählte Features, setzt alle anderen numerischen Features auf ihren Mittelwert und zeichnet die vorhergesagte Klasse als Hintergrund. Das ist eine sinnvolle Visualisierung, aber keine vollständige Darstellung des hochdimensionalen Modells: Sie zeigt einen zweidimensionalen Schnitt.
11.5 Lab-Aufgaben
Die abschließenden Lab-Aufgaben fordern nichtlineare Modelle, etwa nichtlineare logistische Regression oder QDA, und einen Modellvergleich. Klausurorientiert heißt das: Modell nicht nur fitten, sondern mit geeigneter Validierung, Confusion Matrix und passenden Metriken begründen, welches Modell am besten passt.
12. Typische Klausuraufgaben und Rechenwege
13. Häufige Fehler und Prüfungsfallen
14. Kompakte Lerncheckliste
| Kann ich ...? | Ja/Nein |
|---|---|
| Regression und Klassifikation anhand des Zieltyps unterscheiden? | |
| Eine Hyperebene in Koordinatenform erklären und als Entscheidungsgrenze nutzen? | |
| Erklären, warum lineare Regression keine saubere Klassifikationswahrscheinlichkeit liefert? | |
| Die logistische Funktion, Logit-Transformation und Entscheidungsgrenze herleiten? | |
| Wahrscheinlichkeiten aus logistischen Koeffizienten berechnen? | |
| Confounder und Vorzeichenwechsel in multiplen Modellen erklären? | |
| Case-Control-Prävalenzkorrektur des Achsenabschnitts anwenden? | |
| Exakt trennbare Daten und R-Warnungen richtig deuten? | |
| LDA, QDA, Naive Bayes und logistische Regression vergleichen? | |
| Accuracy, F1, Balanced Error und Confusion Matrix bei unbalanced data interpretieren? | |
| Multinomiale logistische Regression mit regularisiertem Training einordnen? |
15. Mögliche Klausurfragen
- Warum ist eine lineare Regression mit Dummy-Label für binäre Klassifikation nur eingeschränkt geeignet?
- Leite aus der logistischen Funktion die Log-Odds-Gleichung her.
- Bestimme für gegebene Koeffizienten die Default-Wahrscheinlichkeit und die Entscheidungsgrenze.
- Erkläre am Student-Balance-Default-Beispiel, was ein Confounder ist.
- Warum wird bei Case-Control-Samples vor allem der Achsenabschnitt korrigiert?
- Woran erkennt man exakt trennbare Daten in einer logistischen Regression?
- Vergleiche LDA und QDA anhand von Annahmen, Entscheidungsgrenzen und Datenbedarf.
- Warum kann ein Modell mit 95 % Accuracy bei unbalanced data schlecht sein?
- Berechne Balanced Error aus einer Confusion Matrix.
- Warum ist glm(..., family="binomial") für Iris nicht direkt geeignet?
16. Folienabdeckung
| Folie/Kapitel | Inhalt | In Zusammenfassung enthalten? | Wo behandelt? |
|---|---|---|---|
| 1 | Titel: 30_Ch.4 Classification | Ja | Titel und Gesamtstruktur |
| 2 | Kapitelstart Klassifikation | Ja | Abschnitt 1 |
| 3 | Regression vs. Klassifikation; kategorisches Label | Ja | Abschnitt 2.1 |
| 4 | Ziele: Klassifikator, Wahrscheinlichkeit, Unsicherheit, Güte, Featureeinfluss | Ja | Abschnitt 2.2 |
| 5 | Credit Card Default: Label, Features, Train/Test-Split | Ja | Abschnitt 2.3 |
| 6 | Default-Scatterplot Balance/Income/Student/Default | Ja | Abschnitt 2.3 und 5.5 |
| 7 | Boxplots Income und Balance nach Default | Ja | Abschnitt 2.3 |
| 8 | Kapitelstart binäre lineare Klassifikation | Ja | Abschnitt 3 |
| 9 | Binär, linear, Hyperebene als Entscheidungsgrenze | Ja | Abschnitt 3.1 |
| 10 | Geraden: Parameterform und Koordinatenform | Ja | Abschnitt 3.2 |
| 11 | Ebenen: Parameterform und Koordinatenform | Ja | Abschnitt 3.2 |
| 12 | Hyperebene in Rd, Normalenvektor, affine Unterräume | Ja | Abschnitt 3.2 |
| 13 | Grafische Hyperebene | Ja | Abschnitt 3.2 |
| 14 | Kapitelstart lineare Regression für Klassifikation | Ja | Abschnitt 4 |
| 15 | Dummy-Codierung, Schwelle 0.5 | Ja | Abschnitt 4.1 |
| 16 | Problem: lineare Regression liefert Werte außerhalb [0,1] | Ja | Abschnitt 4.2 |
| 17 | Mehr als zwei Klassen und künstliche Ordnung durch 1/2/3-Codierung | Ja | Abschnitt 4.3 |
| 18 | Lineares Modell mit Balance auf Default-Daten | Ja | Abschnitt 4.2 |
| 19 | Kapitelstart logistische Regression | Ja | Abschnitt 5 |
| 20 | Logistische Funktion | Ja | Abschnitt 5.1 |
| 21 | Wertebereich der logistischen Funktion | Ja | Abschnitt 5.1 |
| 22 | Logit-/Log-Odds-Transformation | Ja | Abschnitt 5.2 |
| 23 | Default: logistische Regression mit Balance | Ja | Abschnitt 5.3 |
| 24 | Entscheidungsgrenze bei p̂(x)=0.5 | Ja | Abschnitt 5.3 |
| 25 | Lineare vs. logistische Regression | Ja | Abschnitt 5.4 |
| 26 | Vorhersagewahrscheinlichkeiten für Balance 1000 und 2000 | Ja | Abschnitt 5.5 |
| 27 | Vorhersagewahrscheinlichkeiten für Student/Nicht-Student | Ja | Abschnitt 5.5 |
| 28 | Alle Features gleichzeitig; student-Koeffizient wird negativ | Ja | Abschnitt 6.1 |
| 29 | Confounder-Erklärung Student, Balance, Default | Ja | Abschnitt 6.1 |
| 30 | Heart-Disease-Daten | Ja | Abschnitt 6.2 |
| 31 | Heart-Disease-Pairs-Plot | Ja | Abschnitt 6.2 |
| 32 | Logistisches Heart-Modell und signifikante Effekte | Ja | Abschnitt 6.2 |
| 33 | Case-Control-Sampling | Ja | Abschnitt 6.3 |
| 34 | Prävalenzkorrektur des Achsenabschnitts | Ja | Abschnitt 6.3 |
| 35 | Kapitelstart Erweiterungen/Grenzen | Ja | Abschnitt 7 |
| 36 | Mehrklassen-logistische Regression | Ja | Abschnitt 7.1 |
| 37 | Nichtlinearität durch Feature-Transformationen | Ja | Abschnitt 7.2 |
| 38 | Streng lineares Default-Modell | Ja | Abschnitt 7.2 |
| 39 | Nichtlineares Default-Modell mit Interaktion und Quadraten | Ja | Abschnitt 7.2 |
| 40 | Hochgradiges Default-Modell und Overfitting-Gefahr | Ja | Abschnitt 7.2 |
| 41 | Exakt trennbare Daten | Ja | Abschnitt 8.1 |
| 42 | Nicht eindeutige Hyperebenen-Koeffizienten | Ja | Abschnitt 8.1 |
| 43 | Skalierung treibt Wahrscheinlichkeiten gegen 0/1 | Ja | Abschnitt 8.1 |
| 44 | Logistische Kurve mit Faktor 1 und 5 | Ja | Abschnitt 8.2 |
| 45 | Logistische Kurve mit Faktor 10 und 100 | Ja | Abschnitt 8.2 |
| 46 | R-Warnungen bei Separation | Ja | Abschnitt 8.3 |
| 47 | Unproblematisches Gegenbeispiel mit Überlappung | Ja | Abschnitt 8.3 |
| 48 | Weiteres exakt trennbares Beispiel | Ja | Abschnitt 8.3 |
| 49 | Nicht konvergierendes Modell beim exakt trennbaren Beispiel | Ja | Abschnitt 8.3 |
| 50 | Nicht exakt trennbares Vergleichsbeispiel | Ja | Abschnitt 8.3 |
| 51 | Konvergierendes Modell beim nicht exakt trennbaren Beispiel | Ja | Abschnitt 8.3 |
| 52 | Lösungsansätze: Regularisierung, DA | Ja | Abschnitt 8.4 |
| 53 | Kapitelstart Diskriminanzanalyse | Ja | Abschnitt 9 |
| 54 | Prinzip der Diskriminanzanalyse | Ja | Abschnitt 9.1 |
| 55 | Warum LDA? kleine n, Normalannahme, mehrere Klassen | Ja | Abschnitt 9.2 |
| 56 | LDA-Beispiel | Ja | Abschnitt 9.2 |
| 57 | LDA, QDA, Naive Bayes | Ja | Abschnitt 9.3 |
| 58 | LDA-Beispiel 2 | Ja | Abschnitt 9.2 |
| 59 | QDA für dieselben Daten | Ja | Abschnitt 9.3 |
| 60 | Modellwahl-Zusammenfassung | Ja | Abschnitt 9.4 |
| 61 | Modellbewertung: Macht das Modell das Richtige? | Ja | Abschnitt 10 |
| 62 | LDA Default Trainingsfehler | Ja | Abschnitt 10.1 |
| 63 | LDA Default Testfehler und Mehrheitsklassenproblem | Ja | Abschnitt 10.2 |
| 64 | F1, Balanced Error, Balanced Accuracy | Ja | Abschnitt 10.3 |
| 65 | Kapitelstart Lab | Ja | Abschnitt 11 |
| 66 | Iris-Kontext | Ja | Abschnitt 11.1 |
| 67 | Iris-Daten und LDA-Ergebnis | Ja | Abschnitt 11.1 |
| 68 | Warum binäres glm nicht passt | Ja | Abschnitt 11.2 |
| 69 | caret/glmnet Konfiguration, Split, Cross-Validation | Ja | Abschnitt 11.2 |
| 70 | Multinomiales glmnet-Training und Koeffizienten | Ja | Abschnitt 11.2 |
| 71 | Evaluation mit Confusion Matrix | Ja | Abschnitt 11.3 |
| 72 | Klassenwahrscheinlichkeiten | Ja | Abschnitt 11.3 |
| 73 | Plotfunktion für Entscheidungsflächen | Ja | Abschnitt 11.4 |
| 74 | Iris-Entscheidungsfläche | Ja | Abschnitt 11.4 |
| 75 | Lab-Aufgaben: nichtlineare Modelle, QDA, Modellvergleich | Ja | Abschnitt 11.5 |