Klausurorientierte Zusammenfassung
Statistical Learning

Quelle: 10_Ch.2 Grundlagen des Machine Learning, KI und ML: Supervised Learning, Martin Zaefferer

Ziel dieser Zusammenfassung: Die Folien werden als prüfungsorientiertes Lernskript verdichtet: Definitionen, Formeln, Variablen, Diagrammdeutung, typische Aufgaben, Fallstricke und eine Lerncheckliste.

1. Überblick: Statistical Learning

Statistical Learning beschreibt Methoden, mit denen aus beobachteten Daten ein Zusammenhang zwischen Eingaben und einer Zielgröße gelernt wird. Im Supervised Learning liegen Trainingsbeispiele mit Features X und bekannten Labels Y vor. Ziel ist ein Modell, das neue Datenpunkte möglichst gut vorhersagt und - je nach Modell - interpretierbare Aussagen über Einflussfaktoren erlaubt.

Problemtyp	Label Y	Typische Ausgabe	Beispiel aus den Folien
Regression	numerisch / quantitativ	Zahlwert, z. B. Umsatz	Sales aus TV-, Radio- und Newspaper-Werbung
Klassifikation	kategorisch / qualitativ	Klasse, z. B. spam oder normal	E-Mail: normal, spam, phishing; Transaktion: normal, fraud

Klausurmerksatz: Regression sagt Werte vorher, Klassifikation sagt Klassen vorher. Die Modellbewertung unterscheidet sich entsprechend: MSE für Regression, Fehlklassifizierungsrate für Klassifikation.

2. Regression

2.1 Advertising-Beispiel

Die Folien starten mit dem Datensatz Advertising: Sales soll aus den Werbeausgaben für TV, Radio und Newspaper vorhergesagt werden. Einzelne Regressionslinien für Sales gegen jeweils ein Feature erklären nur eindimensionale Zusammenhänge. Das eigentliche supervised-learning-Problem lautet gemeinsam:

Sales ≈ f(TV, Radio, Newspaper)

Damit ist f eine Funktion mehrerer Eingaben. In einer Klausur ist wichtig, nicht drei voneinander unabhängige eindimensionale Probleme mit dem gemeinsamen Modell zu verwechseln.

2.2 Notation

Symbol	Bedeutung	Im Advertising-Beispiel
Y	Label / Zielvariable, die vorhergesagt werden soll	Sales
X	Feature-Vektor aller Eingaben	X = (TV, Radio, Newspaper)
X1, X2, X3	Einzelne Features / Prädiktoren	TV, Radio, Newspaper
f(X)	wahre, unbekannte Regressionsfunktion	systematischer Zusammenhang zwischen Werbung und Sales
ε	Fehlerterm / Rauschen / nicht erklärte Einflüsse	Messrauschen, nicht beobachtete Faktoren

Grundmodell:

Y = f(X) + ε

Die Gleichung sagt: Der beobachtete Wert Y besteht aus einem systematischen Anteil f(X) und einem zufälligen bzw. nicht erklärbaren Anteil ε. Das Modell kann f schätzen, aber ε nie vollständig beseitigen.

2.3 Wofür wird f(X) verwendet?

Vorhersage von Y für neue Datenpunkte X.

Untersuchen, welche Features Einfluss auf Y haben und welche nicht.

Je nach Modell: Erklärung, wie stark und in welche Richtung ein Feature wirkt.

Prüfungsfalle: Ein sehr genaues Modell ist nicht automatisch gut interpretierbar. Lineare Modelle sind oft leichter erklärbar, flexible Verfahren wie SVMs oder neuronale Netze meist schwieriger.

2.4 Ideale Regressionsfunktion

Die ideale Regressionsfunktion ist die Funktion, die den erwarteten quadratischen Vorhersagefehler minimiert. Für einen festen Wert x ist der beste Vorhersagewert unter quadratischem Verlust der bedingte Erwartungswert:

f(x) = E(Y | X = x)

Bestandteil	Erklärung
E(...)	Erwartungswert, also Mittelwert über die möglichen Werte
Y	Zielvariable
X = x	Bedingung: Es werden nur Beobachtungen mit diesem Feature-Wert betrachtet
f(x)	optimaler Vorhersagewert für diesen konkreten Eingabewert x

Folie 7: Ideale Regressionsfunktion und bedingter Erwartungswert

Zeigt: Für ein festes x ist der optimale quadratische Vorhersagewert der Mittelwert der möglichen Y-Werte.

2.5 Geschätzte Regressionsfunktion und Fehler

In realen Daten gibt es selten viele Beobachtungen mit exakt demselben X-Wert. Deshalb kann f meist nicht direkt bestimmt werden. Man schätzt stattdessen eine Funktion f̂. Diese Schätzung erzeugt zusätzlichen Fehler.

Vorhersagefehler ≈ Schätzfehler + nichtreduzierbarer Fehler

Schätzfehler: f̂(x) - f(x). Er entsteht, weil das Modell f nur aus endlichen Trainingsdaten lernt.

Nichtreduzierbarer Fehler: ε = Y - f(x). Er bleibt selbst beim idealen Modell bestehen.

Beispiel: Zwei Personen mit gleichem Alter, gleicher Ausbildung und gleichem Beruf können trotzdem verschiedene Gehälter haben.

Klausurmerksatz: Nichtreduzierbarer Fehler ist kein Modellversagen. Er beschreibt Varianz in Y, die durch die beobachteten Features nicht erklärbar ist.

3. Schätzung durch Nachbarschaften und kNN

3.1 Neighborhood Averaging

Wenn keine Datenpunkte mit exakt X = x vorliegen, betrachtet man eine Nachbarschaft um x. Die Grundannahme lautet: ähnliche X-Werte haben vermutlich ähnliche Y-Werte. Die Vorhersage ist dann ein Durchschnitt der Y-Werte in dieser lokalen Umgebung.

Zeigt: Statt exakt gleicher X-Werte nutzt man Beobachtungen in der Nachbarschaft.

3.2 Problem fester Intervalle

Eine feste Intervall- oder Volumendefinition kann leer sein. Dann gibt es keine Beobachtungen, aus denen man den Durchschnitt berechnen könnte. k-nearest Neighbors löst dieses Problem, indem nicht ein fixes Volumen, sondern die k nächsten Beobachtungen verwendet werden.

Für Regression gilt bei kNN typischerweise:

f̂(x) = (1 / k) * Summe der y_i über die k nächsten Nachbarn von x

Variable	Bedeutung
x	neuer Datenpunkt, für den vorhergesagt wird
k	Anzahl der berücksichtigten Nachbarn
y_i	Label eines Nachbarn
f̂(x)	geschätzter Zielwert als Durchschnitt der Nachbar-Labels

3.3 Wahl von k

k	Wirkung	Risiko
klein	sehr lokale, flexible Schätzung	hohe Varianz, Overfit, stark abhängig von einzelnen Punkten
groß	glatte, stabile Schätzung	hoher Bias, Underfit, lokale Struktur wird geglättet
mittlerer Bereich	Kompromiss zwischen Glättung und Flexibilität	muss über Testdaten/Cross-Validation geprüft werden

Typische Klausurfrage: Erkläre, warum k=1 bei kNN sehr flexibel ist und warum ein sehr großes k zu Underfitting führen kann.

3.4 Curse of Dimensionality

Neighborhood Averaging funktioniert gut bei wenigen Features p und vielen Beobachtungen N. Bei hoher Dimension wird der Raum extrem groß. Selbst der nächste Nachbar ist dann oft weit entfernt. Eine Nachbarschaft, die einen festen Anteil der Daten enthält, ist nicht mehr lokal.

Zeigt: In hohen Dimensionen muss eine Nachbarschaft sehr groß werden, um denselben Datenanteil zu enthalten.

Größe	Bedeutung	Klausurrelevanz
p	Anzahl der Features / Dimensionen	Je größer p, desto schwieriger lokale Nachbarschaften
N	Anzahl der Beobachtungen	Viele Daten können hohe Dimension teilweise abfedern
10%-Nachbarschaft	Anteil der Daten, der für den lokalen Durchschnitt verwendet wird	In hohen Dimensionen räumlich oft nicht mehr lokal

3.5 Alternative Regressionsmodelle

Lineare Regression: interpretiert lineare Feature-Effekte; gut als Baseline.

Support Vector Regression: flexibler, aber schwerer zu interpretieren.

Splines: flexible glatte Funktionen.

Entscheidungsbäume: regelartige Partitionierung des Feature-Raums.

Neuronale Netze: sehr flexibel, oft hohe Daten- und Interpretationsanforderungen.

4. Modellbewertung und Modellkomplexität

4.1 Trade-offs

Vorhersagegenauigkeit vs. Interpretierbarkeit: Ein einfacheres Modell kann fachlich nützlicher sein, wenn Erklärbarkeit zählt.

Overfit vs. Underfit: Zu einfache Modelle lernen die Struktur nicht; zu komplexe Modelle lernen Rauschen.

Trainingsleistung vs. Generalisierung: Entscheidend ist die Leistung auf neuen, nicht im Training verwendeten Daten.

4.2 Underfit, Good Fit, Overfit

Zu einfaches Modell: Es erkennt selbst auf Trainingsdaten die Struktur schlecht.

Angemessene Komplexität: gute Annäherung ohne Rauschen zu stark mitzunehmen.

Zu komplexes Modell: Es lernt Rauschen und generalisiert schlecht.

Situation	Trainingsfehler	Testfehler	Interpretation
Underfit	hoch	hoch	Modell ist zu einfach und erkennt die Struktur nicht
Good Fit	niedrig bis moderat	niedrig	Modell erfasst Struktur und generalisiert
Overfit	sehr niedrig	hoch	Modell passt Rauschen der Trainingsdaten an

4.3 Mean Squared Error

Für n überprüfte Datenpunkte ist der Mean Squared Error:

MSE = (1 / n) * Summe von [y_i - f̂(x_i)]² für i = 1,...,n

Symbol	Bedeutung
n	Anzahl der Datenpunkte, auf denen der Fehler berechnet wird
x_i	Features des i-ten Datenpunkts
y_i	wahres Label des i-ten Datenpunkts
f̂(x_i)	Modellvorhersage für x_i
[y_i - f̂(x_i)]²	quadrierter Vorhersagefehler

Warum quadrieren? Positive und negative Fehler heben sich nicht auf; große Fehler werden stärker bestraft. Dadurch ist MSE empfindlich gegenüber Ausreißern.

4.4 Trainingsdaten vs. Testdaten

MSE kann auf Trainingsdaten berechnet werden. Das reicht aber nicht aus, weil Overfit dort gut aussehen kann. Deshalb braucht man Testdaten, die vor dem Training getrennt wurden oder nachträglich neu erhoben werden.

Trainingsdaten: werden verwendet, um das Modell zu schätzen.

Testdaten: werden erst nach dem Training zur Bewertung verwendet.

Gute Aufteilung: möglichst repräsentativ für die Gesamtverteilung und möglichst geringe Überschneidung/Redundanz zwischen Train und Test.

Prüfungsfalle: Testdaten dürfen nicht indirekt in das Training einfließen. Auch Modellwahl über Testdaten kann zu optimistischen Ergebnissen führen; sauberer ist ein separater Validierungs- oder Cross-Validation-Schritt.

5. Bias-Variance Trade-off

5.1 Fehlzerlegung

Für einen neuen Testdatenpunkt (x^*, y^*) lässt sich der erwartete quadratische Fehler konzeptionell zerlegen in:

Error(x^*, y^*) = Variance of f̂(x^*) + Bias of f̂(x^*) + ε

In der üblichen präzisen Schreibweise wird der Bias quadratisch betrachtet: erwarteter Fehler = Varianz + Bias² + irreduzibler Fehler. Die Folien fokussieren die Interpretation der drei Bestandteile.

Bestandteil	Ursache	Typisches Symptom
Variance	kleine Änderungen in Trainingsdaten verändern die Vorhersage stark	Modell ist instabil, Overfit-Risiko
Bias	Modellstruktur ist zu eingeschränkt für den wahren Zusammenhang	systematische Fehler, Underfit-Risiko
ε	Rauschen / nicht beobachtbare Einflüsse in den Daten	durch bessere Modellwahl nicht vollständig beseitigbar

5.2 Zusammenhang mit Modellflexibilität

Wenn Flexibilität steigt	Tendenz
Variance	steigt
Bias	sinkt
Nichtreduzierbarer Fehler	bleibt konstant
Testfehler	sinkt zunächst oft, steigt bei zu hoher Komplexität wieder

Klausurmerksatz: Die Wahl der Modellkomplexität über den durchschnittlichen Testfehler ist praktisch die Suche nach einem guten Bias-Variance-Kompromiss.

5.3 Typische Diagrammdeutung

Hoher Bias + niedrige Varianz: Modell ist stabil, aber systematisch falsch. Beispiel: horizontale Linie für klar steigende Daten.

Niedriger Bias + hohe Varianz: Modell kann die Struktur treffen, reagiert aber stark auf Trainingsrauschen.

Guter Kompromiss: ausreichend flexibel, aber nicht so flexibel, dass Rauschen gelernt wird.

6. Overfitting erkennen

Die Folien warnen vor einer zu einfachen Aussage: 'Trainingsfehler ist kleiner als Testfehler, also liegt Overfit vor.' Das ist nur ein schwacher Indikator. Test- und Trainingsfehler können aus mehreren Gründen unterschiedlich sein.

Besserer Hinweis: Bei steigender Modellkomplexität sinkt der Trainingsfehler weiter, während der Testfehler wieder steigt.

Ausreißer, zufällige Stichprobenverschiebungen oder unterschiedliche Stichprobengrößen können Fehlerunterschiede erzeugen.

Test- und Trainingsdaten müssen einigermaßen unkorreliert sein. Redundante Daten können echte Generalisierung vortäuschen.

6.1 Redundanz-Beispiel

Datenstruktur	Problem
Viele doppelte oder nahezu identische Beobachtungen	Train/Test-Split kann fast gleiche Punkte in beide Mengen legen
Hohe Korrelation zwischen Train und Test	Testfehler misst nicht wirklich Leistung auf neuen unabhängigen Daten
Scheinbar guter Testfehler	Modell kann Redundanz ausnutzen, statt generalisierbare Struktur zu lernen

7. Klassifikation

7.1 Grundbegriffe

Bei Klassifikationsproblemen ist Y kategorisch. Jedes mögliche y aus der Menge C ist eine Klasse. Ziel ist ein Klassifikator c(X), der einem neuen Datenpunkt X eine Klasse zuordnet.

Beispiel	Features X	Klassen C
E-Mail-Erkennung	Eigenschaften einer E-Mail	{normal, spam, phishing}
Betrugserkennung	Eigenschaften einer Kontotransaktion	{normal, fraud}

Ziele in der Klassifikation:

Klasse für neue Datenpunkte vorhersagen.

Einfluss der Features auf die Zuordnung verstehen.

Unsicherheit des Klassifikators bewerten, z. B. über geschätzte Klassenwahrscheinlichkeiten.

7.2 Bayes-optimaler Klassifikator

Für einen gegebenen Punkt x gibt es Klassenwahrscheinlichkeiten p_k(x). Diese beschreiben, wie wahrscheinlich Klasse k bei X = x ist. Der Bayes-optimale Klassifikator wählt die Klasse mit der größten Wahrscheinlichkeit:

c(x) = Klasse k mit maximalem p_k(x)

Symbol	Bedeutung
C	Menge aller Klassen
k	eine konkrete Klasse aus C
p_k(x)	bedingte Wahrscheinlichkeit der Klasse k bei Eingabe x
c(x)	ideale Klassenzuordnung

Die Klasse mit der größten bedingten Klassenwahrscheinlichkeit wird gewählt.

7.3 Geschätzter Klassifikator und kNN

Wie in der Regression sind die wahren p_k(x) unbekannt. kNN schätzt sie über die Nachbarschaft: Man betrachtet die k nächsten Nachbarn und wählt die häufigste Klasse. Die geschätzte Klassenwahrscheinlichkeit ist der Anteil der jeweiligen Klasse unter den Nachbarn.

Folie 39: Geschätzter Klassifikator über Nachbarn

KNN schätzt Klassen bzw. Wahrscheinlichkeiten lokal über die Nachbarschaft.

Wichtiger Unterschied: Bei Regression mittelt kNN die y-Werte. Bei Klassifikation zählt kNN Klassenhäufigkeiten und entscheidet per Mehrheitsvotum.

7.4 Fehlklassifizierungsrate

Die Leistung eines Klassifikators wird über die Fehlklassifizierungsrate gemessen:

Error_test = Anzahl falscher Vorhersagen / Anzahl aller geprüften Vorhersagen

Größe	Erklärung
Zähler	Wie viele Testdatenpunkte falsch klassifiziert wurden
Nenner	Wie viele Testdatenpunkte insgesamt geprüft wurden
Bayes-Klassifikator	hat theoretisch die minimale Fehlklassifizierungsrate

7.5 kNN-Entscheidungsgrenzen

In zwei Dimensionen kann man die kNN-Klassifikation über Entscheidungsgrenzen visualisieren. Kleine k erzeugen sehr flexible, zackige Grenzen; große k erzeugen glattere Grenzen. Auch hier gilt der Bias-Variance Trade-off: zu kleine k können overfitten, zu große k können underfitten.

8. Lab: kNN für Advertising Data

8.1 Daten laden und Train/Test-Split

ads <- read.csv("https://www.statlearning.com/s/Advertising.csv", row.names=1)

head(ads)

set.seed(1)

random_sel <- sample(1:nrow(ads), nrow(ads)/2)

ads_train <- ads[random_sel,]

ads_test <- ads[-random_sel,]

`set.seed(1)` macht die Zufallsauswahl reproduzierbar.

`sample(...)` wählt zufällig die Hälfte der Zeilen für das Training.

`ads[-random_sel,]` enthält die übrigen Daten als Testdaten.

8.2 kNN Regression

require(FNN)

fit <- knn.reg(y = ads_train$sales,

train = ads_train[,1:3],

test = ads_test[,1:3],

k = 10)

ypred <- fit$pred

Argument	Bedeutung
y	Trainingslabels, hier sales
train	Trainingsfeatures, hier TV, radio, newspaper
test	Testfeatures, für die vorhergesagt wird
k	Anzahl der Nachbarn
fit$pred	Vorhergesagte sales-Werte für die Testdaten

8.3 Visualisierung und Fehler

Folie 49: Lab-Visualisierung: wahre vs. vorhergesagte Sales-Werte

Rote Punkte sind wahre Werte, blaue Punkte Vorhersagen; gestrichelte Linien zeigen individuelle Fehler.

Die Visualisierung vergleicht wahre Labels mit vorhergesagten Labels. Die vertikalen gestrichelten Linien zeigen individuelle Vorhersagefehler. Auffällig ist: TV zeigt einen klaren Zusammenhang mit Sales, Newspaper deutlich weniger. Trotzdem verwendet das kNN-Modell alle drei Features.

Test-MSE in R:

mean((ads_test$sales - ypred)²)

Lab-Aufgabe: Teste mehrere Werte für k, speichere den Test-MSE und wähle k nicht nach Bauchgefühl, sondern nach Test-/Validierungsleistung.

9. Typische Klausuraufgaben mit Lösungsskizzen

Typ	Fragestellung	Lösungsskizze
Aufgabe 1: Notation erklären	Gegeben Y = f(X) + ε. Erkläre alle Variablen.	Y ist das Label, X der Feature-Vektor, f der systematische Zusammenhang, ε der nicht erklärte Fehler.
Aufgabe 2: Ideales f	Warum ist f(x) = E(Y \| X = x) optimal bei quadratischem Fehler?	Der bedingte Mittelwert minimiert die Summe bzw. den Erwartungswert quadrierter Abweichungen.
Aufgabe 3: kNN und k	Beschreibe die Wirkung eines kleinen vs. großen k.	Kleines k: flexibel, hohe Varianz, Overfit-Risiko. Großes k: glatt, hoher Bias, Underfit-Risiko.
Aufgabe 4: MSE berechnen	Für y = (3, 5, 7) und ŷ = (2, 5, 10): berechne MSE.	Fehler: 1, 0, -3; quadriert: 1, 0, 9; MSE = 10/3.
Aufgabe 5: Overfit erkennen	Train-MSE sinkt mit Komplexität, Test-MSE sinkt zuerst und steigt dann. Was bedeutet das?	Ab dem Minimum des Test-MSE dominiert Varianz; weitere Komplexität verschlechtert Generalisierung.
Aufgabe 6: Klassifikation	Bei p_A(x)=0.2, p_B(x)=0.7, p_C(x)=0.1: Welche Klasse wählt Bayes?	Klasse B, weil p_B(x) maximal ist.
Aufgabe 7: Fehlklassifizierungsrate	Von 80 Testpunkten sind 12 falsch. Berechne Error_test.	12/80 = 0.15 = 15%.
Aufgabe 8: Redundanz	Warum kann ein zufälliger Split bei duplizierten Daten irreführend sein?	Fast gleiche Punkte können in Train und Test landen; der Test misst dann keine unabhängige Generalisierung.

10. Häufige Fehler und Prüfungsfallen

Fehler	Warum problematisch	Korrekte Sicht
Trainingsfehler als alleinige Modellgüte verwenden	Overfit bleibt verborgen	Testdaten oder Cross-Validation verwenden
Niedriger Testfehler trotz Datenredundanz als Beweis für Generalisierung sehen	Train/Test können zu ähnlich sein	Unabhängigkeit und Split-Strategie prüfen
ε als Modellfehler interpretieren	ε ist nichtreduzierbarer Fehler	Nur Schätzfehler ist durch Modellwahl reduzierbar
kNN bei hoher Dimension unkritisch verwenden	Nachbarschaften sind nicht mehr lokal	Curse of Dimensionality beachten
Bias und Varianz verwechseln	Falsche Diagnose von Underfit/Overfit	Bias: systematische Modellbeschränkung; Varianz: Dateninstabilität
Klassifikation wie Regression bewerten	MSE ist nicht die Standardmetrik für Klassenlabels	Fehlklassifizierungsrate oder klassifikationsspezifische Metriken nutzen

11. Kompakte Lerncheckliste

Ich kann Regression und Klassifikation klar unterscheiden.

Ich kann Y = f(X) + ε erklären.

Ich kann begründen, warum f(x) = E(Y | X = x) bei quadratischem Fehler ideal ist.

Ich kenne den Unterschied zwischen f und f̂.

Ich kann nichtreduzierbaren Fehler erklären.

Ich kann kNN für Regression und Klassifikation beschreiben.

Ich kann erklären, warum hohe Dimensionen kNN erschweren.

Ich kann MSE berechnen und interpretieren.

Ich kann Train- und Testfehler unterscheiden.

Ich kann Underfit, Good Fit und Overfit an Diagrammen erkennen.

Ich kann Bias, Varianz und deren Trade-off erklären.

Ich kann die Fehlklassifizierungsrate berechnen.

Ich kann den Einfluss von k im Lab fachlich deuten.

12. Mögliche Klausurfragen

Was ist Statistical Learning und wie passt Supervised Learning dazu?

Erklären Sie die Notation Y, X, f(X), f̂(X) und ε.

Warum ist der bedingte Erwartungswert die ideale Regressionsfunktion bei quadratischem Fehler?

Was ist der Unterschied zwischen reduzierbarem und nichtreduzierbarem Fehler?

Beschreiben Sie Neighborhood Averaging und k-nearest Neighbors.

Was ist der Curse of Dimensionality und warum betrifft er kNN besonders?

Wie wird der Mean Squared Error berechnet?

Warum ist der Trainings-MSE allein kein gutes Maß für Generalisierung?

Erklären Sie Underfitting und Overfitting anhand von Trainings- und Testfehler.

Was besagt der Bias-Variance Trade-off?

Warum beweist ein niedrigerer Trainingsfehler als Testfehler allein kein Overfitting?

Wie funktioniert der Bayes-optimale Klassifikator?

Wie berechnet man die Fehlklassifizierungsrate?

Wie verändert k die Entscheidungsgrenze bei kNN-Klassifikation?

Wie würden Sie im Advertising-Lab einen sinnvollen Bereich für k testen?

13. Folien-Mapping

Folie/Kapitel	Inhalt	In Zusammenfassung enthalten?	Wo behandelt?
1	Titel: Grundlagen des ML	Ja	Deckblatt/Einleitung
2	Statistical Learning	Ja	Kapitel 1
3	Advertising-Beispiel	Ja	1. Überblick, 2.1
4	Regression	Ja	Kapitel 2
5	Notation	Ja	2.2
6	Verwendung von f(X)	Ja	2.3
7	Ideales f(x)	Ja	2.4 mit Bild
8	Geschätzte Regression	Ja	2.5
9	Schätzung notwendig	Ja	2.5
10	Fehler	Ja	2.5
11	Schätzung von f(x)	Ja	3.1 mit Bild
12	Problem mit Intervallen	Ja	3.2
13	k-nearest Neighbors	Ja	3.2-3.3
14	Neighborhood Averaging Bedingungen	Ja	3.4
15	Curse of Dimensionality	Ja	3.4 mit Bild
16	Andere Modelle	Ja	3.5
17	Modellbewertung	Ja	Kapitel 4
18	Trade-offs	Ja	4.1
19	Underfit	Ja	4.2 mit Bild
20	Good Fit	Ja	4.2 mit Bild
21	Overfit	Ja	4.2 mit Bild
22	MSE Trainingsdaten	Ja	4.3
23	Testdaten	Ja	4.4
24	Modellgenauigkeit	Ja	4.4/5.2
25	Lineares ideales f	Ja	4.4
26	Nichtlineares ideales f	Ja	4.4
27	Bias-Variance Trade-off	Ja	5.1
28	Bias, Variance, ε	Ja	5.1
29	Flexibilität und Fehler	Ja	5.2
30	Bias/Variance Erklärung	Ja	5.3
31	Bias/Variance im ML-Kontext	Ja	5.3
32	Trade-off Beispiele	Ja	5.3
33	Overfit-Frage	Ja	6
34	Overfit erkennen	Ja	6
35	Redundanz-Beispiel	Ja	6.1
36	Klassifikation	Ja	Kapitel 7
37	Klassifikationsprobleme	Ja	7.1
38	Idealer Klassifikator	Ja	7.2 mit Bild
39	Geschätzter Klassifikator	Ja	7.3 mit Bild
40	Fehlklassifizierungsrate	Ja	7.4
41	3-NN in 2D	Ja	7.5
42	Wahre Entscheidungsgrenze	Ja	7.5
43	Entscheidungsgrenze mit K	Ja	7.5
44	Weitere KNN-Grenze	Ja	7.5
45	KNN-Beispielabschluss	Ja	7.5
46	Lab kNN Advertising	Ja	Kapitel 8
47	Daten laden/Split	Ja	8.1
48	knn.reg	Ja	8.2
49	Visualisierung	Ja	8.3 mit Bild
50	Lab task	Ja	8.3, 9