Klausurorientierte Zusammenfassung
Statistical Learning

Quelle: 10_Ch.2 Grundlagen des Machine Learning, KI und ML: Supervised Learning, Martin Zaefferer

Ziel dieser Zusammenfassung: Die Folien werden als prüfungsorientiertes Lernskript verdichtet: Definitionen, Formeln, Variablen, Diagrammdeutung, typische Aufgaben, Fallstricke und eine Lerncheckliste.

1. Überblick: Statistical Learning

Statistical Learning beschreibt Methoden, mit denen aus beobachteten Daten ein Zusammenhang zwischen Eingaben und einer Zielgröße gelernt wird. Im Supervised Learning liegen Trainingsbeispiele mit Features X und bekannten Labels Y vor. Ziel ist ein Modell, das neue Datenpunkte möglichst gut vorhersagt und - je nach Modell - interpretierbare Aussagen über Einflussfaktoren erlaubt.

ProblemtypLabel YTypische AusgabeBeispiel aus den Folien
Regressionnumerisch / quantitativZahlwert, z. B. UmsatzSales aus TV-, Radio- und Newspaper-Werbung
Klassifikationkategorisch / qualitativKlasse, z. B. spam oder normalE-Mail: normal, spam, phishing; Transaktion: normal, fraud
Klausurmerksatz: Regression sagt Werte vorher, Klassifikation sagt Klassen vorher. Die Modellbewertung unterscheidet sich entsprechend: MSE für Regression, Fehlklassifizierungsrate für Klassifikation.

2. Regression

2.1 Advertising-Beispiel

Die Folien starten mit dem Datensatz Advertising: Sales soll aus den Werbeausgaben für TV, Radio und Newspaper vorhergesagt werden. Einzelne Regressionslinien für Sales gegen jeweils ein Feature erklären nur eindimensionale Zusammenhänge. Das eigentliche supervised-learning-Problem lautet gemeinsam:

Sales ≈ f(TV, Radio, Newspaper)

Damit ist f eine Funktion mehrerer Eingaben. In einer Klausur ist wichtig, nicht drei voneinander unabhängige eindimensionale Probleme mit dem gemeinsamen Modell zu verwechseln.

2.2 Notation

SymbolBedeutungIm Advertising-Beispiel
YLabel / Zielvariable, die vorhergesagt werden sollSales
XFeature-Vektor aller EingabenX = (TV, Radio, Newspaper)
X1, X2, X3Einzelne Features / PrädiktorenTV, Radio, Newspaper
f(X)wahre, unbekannte Regressionsfunktionsystematischer Zusammenhang zwischen Werbung und Sales
εFehlerterm / Rauschen / nicht erklärte EinflüsseMessrauschen, nicht beobachtete Faktoren

Grundmodell:

Y = f(X) + ε

Die Gleichung sagt: Der beobachtete Wert Y besteht aus einem systematischen Anteil f(X) und einem zufälligen bzw. nicht erklärbaren Anteil ε. Das Modell kann f schätzen, aber ε nie vollständig beseitigen.

2.3 Wofür wird f(X) verwendet?

Vorhersage von Y für neue Datenpunkte X.

Untersuchen, welche Features Einfluss auf Y haben und welche nicht.

Je nach Modell: Erklärung, wie stark und in welche Richtung ein Feature wirkt.

Prüfungsfalle: Ein sehr genaues Modell ist nicht automatisch gut interpretierbar. Lineare Modelle sind oft leichter erklärbar, flexible Verfahren wie SVMs oder neuronale Netze meist schwieriger.

2.4 Ideale Regressionsfunktion

Die ideale Regressionsfunktion ist die Funktion, die den erwarteten quadratischen Vorhersagefehler minimiert. Für einen festen Wert x ist der beste Vorhersagewert unter quadratischem Verlust der bedingte Erwartungswert:

f(x) = E(Y | X = x)

BestandteilErklärung
E(...)Erwartungswert, also Mittelwert über die möglichen Werte
YZielvariable
X = xBedingung: Es werden nur Beobachtungen mit diesem Feature-Wert betrachtet
f(x)optimaler Vorhersagewert für diesen konkreten Eingabewert x
Folie 7: Ideale Regressionsfunktion und bedingter Erwartungswert
Folie 7: Ideale Regressionsfunktion und bedingter Erwartungswert

Zeigt: Für ein festes x ist der optimale quadratische Vorhersagewert der Mittelwert der möglichen Y-Werte.

2.5 Geschätzte Regressionsfunktion und Fehler

In realen Daten gibt es selten viele Beobachtungen mit exakt demselben X-Wert. Deshalb kann f meist nicht direkt bestimmt werden. Man schätzt stattdessen eine Funktion . Diese Schätzung erzeugt zusätzlichen Fehler.

Vorhersagefehler ≈ Schätzfehler + nichtreduzierbarer Fehler

Schätzfehler: (x) - f(x). Er entsteht, weil das Modell f nur aus endlichen Trainingsdaten lernt.

Nichtreduzierbarer Fehler: ε = Y - f(x). Er bleibt selbst beim idealen Modell bestehen.

Beispiel: Zwei Personen mit gleichem Alter, gleicher Ausbildung und gleichem Beruf können trotzdem verschiedene Gehälter haben.

Klausurmerksatz: Nichtreduzierbarer Fehler ist kein Modellversagen. Er beschreibt Varianz in Y, die durch die beobachteten Features nicht erklärbar ist.

3. Schätzung durch Nachbarschaften und kNN

3.1 Neighborhood Averaging

Wenn keine Datenpunkte mit exakt X = x vorliegen, betrachtet man eine Nachbarschaft um x. Die Grundannahme lautet: ähnliche X-Werte haben vermutlich ähnliche Y-Werte. Die Vorhersage ist dann ein Durchschnitt der Y-Werte in dieser lokalen Umgebung.

Folie 11: Neighborhood Averaging
Folie 11: Neighborhood Averaging

Zeigt: Statt exakt gleicher X-Werte nutzt man Beobachtungen in der Nachbarschaft.

3.2 Problem fester Intervalle

Eine feste Intervall- oder Volumendefinition kann leer sein. Dann gibt es keine Beobachtungen, aus denen man den Durchschnitt berechnen könnte. k-nearest Neighbors löst dieses Problem, indem nicht ein fixes Volumen, sondern die k nächsten Beobachtungen verwendet werden.

Für Regression gilt bei kNN typischerweise:

(x) = (1 / k) * Summe der yi über die k nächsten Nachbarn von x

VariableBedeutung
xneuer Datenpunkt, für den vorhergesagt wird
kAnzahl der berücksichtigten Nachbarn
yiLabel eines Nachbarn
(x)geschätzter Zielwert als Durchschnitt der Nachbar-Labels

3.3 Wahl von k

kWirkungRisiko
kleinsehr lokale, flexible Schätzunghohe Varianz, Overfit, stark abhängig von einzelnen Punkten
großglatte, stabile Schätzunghoher Bias, Underfit, lokale Struktur wird geglättet
mittlerer BereichKompromiss zwischen Glättung und Flexibilitätmuss über Testdaten/Cross-Validation geprüft werden
Typische Klausurfrage: Erkläre, warum k=1 bei kNN sehr flexibel ist und warum ein sehr großes k zu Underfitting führen kann.

3.4 Curse of Dimensionality

Neighborhood Averaging funktioniert gut bei wenigen Features p und vielen Beobachtungen N. Bei hoher Dimension wird der Raum extrem groß. Selbst der nächste Nachbar ist dann oft weit entfernt. Eine Nachbarschaft, die einen festen Anteil der Daten enthält, ist nicht mehr lokal.

Folie 15: Curse of Dimensionality
Folie 15: Curse of Dimensionality

Zeigt: In hohen Dimensionen muss eine Nachbarschaft sehr groß werden, um denselben Datenanteil zu enthalten.

GrößeBedeutungKlausurrelevanz
pAnzahl der Features / DimensionenJe größer p, desto schwieriger lokale Nachbarschaften
NAnzahl der BeobachtungenViele Daten können hohe Dimension teilweise abfedern
10%-NachbarschaftAnteil der Daten, der für den lokalen Durchschnitt verwendet wirdIn hohen Dimensionen räumlich oft nicht mehr lokal

3.5 Alternative Regressionsmodelle

Lineare Regression: interpretiert lineare Feature-Effekte; gut als Baseline.

Support Vector Regression: flexibler, aber schwerer zu interpretieren.

Splines: flexible glatte Funktionen.

Entscheidungsbäume: regelartige Partitionierung des Feature-Raums.

Neuronale Netze: sehr flexibel, oft hohe Daten- und Interpretationsanforderungen.

4. Modellbewertung und Modellkomplexität

4.1 Trade-offs

Vorhersagegenauigkeit vs. Interpretierbarkeit: Ein einfacheres Modell kann fachlich nützlicher sein, wenn Erklärbarkeit zählt.

Overfit vs. Underfit: Zu einfache Modelle lernen die Struktur nicht; zu komplexe Modelle lernen Rauschen.

Trainingsleistung vs. Generalisierung: Entscheidend ist die Leistung auf neuen, nicht im Training verwendeten Daten.

4.2 Underfit, Good Fit, Overfit

Folie 19: Underfit
Folie 19: Underfit

Zu einfaches Modell: Es erkennt selbst auf Trainingsdaten die Struktur schlecht.

Folie 20: Good Fit
Folie 20: Good Fit

Angemessene Komplexität: gute Annäherung ohne Rauschen zu stark mitzunehmen.

Folie 21: Overfit
Folie 21: Overfit

Zu komplexes Modell: Es lernt Rauschen und generalisiert schlecht.

SituationTrainingsfehlerTestfehlerInterpretation
UnderfithochhochModell ist zu einfach und erkennt die Struktur nicht
Good Fitniedrig bis moderatniedrigModell erfasst Struktur und generalisiert
Overfitsehr niedrighochModell passt Rauschen der Trainingsdaten an

4.3 Mean Squared Error

Für n überprüfte Datenpunkte ist der Mean Squared Error:

MSE = (1 / n) * Summe von [yi - (xi)]2 für i = 1,...,n

SymbolBedeutung
nAnzahl der Datenpunkte, auf denen der Fehler berechnet wird
xiFeatures des i-ten Datenpunkts
yiwahres Label des i-ten Datenpunkts
(xi)Modellvorhersage für xi
[yi - (xi)]2quadrierter Vorhersagefehler
Warum quadrieren? Positive und negative Fehler heben sich nicht auf; große Fehler werden stärker bestraft. Dadurch ist MSE empfindlich gegenüber Ausreißern.

4.4 Trainingsdaten vs. Testdaten

MSE kann auf Trainingsdaten berechnet werden. Das reicht aber nicht aus, weil Overfit dort gut aussehen kann. Deshalb braucht man Testdaten, die vor dem Training getrennt wurden oder nachträglich neu erhoben werden.

Trainingsdaten: werden verwendet, um das Modell zu schätzen.

Testdaten: werden erst nach dem Training zur Bewertung verwendet.

Gute Aufteilung: möglichst repräsentativ für die Gesamtverteilung und möglichst geringe Überschneidung/Redundanz zwischen Train und Test.

Prüfungsfalle: Testdaten dürfen nicht indirekt in das Training einfließen. Auch Modellwahl über Testdaten kann zu optimistischen Ergebnissen führen; sauberer ist ein separater Validierungs- oder Cross-Validation-Schritt.

5. Bias-Variance Trade-off

5.1 Fehlzerlegung

Für einen neuen Testdatenpunkt (x*, y*) lässt sich der erwartete quadratische Fehler konzeptionell zerlegen in:

Error(x*, y*) = Variance of (x*) + Bias of (x*) + ε

In der üblichen präzisen Schreibweise wird der Bias quadratisch betrachtet: erwarteter Fehler = Varianz + Bias2 + irreduzibler Fehler. Die Folien fokussieren die Interpretation der drei Bestandteile.

BestandteilUrsacheTypisches Symptom
Variancekleine Änderungen in Trainingsdaten verändern die Vorhersage starkModell ist instabil, Overfit-Risiko
BiasModellstruktur ist zu eingeschränkt für den wahren Zusammenhangsystematische Fehler, Underfit-Risiko
εRauschen / nicht beobachtbare Einflüsse in den Datendurch bessere Modellwahl nicht vollständig beseitigbar

5.2 Zusammenhang mit Modellflexibilität

Wenn Flexibilität steigtTendenz
Variancesteigt
Biassinkt
Nichtreduzierbarer Fehlerbleibt konstant
Testfehlersinkt zunächst oft, steigt bei zu hoher Komplexität wieder
Klausurmerksatz: Die Wahl der Modellkomplexität über den durchschnittlichen Testfehler ist praktisch die Suche nach einem guten Bias-Variance-Kompromiss.

5.3 Typische Diagrammdeutung

Hoher Bias + niedrige Varianz: Modell ist stabil, aber systematisch falsch. Beispiel: horizontale Linie für klar steigende Daten.

Niedriger Bias + hohe Varianz: Modell kann die Struktur treffen, reagiert aber stark auf Trainingsrauschen.

Guter Kompromiss: ausreichend flexibel, aber nicht so flexibel, dass Rauschen gelernt wird.

6. Overfitting erkennen

Die Folien warnen vor einer zu einfachen Aussage: 'Trainingsfehler ist kleiner als Testfehler, also liegt Overfit vor.' Das ist nur ein schwacher Indikator. Test- und Trainingsfehler können aus mehreren Gründen unterschiedlich sein.

Besserer Hinweis: Bei steigender Modellkomplexität sinkt der Trainingsfehler weiter, während der Testfehler wieder steigt.

Ausreißer, zufällige Stichprobenverschiebungen oder unterschiedliche Stichprobengrößen können Fehlerunterschiede erzeugen.

Test- und Trainingsdaten müssen einigermaßen unkorreliert sein. Redundante Daten können echte Generalisierung vortäuschen.

6.1 Redundanz-Beispiel

DatenstrukturProblem
Viele doppelte oder nahezu identische BeobachtungenTrain/Test-Split kann fast gleiche Punkte in beide Mengen legen
Hohe Korrelation zwischen Train und TestTestfehler misst nicht wirklich Leistung auf neuen unabhängigen Daten
Scheinbar guter TestfehlerModell kann Redundanz ausnutzen, statt generalisierbare Struktur zu lernen

7. Klassifikation

7.1 Grundbegriffe

Bei Klassifikationsproblemen ist Y kategorisch. Jedes mögliche y aus der Menge C ist eine Klasse. Ziel ist ein Klassifikator c(X), der einem neuen Datenpunkt X eine Klasse zuordnet.

BeispielFeatures XKlassen C
E-Mail-ErkennungEigenschaften einer E-Mail{normal, spam, phishing}
BetrugserkennungEigenschaften einer Kontotransaktion{normal, fraud}

Ziele in der Klassifikation:

Klasse für neue Datenpunkte vorhersagen.

Einfluss der Features auf die Zuordnung verstehen.

Unsicherheit des Klassifikators bewerten, z. B. über geschätzte Klassenwahrscheinlichkeiten.

7.2 Bayes-optimaler Klassifikator

Für einen gegebenen Punkt x gibt es Klassenwahrscheinlichkeiten pk(x). Diese beschreiben, wie wahrscheinlich Klasse k bei X = x ist. Der Bayes-optimale Klassifikator wählt die Klasse mit der größten Wahrscheinlichkeit:

c(x) = Klasse k mit maximalem pk(x)

SymbolBedeutung
CMenge aller Klassen
keine konkrete Klasse aus C
pk(x)bedingte Wahrscheinlichkeit der Klasse k bei Eingabe x
c(x)ideale Klassenzuordnung
Folie 38: Bayes-optimaler Klassifikator
Folie 38: Bayes-optimaler Klassifikator

Die Klasse mit der größten bedingten Klassenwahrscheinlichkeit wird gewählt.

7.3 Geschätzter Klassifikator und kNN

Wie in der Regression sind die wahren pk(x) unbekannt. kNN schätzt sie über die Nachbarschaft: Man betrachtet die k nächsten Nachbarn und wählt die häufigste Klasse. Die geschätzte Klassenwahrscheinlichkeit ist der Anteil der jeweiligen Klasse unter den Nachbarn.

Folie 39: Geschätzter Klassifikator über Nachbarn
Folie 39: Geschätzter Klassifikator über Nachbarn

KNN schätzt Klassen bzw. Wahrscheinlichkeiten lokal über die Nachbarschaft.

Wichtiger Unterschied: Bei Regression mittelt kNN die y-Werte. Bei Klassifikation zählt kNN Klassenhäufigkeiten und entscheidet per Mehrheitsvotum.

7.4 Fehlklassifizierungsrate

Die Leistung eines Klassifikators wird über die Fehlklassifizierungsrate gemessen:

Errortest = Anzahl falscher Vorhersagen / Anzahl aller geprüften Vorhersagen

GrößeErklärung
ZählerWie viele Testdatenpunkte falsch klassifiziert wurden
NennerWie viele Testdatenpunkte insgesamt geprüft wurden
Bayes-Klassifikatorhat theoretisch die minimale Fehlklassifizierungsrate

7.5 kNN-Entscheidungsgrenzen

In zwei Dimensionen kann man die kNN-Klassifikation über Entscheidungsgrenzen visualisieren. Kleine k erzeugen sehr flexible, zackige Grenzen; große k erzeugen glattere Grenzen. Auch hier gilt der Bias-Variance Trade-off: zu kleine k können overfitten, zu große k können underfitten.

8. Lab: kNN für Advertising Data

8.1 Daten laden und Train/Test-Split

ads <- read.csv("https://www.statlearning.com/s/Advertising.csv", row.names=1)

head(ads)

set.seed(1)

random_sel <- sample(1:nrow(ads), nrow(ads)/2)

ads_train <- ads[random_sel,]

ads_test <- ads[-random_sel,]

`set.seed(1)` macht die Zufallsauswahl reproduzierbar.

`sample(...)` wählt zufällig die Hälfte der Zeilen für das Training.

`ads[-random_sel,]` enthält die übrigen Daten als Testdaten.

8.2 kNN Regression

require(FNN)

fit <- knn.reg(y = ads_train$sales,

train = ads_train[,1:3],

test = ads_test[,1:3],

k = 10)

ypred <- fit$pred

ArgumentBedeutung
yTrainingslabels, hier sales
trainTrainingsfeatures, hier TV, radio, newspaper
testTestfeatures, für die vorhergesagt wird
kAnzahl der Nachbarn
fit$predVorhergesagte sales-Werte für die Testdaten

8.3 Visualisierung und Fehler

Folie 49: Lab-Visualisierung: wahre vs. vorhergesagte Sales-Werte
Folie 49: Lab-Visualisierung: wahre vs. vorhergesagte Sales-Werte

Rote Punkte sind wahre Werte, blaue Punkte Vorhersagen; gestrichelte Linien zeigen individuelle Fehler.

Die Visualisierung vergleicht wahre Labels mit vorhergesagten Labels. Die vertikalen gestrichelten Linien zeigen individuelle Vorhersagefehler. Auffällig ist: TV zeigt einen klaren Zusammenhang mit Sales, Newspaper deutlich weniger. Trotzdem verwendet das kNN-Modell alle drei Features.

Test-MSE in R:

mean((ads_test$sales - ypred)2)

Lab-Aufgabe: Teste mehrere Werte für k, speichere den Test-MSE und wähle k nicht nach Bauchgefühl, sondern nach Test-/Validierungsleistung.

9. Typische Klausuraufgaben mit Lösungsskizzen

TypFragestellungLösungsskizze
Aufgabe 1: Notation erklärenGegeben Y = f(X) + ε. Erkläre alle Variablen.Y ist das Label, X der Feature-Vektor, f der systematische Zusammenhang, ε der nicht erklärte Fehler.
Aufgabe 2: Ideales fWarum ist f(x) = E(Y | X = x) optimal bei quadratischem Fehler?Der bedingte Mittelwert minimiert die Summe bzw. den Erwartungswert quadrierter Abweichungen.
Aufgabe 3: kNN und kBeschreibe die Wirkung eines kleinen vs. großen k.Kleines k: flexibel, hohe Varianz, Overfit-Risiko. Großes k: glatt, hoher Bias, Underfit-Risiko.
Aufgabe 4: MSE berechnenFür y = (3, 5, 7) und = (2, 5, 10): berechne MSE.Fehler: 1, 0, -3; quadriert: 1, 0, 9; MSE = 10/3.
Aufgabe 5: Overfit erkennenTrain-MSE sinkt mit Komplexität, Test-MSE sinkt zuerst und steigt dann. Was bedeutet das?Ab dem Minimum des Test-MSE dominiert Varianz; weitere Komplexität verschlechtert Generalisierung.
Aufgabe 6: KlassifikationBei pA(x)=0.2, pB(x)=0.7, pC(x)=0.1: Welche Klasse wählt Bayes?Klasse B, weil pB(x) maximal ist.
Aufgabe 7: FehlklassifizierungsrateVon 80 Testpunkten sind 12 falsch. Berechne Errortest.12/80 = 0.15 = 15%.
Aufgabe 8: RedundanzWarum kann ein zufälliger Split bei duplizierten Daten irreführend sein?Fast gleiche Punkte können in Train und Test landen; der Test misst dann keine unabhängige Generalisierung.

10. Häufige Fehler und Prüfungsfallen

FehlerWarum problematischKorrekte Sicht
Trainingsfehler als alleinige Modellgüte verwendenOverfit bleibt verborgenTestdaten oder Cross-Validation verwenden
Niedriger Testfehler trotz Datenredundanz als Beweis für Generalisierung sehenTrain/Test können zu ähnlich seinUnabhängigkeit und Split-Strategie prüfen
ε als Modellfehler interpretierenε ist nichtreduzierbarer FehlerNur Schätzfehler ist durch Modellwahl reduzierbar
kNN bei hoher Dimension unkritisch verwendenNachbarschaften sind nicht mehr lokalCurse of Dimensionality beachten
Bias und Varianz verwechselnFalsche Diagnose von Underfit/OverfitBias: systematische Modellbeschränkung; Varianz: Dateninstabilität
Klassifikation wie Regression bewertenMSE ist nicht die Standardmetrik für KlassenlabelsFehlklassifizierungsrate oder klassifikationsspezifische Metriken nutzen

11. Kompakte Lerncheckliste

Ich kann Regression und Klassifikation klar unterscheiden.

Ich kann Y = f(X) + ε erklären.

Ich kann begründen, warum f(x) = E(Y | X = x) bei quadratischem Fehler ideal ist.

Ich kenne den Unterschied zwischen f und .

Ich kann nichtreduzierbaren Fehler erklären.

Ich kann kNN für Regression und Klassifikation beschreiben.

Ich kann erklären, warum hohe Dimensionen kNN erschweren.

Ich kann MSE berechnen und interpretieren.

Ich kann Train- und Testfehler unterscheiden.

Ich kann Underfit, Good Fit und Overfit an Diagrammen erkennen.

Ich kann Bias, Varianz und deren Trade-off erklären.

Ich kann die Fehlklassifizierungsrate berechnen.

Ich kann den Einfluss von k im Lab fachlich deuten.

12. Mögliche Klausurfragen

Was ist Statistical Learning und wie passt Supervised Learning dazu?

Erklären Sie die Notation Y, X, f(X), (X) und ε.

Warum ist der bedingte Erwartungswert die ideale Regressionsfunktion bei quadratischem Fehler?

Was ist der Unterschied zwischen reduzierbarem und nichtreduzierbarem Fehler?

Beschreiben Sie Neighborhood Averaging und k-nearest Neighbors.

Was ist der Curse of Dimensionality und warum betrifft er kNN besonders?

Wie wird der Mean Squared Error berechnet?

Warum ist der Trainings-MSE allein kein gutes Maß für Generalisierung?

Erklären Sie Underfitting und Overfitting anhand von Trainings- und Testfehler.

Was besagt der Bias-Variance Trade-off?

Warum beweist ein niedrigerer Trainingsfehler als Testfehler allein kein Overfitting?

Wie funktioniert der Bayes-optimale Klassifikator?

Wie berechnet man die Fehlklassifizierungsrate?

Wie verändert k die Entscheidungsgrenze bei kNN-Klassifikation?

Wie würden Sie im Advertising-Lab einen sinnvollen Bereich für k testen?

13. Folien-Mapping

Folie/KapitelInhaltIn Zusammenfassung enthalten?Wo behandelt?
1Titel: Grundlagen des MLJaDeckblatt/Einleitung
2Statistical LearningJaKapitel 1
3Advertising-BeispielJa1. Überblick, 2.1
4RegressionJaKapitel 2
5NotationJa2.2
6Verwendung von f(X)Ja2.3
7Ideales f(x)Ja2.4 mit Bild
8Geschätzte RegressionJa2.5
9Schätzung notwendigJa2.5
10FehlerJa2.5
11Schätzung von f(x)Ja3.1 mit Bild
12Problem mit IntervallenJa3.2
13k-nearest NeighborsJa3.2-3.3
14Neighborhood Averaging BedingungenJa3.4
15Curse of DimensionalityJa3.4 mit Bild
16Andere ModelleJa3.5
17ModellbewertungJaKapitel 4
18Trade-offsJa4.1
19UnderfitJa4.2 mit Bild
20Good FitJa4.2 mit Bild
21OverfitJa4.2 mit Bild
22MSE TrainingsdatenJa4.3
23TestdatenJa4.4
24ModellgenauigkeitJa4.4/5.2
25Lineares ideales fJa4.4
26Nichtlineares ideales fJa4.4
27Bias-Variance Trade-offJa5.1
28Bias, Variance, εJa5.1
29Flexibilität und FehlerJa5.2
30Bias/Variance ErklärungJa5.3
31Bias/Variance im ML-KontextJa5.3
32Trade-off BeispieleJa5.3
33Overfit-FrageJa6
34Overfit erkennenJa6
35Redundanz-BeispielJa6.1
36KlassifikationJaKapitel 7
37KlassifikationsproblemeJa7.1
38Idealer KlassifikatorJa7.2 mit Bild
39Geschätzter KlassifikatorJa7.3 mit Bild
40FehlklassifizierungsrateJa7.4
413-NN in 2DJa7.5
42Wahre EntscheidungsgrenzeJa7.5
43Entscheidungsgrenze mit KJa7.5
44Weitere KNN-GrenzeJa7.5
45KNN-BeispielabschlussJa7.5
46Lab kNN AdvertisingJaKapitel 8
47Daten laden/SplitJa8.1
48knn.regJa8.2
49VisualisierungJa8.3 mit Bild
50Lab taskJa8.3, 9