Statistical Learning
Quelle: 10_Ch.2 Grundlagen des Machine Learning, KI und ML: Supervised Learning, Martin Zaefferer
| Ziel dieser Zusammenfassung: Die Folien werden als prüfungsorientiertes Lernskript verdichtet: Definitionen, Formeln, Variablen, Diagrammdeutung, typische Aufgaben, Fallstricke und eine Lerncheckliste. |
|---|
1. Überblick: Statistical Learning
Statistical Learning beschreibt Methoden, mit denen aus beobachteten Daten ein Zusammenhang zwischen Eingaben und einer Zielgröße gelernt wird. Im Supervised Learning liegen Trainingsbeispiele mit Features X und bekannten Labels Y vor. Ziel ist ein Modell, das neue Datenpunkte möglichst gut vorhersagt und - je nach Modell - interpretierbare Aussagen über Einflussfaktoren erlaubt.
| Problemtyp | Label Y | Typische Ausgabe | Beispiel aus den Folien |
|---|---|---|---|
| Regression | numerisch / quantitativ | Zahlwert, z. B. Umsatz | Sales aus TV-, Radio- und Newspaper-Werbung |
| Klassifikation | kategorisch / qualitativ | Klasse, z. B. spam oder normal | E-Mail: normal, spam, phishing; Transaktion: normal, fraud |
| Klausurmerksatz: Regression sagt Werte vorher, Klassifikation sagt Klassen vorher. Die Modellbewertung unterscheidet sich entsprechend: MSE für Regression, Fehlklassifizierungsrate für Klassifikation. |
|---|
2. Regression
2.1 Advertising-Beispiel
Die Folien starten mit dem Datensatz Advertising: Sales soll aus den Werbeausgaben für TV, Radio und Newspaper vorhergesagt werden. Einzelne Regressionslinien für Sales gegen jeweils ein Feature erklären nur eindimensionale Zusammenhänge. Das eigentliche supervised-learning-Problem lautet gemeinsam:
Sales ≈ f(TV, Radio, Newspaper)
Damit ist f eine Funktion mehrerer Eingaben. In einer Klausur ist wichtig, nicht drei voneinander unabhängige eindimensionale Probleme mit dem gemeinsamen Modell zu verwechseln.
2.2 Notation
| Symbol | Bedeutung | Im Advertising-Beispiel |
|---|---|---|
| Y | Label / Zielvariable, die vorhergesagt werden soll | Sales |
| X | Feature-Vektor aller Eingaben | X = (TV, Radio, Newspaper) |
| X1, X2, X3 | Einzelne Features / Prädiktoren | TV, Radio, Newspaper |
| f(X) | wahre, unbekannte Regressionsfunktion | systematischer Zusammenhang zwischen Werbung und Sales |
| ε | Fehlerterm / Rauschen / nicht erklärte Einflüsse | Messrauschen, nicht beobachtete Faktoren |
Grundmodell:
Y = f(X) + ε
Die Gleichung sagt: Der beobachtete Wert Y besteht aus einem systematischen Anteil f(X) und einem zufälligen bzw. nicht erklärbaren Anteil ε. Das Modell kann f schätzen, aber ε nie vollständig beseitigen.
2.3 Wofür wird f(X) verwendet?
Vorhersage von Y für neue Datenpunkte X.
Untersuchen, welche Features Einfluss auf Y haben und welche nicht.
Je nach Modell: Erklärung, wie stark und in welche Richtung ein Feature wirkt.
| Prüfungsfalle: Ein sehr genaues Modell ist nicht automatisch gut interpretierbar. Lineare Modelle sind oft leichter erklärbar, flexible Verfahren wie SVMs oder neuronale Netze meist schwieriger. |
|---|
2.4 Ideale Regressionsfunktion
Die ideale Regressionsfunktion ist die Funktion, die den erwarteten quadratischen Vorhersagefehler minimiert. Für einen festen Wert x ist der beste Vorhersagewert unter quadratischem Verlust der bedingte Erwartungswert:
f(x) = E(Y | X = x)
| Bestandteil | Erklärung |
|---|---|
| E(...) | Erwartungswert, also Mittelwert über die möglichen Werte |
| Y | Zielvariable |
| X = x | Bedingung: Es werden nur Beobachtungen mit diesem Feature-Wert betrachtet |
| f(x) | optimaler Vorhersagewert für diesen konkreten Eingabewert x |
Zeigt: Für ein festes x ist der optimale quadratische Vorhersagewert der Mittelwert der möglichen Y-Werte.
2.5 Geschätzte Regressionsfunktion und Fehler
In realen Daten gibt es selten viele Beobachtungen mit exakt demselben X-Wert. Deshalb kann f meist nicht direkt bestimmt werden. Man schätzt stattdessen eine Funktion f̂. Diese Schätzung erzeugt zusätzlichen Fehler.
Vorhersagefehler ≈ Schätzfehler + nichtreduzierbarer Fehler
Schätzfehler: f̂(x) - f(x). Er entsteht, weil das Modell f nur aus endlichen Trainingsdaten lernt.
Nichtreduzierbarer Fehler: ε = Y - f(x). Er bleibt selbst beim idealen Modell bestehen.
Beispiel: Zwei Personen mit gleichem Alter, gleicher Ausbildung und gleichem Beruf können trotzdem verschiedene Gehälter haben.
| Klausurmerksatz: Nichtreduzierbarer Fehler ist kein Modellversagen. Er beschreibt Varianz in Y, die durch die beobachteten Features nicht erklärbar ist. |
|---|
3. Schätzung durch Nachbarschaften und kNN
3.1 Neighborhood Averaging
Wenn keine Datenpunkte mit exakt X = x vorliegen, betrachtet man eine Nachbarschaft um x. Die Grundannahme lautet: ähnliche X-Werte haben vermutlich ähnliche Y-Werte. Die Vorhersage ist dann ein Durchschnitt der Y-Werte in dieser lokalen Umgebung.
Zeigt: Statt exakt gleicher X-Werte nutzt man Beobachtungen in der Nachbarschaft.
3.2 Problem fester Intervalle
Eine feste Intervall- oder Volumendefinition kann leer sein. Dann gibt es keine Beobachtungen, aus denen man den Durchschnitt berechnen könnte. k-nearest Neighbors löst dieses Problem, indem nicht ein fixes Volumen, sondern die k nächsten Beobachtungen verwendet werden.
Für Regression gilt bei kNN typischerweise:
f̂(x) = (1 / k) * Summe der yi über die k nächsten Nachbarn von x
| Variable | Bedeutung |
|---|---|
| x | neuer Datenpunkt, für den vorhergesagt wird |
| k | Anzahl der berücksichtigten Nachbarn |
| yi | Label eines Nachbarn |
| f̂(x) | geschätzter Zielwert als Durchschnitt der Nachbar-Labels |
3.3 Wahl von k
| k | Wirkung | Risiko |
|---|---|---|
| klein | sehr lokale, flexible Schätzung | hohe Varianz, Overfit, stark abhängig von einzelnen Punkten |
| groß | glatte, stabile Schätzung | hoher Bias, Underfit, lokale Struktur wird geglättet |
| mittlerer Bereich | Kompromiss zwischen Glättung und Flexibilität | muss über Testdaten/Cross-Validation geprüft werden |
| Typische Klausurfrage: Erkläre, warum k=1 bei kNN sehr flexibel ist und warum ein sehr großes k zu Underfitting führen kann. |
|---|
3.4 Curse of Dimensionality
Neighborhood Averaging funktioniert gut bei wenigen Features p und vielen Beobachtungen N. Bei hoher Dimension wird der Raum extrem groß. Selbst der nächste Nachbar ist dann oft weit entfernt. Eine Nachbarschaft, die einen festen Anteil der Daten enthält, ist nicht mehr lokal.
Zeigt: In hohen Dimensionen muss eine Nachbarschaft sehr groß werden, um denselben Datenanteil zu enthalten.
| Größe | Bedeutung | Klausurrelevanz |
|---|---|---|
| p | Anzahl der Features / Dimensionen | Je größer p, desto schwieriger lokale Nachbarschaften |
| N | Anzahl der Beobachtungen | Viele Daten können hohe Dimension teilweise abfedern |
| 10%-Nachbarschaft | Anteil der Daten, der für den lokalen Durchschnitt verwendet wird | In hohen Dimensionen räumlich oft nicht mehr lokal |
3.5 Alternative Regressionsmodelle
Lineare Regression: interpretiert lineare Feature-Effekte; gut als Baseline.
Support Vector Regression: flexibler, aber schwerer zu interpretieren.
Splines: flexible glatte Funktionen.
Entscheidungsbäume: regelartige Partitionierung des Feature-Raums.
Neuronale Netze: sehr flexibel, oft hohe Daten- und Interpretationsanforderungen.
4. Modellbewertung und Modellkomplexität
4.1 Trade-offs
Vorhersagegenauigkeit vs. Interpretierbarkeit: Ein einfacheres Modell kann fachlich nützlicher sein, wenn Erklärbarkeit zählt.
Overfit vs. Underfit: Zu einfache Modelle lernen die Struktur nicht; zu komplexe Modelle lernen Rauschen.
Trainingsleistung vs. Generalisierung: Entscheidend ist die Leistung auf neuen, nicht im Training verwendeten Daten.
4.2 Underfit, Good Fit, Overfit
Zu einfaches Modell: Es erkennt selbst auf Trainingsdaten die Struktur schlecht.
Angemessene Komplexität: gute Annäherung ohne Rauschen zu stark mitzunehmen.
Zu komplexes Modell: Es lernt Rauschen und generalisiert schlecht.
| Situation | Trainingsfehler | Testfehler | Interpretation |
|---|---|---|---|
| Underfit | hoch | hoch | Modell ist zu einfach und erkennt die Struktur nicht |
| Good Fit | niedrig bis moderat | niedrig | Modell erfasst Struktur und generalisiert |
| Overfit | sehr niedrig | hoch | Modell passt Rauschen der Trainingsdaten an |
4.3 Mean Squared Error
Für n überprüfte Datenpunkte ist der Mean Squared Error:
MSE = (1 / n) * Summe von [yi - f̂(xi)]2 für i = 1,...,n
| Symbol | Bedeutung |
|---|---|
| n | Anzahl der Datenpunkte, auf denen der Fehler berechnet wird |
| xi | Features des i-ten Datenpunkts |
| yi | wahres Label des i-ten Datenpunkts |
| f̂(xi) | Modellvorhersage für xi |
| [yi - f̂(xi)]2 | quadrierter Vorhersagefehler |
| Warum quadrieren? Positive und negative Fehler heben sich nicht auf; große Fehler werden stärker bestraft. Dadurch ist MSE empfindlich gegenüber Ausreißern. |
|---|
4.4 Trainingsdaten vs. Testdaten
MSE kann auf Trainingsdaten berechnet werden. Das reicht aber nicht aus, weil Overfit dort gut aussehen kann. Deshalb braucht man Testdaten, die vor dem Training getrennt wurden oder nachträglich neu erhoben werden.
Trainingsdaten: werden verwendet, um das Modell zu schätzen.
Testdaten: werden erst nach dem Training zur Bewertung verwendet.
Gute Aufteilung: möglichst repräsentativ für die Gesamtverteilung und möglichst geringe Überschneidung/Redundanz zwischen Train und Test.
| Prüfungsfalle: Testdaten dürfen nicht indirekt in das Training einfließen. Auch Modellwahl über Testdaten kann zu optimistischen Ergebnissen führen; sauberer ist ein separater Validierungs- oder Cross-Validation-Schritt. |
|---|
5. Bias-Variance Trade-off
5.1 Fehlzerlegung
Für einen neuen Testdatenpunkt (x*, y*) lässt sich der erwartete quadratische Fehler konzeptionell zerlegen in:
Error(x*, y*) = Variance of f̂(x*) + Bias of f̂(x*) + ε
In der üblichen präzisen Schreibweise wird der Bias quadratisch betrachtet: erwarteter Fehler = Varianz + Bias2 + irreduzibler Fehler. Die Folien fokussieren die Interpretation der drei Bestandteile.
| Bestandteil | Ursache | Typisches Symptom |
|---|---|---|
| Variance | kleine Änderungen in Trainingsdaten verändern die Vorhersage stark | Modell ist instabil, Overfit-Risiko |
| Bias | Modellstruktur ist zu eingeschränkt für den wahren Zusammenhang | systematische Fehler, Underfit-Risiko |
| ε | Rauschen / nicht beobachtbare Einflüsse in den Daten | durch bessere Modellwahl nicht vollständig beseitigbar |
5.2 Zusammenhang mit Modellflexibilität
| Wenn Flexibilität steigt | Tendenz |
|---|---|
| Variance | steigt |
| Bias | sinkt |
| Nichtreduzierbarer Fehler | bleibt konstant |
| Testfehler | sinkt zunächst oft, steigt bei zu hoher Komplexität wieder |
| Klausurmerksatz: Die Wahl der Modellkomplexität über den durchschnittlichen Testfehler ist praktisch die Suche nach einem guten Bias-Variance-Kompromiss. |
|---|
5.3 Typische Diagrammdeutung
Hoher Bias + niedrige Varianz: Modell ist stabil, aber systematisch falsch. Beispiel: horizontale Linie für klar steigende Daten.
Niedriger Bias + hohe Varianz: Modell kann die Struktur treffen, reagiert aber stark auf Trainingsrauschen.
Guter Kompromiss: ausreichend flexibel, aber nicht so flexibel, dass Rauschen gelernt wird.
6. Overfitting erkennen
Die Folien warnen vor einer zu einfachen Aussage: 'Trainingsfehler ist kleiner als Testfehler, also liegt Overfit vor.' Das ist nur ein schwacher Indikator. Test- und Trainingsfehler können aus mehreren Gründen unterschiedlich sein.
Besserer Hinweis: Bei steigender Modellkomplexität sinkt der Trainingsfehler weiter, während der Testfehler wieder steigt.
Ausreißer, zufällige Stichprobenverschiebungen oder unterschiedliche Stichprobengrößen können Fehlerunterschiede erzeugen.
Test- und Trainingsdaten müssen einigermaßen unkorreliert sein. Redundante Daten können echte Generalisierung vortäuschen.
6.1 Redundanz-Beispiel
| Datenstruktur | Problem |
|---|---|
| Viele doppelte oder nahezu identische Beobachtungen | Train/Test-Split kann fast gleiche Punkte in beide Mengen legen |
| Hohe Korrelation zwischen Train und Test | Testfehler misst nicht wirklich Leistung auf neuen unabhängigen Daten |
| Scheinbar guter Testfehler | Modell kann Redundanz ausnutzen, statt generalisierbare Struktur zu lernen |
7. Klassifikation
7.1 Grundbegriffe
Bei Klassifikationsproblemen ist Y kategorisch. Jedes mögliche y aus der Menge C ist eine Klasse. Ziel ist ein Klassifikator c(X), der einem neuen Datenpunkt X eine Klasse zuordnet.
| Beispiel | Features X | Klassen C |
|---|---|---|
| E-Mail-Erkennung | Eigenschaften einer E-Mail | {normal, spam, phishing} |
| Betrugserkennung | Eigenschaften einer Kontotransaktion | {normal, fraud} |
Ziele in der Klassifikation:
Klasse für neue Datenpunkte vorhersagen.
Einfluss der Features auf die Zuordnung verstehen.
Unsicherheit des Klassifikators bewerten, z. B. über geschätzte Klassenwahrscheinlichkeiten.
7.2 Bayes-optimaler Klassifikator
Für einen gegebenen Punkt x gibt es Klassenwahrscheinlichkeiten pk(x). Diese beschreiben, wie wahrscheinlich Klasse k bei X = x ist. Der Bayes-optimale Klassifikator wählt die Klasse mit der größten Wahrscheinlichkeit:
c(x) = Klasse k mit maximalem pk(x)
| Symbol | Bedeutung |
|---|---|
| C | Menge aller Klassen |
| k | eine konkrete Klasse aus C |
| pk(x) | bedingte Wahrscheinlichkeit der Klasse k bei Eingabe x |
| c(x) | ideale Klassenzuordnung |
Die Klasse mit der größten bedingten Klassenwahrscheinlichkeit wird gewählt.
7.3 Geschätzter Klassifikator und kNN
Wie in der Regression sind die wahren pk(x) unbekannt. kNN schätzt sie über die Nachbarschaft: Man betrachtet die k nächsten Nachbarn und wählt die häufigste Klasse. Die geschätzte Klassenwahrscheinlichkeit ist der Anteil der jeweiligen Klasse unter den Nachbarn.
KNN schätzt Klassen bzw. Wahrscheinlichkeiten lokal über die Nachbarschaft.
| Wichtiger Unterschied: Bei Regression mittelt kNN die y-Werte. Bei Klassifikation zählt kNN Klassenhäufigkeiten und entscheidet per Mehrheitsvotum. |
|---|
7.4 Fehlklassifizierungsrate
Die Leistung eines Klassifikators wird über die Fehlklassifizierungsrate gemessen:
Errortest = Anzahl falscher Vorhersagen / Anzahl aller geprüften Vorhersagen
| Größe | Erklärung |
|---|---|
| Zähler | Wie viele Testdatenpunkte falsch klassifiziert wurden |
| Nenner | Wie viele Testdatenpunkte insgesamt geprüft wurden |
| Bayes-Klassifikator | hat theoretisch die minimale Fehlklassifizierungsrate |
7.5 kNN-Entscheidungsgrenzen
In zwei Dimensionen kann man die kNN-Klassifikation über Entscheidungsgrenzen visualisieren. Kleine k erzeugen sehr flexible, zackige Grenzen; große k erzeugen glattere Grenzen. Auch hier gilt der Bias-Variance Trade-off: zu kleine k können overfitten, zu große k können underfitten.
8. Lab: kNN für Advertising Data
8.1 Daten laden und Train/Test-Split
ads <- read.csv("https://www.statlearning.com/s/Advertising.csv", row.names=1)
head(ads)
set.seed(1)
random_sel <- sample(1:nrow(ads), nrow(ads)/2)
ads_train <- ads[random_sel,]
ads_test <- ads[-random_sel,]
`set.seed(1)` macht die Zufallsauswahl reproduzierbar.
`sample(...)` wählt zufällig die Hälfte der Zeilen für das Training.
`ads[-random_sel,]` enthält die übrigen Daten als Testdaten.
8.2 kNN Regression
require(FNN)
fit <- knn.reg(y = ads_train$sales,
train = ads_train[,1:3],
test = ads_test[,1:3],
k = 10)
ypred <- fit$pred
| Argument | Bedeutung |
|---|---|
| y | Trainingslabels, hier sales |
| train | Trainingsfeatures, hier TV, radio, newspaper |
| test | Testfeatures, für die vorhergesagt wird |
| k | Anzahl der Nachbarn |
| fit$pred | Vorhergesagte sales-Werte für die Testdaten |
8.3 Visualisierung und Fehler
Rote Punkte sind wahre Werte, blaue Punkte Vorhersagen; gestrichelte Linien zeigen individuelle Fehler.
Die Visualisierung vergleicht wahre Labels mit vorhergesagten Labels. Die vertikalen gestrichelten Linien zeigen individuelle Vorhersagefehler. Auffällig ist: TV zeigt einen klaren Zusammenhang mit Sales, Newspaper deutlich weniger. Trotzdem verwendet das kNN-Modell alle drei Features.
Test-MSE in R:
mean((ads_test$sales - ypred)2)
| Lab-Aufgabe: Teste mehrere Werte für k, speichere den Test-MSE und wähle k nicht nach Bauchgefühl, sondern nach Test-/Validierungsleistung. |
|---|
9. Typische Klausuraufgaben mit Lösungsskizzen
| Typ | Fragestellung | Lösungsskizze |
|---|---|---|
| Aufgabe 1: Notation erklären | Gegeben Y = f(X) + ε. Erkläre alle Variablen. | Y ist das Label, X der Feature-Vektor, f der systematische Zusammenhang, ε der nicht erklärte Fehler. |
| Aufgabe 2: Ideales f | Warum ist f(x) = E(Y | X = x) optimal bei quadratischem Fehler? | Der bedingte Mittelwert minimiert die Summe bzw. den Erwartungswert quadrierter Abweichungen. |
| Aufgabe 3: kNN und k | Beschreibe die Wirkung eines kleinen vs. großen k. | Kleines k: flexibel, hohe Varianz, Overfit-Risiko. Großes k: glatt, hoher Bias, Underfit-Risiko. |
| Aufgabe 4: MSE berechnen | Für y = (3, 5, 7) und ŷ = (2, 5, 10): berechne MSE. | Fehler: 1, 0, -3; quadriert: 1, 0, 9; MSE = 10/3. |
| Aufgabe 5: Overfit erkennen | Train-MSE sinkt mit Komplexität, Test-MSE sinkt zuerst und steigt dann. Was bedeutet das? | Ab dem Minimum des Test-MSE dominiert Varianz; weitere Komplexität verschlechtert Generalisierung. |
| Aufgabe 6: Klassifikation | Bei pA(x)=0.2, pB(x)=0.7, pC(x)=0.1: Welche Klasse wählt Bayes? | Klasse B, weil pB(x) maximal ist. |
| Aufgabe 7: Fehlklassifizierungsrate | Von 80 Testpunkten sind 12 falsch. Berechne Errortest. | 12/80 = 0.15 = 15%. |
| Aufgabe 8: Redundanz | Warum kann ein zufälliger Split bei duplizierten Daten irreführend sein? | Fast gleiche Punkte können in Train und Test landen; der Test misst dann keine unabhängige Generalisierung. |
10. Häufige Fehler und Prüfungsfallen
| Fehler | Warum problematisch | Korrekte Sicht |
|---|---|---|
| Trainingsfehler als alleinige Modellgüte verwenden | Overfit bleibt verborgen | Testdaten oder Cross-Validation verwenden |
| Niedriger Testfehler trotz Datenredundanz als Beweis für Generalisierung sehen | Train/Test können zu ähnlich sein | Unabhängigkeit und Split-Strategie prüfen |
| ε als Modellfehler interpretieren | ε ist nichtreduzierbarer Fehler | Nur Schätzfehler ist durch Modellwahl reduzierbar |
| kNN bei hoher Dimension unkritisch verwenden | Nachbarschaften sind nicht mehr lokal | Curse of Dimensionality beachten |
| Bias und Varianz verwechseln | Falsche Diagnose von Underfit/Overfit | Bias: systematische Modellbeschränkung; Varianz: Dateninstabilität |
| Klassifikation wie Regression bewerten | MSE ist nicht die Standardmetrik für Klassenlabels | Fehlklassifizierungsrate oder klassifikationsspezifische Metriken nutzen |
11. Kompakte Lerncheckliste
Ich kann Regression und Klassifikation klar unterscheiden.
Ich kann Y = f(X) + ε erklären.
Ich kann begründen, warum f(x) = E(Y | X = x) bei quadratischem Fehler ideal ist.
Ich kenne den Unterschied zwischen f und f̂.
Ich kann nichtreduzierbaren Fehler erklären.
Ich kann kNN für Regression und Klassifikation beschreiben.
Ich kann erklären, warum hohe Dimensionen kNN erschweren.
Ich kann MSE berechnen und interpretieren.
Ich kann Train- und Testfehler unterscheiden.
Ich kann Underfit, Good Fit und Overfit an Diagrammen erkennen.
Ich kann Bias, Varianz und deren Trade-off erklären.
Ich kann die Fehlklassifizierungsrate berechnen.
Ich kann den Einfluss von k im Lab fachlich deuten.
12. Mögliche Klausurfragen
Was ist Statistical Learning und wie passt Supervised Learning dazu?
Erklären Sie die Notation Y, X, f(X), f̂(X) und ε.
Warum ist der bedingte Erwartungswert die ideale Regressionsfunktion bei quadratischem Fehler?
Was ist der Unterschied zwischen reduzierbarem und nichtreduzierbarem Fehler?
Beschreiben Sie Neighborhood Averaging und k-nearest Neighbors.
Was ist der Curse of Dimensionality und warum betrifft er kNN besonders?
Wie wird der Mean Squared Error berechnet?
Warum ist der Trainings-MSE allein kein gutes Maß für Generalisierung?
Erklären Sie Underfitting und Overfitting anhand von Trainings- und Testfehler.
Was besagt der Bias-Variance Trade-off?
Warum beweist ein niedrigerer Trainingsfehler als Testfehler allein kein Overfitting?
Wie funktioniert der Bayes-optimale Klassifikator?
Wie berechnet man die Fehlklassifizierungsrate?
Wie verändert k die Entscheidungsgrenze bei kNN-Klassifikation?
Wie würden Sie im Advertising-Lab einen sinnvollen Bereich für k testen?
13. Folien-Mapping
| Folie/Kapitel | Inhalt | In Zusammenfassung enthalten? | Wo behandelt? |
|---|---|---|---|
| 1 | Titel: Grundlagen des ML | Ja | Deckblatt/Einleitung |
| 2 | Statistical Learning | Ja | Kapitel 1 |
| 3 | Advertising-Beispiel | Ja | 1. Überblick, 2.1 |
| 4 | Regression | Ja | Kapitel 2 |
| 5 | Notation | Ja | 2.2 |
| 6 | Verwendung von f(X) | Ja | 2.3 |
| 7 | Ideales f(x) | Ja | 2.4 mit Bild |
| 8 | Geschätzte Regression | Ja | 2.5 |
| 9 | Schätzung notwendig | Ja | 2.5 |
| 10 | Fehler | Ja | 2.5 |
| 11 | Schätzung von f(x) | Ja | 3.1 mit Bild |
| 12 | Problem mit Intervallen | Ja | 3.2 |
| 13 | k-nearest Neighbors | Ja | 3.2-3.3 |
| 14 | Neighborhood Averaging Bedingungen | Ja | 3.4 |
| 15 | Curse of Dimensionality | Ja | 3.4 mit Bild |
| 16 | Andere Modelle | Ja | 3.5 |
| 17 | Modellbewertung | Ja | Kapitel 4 |
| 18 | Trade-offs | Ja | 4.1 |
| 19 | Underfit | Ja | 4.2 mit Bild |
| 20 | Good Fit | Ja | 4.2 mit Bild |
| 21 | Overfit | Ja | 4.2 mit Bild |
| 22 | MSE Trainingsdaten | Ja | 4.3 |
| 23 | Testdaten | Ja | 4.4 |
| 24 | Modellgenauigkeit | Ja | 4.4/5.2 |
| 25 | Lineares ideales f | Ja | 4.4 |
| 26 | Nichtlineares ideales f | Ja | 4.4 |
| 27 | Bias-Variance Trade-off | Ja | 5.1 |
| 28 | Bias, Variance, ε | Ja | 5.1 |
| 29 | Flexibilität und Fehler | Ja | 5.2 |
| 30 | Bias/Variance Erklärung | Ja | 5.3 |
| 31 | Bias/Variance im ML-Kontext | Ja | 5.3 |
| 32 | Trade-off Beispiele | Ja | 5.3 |
| 33 | Overfit-Frage | Ja | 6 |
| 34 | Overfit erkennen | Ja | 6 |
| 35 | Redundanz-Beispiel | Ja | 6.1 |
| 36 | Klassifikation | Ja | Kapitel 7 |
| 37 | Klassifikationsprobleme | Ja | 7.1 |
| 38 | Idealer Klassifikator | Ja | 7.2 mit Bild |
| 39 | Geschätzter Klassifikator | Ja | 7.3 mit Bild |
| 40 | Fehlklassifizierungsrate | Ja | 7.4 |
| 41 | 3-NN in 2D | Ja | 7.5 |
| 42 | Wahre Entscheidungsgrenze | Ja | 7.5 |
| 43 | Entscheidungsgrenze mit K | Ja | 7.5 |
| 44 | Weitere KNN-Grenze | Ja | 7.5 |
| 45 | KNN-Beispielabschluss | Ja | 7.5 |
| 46 | Lab kNN Advertising | Ja | Kapitel 8 |
| 47 | Daten laden/Split | Ja | 8.1 |
| 48 | knn.reg | Ja | 8.2 |
| 49 | Visualisierung | Ja | 8.3 mit Bild |
| 50 | Lab task | Ja | 8.3, 9 |