Klausurzusammenfassung: Validation and Resampling

Vorlesungsskript 50_Ch.5, KI und ML: Supervised Learning

Fokus: Definitionen, Zusammenhänge, Formeln, Rechenwege, Diagrammdeutung und typische Prüfungsfallen.

Druckhinweis: Im Browser über Drucken > Als PDF speichern exportieren. Sinnvolle Einstellungen: Papierformat A4, Skalierung 100 %, Browser-Kopf-/Fußzeilen deaktivieren, Hintergrundgrafiken aktivieren.

1. Überblick und klausurrelevanter Kern

Resampling-Methoden sind Verfahren, mit denen aus vorhandenen Daten mehrere Trainings- und Validierungssituationen erzeugt werden. Das Ziel ist nicht, magisch mehr unabhängige Daten zu erzeugen, sondern die Modellgüte robuster einzuschätzen und Entscheidungen wie Modellauswahl, Feature Selection oder Hyperparameterwahl ohne Blick auf den finalen Testdatensatz zu treffen.

Prüfungskern: Du musst erklären können, warum Trainingsfehler, Validierungsfehler und Testfehler unterschiedliche Rollen haben; wie Hold-out, K-fold Cross-Validation, Leave-One-Out Cross-Validation und Bootstrap funktionieren; wie ihre Bias-Variance-Eigenschaften zu interpretieren sind; und warum Datenleckage bei Feature Selection die Validierung wertlos machen kann.

2. Motivation, Fehlerbegriffe und Datenaufteilung

2.1 Trainingsfehler, Validierungsfehler und Testfehler

Der Trainingsfehler misst, wie gut ein Modell die Daten vorhersagt, auf denen es angepasst wurde. Er ist nützlich, um den Trainingsprozess zu beobachten, aber er ist keine verlässliche Aussage über neue Daten. Ein sehr kleiner Trainingsfehler kann durch Overfitting entstehen: Das Modell hat Muster oder Rauschen der Trainingsdaten gelernt, die außerhalb dieser Daten nicht stabil sind.

Der Testfehler schätzt die Leistung auf neuen, ungesehenen Daten. Er soll erst am Ende verwendet werden, wenn Modellklasse, Features, Hyperparameter und sonstige Entscheidungen feststehen. Sobald der Testdatensatz zur Auswahl oder Optimierung genutzt wird, ist er kein neutraler Test mehr.

Der Validierungsfehler ist die Vorabschätzung des Testfehlers innerhalb des Entwicklungsprozesses. Er darf für Entscheidungen verwendet werden, weil er nicht der finale Test ist. Er ist aber ebenfalls nur eine Schätzung und kann je nach Split stark schwanken.

Allgemeine Fehlerformel für einen Datensatz D Error_D(f̂) = 1 / |D| · ∑_{i ∈ D} L(y_i, f̂(x_i))

Variablen: D ist der betrachtete Datensatz, zum Beispiel Training, Validierung oder Test. |D| ist die Anzahl der Beobachtungen in D. x_i sind die Eingabemerkmale der Beobachtung i. y_i ist das echte Label oder der echte Zielwert. f̂ ist das trainierte Modell. L ist die Verlustfunktion, zum Beispiel 0/1-Fehler bei Klassifikation oder quadratischer Fehler bei Regression.

Folie 4: Trainings- versus Testperformance — **Folie 4:** Trainings- und Testperformance können stark auseinanderlaufen. Klausurrelevant ist die Interpretation: Ein besserer Trainingsfehler bedeutet nicht automatisch bessere Generalisierung.

2.2 Warum nicht nur Train/Test?

Eine einfache Zweiteilung in Training und Test ist nur dann sauber, wenn der Testdatensatz ausschließlich für die finale Bewertung genutzt wird. In realen Modellierungsprozessen müssen aber Entscheidungen getroffen werden: Welche Features werden genutzt? Welche Modellklasse? Welche Hyperparameter? Welcher Polynomgrad? Diese Entscheidungen dürfen nicht am Testdatensatz optimiert werden.

Ein zweites Problem ist die Unsicherheit der Bewertung: Ein einzelner Testdatensatz liefert nur eine einzige Beobachtung des Fehlers. Man sieht nicht, wie stark die Bewertung schwanken würde, wenn die Daten geringfügig anders gezogen worden wären.

2.3 Saubere Rollen: Training, Validierung, Test

Datenteil	Rolle	Darf für Entscheidungen genutzt werden?
Trainingsdaten	Modellparameter lernen.	Ja, sie sind Teil des Trainings.
Validierungsdaten	Modellvarianten vergleichen, Hyperparameter wählen, Feature Selection bewerten.	Ja, aber nur innerhalb des Entwicklungsprozesses.
Testdaten	Finale, möglichst unverzerrte Bewertung des endgültigen Modells.	Nein. Testdaten werden erst nach allen Entscheidungen verwendet.

Die Vorlesung nennt die nicht als Testdaten abgetrennten Daten Dev-Set oder Entwicklungsdaten. Das Dev-Set wird je nach Resampling-Verfahren wiederholt in Trainings- und Validierungsanteile zerlegt. Die Begriffe sind in der Literatur nicht einheitlich; für die Klausur ist entscheidend, die Rollen sauber zu trennen.

Prüfungsfalle: Wer Testdaten zur Feature-Auswahl, Hyperparameteroptimierung oder Modellwahl nutzt, unterschätzt typischerweise den echten Fehler. Der Testdatensatz wird dadurch selbst Teil des Trainings- und Auswahlprozesses.

2.4 Varianz der Fehlerschätzung

Eine einzelne Validierung kann zufällig günstig oder ungünstig sein. Resampling erzeugt mehrere Validierungsbeobachtungen, sodass neben dem durchschnittlichen Fehler auch seine Streuung sichtbar wird. Das ist wichtig, um robuste Modelle zu erkennen: Zwei Modelle mit fast gleichem mittlerem Fehler können sich stark darin unterscheiden, wie stabil dieser Fehler über verschiedene Splits ist.

3. Hold-out Validation

3.1 Idee und Ablauf

Bei Hold-out Validation wird das Dev-Set zufällig in Trainingsdaten und Validierungsdaten geteilt. Das Modell wird auf dem Trainingsanteil angepasst und anschließend auf dem Validierungsanteil bewertet. Um die Abhängigkeit von einem einzelnen Split zu verringern, kann der Vorgang mehrfach mit verschiedenen zufälligen Splits wiederholt werden.

Testdaten zuerst abtrennen und nicht verwenden.
Dev-Set zufällig in Trainings- und Validierungsteil splitten.
Modell nur auf dem Trainingssplit trainieren.
Fehler auf dem Validierungssplit berechnen.
Mehrfach wiederholen und Mittelwert sowie Streuung auswerten.

Folie 14: Validierungsprozess bei Hold-out — **Folie 14:** Hold-out-Split: ein zufällig gewählter Teil dient als Training, der Rest als Validierung. Bei Wiederholung entstehen mehrere Fehlerschätzungen.

3.2 Formeln

Validierungsfehler im Split b Error_val^(b) = 1 / |V^(b)| · ∑_{i ∈ V^(b)} L(y_i, f̂^(b)(x_i)) Mittlerer Hold-out-Fehler über B Wiederholungen Error_val = 1 / B · ∑_b=1^B Error_val^(b)

Variablen: B ist die Anzahl der Wiederholungen. V^(b) ist der Validierungsteil im Split b. f̂^(b) ist das Modell, das im Split b nur auf den zugehörigen Trainingsdaten gelernt wurde.

3.3 Vorteile

Einfach zu verstehen und leicht zu implementieren.
Rechenaufwand ist überschaubar, besonders bei wenigen Wiederholungen.
Gut geeignet als schneller erster Plausibilitätscheck.

3.4 Nachteile

Die Fehlerschätzung kann stark vom zufälligen Split abhängen.
Ein Teil des Dev-Sets wird nicht zum Training genutzt; dadurch ist das Modell schwächer als ein späteres Modell, das auf dem gesamten Dev-Set trainiert wird.
Der Validierungsfehler neigt deshalb zur Überschätzung des späteren Testfehlers des finalen Modells.
Bei kleinen Datensätzen ist die Streuung besonders problematisch.

Typische Klausurfrage: Warum kann Hold-out den Testfehler überschätzen? Antwort: Das validierte Modell wurde auf weniger Daten trainiert als das finale Modell. Wenn mehr Trainingsdaten typischerweise bessere Modelle liefern, wirkt der Validierungsfehler pessimistischer als der spätere Fehler des auf dem gesamten Dev-Set trainierten Modells.

4. K-fold Cross-Validation und LOOCV

4.1 Grundidee

Bei K-fold Cross-Validation wird das Dev-Set zufällig in k nicht überlappende, möglichst gleich große Teilmengen zerlegt. Jede Teilmenge ist genau einmal Validierungsfold; alle übrigen Teilmengen bilden in dieser Runde die Trainingsdaten. Am Ende werden die k Fehlerschätzungen aggregiert.

Folie 18: Illustration von 5-fold Cross-Validation — **Folie 18:** Bei k = 5 ist jeder Fold einmal Validierungsmenge. Die übrigen vier Folds dienen jeweils als Training.

4.2 Formel für den Cross-Validation-Fehler

Gewichteter K-fold-Fehler CV_k = 1 / n_dev · ∑_j=1^k ∑_{i ∈ F_j} L(y_i, f̂^(-j)(x_i))

Variablen: n_dev ist die Anzahl der Beobachtungen im Dev-Set. F_j ist der Fold j. f̂^(-j) ist das Modell, das ohne Fold j trainiert wurde. Bei exakt gleich großen Folds entspricht die Formel dem einfachen Mittel der Fold-Fehler.

Prüfungsfalle: Bei ungleich großen Folds darf man Fold-Fehler nicht blind ungewichtet mitteln. Korrekt ist eine Gewichtung nach Fold-Größe oder direkt die Mittelung über alle Validierungsbeobachtungen.

4.3 Bias-Variance-Tradeoff bei k

Jedes Trainingsset in K-fold Cross-Validation enthält den Anteil (k - 1) / k des Dev-Sets. Ein kleines k bedeutet kleinere Trainingssets und tendenziell pessimistischere Fehler, aber größere Validierungssets und oft stabilere Fold-Fehler. Ein großes k bedeutet größere Trainingssets und weniger Bias, aber kleinere Validierungssets und stärker korrelierte Modellschätzungen.

Wenn k steigt	Effekt	Interpretation
Trainingsanteil steigt	Bias der Fehlerschätzung sinkt häufig.	Das validierte Modell ähnelt stärker dem finalen Modell auf dem gesamten Dev-Set.
Validierungsanteil pro Fold sinkt	Varianz der einzelnen Fehlerschätzungen steigt.	Jeder Fold liefert weniger Information.
Trainingssets ähneln sich stärker	Fold-Fehler sind stärker korreliert.	Mehr Folds bedeuten nicht automatisch eine beliebig präzise Schätzung.

4.4 Leave-One-Out Cross-Validation

Leave-One-Out Cross-Validation ist der Spezialfall k = n_dev. Jeder Fold enthält genau eine Beobachtung, und es müssen grundsätzlich n_dev Modelle trainiert werden. Für manche Modelle existieren mathematische Abkürzungen, aber konzeptionell ist LOOCV teuer.

LOOCV-Fehler CV_LOO = 1 / n_dev · ∑_i=1^n_dev L(y_i, f̂^(-i)(x_i))

Variablen: f̂^(-i) ist das Modell, das auf allen Dev-Beobachtungen außer Beobachtung i trainiert wurde.

Folie 20: LOOCV illustriert — **Folie 20:** LOOCV validiert immer auf genau einer Beobachtung. Die Trainingssets unterscheiden sich nur minimal.

LOOCV kann nützlich sein, wenn extrem wenige Daten vorhanden sind. Es ist aber nicht automatisch besser: Die Trainingsmengen variieren kaum, und die Fehlerschätzungen können dadurch stark korreliert sein. Die Vorlesung betont deshalb die hohe Varianz als wichtiges Problem.

4.5 Praktische Wahl von k

Werte im Bereich k = 5 bis k = 10 sind häufig ein guter Kompromiss. Bei Millionen Datenpunkten und einfachen Modellen kann ein deutlich größeres k sinnvoll sein. Bei sehr wenigen Datenpunkten und komplexen Modellen kann sogar k = 5 bereits zu groß sein.

Klausurformulierung: Die Wahl von k ist kein Dogma. Begründet wird sie über Rechenaufwand, Größe der Trainingssets, Größe der Validierungssets, Varianz und Datenstruktur.

5. Bootstrap

5.1 Idee

Bootstrap ist eine Alternative zu Hold-out und K-fold Cross-Validation. Aus dem Dev-Set wird mit Zurücklegen eine Trainingsmenge gezogen, bis sie wieder die Größe des Dev-Sets hat. Einzelne Beobachtungen können mehrfach vorkommen, andere gar nicht. Die nicht gezogenen Beobachtungen können als Validierungsdaten verwendet werden.

Der Name meint im statistischen Kontext sinngemäß, dass man aus den vorhandenen Daten selbst eine Schätzung der Unsicherheit gewinnt. Das ist nicht dasselbe wie das Booten eines Computersystems.

Folie 27: Bootstrap-Illustration mit drei Datenpunkten — **Folie 27:** Bootstrap mit n = 3: Jede Bootstrap-Stichprobe enthält wieder drei gezogene Positionen, aber wegen Ziehen mit Zurücklegen können Beobachtungen fehlen oder mehrfach auftreten.

5.2 Bootstrap-Prozess

Testdaten abtrennen und unangetastet lassen.
Aus dem Dev-Set mit Zurücklegen n_dev Beobachtungen ziehen.
Modell auf dieser Bootstrap-Trainingsmenge trainieren.
Nicht gezogene Beobachtungen als Validierungs- oder Out-of-Bag-Daten auswerten.
Den Prozess B-mal wiederholen und die Fehlerschätzungen aggregieren.

Wahrscheinlichkeit, dass eine Beobachtung in einer Bootstrap-Stichprobe nicht gezogen wird P(nicht gezogen) = (1 - 1 / n_dev)^n_dev ≈ e^-1 ≈ 0,368

Variablen: n_dev ist die Größe des Dev-Sets. Für große n_dev bleiben im Mittel etwa 36,8 % der Beobachtungen out-of-bag; etwa 63,2 % erscheinen mindestens einmal in der Bootstrap-Trainingsmenge.

Einfacher Bootstrap-Validierungsfehler Error_boot = 1 / B · ∑_b=1^B Error_OOB^(b)

Variablen: B ist die Anzahl der Bootstrap-Wiederholungen. Error_OOB^(b) ist der Fehler auf den in Wiederholung b nicht gezogenen Beobachtungen.

5.3 Eigenschaften

Trainingsmengen haben formal dieselbe Größe wie das Dev-Set, enthalten aber Duplikate.
Validierungsdaten entstehen als nicht gezogene Beobachtungen und sind deshalb je Wiederholung unterschiedlich groß.
Bootstrap wird nicht nur zur Modellvalidierung genutzt, sondern auch zur Schätzung von Unsicherheit statistischer Kennzahlen und in Ensemble-Methoden wie Bagging oder Random Forests.
Im Auto-Beispiel liegt Bootstrap hinsichtlich Bias und Varianz zwischen Hold-out und Cross-Validation.

Prüfungsfalle: Eine Bootstrap-Stichprobe der Größe n_dev enthält nicht automatisch alle Dev-Beobachtungen. Wegen Ziehen mit Zurücklegen fehlen im Mittel etwa 36,8 % der Beobachtungen.

6. Falsche Validierung und Datenleckage

6.1 Das Beispiel aus der Vorlesung

Das Skript zeigt ein binäres Klassifikationsproblem mit 100 Datenpunkten und 5000 Features. Die Klassenlabels werden zufällig erzeugt. Es gibt also keinen echten Zusammenhang zwischen Features und Klasse. Trotzdem wird zuerst über alle Daten die Korrelation jedes Features mit dem Label berechnet, dann werden die 100 am stärksten korrelierten Features ausgewählt, und erst danach wird 5-fold Cross-Validation mit Random Forest durchgeführt.

Das Ergebnis wirkt spektakulär gut: Die Validierung meldet ungefähr 97 % Accuracy. Das ist offensichtlich falsch, weil rein zufällige Daten keine stabile Vorhersage erlauben. Die Ursache ist Datenleckage.

6.2 Warum ist das falsch?

Die Feature Selection hat bereits alle Labels gesehen, auch die späteren Validierungslabels. Damit steckt Information aus den Validierungsdaten in der Feature-Auswahl. Die Cross-Validation validiert nur den Modellfit nach der Feature-Auswahl, aber nicht den gesamten Modellierungsprozess.

Prüfungsfalle: Alles, was aus den Labels oder Merkmalen gelernt wird, gehört in den Resampling-Prozess. Dazu zählen Feature Selection, Skalierung, Imputation, Dimensionsreduktion, Hyperparameter-Tuning und Modelltraining. Die Regel lautet: In jedem Fold darf die Validierungsmenge erst nach dem Training berührt werden.

Folie 35: Falscher und richtiger Weg bei Feature Selection und Cross-Validation — **Folie 35:** Falsch ist, Cross-Validation erst nach der Feature Selection anzuwenden. Richtig ist, Feature Selection und Modelltraining gemeinsam innerhalb jedes Folds auszuführen.

6.3 Der richtige Weg

Für jeden Fold muss die Feature-Auswahl ausschließlich auf den Trainingsdaten dieses Folds durchgeführt werden. Danach wird dieselbe ausgewählte Feature-Menge auf die Validierungsdaten angewendet. Erst dann wird der Fold-Fehler berechnet.

Für jeden Fold:
  1. Trainings- und Validierungsteil festlegen.
  2. Feature Selection nur auf dem Trainingsteil fitten.
  3. Modell nur mit diesen Trainingsfeatures fitten.
  4. Genau diese Feature-Auswahl auf den Validierungsteil anwenden.
  5. Validierungsfehler berechnen.

In der Praxis sollte man dafür Pipelines oder Workflow-Objekte verwenden, die Vorverarbeitung und Modelltraining gemeinsam resamplen. Die Vorlesung warnt ausdrücklich, dass komfortable Softwarefunktionen zu falscher Reihenfolge verleiten können.

6.4 Nicht nur künstliche Daten

Das Problem tritt besonders häufig bei hochdimensionalen Daten auf, etwa in Genexpressions- oder Microarray-Analysen. Die Folien nennen Ambroise und McLachlan (2002) als Beispiel für Selection Bias bei der Genextraktion. Der zentrale Punkt für die Klausur ist nicht die konkrete Studie, sondern das Muster: Je mehr Features geprüft werden, desto wahrscheinlicher findet man zufällige Scheinkorrelationen.

6.5 Lab-Aufgabe aus dem Skript

Die Lab-Aufgabe fordert, experimentell zu zeigen, dass das scheinbar sehr gute Modell in Wirklichkeit schlecht ist. Eine saubere Lösung wäre: Einen frischen Testdatensatz mit demselben Zufallsmechanismus erzeugen oder den kompletten Prozess korrekt innerhalb der Cross-Validation wiederholen. Erwartet wird dann ungefähr Zufallsniveau, also bei balancierter binärer Klassifikation etwa 50 % Accuracy.

Typische Antwortstruktur: Erst die beobachtete hohe CV-Accuracy nennen, dann begründen, warum sie unmöglich generalisieren kann, dann die Leckage lokalisieren, und zuletzt den korrekten resampling-internen Workflow beschreiben.

7. Gesamtprozess nach dem Resampling

7.1 Welches Modell nimmt man nach vielen Resampling-Läufen?

Nach Resampling wurden viele Modelle trainiert und validiert. Diese Modelle dienen in erster Linie der Schätzung und Auswahl. Sobald die Modellklasse, Hyperparameter, Features und sonstigen Entscheidungen feststehen, wird das finale Modell möglichst auf dem gesamten Dev-Set trainiert. Dadurch gehen keine Validierungsdaten für das finale Training verloren.

Testdaten zu Beginn abtrennen.
Resampling nur auf dem Dev-Set durchführen.
Mit Validierungsfehlern Modellentscheidungen treffen.
Finales Modell mit der gewählten Konfiguration auf dem gesamten Dev-Set trainieren.
Einmalig auf dem Testdatensatz auswerten.

7.2 Unsicherheit des Testfehlers

Auch die finale Testauswertung ist nur eine Beobachtung des Fehlers. Die Vorlesung nennt erneutes Resampling von Dev/Test-Splits als unüblich, kompliziert und aufwendig. Praktischer ist häufig ein Bootstrap des Testdatensatzes zur Streuung des Fehlers, wobei nur die Testfehlerwerte resampled werden; das Modell wird dabei nicht neu trainiert.

7.3 Datenstruktur beachten

Resampling darf die Datenstruktur nicht zerstören. Bei Zeitreihen ist zufälliges Ziehen einzelner Beobachtungen oft falsch, weil zeitliche Abhängigkeiten verloren gehen und Zukunftsinformation in die Vergangenheit gelangen kann. Dann braucht man zeitbasierte Splits oder blockweises Ziehen.

Take-home-Message: Hold-out, Cross-Validation und Bootstrap können alle sinnvoll sein. Wichtiger als die konkrete Methode ist, überhaupt eine geeignete Methode zu verwenden und sie ohne Datenleckage auf den gesamten Modellierungsprozess anzuwenden.

8. Auto-Daten-Beispiel: Hold-out, CV und Bootstrap

8.1 Fragestellung und Metrik

Im Zusatzbeispiel wird untersucht, welcher Polynomgrad d ∈ {1, 2, 3, 4, 5, 6, 7} für ein lineares polynomielles Modell der Auto-Daten geeignet ist. Modelliert wird mpg über weight, acceleration und year. Das Skript trennt zunächst Testdaten und Dev-Set und bewertet dann für jeden Polynomgrad Trainings-, Validierungs- und Testfehler.

RMSE als Regressionsfehler RMSE = √( 1 / m · ∑_i=1^m (ŷ_i - y_i)² )

Variablen: m ist die Anzahl der bewerteten Beobachtungen. ŷ_i ist die Vorhersage für Beobachtung i. y_i ist der echte Zielwert. Ein kleinerer RMSE bedeutet bessere Vorhersagen in der Einheit der Zielvariable.

8.2 Hold-out im Auto-Beispiel

Für jeden Polynomgrad werden wiederholt zufällige Trainings- und Validierungssplits aus dem Dev-Set erzeugt. Die Ergebnisse zeigen hohe Streuung in Trainings- und Validierungsfehlern. Der Validierungsfehler überschätzt den Testfehler besonders bei größeren Polynomgraden.

Folie 47: Hold-out, alle Iterationen — **Folie 47:** Hold-out über alle Iterationen. Die Streuung ist stark sichtbar.

Folie 48: Hold-out, Median — **Folie 48:** Median-Darstellung für Hold-out. Validierungsfehler liegt im Beispiel eher pessimistisch.

8.3 Cross-Validation im Auto-Beispiel

Mit k = 20 wird jeder Fold einmal als Validierung verwendet. Die Varianz des Validierungsfehlers ist deutlich geringer als bei Hold-out. In diesem Beispiel unterschätzt der Validierungsfehler den Testfehler.

Folie 52: Cross-Validation, alle Iterationen — **Folie 52:** Cross-Validation über alle Folds. Die Validierungsstreuung ist kleiner als bei Hold-out.

Folie 53: Cross-Validation, Median — **Folie 53:** Median-Darstellung für Cross-Validation. Im Beispiel wird der Testfehler unterschätzt.

8.4 Bootstrap im Auto-Beispiel

Beim Bootstrap werden für jeden Polynomgrad Trainingsdaten mit Zurücklegen gezogen. Die nicht gezogenen Beobachtungen dienen als Validierungsdaten. Im Beispiel überschätzt Bootstrap den Testfehler, aber weniger stark als Hold-out, und die Varianz ist geringer als bei Hold-out. Insgesamt liegt Bootstrap hier zwischen Hold-out und Cross-Validation.

Folie 57: Bootstrap, alle Iterationen — **Folie 57:** Bootstrap über alle Iterationen. Die Variation ist geringer als bei Hold-out, aber nicht identisch zu CV.

Folie 58: Bootstrap, Median — **Folie 58:** Median-Darstellung für Bootstrap. Die Ergebnisse liegen im Beispiel zwischen Hold-out und CV.

8.5 Diagrammdeutung für die Klausur

Trainingsfehler sinkt bei flexibleren Modellen oft, ist aber kein Beweis für gute Generalisierung.
Große Streuung der Validierungsfehler bedeutet unsichere Modellwahl.
Der Vergleich von Validierungs- und Testfehler zeigt, ob die Validierung in diesem Beispiel pessimistisch oder optimistisch war.
Die beste Modellkomplexität sollte nicht nur nach minimalem Validierungsfehler, sondern auch nach Stabilität und Plausibilität beurteilt werden.

9. Methodenvergleich

Methode	Prinzip	Typische Stärke	Typische Schwäche	Klausurmerksatz
Hold-out	Zufälliger Split des Dev-Sets in Training und Validierung, optional mehrfach wiederholt.	Einfach, schnell, transparent.	Hohe Split-Abhängigkeit; Training auf kleinerem Datensatz.	Validierungsfehler kann pessimistisch sein, weil das Modell weniger Trainingsdaten sieht.
K-fold CV	Dev-Set in k Folds teilen; jeder Fold validiert einmal.	Gute Datennutzung und oft stabiler als einfacher Hold-out.	Mehr Rechenaufwand; Wahl von k beeinflusst Bias und Varianz.	k = 5 bis k = 10 ist häufig ein brauchbarer Kompromiss.
LOOCV	Spezialfall k = n_dev, eine Beobachtung pro Validierungsfold.	Maximale Trainingsgröße pro Fold.	Teuer; Fold-Fehler stark korreliert; hohe Varianz möglich.	Nicht automatisch besser als 5- oder 10-fold CV.
Bootstrap	Mit Zurücklegen Trainingsstichproben der Größe n_dev ziehen; OOB validieren.	Gute Methode zur Unsicherheitsschätzung; Grundlage für Ensembles.	Duplikate und variable OOB-Mengen erschweren Interpretation.	Eine Beobachtung fehlt pro Bootstrap-Stichprobe mit Wahrscheinlichkeit etwa 36,8 %.

10. Typische Klausuraufgaben und Rechenwege

10.1 K-fold-Fehler berechnen

Aufgabe: Fünf gleich große Folds liefern Fehler 0,22; 0,18; 0,25; 0,20; 0,15. Berechne den CV-Fehler.

Rechenweg: CV₅ = (0,22 + 0,18 + 0,25 + 0,20 + 0,15) / 5 = 0,20. Bei ungleich großen Folds müsste nach Fold-Größe gewichtet werden.

10.2 Trainingsanteil bei K-fold bestimmen

Aufgabe: Wie groß ist der Trainingsanteil bei k = 10?

Rechenweg: Pro Fold wird ein Zehntel validiert und neun Zehntel trainiert. Der Trainingsanteil beträgt (k - 1) / k = 9 / 10 = 90 %.

10.3 Bootstrap-Out-of-Bag-Anteil erklären

Aufgabe: Warum bleiben bei Bootstrap ungefähr 36,8 % der Beobachtungen pro Ziehung out-of-bag?

Rechenweg: Eine bestimmte Beobachtung wird in einem Zug mit Wahrscheinlichkeit 1 / n_dev gewählt. Sie wird in einem Zug nicht gewählt mit 1 - 1 / n_dev. Bei n_dev unabhängigen Ziehungen mit Zurücklegen ergibt sich (1 - 1 / n_dev)^n_dev ≈ e^-1 ≈ 0,368.

10.4 Datenleckage identifizieren

Aufgabe: Ein Team skaliert alle Features, wählt die 50 wichtigsten Features auf dem gesamten Datensatz und führt danach Cross-Validation aus. Was ist falsch?

Lösung: Skalierung und Feature Selection wurden vor der Fold-Trennung auf allen Daten gelernt. Damit haben Validierungsdaten den Trainingsprozess beeinflusst. Korrekt ist, Skalierung und Feature Selection in jedem Fold ausschließlich auf dem Trainingsanteil zu fitten und danach auf die Validierung anzuwenden.

10.5 Geeignete Methode begründen

Aufgabe: Wenige Datenpunkte, komplexes Modell, hoher Trainingsaufwand. Welche Validierung ist plausibel?

Antwort: Ein kleineres k, etwa 5-fold CV, kann plausibel sein, weil LOOCV sehr teuer ist und hohe Varianz haben kann. Zusätzlich sollte man über wiederholte CV, stabile Metriken und einfache Modellvarianten nachdenken. Bei Zeitreihen wäre zufällige CV ungeeignet; dann braucht man zeitbasierte oder blockweise Splits.

11. Häufige Fehler und Prüfungsfallen

Testdaten für Entscheidungen nutzen: macht den Testfehler optimistisch und nicht mehr final.
Feature Selection vor Cross-Validation: erzeugt Datenleckage, besonders gefährlich bei vielen Features und wenigen Beobachtungen.
Vorverarbeitung außerhalb der Folds fitten: auch Skalierung, Imputation und PCA müssen innerhalb des Trainingsanteils gelernt werden.
Ein Fold-Modell als finales Modell nehmen: Nach der Auswahl wird das finale Modell auf dem gesamten Dev-Set trainiert.
Fold-Fehler falsch mitteln: Ungleich große Folds brauchen Gewichtung.
LOOCV pauschal als beste Methode darstellen: LOOCV hat oft hohe Varianz und hohen Rechenaufwand.
Zeitreihen zufällig shuffeln: zerstört zeitliche Struktur und kann Zukunftsinformation leaken.
Validierungsfehler als echten Testfehler verkaufen: Validierung ist eine Schätzung für Entscheidungen, nicht die finale Generalisierungsprüfung.

12. Kompakte Lerncheckliste

Ich kann Trainingsfehler, Validierungsfehler und Testfehler sauber unterscheiden.
Ich kann erklären, warum Testdaten erst am Ende verwendet werden dürfen.
Ich kann Hold-out Validation als Algorithmus beschreiben und ihre Nachteile nennen.
Ich kann die K-fold-CV-Formel lesen und für einfache Fold-Fehler ausrechnen.
Ich kann den Bias-Variance-Tradeoff bei der Wahl von k erklären.
Ich kann LOOCV als Spezialfall k = n_dev einordnen.
Ich kann Bootstrap mit Ziehen mit Zurücklegen erklären und den OOB-Anteil herleiten.
Ich erkenne Datenleckage bei Feature Selection, Skalierung, Imputation und Hyperparameterwahl.
Ich weiß, dass der finale Modellfit nach der Auswahl auf dem gesamten Dev-Set erfolgt.
Ich kann die Auto-Daten-Plots qualitativ deuten: Streuung, Über-/Unterschätzung, Modellkomplexität.

13. Mögliche Klausurfragen

Warum darf der Testdatensatz nicht zur Modellauswahl verwendet werden?
Erklären Sie den Unterschied zwischen Trainingsfehler, Validierungsfehler und Testfehler.
Beschreiben Sie Hold-out Validation und nennen Sie zwei Nachteile.
Leiten Sie den Trainingsanteil in K-fold Cross-Validation her.
Berechnen Sie aus gegebenen Fold-Fehlern den Cross-Validation-Fehler.
Warum ist k = 5 bis k = 10 oft ein guter Kompromiss?
Was ist LOOCV, und warum kann es trotz großer Trainingssets hohe Varianz haben?
Erklären Sie Bootstrap mit Zurücklegen und Out-of-Bag-Validierung.
Warum fehlen in einer Bootstrap-Stichprobe im Mittel etwa 36,8 % der Beobachtungen?
Ein Modell zeigt nach Feature Selection vor der Cross-Validation sehr hohe Accuracy auf Zufallsdaten. Erklären Sie den Fehler.
Wie muss Feature Selection korrekt in eine Cross-Validation eingebettet werden?
Was passiert nach der Resampling-basierten Modellwahl mit dem finalen Modell?
Warum ist zufällige Cross-Validation bei Zeitreihen problematisch?
Deuten Sie einen Plot, in dem der Trainingsfehler sinkt, der Validierungsfehler aber steigt.
Vergleichen Sie Hold-out, K-fold CV und Bootstrap anhand von Bias, Varianz und Rechenaufwand.

14. Folien-/Kapitel-Abdeckung

Die Tabelle nutzt die PDF-Seitennummern als Foliennummern. Inhaltliche Titelfolien und Übergangsfolien sind als abgedeckt markiert, wenn ihr Kontext im entsprechenden Abschnitt verarbeitet wurde.

Folie/Kapitel	Inhalt	In Zusammenfassung enthalten?	Wo behandelt?
1	Titel: Validation and Resampling	Ja	Titel und Abschnitt 1
2	Warum Resampling?	Ja	Abschnitt 1 und 2
3	Trainingsfehler vs. Testfehler	Ja	Abschnitt 2.1
4	Trainings- versus Testperformance	Ja	Abbildung in Abschnitt 2.1
5	Auswertung nur mit Testdaten	Ja	Abschnitt 2.2
6	Entscheidungen auf Grundlage von Testdaten	Ja	Abschnitt 2.2 und Prüfungsfalle in 2.3
7	Daten in Training, Validierung, Test teilen	Ja	Abschnitt 2.3
8	Varianz messen	Ja	Abschnitt 2.4
9	Mehrere Validierungsdatensätze	Ja	Abschnitt 2.4
10	Terminologie: Testdaten, Dev-Set, Training, Validierung	Ja	Abschnitt 2.3
11	Kapitelstart Hold-out Validation	Ja	Abschnitt 3
12	Hold-out-Idee	Ja	Abschnitt 3.1
13	Hold-out-Ablauf und Aggregation	Ja	Abschnitt 3.1 bis 3.2
14	Hold-out-Prozess illustriert	Ja	Abbildung in Abschnitt 3.1
15	Nachteile von Hold-out	Ja	Abschnitt 3.4
16	Kapitelstart K-fold Cross-Validation	Ja	Abschnitt 4
17	K-fold-CV-Ablauf	Ja	Abschnitt 4.1 bis 4.2
18	5-fold CV illustriert	Ja	Abbildung in Abschnitt 4.1
19	Leave-One-Out CV	Ja	Abschnitt 4.4
20	LOOCV illustriert	Ja	Abbildung in Abschnitt 4.4
21	Probleme bei K-fold CV	Ja	Abschnitt 4.3
22	Praktische Wahl von k	Ja	Abschnitt 4.5
23	Kapitelstart Bootstrap	Ja	Abschnitt 5
24	Bootstrap-Eigenschaften und Verwendungen	Ja	Abschnitt 5.1 bis 5.3
25	Namensherkunft Bootstrap	Ja	Abschnitt 5.1
26	Bootstrap-Motivation und Prozess	Ja	Abschnitt 5.2
27	Bootstrap-Illustration mit drei Punkten	Ja	Abbildung in Abschnitt 5.1
28	Übergang: richtige und falsche Anwendung	Ja	Abschnitt 6
29	Falsche Validierung bei Feature Selection	Ja	Abschnitt 6.1
30	Zufallsdaten-Code	Ja	Abschnitt 6.1 bis 6.2
31	Random-Forest-Ausgabe mit scheinbar hoher Accuracy	Ja	Abschnitt 6.1 und 6.5
32	Diagnose der falschen Bewertung	Ja	Abschnitt 6.2
33	Bioinformatik-Beispiel und Selection Bias	Ja	Abschnitt 6.4
34	Warum der Fehler häufig passiert	Ja	Abschnitt 6.2 bis 6.3
35	Falscher und richtiger Weg	Ja	Abbildung und Abschnitt 6.3
36	Gesamtprozess nach Resampling	Ja	Abschnitt 7.1 bis 7.2
37	Take-Home-Message	Ja	Abschnitt 7.3 und 11
38	Fragen-Folie	Ja	Keine zusätzliche Fachinformation; Kontext in Abschnitt 7 abgeschlossen
39	Lab-Start	Ja	Abschnitt 6.5 und 10
40	Lab-Code: falsche Anwendung reproduzieren	Ja	Abschnitt 6.1 bis 6.5
41	Lab-Ausgabe: Accuracy und Modellwahl	Ja	Abschnitt 6.1 und 6.5
42	Lab Task: zeigen, dass das Modell schlecht ist	Ja	Abschnitt 6.5 und 10.4
43	Zusatzfolien Auto-Daten, Hold-out	Ja	Abschnitt 8
44	Auto-Daten-Fragestellung und Polynomgrad	Ja	Abschnitt 8.1
45	Auto-Daten laden und aufteilen	Ja	Abschnitt 8.1
46	Auto-Modellierung mit Hold-out	Ja	Abschnitt 8.2
47	Hold-out-Plot, alle Iterationen	Ja	Abbildung in Abschnitt 8.2
48	Hold-out-Plot, Median	Ja	Abbildung in Abschnitt 8.2
49	Hold-out-Schlussfolgerungen	Ja	Abschnitt 8.2
50	Übergang zu Cross-Validation	Ja	Abschnitt 8.3
51	Auto-Daten mit Cross-Validation	Ja	Abschnitt 8.3
52	CV-Plot, alle Iterationen	Ja	Abbildung in Abschnitt 8.3
53	CV-Plot, Median	Ja	Abbildung in Abschnitt 8.3
54	CV-Schlussfolgerungen	Ja	Abschnitt 8.3
55	Übergang zu Bootstrap	Ja	Abschnitt 8.4
56	Auto-Daten mit Bootstrap	Ja	Abschnitt 8.4
57	Bootstrap-Plot, alle Iterationen	Ja	Abbildung in Abschnitt 8.4
58	Bootstrap-Plot, Median	Ja	Abbildung in Abschnitt 8.4
59	Bootstrap-Schlussfolgerungen	Ja	Abschnitt 8.4