Klausurzusammenfassung: Validation and Resampling

Vorlesungsskript 50_Ch.5, KI und ML: Supervised Learning

Fokus: Definitionen, Zusammenhänge, Formeln, Rechenwege, Diagrammdeutung und typische Prüfungsfallen.

1. Überblick und klausurrelevanter Kern

Resampling-Methoden sind Verfahren, mit denen aus vorhandenen Daten mehrere Trainings- und Validierungssituationen erzeugt werden. Das Ziel ist nicht, magisch mehr unabhängige Daten zu erzeugen, sondern die Modellgüte robuster einzuschätzen und Entscheidungen wie Modellauswahl, Feature Selection oder Hyperparameterwahl ohne Blick auf den finalen Testdatensatz zu treffen.

Prüfungskern: Du musst erklären können, warum Trainingsfehler, Validierungsfehler und Testfehler unterschiedliche Rollen haben; wie Hold-out, K-fold Cross-Validation, Leave-One-Out Cross-Validation und Bootstrap funktionieren; wie ihre Bias-Variance-Eigenschaften zu interpretieren sind; und warum Datenleckage bei Feature Selection die Validierung wertlos machen kann.

Gliederung

  1. Begriffe und Datenaufteilung
  2. Hold-out Validation
  3. K-fold Cross-Validation und LOOCV
  4. Bootstrap
  5. Datenleckage und falsche Validierung
  6. Gesamtprozess nach dem Resampling
  7. Auto-Daten-Beispiel
  8. Typische Klausuraufgaben
  9. Lerncheckliste und Klausurfragen
  10. Folienabdeckung

2. Motivation, Fehlerbegriffe und Datenaufteilung

2.1 Trainingsfehler, Validierungsfehler und Testfehler

Der Trainingsfehler misst, wie gut ein Modell die Daten vorhersagt, auf denen es angepasst wurde. Er ist nützlich, um den Trainingsprozess zu beobachten, aber er ist keine verlässliche Aussage über neue Daten. Ein sehr kleiner Trainingsfehler kann durch Overfitting entstehen: Das Modell hat Muster oder Rauschen der Trainingsdaten gelernt, die außerhalb dieser Daten nicht stabil sind.

Der Testfehler schätzt die Leistung auf neuen, ungesehenen Daten. Er soll erst am Ende verwendet werden, wenn Modellklasse, Features, Hyperparameter und sonstige Entscheidungen feststehen. Sobald der Testdatensatz zur Auswahl oder Optimierung genutzt wird, ist er kein neutraler Test mehr.

Der Validierungsfehler ist die Vorabschätzung des Testfehlers innerhalb des Entwicklungsprozesses. Er darf für Entscheidungen verwendet werden, weil er nicht der finale Test ist. Er ist aber ebenfalls nur eine Schätzung und kann je nach Split stark schwanken.

Allgemeine Fehlerformel für einen Datensatz D ErrorD(f̂) = 1 / |D| · ∑i ∈ D L(yi, f̂(xi))

Variablen: D ist der betrachtete Datensatz, zum Beispiel Training, Validierung oder Test. |D| ist die Anzahl der Beobachtungen in D. xi sind die Eingabemerkmale der Beobachtung i. yi ist das echte Label oder der echte Zielwert. ist das trainierte Modell. L ist die Verlustfunktion, zum Beispiel 0/1-Fehler bei Klassifikation oder quadratischer Fehler bei Regression.

Folie 4: Trainings- versus Testperformance
Folie 4: Trainings- und Testperformance können stark auseinanderlaufen. Klausurrelevant ist die Interpretation: Ein besserer Trainingsfehler bedeutet nicht automatisch bessere Generalisierung.

2.2 Warum nicht nur Train/Test?

Eine einfache Zweiteilung in Training und Test ist nur dann sauber, wenn der Testdatensatz ausschließlich für die finale Bewertung genutzt wird. In realen Modellierungsprozessen müssen aber Entscheidungen getroffen werden: Welche Features werden genutzt? Welche Modellklasse? Welche Hyperparameter? Welcher Polynomgrad? Diese Entscheidungen dürfen nicht am Testdatensatz optimiert werden.

Ein zweites Problem ist die Unsicherheit der Bewertung: Ein einzelner Testdatensatz liefert nur eine einzige Beobachtung des Fehlers. Man sieht nicht, wie stark die Bewertung schwanken würde, wenn die Daten geringfügig anders gezogen worden wären.

2.3 Saubere Rollen: Training, Validierung, Test

Datenteil Rolle Darf für Entscheidungen genutzt werden?
Trainingsdaten Modellparameter lernen. Ja, sie sind Teil des Trainings.
Validierungsdaten Modellvarianten vergleichen, Hyperparameter wählen, Feature Selection bewerten. Ja, aber nur innerhalb des Entwicklungsprozesses.
Testdaten Finale, möglichst unverzerrte Bewertung des endgültigen Modells. Nein. Testdaten werden erst nach allen Entscheidungen verwendet.

Die Vorlesung nennt die nicht als Testdaten abgetrennten Daten Dev-Set oder Entwicklungsdaten. Das Dev-Set wird je nach Resampling-Verfahren wiederholt in Trainings- und Validierungsanteile zerlegt. Die Begriffe sind in der Literatur nicht einheitlich; für die Klausur ist entscheidend, die Rollen sauber zu trennen.

Prüfungsfalle: Wer Testdaten zur Feature-Auswahl, Hyperparameteroptimierung oder Modellwahl nutzt, unterschätzt typischerweise den echten Fehler. Der Testdatensatz wird dadurch selbst Teil des Trainings- und Auswahlprozesses.

2.4 Varianz der Fehlerschätzung

Eine einzelne Validierung kann zufällig günstig oder ungünstig sein. Resampling erzeugt mehrere Validierungsbeobachtungen, sodass neben dem durchschnittlichen Fehler auch seine Streuung sichtbar wird. Das ist wichtig, um robuste Modelle zu erkennen: Zwei Modelle mit fast gleichem mittlerem Fehler können sich stark darin unterscheiden, wie stabil dieser Fehler über verschiedene Splits ist.

3. Hold-out Validation

3.1 Idee und Ablauf

Bei Hold-out Validation wird das Dev-Set zufällig in Trainingsdaten und Validierungsdaten geteilt. Das Modell wird auf dem Trainingsanteil angepasst und anschließend auf dem Validierungsanteil bewertet. Um die Abhängigkeit von einem einzelnen Split zu verringern, kann der Vorgang mehrfach mit verschiedenen zufälligen Splits wiederholt werden.

  1. Testdaten zuerst abtrennen und nicht verwenden.
  2. Dev-Set zufällig in Trainings- und Validierungsteil splitten.
  3. Modell nur auf dem Trainingssplit trainieren.
  4. Fehler auf dem Validierungssplit berechnen.
  5. Mehrfach wiederholen und Mittelwert sowie Streuung auswerten.
Folie 14: Validierungsprozess bei Hold-out
Folie 14: Hold-out-Split: ein zufällig gewählter Teil dient als Training, der Rest als Validierung. Bei Wiederholung entstehen mehrere Fehlerschätzungen.

3.2 Formeln

Validierungsfehler im Split b Errorval(b) = 1 / |V(b)| · ∑i ∈ V(b) L(yi, f̂(b)(xi)) Mittlerer Hold-out-Fehler über B Wiederholungen Errorval = 1 / B · ∑b=1B Errorval(b)

Variablen: B ist die Anzahl der Wiederholungen. V(b) ist der Validierungsteil im Split b. (b) ist das Modell, das im Split b nur auf den zugehörigen Trainingsdaten gelernt wurde.

3.3 Vorteile

3.4 Nachteile

Typische Klausurfrage: Warum kann Hold-out den Testfehler überschätzen? Antwort: Das validierte Modell wurde auf weniger Daten trainiert als das finale Modell. Wenn mehr Trainingsdaten typischerweise bessere Modelle liefern, wirkt der Validierungsfehler pessimistischer als der spätere Fehler des auf dem gesamten Dev-Set trainierten Modells.

4. K-fold Cross-Validation und LOOCV

4.1 Grundidee

Bei K-fold Cross-Validation wird das Dev-Set zufällig in k nicht überlappende, möglichst gleich große Teilmengen zerlegt. Jede Teilmenge ist genau einmal Validierungsfold; alle übrigen Teilmengen bilden in dieser Runde die Trainingsdaten. Am Ende werden die k Fehlerschätzungen aggregiert.

Folie 18: Illustration von 5-fold Cross-Validation
Folie 18: Bei k = 5 ist jeder Fold einmal Validierungsmenge. Die übrigen vier Folds dienen jeweils als Training.

4.2 Formel für den Cross-Validation-Fehler

Gewichteter K-fold-Fehler CVk = 1 / ndev · ∑j=1ki ∈ Fj L(yi, f̂(-j)(xi))

Variablen: ndev ist die Anzahl der Beobachtungen im Dev-Set. Fj ist der Fold j. (-j) ist das Modell, das ohne Fold j trainiert wurde. Bei exakt gleich großen Folds entspricht die Formel dem einfachen Mittel der Fold-Fehler.

Prüfungsfalle: Bei ungleich großen Folds darf man Fold-Fehler nicht blind ungewichtet mitteln. Korrekt ist eine Gewichtung nach Fold-Größe oder direkt die Mittelung über alle Validierungsbeobachtungen.

4.3 Bias-Variance-Tradeoff bei k

Jedes Trainingsset in K-fold Cross-Validation enthält den Anteil (k - 1) / k des Dev-Sets. Ein kleines k bedeutet kleinere Trainingssets und tendenziell pessimistischere Fehler, aber größere Validierungssets und oft stabilere Fold-Fehler. Ein großes k bedeutet größere Trainingssets und weniger Bias, aber kleinere Validierungssets und stärker korrelierte Modellschätzungen.

Wenn k steigt Effekt Interpretation
Trainingsanteil steigt Bias der Fehlerschätzung sinkt häufig. Das validierte Modell ähnelt stärker dem finalen Modell auf dem gesamten Dev-Set.
Validierungsanteil pro Fold sinkt Varianz der einzelnen Fehlerschätzungen steigt. Jeder Fold liefert weniger Information.
Trainingssets ähneln sich stärker Fold-Fehler sind stärker korreliert. Mehr Folds bedeuten nicht automatisch eine beliebig präzise Schätzung.

4.4 Leave-One-Out Cross-Validation

Leave-One-Out Cross-Validation ist der Spezialfall k = ndev. Jeder Fold enthält genau eine Beobachtung, und es müssen grundsätzlich ndev Modelle trainiert werden. Für manche Modelle existieren mathematische Abkürzungen, aber konzeptionell ist LOOCV teuer.

LOOCV-Fehler CVLOO = 1 / ndev · ∑i=1ndev L(yi, f̂(-i)(xi))

Variablen: (-i) ist das Modell, das auf allen Dev-Beobachtungen außer Beobachtung i trainiert wurde.

Folie 20: LOOCV illustriert
Folie 20: LOOCV validiert immer auf genau einer Beobachtung. Die Trainingssets unterscheiden sich nur minimal.

LOOCV kann nützlich sein, wenn extrem wenige Daten vorhanden sind. Es ist aber nicht automatisch besser: Die Trainingsmengen variieren kaum, und die Fehlerschätzungen können dadurch stark korreliert sein. Die Vorlesung betont deshalb die hohe Varianz als wichtiges Problem.

4.5 Praktische Wahl von k

Werte im Bereich k = 5 bis k = 10 sind häufig ein guter Kompromiss. Bei Millionen Datenpunkten und einfachen Modellen kann ein deutlich größeres k sinnvoll sein. Bei sehr wenigen Datenpunkten und komplexen Modellen kann sogar k = 5 bereits zu groß sein.

Klausurformulierung: Die Wahl von k ist kein Dogma. Begründet wird sie über Rechenaufwand, Größe der Trainingssets, Größe der Validierungssets, Varianz und Datenstruktur.

5. Bootstrap

5.1 Idee

Bootstrap ist eine Alternative zu Hold-out und K-fold Cross-Validation. Aus dem Dev-Set wird mit Zurücklegen eine Trainingsmenge gezogen, bis sie wieder die Größe des Dev-Sets hat. Einzelne Beobachtungen können mehrfach vorkommen, andere gar nicht. Die nicht gezogenen Beobachtungen können als Validierungsdaten verwendet werden.

Der Name meint im statistischen Kontext sinngemäß, dass man aus den vorhandenen Daten selbst eine Schätzung der Unsicherheit gewinnt. Das ist nicht dasselbe wie das Booten eines Computersystems.

Folie 27: Bootstrap-Illustration mit drei Datenpunkten
Folie 27: Bootstrap mit n = 3: Jede Bootstrap-Stichprobe enthält wieder drei gezogene Positionen, aber wegen Ziehen mit Zurücklegen können Beobachtungen fehlen oder mehrfach auftreten.

5.2 Bootstrap-Prozess

  1. Testdaten abtrennen und unangetastet lassen.
  2. Aus dem Dev-Set mit Zurücklegen ndev Beobachtungen ziehen.
  3. Modell auf dieser Bootstrap-Trainingsmenge trainieren.
  4. Nicht gezogene Beobachtungen als Validierungs- oder Out-of-Bag-Daten auswerten.
  5. Den Prozess B-mal wiederholen und die Fehlerschätzungen aggregieren.
Wahrscheinlichkeit, dass eine Beobachtung in einer Bootstrap-Stichprobe nicht gezogen wird P(nicht gezogen) = (1 - 1 / ndev)ndev ≈ e-1 ≈ 0,368

Variablen: ndev ist die Größe des Dev-Sets. Für große ndev bleiben im Mittel etwa 36,8 % der Beobachtungen out-of-bag; etwa 63,2 % erscheinen mindestens einmal in der Bootstrap-Trainingsmenge.

Einfacher Bootstrap-Validierungsfehler Errorboot = 1 / B · ∑b=1B ErrorOOB(b)

Variablen: B ist die Anzahl der Bootstrap-Wiederholungen. ErrorOOB(b) ist der Fehler auf den in Wiederholung b nicht gezogenen Beobachtungen.

5.3 Eigenschaften

Prüfungsfalle: Eine Bootstrap-Stichprobe der Größe ndev enthält nicht automatisch alle Dev-Beobachtungen. Wegen Ziehen mit Zurücklegen fehlen im Mittel etwa 36,8 % der Beobachtungen.

6. Falsche Validierung und Datenleckage

6.1 Das Beispiel aus der Vorlesung

Das Skript zeigt ein binäres Klassifikationsproblem mit 100 Datenpunkten und 5000 Features. Die Klassenlabels werden zufällig erzeugt. Es gibt also keinen echten Zusammenhang zwischen Features und Klasse. Trotzdem wird zuerst über alle Daten die Korrelation jedes Features mit dem Label berechnet, dann werden die 100 am stärksten korrelierten Features ausgewählt, und erst danach wird 5-fold Cross-Validation mit Random Forest durchgeführt.

Das Ergebnis wirkt spektakulär gut: Die Validierung meldet ungefähr 97 % Accuracy. Das ist offensichtlich falsch, weil rein zufällige Daten keine stabile Vorhersage erlauben. Die Ursache ist Datenleckage.

6.2 Warum ist das falsch?

Die Feature Selection hat bereits alle Labels gesehen, auch die späteren Validierungslabels. Damit steckt Information aus den Validierungsdaten in der Feature-Auswahl. Die Cross-Validation validiert nur den Modellfit nach der Feature-Auswahl, aber nicht den gesamten Modellierungsprozess.

Prüfungsfalle: Alles, was aus den Labels oder Merkmalen gelernt wird, gehört in den Resampling-Prozess. Dazu zählen Feature Selection, Skalierung, Imputation, Dimensionsreduktion, Hyperparameter-Tuning und Modelltraining. Die Regel lautet: In jedem Fold darf die Validierungsmenge erst nach dem Training berührt werden.
Folie 35: Falscher und richtiger Weg bei Feature Selection und Cross-Validation
Folie 35: Falsch ist, Cross-Validation erst nach der Feature Selection anzuwenden. Richtig ist, Feature Selection und Modelltraining gemeinsam innerhalb jedes Folds auszuführen.

6.3 Der richtige Weg

Für jeden Fold muss die Feature-Auswahl ausschließlich auf den Trainingsdaten dieses Folds durchgeführt werden. Danach wird dieselbe ausgewählte Feature-Menge auf die Validierungsdaten angewendet. Erst dann wird der Fold-Fehler berechnet.

Für jeden Fold:
  1. Trainings- und Validierungsteil festlegen.
  2. Feature Selection nur auf dem Trainingsteil fitten.
  3. Modell nur mit diesen Trainingsfeatures fitten.
  4. Genau diese Feature-Auswahl auf den Validierungsteil anwenden.
  5. Validierungsfehler berechnen.

In der Praxis sollte man dafür Pipelines oder Workflow-Objekte verwenden, die Vorverarbeitung und Modelltraining gemeinsam resamplen. Die Vorlesung warnt ausdrücklich, dass komfortable Softwarefunktionen zu falscher Reihenfolge verleiten können.

6.4 Nicht nur künstliche Daten

Das Problem tritt besonders häufig bei hochdimensionalen Daten auf, etwa in Genexpressions- oder Microarray-Analysen. Die Folien nennen Ambroise und McLachlan (2002) als Beispiel für Selection Bias bei der Genextraktion. Der zentrale Punkt für die Klausur ist nicht die konkrete Studie, sondern das Muster: Je mehr Features geprüft werden, desto wahrscheinlicher findet man zufällige Scheinkorrelationen.

6.5 Lab-Aufgabe aus dem Skript

Die Lab-Aufgabe fordert, experimentell zu zeigen, dass das scheinbar sehr gute Modell in Wirklichkeit schlecht ist. Eine saubere Lösung wäre: Einen frischen Testdatensatz mit demselben Zufallsmechanismus erzeugen oder den kompletten Prozess korrekt innerhalb der Cross-Validation wiederholen. Erwartet wird dann ungefähr Zufallsniveau, also bei balancierter binärer Klassifikation etwa 50 % Accuracy.

Typische Antwortstruktur: Erst die beobachtete hohe CV-Accuracy nennen, dann begründen, warum sie unmöglich generalisieren kann, dann die Leckage lokalisieren, und zuletzt den korrekten resampling-internen Workflow beschreiben.

7. Gesamtprozess nach dem Resampling

7.1 Welches Modell nimmt man nach vielen Resampling-Läufen?

Nach Resampling wurden viele Modelle trainiert und validiert. Diese Modelle dienen in erster Linie der Schätzung und Auswahl. Sobald die Modellklasse, Hyperparameter, Features und sonstigen Entscheidungen feststehen, wird das finale Modell möglichst auf dem gesamten Dev-Set trainiert. Dadurch gehen keine Validierungsdaten für das finale Training verloren.

  1. Testdaten zu Beginn abtrennen.
  2. Resampling nur auf dem Dev-Set durchführen.
  3. Mit Validierungsfehlern Modellentscheidungen treffen.
  4. Finales Modell mit der gewählten Konfiguration auf dem gesamten Dev-Set trainieren.
  5. Einmalig auf dem Testdatensatz auswerten.

7.2 Unsicherheit des Testfehlers

Auch die finale Testauswertung ist nur eine Beobachtung des Fehlers. Die Vorlesung nennt erneutes Resampling von Dev/Test-Splits als unüblich, kompliziert und aufwendig. Praktischer ist häufig ein Bootstrap des Testdatensatzes zur Streuung des Fehlers, wobei nur die Testfehlerwerte resampled werden; das Modell wird dabei nicht neu trainiert.

7.3 Datenstruktur beachten

Resampling darf die Datenstruktur nicht zerstören. Bei Zeitreihen ist zufälliges Ziehen einzelner Beobachtungen oft falsch, weil zeitliche Abhängigkeiten verloren gehen und Zukunftsinformation in die Vergangenheit gelangen kann. Dann braucht man zeitbasierte Splits oder blockweises Ziehen.

Take-home-Message: Hold-out, Cross-Validation und Bootstrap können alle sinnvoll sein. Wichtiger als die konkrete Methode ist, überhaupt eine geeignete Methode zu verwenden und sie ohne Datenleckage auf den gesamten Modellierungsprozess anzuwenden.

8. Auto-Daten-Beispiel: Hold-out, CV und Bootstrap

8.1 Fragestellung und Metrik

Im Zusatzbeispiel wird untersucht, welcher Polynomgrad d ∈ {1, 2, 3, 4, 5, 6, 7} für ein lineares polynomielles Modell der Auto-Daten geeignet ist. Modelliert wird mpg über weight, acceleration und year. Das Skript trennt zunächst Testdaten und Dev-Set und bewertet dann für jeden Polynomgrad Trainings-, Validierungs- und Testfehler.

RMSE als Regressionsfehler RMSE = √( 1 / m · ∑i=1mi - yi)2 )

Variablen: m ist die Anzahl der bewerteten Beobachtungen. ŷi ist die Vorhersage für Beobachtung i. yi ist der echte Zielwert. Ein kleinerer RMSE bedeutet bessere Vorhersagen in der Einheit der Zielvariable.

8.2 Hold-out im Auto-Beispiel

Für jeden Polynomgrad werden wiederholt zufällige Trainings- und Validierungssplits aus dem Dev-Set erzeugt. Die Ergebnisse zeigen hohe Streuung in Trainings- und Validierungsfehlern. Der Validierungsfehler überschätzt den Testfehler besonders bei größeren Polynomgraden.

Folie 47: Hold-out, alle Iterationen
Folie 47: Hold-out über alle Iterationen. Die Streuung ist stark sichtbar.
Folie 48: Hold-out, Median
Folie 48: Median-Darstellung für Hold-out. Validierungsfehler liegt im Beispiel eher pessimistisch.

8.3 Cross-Validation im Auto-Beispiel

Mit k = 20 wird jeder Fold einmal als Validierung verwendet. Die Varianz des Validierungsfehlers ist deutlich geringer als bei Hold-out. In diesem Beispiel unterschätzt der Validierungsfehler den Testfehler.

Folie 52: Cross-Validation, alle Iterationen
Folie 52: Cross-Validation über alle Folds. Die Validierungsstreuung ist kleiner als bei Hold-out.
Folie 53: Cross-Validation, Median
Folie 53: Median-Darstellung für Cross-Validation. Im Beispiel wird der Testfehler unterschätzt.

8.4 Bootstrap im Auto-Beispiel

Beim Bootstrap werden für jeden Polynomgrad Trainingsdaten mit Zurücklegen gezogen. Die nicht gezogenen Beobachtungen dienen als Validierungsdaten. Im Beispiel überschätzt Bootstrap den Testfehler, aber weniger stark als Hold-out, und die Varianz ist geringer als bei Hold-out. Insgesamt liegt Bootstrap hier zwischen Hold-out und Cross-Validation.

Folie 57: Bootstrap, alle Iterationen
Folie 57: Bootstrap über alle Iterationen. Die Variation ist geringer als bei Hold-out, aber nicht identisch zu CV.
Folie 58: Bootstrap, Median
Folie 58: Median-Darstellung für Bootstrap. Die Ergebnisse liegen im Beispiel zwischen Hold-out und CV.

8.5 Diagrammdeutung für die Klausur

9. Methodenvergleich

Methode Prinzip Typische Stärke Typische Schwäche Klausurmerksatz
Hold-out Zufälliger Split des Dev-Sets in Training und Validierung, optional mehrfach wiederholt. Einfach, schnell, transparent. Hohe Split-Abhängigkeit; Training auf kleinerem Datensatz. Validierungsfehler kann pessimistisch sein, weil das Modell weniger Trainingsdaten sieht.
K-fold CV Dev-Set in k Folds teilen; jeder Fold validiert einmal. Gute Datennutzung und oft stabiler als einfacher Hold-out. Mehr Rechenaufwand; Wahl von k beeinflusst Bias und Varianz. k = 5 bis k = 10 ist häufig ein brauchbarer Kompromiss.
LOOCV Spezialfall k = ndev, eine Beobachtung pro Validierungsfold. Maximale Trainingsgröße pro Fold. Teuer; Fold-Fehler stark korreliert; hohe Varianz möglich. Nicht automatisch besser als 5- oder 10-fold CV.
Bootstrap Mit Zurücklegen Trainingsstichproben der Größe ndev ziehen; OOB validieren. Gute Methode zur Unsicherheitsschätzung; Grundlage für Ensembles. Duplikate und variable OOB-Mengen erschweren Interpretation. Eine Beobachtung fehlt pro Bootstrap-Stichprobe mit Wahrscheinlichkeit etwa 36,8 %.

10. Typische Klausuraufgaben und Rechenwege

10.1 K-fold-Fehler berechnen

Aufgabe: Fünf gleich große Folds liefern Fehler 0,22; 0,18; 0,25; 0,20; 0,15. Berechne den CV-Fehler.

Rechenweg: CV5 = (0,22 + 0,18 + 0,25 + 0,20 + 0,15) / 5 = 0,20. Bei ungleich großen Folds müsste nach Fold-Größe gewichtet werden.

10.2 Trainingsanteil bei K-fold bestimmen

Aufgabe: Wie groß ist der Trainingsanteil bei k = 10?

Rechenweg: Pro Fold wird ein Zehntel validiert und neun Zehntel trainiert. Der Trainingsanteil beträgt (k - 1) / k = 9 / 10 = 90 %.

10.3 Bootstrap-Out-of-Bag-Anteil erklären

Aufgabe: Warum bleiben bei Bootstrap ungefähr 36,8 % der Beobachtungen pro Ziehung out-of-bag?

Rechenweg: Eine bestimmte Beobachtung wird in einem Zug mit Wahrscheinlichkeit 1 / ndev gewählt. Sie wird in einem Zug nicht gewählt mit 1 - 1 / ndev. Bei ndev unabhängigen Ziehungen mit Zurücklegen ergibt sich (1 - 1 / ndev)ndev ≈ e-1 ≈ 0,368.

10.4 Datenleckage identifizieren

Aufgabe: Ein Team skaliert alle Features, wählt die 50 wichtigsten Features auf dem gesamten Datensatz und führt danach Cross-Validation aus. Was ist falsch?

Lösung: Skalierung und Feature Selection wurden vor der Fold-Trennung auf allen Daten gelernt. Damit haben Validierungsdaten den Trainingsprozess beeinflusst. Korrekt ist, Skalierung und Feature Selection in jedem Fold ausschließlich auf dem Trainingsanteil zu fitten und danach auf die Validierung anzuwenden.

10.5 Geeignete Methode begründen

Aufgabe: Wenige Datenpunkte, komplexes Modell, hoher Trainingsaufwand. Welche Validierung ist plausibel?

Antwort: Ein kleineres k, etwa 5-fold CV, kann plausibel sein, weil LOOCV sehr teuer ist und hohe Varianz haben kann. Zusätzlich sollte man über wiederholte CV, stabile Metriken und einfache Modellvarianten nachdenken. Bei Zeitreihen wäre zufällige CV ungeeignet; dann braucht man zeitbasierte oder blockweise Splits.

11. Häufige Fehler und Prüfungsfallen

12. Kompakte Lerncheckliste

  • Ich kann Trainingsfehler, Validierungsfehler und Testfehler sauber unterscheiden.
  • Ich kann erklären, warum Testdaten erst am Ende verwendet werden dürfen.
  • Ich kann Hold-out Validation als Algorithmus beschreiben und ihre Nachteile nennen.
  • Ich kann die K-fold-CV-Formel lesen und für einfache Fold-Fehler ausrechnen.
  • Ich kann den Bias-Variance-Tradeoff bei der Wahl von k erklären.
  • Ich kann LOOCV als Spezialfall k = ndev einordnen.
  • Ich kann Bootstrap mit Ziehen mit Zurücklegen erklären und den OOB-Anteil herleiten.
  • Ich erkenne Datenleckage bei Feature Selection, Skalierung, Imputation und Hyperparameterwahl.
  • Ich weiß, dass der finale Modellfit nach der Auswahl auf dem gesamten Dev-Set erfolgt.
  • Ich kann die Auto-Daten-Plots qualitativ deuten: Streuung, Über-/Unterschätzung, Modellkomplexität.

13. Mögliche Klausurfragen

  1. Warum darf der Testdatensatz nicht zur Modellauswahl verwendet werden?
  2. Erklären Sie den Unterschied zwischen Trainingsfehler, Validierungsfehler und Testfehler.
  3. Beschreiben Sie Hold-out Validation und nennen Sie zwei Nachteile.
  4. Leiten Sie den Trainingsanteil in K-fold Cross-Validation her.
  5. Berechnen Sie aus gegebenen Fold-Fehlern den Cross-Validation-Fehler.
  6. Warum ist k = 5 bis k = 10 oft ein guter Kompromiss?
  7. Was ist LOOCV, und warum kann es trotz großer Trainingssets hohe Varianz haben?
  8. Erklären Sie Bootstrap mit Zurücklegen und Out-of-Bag-Validierung.
  9. Warum fehlen in einer Bootstrap-Stichprobe im Mittel etwa 36,8 % der Beobachtungen?
  10. Ein Modell zeigt nach Feature Selection vor der Cross-Validation sehr hohe Accuracy auf Zufallsdaten. Erklären Sie den Fehler.
  11. Wie muss Feature Selection korrekt in eine Cross-Validation eingebettet werden?
  12. Was passiert nach der Resampling-basierten Modellwahl mit dem finalen Modell?
  13. Warum ist zufällige Cross-Validation bei Zeitreihen problematisch?
  14. Deuten Sie einen Plot, in dem der Trainingsfehler sinkt, der Validierungsfehler aber steigt.
  15. Vergleichen Sie Hold-out, K-fold CV und Bootstrap anhand von Bias, Varianz und Rechenaufwand.

14. Folien-/Kapitel-Abdeckung

Die Tabelle nutzt die PDF-Seitennummern als Foliennummern. Inhaltliche Titelfolien und Übergangsfolien sind als abgedeckt markiert, wenn ihr Kontext im entsprechenden Abschnitt verarbeitet wurde.

Folie/Kapitel Inhalt In Zusammenfassung enthalten? Wo behandelt?
1Titel: Validation and ResamplingJaTitel und Abschnitt 1
2Warum Resampling?JaAbschnitt 1 und 2
3Trainingsfehler vs. TestfehlerJaAbschnitt 2.1
4Trainings- versus TestperformanceJaAbbildung in Abschnitt 2.1
5Auswertung nur mit TestdatenJaAbschnitt 2.2
6Entscheidungen auf Grundlage von TestdatenJaAbschnitt 2.2 und Prüfungsfalle in 2.3
7Daten in Training, Validierung, Test teilenJaAbschnitt 2.3
8Varianz messenJaAbschnitt 2.4
9Mehrere ValidierungsdatensätzeJaAbschnitt 2.4
10Terminologie: Testdaten, Dev-Set, Training, ValidierungJaAbschnitt 2.3
11Kapitelstart Hold-out ValidationJaAbschnitt 3
12Hold-out-IdeeJaAbschnitt 3.1
13Hold-out-Ablauf und AggregationJaAbschnitt 3.1 bis 3.2
14Hold-out-Prozess illustriertJaAbbildung in Abschnitt 3.1
15Nachteile von Hold-outJaAbschnitt 3.4
16Kapitelstart K-fold Cross-ValidationJaAbschnitt 4
17K-fold-CV-AblaufJaAbschnitt 4.1 bis 4.2
185-fold CV illustriertJaAbbildung in Abschnitt 4.1
19Leave-One-Out CVJaAbschnitt 4.4
20LOOCV illustriertJaAbbildung in Abschnitt 4.4
21Probleme bei K-fold CVJaAbschnitt 4.3
22Praktische Wahl von kJaAbschnitt 4.5
23Kapitelstart BootstrapJaAbschnitt 5
24Bootstrap-Eigenschaften und VerwendungenJaAbschnitt 5.1 bis 5.3
25Namensherkunft BootstrapJaAbschnitt 5.1
26Bootstrap-Motivation und ProzessJaAbschnitt 5.2
27Bootstrap-Illustration mit drei PunktenJaAbbildung in Abschnitt 5.1
28Übergang: richtige und falsche AnwendungJaAbschnitt 6
29Falsche Validierung bei Feature SelectionJaAbschnitt 6.1
30Zufallsdaten-CodeJaAbschnitt 6.1 bis 6.2
31Random-Forest-Ausgabe mit scheinbar hoher AccuracyJaAbschnitt 6.1 und 6.5
32Diagnose der falschen BewertungJaAbschnitt 6.2
33Bioinformatik-Beispiel und Selection BiasJaAbschnitt 6.4
34Warum der Fehler häufig passiertJaAbschnitt 6.2 bis 6.3
35Falscher und richtiger WegJaAbbildung und Abschnitt 6.3
36Gesamtprozess nach ResamplingJaAbschnitt 7.1 bis 7.2
37Take-Home-MessageJaAbschnitt 7.3 und 11
38Fragen-FolieJaKeine zusätzliche Fachinformation; Kontext in Abschnitt 7 abgeschlossen
39Lab-StartJaAbschnitt 6.5 und 10
40Lab-Code: falsche Anwendung reproduzierenJaAbschnitt 6.1 bis 6.5
41Lab-Ausgabe: Accuracy und ModellwahlJaAbschnitt 6.1 und 6.5
42Lab Task: zeigen, dass das Modell schlecht istJaAbschnitt 6.5 und 10.4
43Zusatzfolien Auto-Daten, Hold-outJaAbschnitt 8
44Auto-Daten-Fragestellung und PolynomgradJaAbschnitt 8.1
45Auto-Daten laden und aufteilenJaAbschnitt 8.1
46Auto-Modellierung mit Hold-outJaAbschnitt 8.2
47Hold-out-Plot, alle IterationenJaAbbildung in Abschnitt 8.2
48Hold-out-Plot, MedianJaAbbildung in Abschnitt 8.2
49Hold-out-SchlussfolgerungenJaAbschnitt 8.2
50Übergang zu Cross-ValidationJaAbschnitt 8.3
51Auto-Daten mit Cross-ValidationJaAbschnitt 8.3
52CV-Plot, alle IterationenJaAbbildung in Abschnitt 8.3
53CV-Plot, MedianJaAbbildung in Abschnitt 8.3
54CV-SchlussfolgerungenJaAbschnitt 8.3
55Übergang zu BootstrapJaAbschnitt 8.4
56Auto-Daten mit BootstrapJaAbschnitt 8.4
57Bootstrap-Plot, alle IterationenJaAbbildung in Abschnitt 8.4
58Bootstrap-Plot, MedianJaAbbildung in Abschnitt 8.4
59Bootstrap-SchlussfolgerungenJaAbschnitt 8.4