Klausurzusammenfassung: Validation and Resampling
Vorlesungsskript 50_Ch.5, KI und ML: Supervised Learning
1. Überblick und klausurrelevanter Kern
Resampling-Methoden sind Verfahren, mit denen aus vorhandenen Daten mehrere Trainings- und Validierungssituationen erzeugt werden. Das Ziel ist nicht, magisch mehr unabhängige Daten zu erzeugen, sondern die Modellgüte robuster einzuschätzen und Entscheidungen wie Modellauswahl, Feature Selection oder Hyperparameterwahl ohne Blick auf den finalen Testdatensatz zu treffen.
Gliederung
2. Motivation, Fehlerbegriffe und Datenaufteilung
2.1 Trainingsfehler, Validierungsfehler und Testfehler
Der Trainingsfehler misst, wie gut ein Modell die Daten vorhersagt, auf denen es angepasst wurde. Er ist nützlich, um den Trainingsprozess zu beobachten, aber er ist keine verlässliche Aussage über neue Daten. Ein sehr kleiner Trainingsfehler kann durch Overfitting entstehen: Das Modell hat Muster oder Rauschen der Trainingsdaten gelernt, die außerhalb dieser Daten nicht stabil sind.
Der Testfehler schätzt die Leistung auf neuen, ungesehenen Daten. Er soll erst am Ende verwendet werden, wenn Modellklasse, Features, Hyperparameter und sonstige Entscheidungen feststehen. Sobald der Testdatensatz zur Auswahl oder Optimierung genutzt wird, ist er kein neutraler Test mehr.
Der Validierungsfehler ist die Vorabschätzung des Testfehlers innerhalb des Entwicklungsprozesses. Er darf für Entscheidungen verwendet werden, weil er nicht der finale Test ist. Er ist aber ebenfalls nur eine Schätzung und kann je nach Split stark schwanken.
Variablen: D ist der betrachtete Datensatz, zum Beispiel Training, Validierung oder Test. |D| ist die Anzahl der Beobachtungen in D. xi sind die Eingabemerkmale der Beobachtung i. yi ist das echte Label oder der echte Zielwert. f̂ ist das trainierte Modell. L ist die Verlustfunktion, zum Beispiel 0/1-Fehler bei Klassifikation oder quadratischer Fehler bei Regression.
2.2 Warum nicht nur Train/Test?
Eine einfache Zweiteilung in Training und Test ist nur dann sauber, wenn der Testdatensatz ausschließlich für die finale Bewertung genutzt wird. In realen Modellierungsprozessen müssen aber Entscheidungen getroffen werden: Welche Features werden genutzt? Welche Modellklasse? Welche Hyperparameter? Welcher Polynomgrad? Diese Entscheidungen dürfen nicht am Testdatensatz optimiert werden.
Ein zweites Problem ist die Unsicherheit der Bewertung: Ein einzelner Testdatensatz liefert nur eine einzige Beobachtung des Fehlers. Man sieht nicht, wie stark die Bewertung schwanken würde, wenn die Daten geringfügig anders gezogen worden wären.
2.3 Saubere Rollen: Training, Validierung, Test
| Datenteil | Rolle | Darf für Entscheidungen genutzt werden? |
|---|---|---|
| Trainingsdaten | Modellparameter lernen. | Ja, sie sind Teil des Trainings. |
| Validierungsdaten | Modellvarianten vergleichen, Hyperparameter wählen, Feature Selection bewerten. | Ja, aber nur innerhalb des Entwicklungsprozesses. |
| Testdaten | Finale, möglichst unverzerrte Bewertung des endgültigen Modells. | Nein. Testdaten werden erst nach allen Entscheidungen verwendet. |
Die Vorlesung nennt die nicht als Testdaten abgetrennten Daten Dev-Set oder Entwicklungsdaten. Das Dev-Set wird je nach Resampling-Verfahren wiederholt in Trainings- und Validierungsanteile zerlegt. Die Begriffe sind in der Literatur nicht einheitlich; für die Klausur ist entscheidend, die Rollen sauber zu trennen.
2.4 Varianz der Fehlerschätzung
Eine einzelne Validierung kann zufällig günstig oder ungünstig sein. Resampling erzeugt mehrere Validierungsbeobachtungen, sodass neben dem durchschnittlichen Fehler auch seine Streuung sichtbar wird. Das ist wichtig, um robuste Modelle zu erkennen: Zwei Modelle mit fast gleichem mittlerem Fehler können sich stark darin unterscheiden, wie stabil dieser Fehler über verschiedene Splits ist.
3. Hold-out Validation
3.1 Idee und Ablauf
Bei Hold-out Validation wird das Dev-Set zufällig in Trainingsdaten und Validierungsdaten geteilt. Das Modell wird auf dem Trainingsanteil angepasst und anschließend auf dem Validierungsanteil bewertet. Um die Abhängigkeit von einem einzelnen Split zu verringern, kann der Vorgang mehrfach mit verschiedenen zufälligen Splits wiederholt werden.
- Testdaten zuerst abtrennen und nicht verwenden.
- Dev-Set zufällig in Trainings- und Validierungsteil splitten.
- Modell nur auf dem Trainingssplit trainieren.
- Fehler auf dem Validierungssplit berechnen.
- Mehrfach wiederholen und Mittelwert sowie Streuung auswerten.
3.2 Formeln
Variablen: B ist die Anzahl der Wiederholungen. V(b) ist der Validierungsteil im Split b. f̂(b) ist das Modell, das im Split b nur auf den zugehörigen Trainingsdaten gelernt wurde.
3.3 Vorteile
- Einfach zu verstehen und leicht zu implementieren.
- Rechenaufwand ist überschaubar, besonders bei wenigen Wiederholungen.
- Gut geeignet als schneller erster Plausibilitätscheck.
3.4 Nachteile
- Die Fehlerschätzung kann stark vom zufälligen Split abhängen.
- Ein Teil des Dev-Sets wird nicht zum Training genutzt; dadurch ist das Modell schwächer als ein späteres Modell, das auf dem gesamten Dev-Set trainiert wird.
- Der Validierungsfehler neigt deshalb zur Überschätzung des späteren Testfehlers des finalen Modells.
- Bei kleinen Datensätzen ist die Streuung besonders problematisch.
4. K-fold Cross-Validation und LOOCV
4.1 Grundidee
Bei K-fold Cross-Validation wird das Dev-Set zufällig in k nicht überlappende, möglichst gleich große Teilmengen zerlegt. Jede Teilmenge ist genau einmal Validierungsfold; alle übrigen Teilmengen bilden in dieser Runde die Trainingsdaten. Am Ende werden die k Fehlerschätzungen aggregiert.
4.2 Formel für den Cross-Validation-Fehler
Variablen: ndev ist die Anzahl der Beobachtungen im Dev-Set. Fj ist der Fold j. f̂(-j) ist das Modell, das ohne Fold j trainiert wurde. Bei exakt gleich großen Folds entspricht die Formel dem einfachen Mittel der Fold-Fehler.
4.3 Bias-Variance-Tradeoff bei k
Jedes Trainingsset in K-fold Cross-Validation enthält den Anteil (k - 1) / k des Dev-Sets. Ein kleines k bedeutet kleinere Trainingssets und tendenziell pessimistischere Fehler, aber größere Validierungssets und oft stabilere Fold-Fehler. Ein großes k bedeutet größere Trainingssets und weniger Bias, aber kleinere Validierungssets und stärker korrelierte Modellschätzungen.
| Wenn k steigt | Effekt | Interpretation |
|---|---|---|
| Trainingsanteil steigt | Bias der Fehlerschätzung sinkt häufig. | Das validierte Modell ähnelt stärker dem finalen Modell auf dem gesamten Dev-Set. |
| Validierungsanteil pro Fold sinkt | Varianz der einzelnen Fehlerschätzungen steigt. | Jeder Fold liefert weniger Information. |
| Trainingssets ähneln sich stärker | Fold-Fehler sind stärker korreliert. | Mehr Folds bedeuten nicht automatisch eine beliebig präzise Schätzung. |
4.4 Leave-One-Out Cross-Validation
Leave-One-Out Cross-Validation ist der Spezialfall k = ndev. Jeder Fold enthält genau eine Beobachtung, und es müssen grundsätzlich ndev Modelle trainiert werden. Für manche Modelle existieren mathematische Abkürzungen, aber konzeptionell ist LOOCV teuer.
Variablen: f̂(-i) ist das Modell, das auf allen Dev-Beobachtungen außer Beobachtung i trainiert wurde.
LOOCV kann nützlich sein, wenn extrem wenige Daten vorhanden sind. Es ist aber nicht automatisch besser: Die Trainingsmengen variieren kaum, und die Fehlerschätzungen können dadurch stark korreliert sein. Die Vorlesung betont deshalb die hohe Varianz als wichtiges Problem.
4.5 Praktische Wahl von k
Werte im Bereich k = 5 bis k = 10 sind häufig ein guter Kompromiss. Bei Millionen Datenpunkten und einfachen Modellen kann ein deutlich größeres k sinnvoll sein. Bei sehr wenigen Datenpunkten und komplexen Modellen kann sogar k = 5 bereits zu groß sein.
5. Bootstrap
5.1 Idee
Bootstrap ist eine Alternative zu Hold-out und K-fold Cross-Validation. Aus dem Dev-Set wird mit Zurücklegen eine Trainingsmenge gezogen, bis sie wieder die Größe des Dev-Sets hat. Einzelne Beobachtungen können mehrfach vorkommen, andere gar nicht. Die nicht gezogenen Beobachtungen können als Validierungsdaten verwendet werden.
Der Name meint im statistischen Kontext sinngemäß, dass man aus den vorhandenen Daten selbst eine Schätzung der Unsicherheit gewinnt. Das ist nicht dasselbe wie das Booten eines Computersystems.
5.2 Bootstrap-Prozess
- Testdaten abtrennen und unangetastet lassen.
- Aus dem Dev-Set mit Zurücklegen ndev Beobachtungen ziehen.
- Modell auf dieser Bootstrap-Trainingsmenge trainieren.
- Nicht gezogene Beobachtungen als Validierungs- oder Out-of-Bag-Daten auswerten.
- Den Prozess B-mal wiederholen und die Fehlerschätzungen aggregieren.
Variablen: ndev ist die Größe des Dev-Sets. Für große ndev bleiben im Mittel etwa 36,8 % der Beobachtungen out-of-bag; etwa 63,2 % erscheinen mindestens einmal in der Bootstrap-Trainingsmenge.
Einfacher Bootstrap-Validierungsfehler Errorboot = 1 / B · ∑b=1B ErrorOOB(b)Variablen: B ist die Anzahl der Bootstrap-Wiederholungen. ErrorOOB(b) ist der Fehler auf den in Wiederholung b nicht gezogenen Beobachtungen.
5.3 Eigenschaften
- Trainingsmengen haben formal dieselbe Größe wie das Dev-Set, enthalten aber Duplikate.
- Validierungsdaten entstehen als nicht gezogene Beobachtungen und sind deshalb je Wiederholung unterschiedlich groß.
- Bootstrap wird nicht nur zur Modellvalidierung genutzt, sondern auch zur Schätzung von Unsicherheit statistischer Kennzahlen und in Ensemble-Methoden wie Bagging oder Random Forests.
- Im Auto-Beispiel liegt Bootstrap hinsichtlich Bias und Varianz zwischen Hold-out und Cross-Validation.
6. Falsche Validierung und Datenleckage
6.1 Das Beispiel aus der Vorlesung
Das Skript zeigt ein binäres Klassifikationsproblem mit 100 Datenpunkten und 5000 Features. Die Klassenlabels werden zufällig erzeugt. Es gibt also keinen echten Zusammenhang zwischen Features und Klasse. Trotzdem wird zuerst über alle Daten die Korrelation jedes Features mit dem Label berechnet, dann werden die 100 am stärksten korrelierten Features ausgewählt, und erst danach wird 5-fold Cross-Validation mit Random Forest durchgeführt.
Das Ergebnis wirkt spektakulär gut: Die Validierung meldet ungefähr 97 % Accuracy. Das ist offensichtlich falsch, weil rein zufällige Daten keine stabile Vorhersage erlauben. Die Ursache ist Datenleckage.
6.2 Warum ist das falsch?
Die Feature Selection hat bereits alle Labels gesehen, auch die späteren Validierungslabels. Damit steckt Information aus den Validierungsdaten in der Feature-Auswahl. Die Cross-Validation validiert nur den Modellfit nach der Feature-Auswahl, aber nicht den gesamten Modellierungsprozess.
6.3 Der richtige Weg
Für jeden Fold muss die Feature-Auswahl ausschließlich auf den Trainingsdaten dieses Folds durchgeführt werden. Danach wird dieselbe ausgewählte Feature-Menge auf die Validierungsdaten angewendet. Erst dann wird der Fold-Fehler berechnet.
Für jeden Fold:
1. Trainings- und Validierungsteil festlegen.
2. Feature Selection nur auf dem Trainingsteil fitten.
3. Modell nur mit diesen Trainingsfeatures fitten.
4. Genau diese Feature-Auswahl auf den Validierungsteil anwenden.
5. Validierungsfehler berechnen.
In der Praxis sollte man dafür Pipelines oder Workflow-Objekte verwenden, die Vorverarbeitung und Modelltraining gemeinsam resamplen. Die Vorlesung warnt ausdrücklich, dass komfortable Softwarefunktionen zu falscher Reihenfolge verleiten können.
6.4 Nicht nur künstliche Daten
Das Problem tritt besonders häufig bei hochdimensionalen Daten auf, etwa in Genexpressions- oder Microarray-Analysen. Die Folien nennen Ambroise und McLachlan (2002) als Beispiel für Selection Bias bei der Genextraktion. Der zentrale Punkt für die Klausur ist nicht die konkrete Studie, sondern das Muster: Je mehr Features geprüft werden, desto wahrscheinlicher findet man zufällige Scheinkorrelationen.
6.5 Lab-Aufgabe aus dem Skript
Die Lab-Aufgabe fordert, experimentell zu zeigen, dass das scheinbar sehr gute Modell in Wirklichkeit schlecht ist. Eine saubere Lösung wäre: Einen frischen Testdatensatz mit demselben Zufallsmechanismus erzeugen oder den kompletten Prozess korrekt innerhalb der Cross-Validation wiederholen. Erwartet wird dann ungefähr Zufallsniveau, also bei balancierter binärer Klassifikation etwa 50 % Accuracy.
7. Gesamtprozess nach dem Resampling
7.1 Welches Modell nimmt man nach vielen Resampling-Läufen?
Nach Resampling wurden viele Modelle trainiert und validiert. Diese Modelle dienen in erster Linie der Schätzung und Auswahl. Sobald die Modellklasse, Hyperparameter, Features und sonstigen Entscheidungen feststehen, wird das finale Modell möglichst auf dem gesamten Dev-Set trainiert. Dadurch gehen keine Validierungsdaten für das finale Training verloren.
- Testdaten zu Beginn abtrennen.
- Resampling nur auf dem Dev-Set durchführen.
- Mit Validierungsfehlern Modellentscheidungen treffen.
- Finales Modell mit der gewählten Konfiguration auf dem gesamten Dev-Set trainieren.
- Einmalig auf dem Testdatensatz auswerten.
7.2 Unsicherheit des Testfehlers
Auch die finale Testauswertung ist nur eine Beobachtung des Fehlers. Die Vorlesung nennt erneutes Resampling von Dev/Test-Splits als unüblich, kompliziert und aufwendig. Praktischer ist häufig ein Bootstrap des Testdatensatzes zur Streuung des Fehlers, wobei nur die Testfehlerwerte resampled werden; das Modell wird dabei nicht neu trainiert.
7.3 Datenstruktur beachten
Resampling darf die Datenstruktur nicht zerstören. Bei Zeitreihen ist zufälliges Ziehen einzelner Beobachtungen oft falsch, weil zeitliche Abhängigkeiten verloren gehen und Zukunftsinformation in die Vergangenheit gelangen kann. Dann braucht man zeitbasierte Splits oder blockweises Ziehen.
8. Auto-Daten-Beispiel: Hold-out, CV und Bootstrap
8.1 Fragestellung und Metrik
Im Zusatzbeispiel wird untersucht, welcher Polynomgrad d ∈ {1, 2, 3, 4, 5, 6, 7} für ein lineares polynomielles Modell der Auto-Daten geeignet ist. Modelliert wird mpg über weight, acceleration und year. Das Skript trennt zunächst Testdaten und Dev-Set und bewertet dann für jeden Polynomgrad Trainings-, Validierungs- und Testfehler.
Variablen: m ist die Anzahl der bewerteten Beobachtungen. ŷi ist die Vorhersage für Beobachtung i. yi ist der echte Zielwert. Ein kleinerer RMSE bedeutet bessere Vorhersagen in der Einheit der Zielvariable.
8.2 Hold-out im Auto-Beispiel
Für jeden Polynomgrad werden wiederholt zufällige Trainings- und Validierungssplits aus dem Dev-Set erzeugt. Die Ergebnisse zeigen hohe Streuung in Trainings- und Validierungsfehlern. Der Validierungsfehler überschätzt den Testfehler besonders bei größeren Polynomgraden.
8.3 Cross-Validation im Auto-Beispiel
Mit k = 20 wird jeder Fold einmal als Validierung verwendet. Die Varianz des Validierungsfehlers ist deutlich geringer als bei Hold-out. In diesem Beispiel unterschätzt der Validierungsfehler den Testfehler.
8.4 Bootstrap im Auto-Beispiel
Beim Bootstrap werden für jeden Polynomgrad Trainingsdaten mit Zurücklegen gezogen. Die nicht gezogenen Beobachtungen dienen als Validierungsdaten. Im Beispiel überschätzt Bootstrap den Testfehler, aber weniger stark als Hold-out, und die Varianz ist geringer als bei Hold-out. Insgesamt liegt Bootstrap hier zwischen Hold-out und Cross-Validation.
8.5 Diagrammdeutung für die Klausur
- Trainingsfehler sinkt bei flexibleren Modellen oft, ist aber kein Beweis für gute Generalisierung.
- Große Streuung der Validierungsfehler bedeutet unsichere Modellwahl.
- Der Vergleich von Validierungs- und Testfehler zeigt, ob die Validierung in diesem Beispiel pessimistisch oder optimistisch war.
- Die beste Modellkomplexität sollte nicht nur nach minimalem Validierungsfehler, sondern auch nach Stabilität und Plausibilität beurteilt werden.
9. Methodenvergleich
| Methode | Prinzip | Typische Stärke | Typische Schwäche | Klausurmerksatz |
|---|---|---|---|---|
| Hold-out | Zufälliger Split des Dev-Sets in Training und Validierung, optional mehrfach wiederholt. | Einfach, schnell, transparent. | Hohe Split-Abhängigkeit; Training auf kleinerem Datensatz. | Validierungsfehler kann pessimistisch sein, weil das Modell weniger Trainingsdaten sieht. |
| K-fold CV | Dev-Set in k Folds teilen; jeder Fold validiert einmal. | Gute Datennutzung und oft stabiler als einfacher Hold-out. | Mehr Rechenaufwand; Wahl von k beeinflusst Bias und Varianz. | k = 5 bis k = 10 ist häufig ein brauchbarer Kompromiss. |
| LOOCV | Spezialfall k = ndev, eine Beobachtung pro Validierungsfold. | Maximale Trainingsgröße pro Fold. | Teuer; Fold-Fehler stark korreliert; hohe Varianz möglich. | Nicht automatisch besser als 5- oder 10-fold CV. |
| Bootstrap | Mit Zurücklegen Trainingsstichproben der Größe ndev ziehen; OOB validieren. | Gute Methode zur Unsicherheitsschätzung; Grundlage für Ensembles. | Duplikate und variable OOB-Mengen erschweren Interpretation. | Eine Beobachtung fehlt pro Bootstrap-Stichprobe mit Wahrscheinlichkeit etwa 36,8 %. |
10. Typische Klausuraufgaben und Rechenwege
10.1 K-fold-Fehler berechnen
Aufgabe: Fünf gleich große Folds liefern Fehler 0,22; 0,18; 0,25; 0,20; 0,15. Berechne den CV-Fehler.
Rechenweg: CV5 = (0,22 + 0,18 + 0,25 + 0,20 + 0,15) / 5 = 0,20. Bei ungleich großen Folds müsste nach Fold-Größe gewichtet werden.
10.2 Trainingsanteil bei K-fold bestimmen
Aufgabe: Wie groß ist der Trainingsanteil bei k = 10?
Rechenweg: Pro Fold wird ein Zehntel validiert und neun Zehntel trainiert. Der Trainingsanteil beträgt (k - 1) / k = 9 / 10 = 90 %.
10.3 Bootstrap-Out-of-Bag-Anteil erklären
Aufgabe: Warum bleiben bei Bootstrap ungefähr 36,8 % der Beobachtungen pro Ziehung out-of-bag?
Rechenweg: Eine bestimmte Beobachtung wird in einem Zug mit Wahrscheinlichkeit 1 / ndev gewählt. Sie wird in einem Zug nicht gewählt mit 1 - 1 / ndev. Bei ndev unabhängigen Ziehungen mit Zurücklegen ergibt sich (1 - 1 / ndev)ndev ≈ e-1 ≈ 0,368.
10.4 Datenleckage identifizieren
Aufgabe: Ein Team skaliert alle Features, wählt die 50 wichtigsten Features auf dem gesamten Datensatz und führt danach Cross-Validation aus. Was ist falsch?
Lösung: Skalierung und Feature Selection wurden vor der Fold-Trennung auf allen Daten gelernt. Damit haben Validierungsdaten den Trainingsprozess beeinflusst. Korrekt ist, Skalierung und Feature Selection in jedem Fold ausschließlich auf dem Trainingsanteil zu fitten und danach auf die Validierung anzuwenden.
10.5 Geeignete Methode begründen
Aufgabe: Wenige Datenpunkte, komplexes Modell, hoher Trainingsaufwand. Welche Validierung ist plausibel?
Antwort: Ein kleineres k, etwa 5-fold CV, kann plausibel sein, weil LOOCV sehr teuer ist und hohe Varianz haben kann. Zusätzlich sollte man über wiederholte CV, stabile Metriken und einfache Modellvarianten nachdenken. Bei Zeitreihen wäre zufällige CV ungeeignet; dann braucht man zeitbasierte oder blockweise Splits.
11. Häufige Fehler und Prüfungsfallen
- Testdaten für Entscheidungen nutzen: macht den Testfehler optimistisch und nicht mehr final.
- Feature Selection vor Cross-Validation: erzeugt Datenleckage, besonders gefährlich bei vielen Features und wenigen Beobachtungen.
- Vorverarbeitung außerhalb der Folds fitten: auch Skalierung, Imputation und PCA müssen innerhalb des Trainingsanteils gelernt werden.
- Ein Fold-Modell als finales Modell nehmen: Nach der Auswahl wird das finale Modell auf dem gesamten Dev-Set trainiert.
- Fold-Fehler falsch mitteln: Ungleich große Folds brauchen Gewichtung.
- LOOCV pauschal als beste Methode darstellen: LOOCV hat oft hohe Varianz und hohen Rechenaufwand.
- Zeitreihen zufällig shuffeln: zerstört zeitliche Struktur und kann Zukunftsinformation leaken.
- Validierungsfehler als echten Testfehler verkaufen: Validierung ist eine Schätzung für Entscheidungen, nicht die finale Generalisierungsprüfung.
12. Kompakte Lerncheckliste
- Ich kann Trainingsfehler, Validierungsfehler und Testfehler sauber unterscheiden.
- Ich kann erklären, warum Testdaten erst am Ende verwendet werden dürfen.
- Ich kann Hold-out Validation als Algorithmus beschreiben und ihre Nachteile nennen.
- Ich kann die K-fold-CV-Formel lesen und für einfache Fold-Fehler ausrechnen.
- Ich kann den Bias-Variance-Tradeoff bei der Wahl von k erklären.
- Ich kann LOOCV als Spezialfall k = ndev einordnen.
- Ich kann Bootstrap mit Ziehen mit Zurücklegen erklären und den OOB-Anteil herleiten.
- Ich erkenne Datenleckage bei Feature Selection, Skalierung, Imputation und Hyperparameterwahl.
- Ich weiß, dass der finale Modellfit nach der Auswahl auf dem gesamten Dev-Set erfolgt.
- Ich kann die Auto-Daten-Plots qualitativ deuten: Streuung, Über-/Unterschätzung, Modellkomplexität.
13. Mögliche Klausurfragen
- Warum darf der Testdatensatz nicht zur Modellauswahl verwendet werden?
- Erklären Sie den Unterschied zwischen Trainingsfehler, Validierungsfehler und Testfehler.
- Beschreiben Sie Hold-out Validation und nennen Sie zwei Nachteile.
- Leiten Sie den Trainingsanteil in K-fold Cross-Validation her.
- Berechnen Sie aus gegebenen Fold-Fehlern den Cross-Validation-Fehler.
- Warum ist k = 5 bis k = 10 oft ein guter Kompromiss?
- Was ist LOOCV, und warum kann es trotz großer Trainingssets hohe Varianz haben?
- Erklären Sie Bootstrap mit Zurücklegen und Out-of-Bag-Validierung.
- Warum fehlen in einer Bootstrap-Stichprobe im Mittel etwa 36,8 % der Beobachtungen?
- Ein Modell zeigt nach Feature Selection vor der Cross-Validation sehr hohe Accuracy auf Zufallsdaten. Erklären Sie den Fehler.
- Wie muss Feature Selection korrekt in eine Cross-Validation eingebettet werden?
- Was passiert nach der Resampling-basierten Modellwahl mit dem finalen Modell?
- Warum ist zufällige Cross-Validation bei Zeitreihen problematisch?
- Deuten Sie einen Plot, in dem der Trainingsfehler sinkt, der Validierungsfehler aber steigt.
- Vergleichen Sie Hold-out, K-fold CV und Bootstrap anhand von Bias, Varianz und Rechenaufwand.
14. Folien-/Kapitel-Abdeckung
Die Tabelle nutzt die PDF-Seitennummern als Foliennummern. Inhaltliche Titelfolien und Übergangsfolien sind als abgedeckt markiert, wenn ihr Kontext im entsprechenden Abschnitt verarbeitet wurde.
| Folie/Kapitel | Inhalt | In Zusammenfassung enthalten? | Wo behandelt? |
|---|---|---|---|
| 1 | Titel: Validation and Resampling | Ja | Titel und Abschnitt 1 |
| 2 | Warum Resampling? | Ja | Abschnitt 1 und 2 |
| 3 | Trainingsfehler vs. Testfehler | Ja | Abschnitt 2.1 |
| 4 | Trainings- versus Testperformance | Ja | Abbildung in Abschnitt 2.1 |
| 5 | Auswertung nur mit Testdaten | Ja | Abschnitt 2.2 |
| 6 | Entscheidungen auf Grundlage von Testdaten | Ja | Abschnitt 2.2 und Prüfungsfalle in 2.3 |
| 7 | Daten in Training, Validierung, Test teilen | Ja | Abschnitt 2.3 |
| 8 | Varianz messen | Ja | Abschnitt 2.4 |
| 9 | Mehrere Validierungsdatensätze | Ja | Abschnitt 2.4 |
| 10 | Terminologie: Testdaten, Dev-Set, Training, Validierung | Ja | Abschnitt 2.3 |
| 11 | Kapitelstart Hold-out Validation | Ja | Abschnitt 3 |
| 12 | Hold-out-Idee | Ja | Abschnitt 3.1 |
| 13 | Hold-out-Ablauf und Aggregation | Ja | Abschnitt 3.1 bis 3.2 |
| 14 | Hold-out-Prozess illustriert | Ja | Abbildung in Abschnitt 3.1 |
| 15 | Nachteile von Hold-out | Ja | Abschnitt 3.4 |
| 16 | Kapitelstart K-fold Cross-Validation | Ja | Abschnitt 4 |
| 17 | K-fold-CV-Ablauf | Ja | Abschnitt 4.1 bis 4.2 |
| 18 | 5-fold CV illustriert | Ja | Abbildung in Abschnitt 4.1 |
| 19 | Leave-One-Out CV | Ja | Abschnitt 4.4 |
| 20 | LOOCV illustriert | Ja | Abbildung in Abschnitt 4.4 |
| 21 | Probleme bei K-fold CV | Ja | Abschnitt 4.3 |
| 22 | Praktische Wahl von k | Ja | Abschnitt 4.5 |
| 23 | Kapitelstart Bootstrap | Ja | Abschnitt 5 |
| 24 | Bootstrap-Eigenschaften und Verwendungen | Ja | Abschnitt 5.1 bis 5.3 |
| 25 | Namensherkunft Bootstrap | Ja | Abschnitt 5.1 |
| 26 | Bootstrap-Motivation und Prozess | Ja | Abschnitt 5.2 |
| 27 | Bootstrap-Illustration mit drei Punkten | Ja | Abbildung in Abschnitt 5.1 |
| 28 | Übergang: richtige und falsche Anwendung | Ja | Abschnitt 6 |
| 29 | Falsche Validierung bei Feature Selection | Ja | Abschnitt 6.1 |
| 30 | Zufallsdaten-Code | Ja | Abschnitt 6.1 bis 6.2 |
| 31 | Random-Forest-Ausgabe mit scheinbar hoher Accuracy | Ja | Abschnitt 6.1 und 6.5 |
| 32 | Diagnose der falschen Bewertung | Ja | Abschnitt 6.2 |
| 33 | Bioinformatik-Beispiel und Selection Bias | Ja | Abschnitt 6.4 |
| 34 | Warum der Fehler häufig passiert | Ja | Abschnitt 6.2 bis 6.3 |
| 35 | Falscher und richtiger Weg | Ja | Abbildung und Abschnitt 6.3 |
| 36 | Gesamtprozess nach Resampling | Ja | Abschnitt 7.1 bis 7.2 |
| 37 | Take-Home-Message | Ja | Abschnitt 7.3 und 11 |
| 38 | Fragen-Folie | Ja | Keine zusätzliche Fachinformation; Kontext in Abschnitt 7 abgeschlossen |
| 39 | Lab-Start | Ja | Abschnitt 6.5 und 10 |
| 40 | Lab-Code: falsche Anwendung reproduzieren | Ja | Abschnitt 6.1 bis 6.5 |
| 41 | Lab-Ausgabe: Accuracy und Modellwahl | Ja | Abschnitt 6.1 und 6.5 |
| 42 | Lab Task: zeigen, dass das Modell schlecht ist | Ja | Abschnitt 6.5 und 10.4 |
| 43 | Zusatzfolien Auto-Daten, Hold-out | Ja | Abschnitt 8 |
| 44 | Auto-Daten-Fragestellung und Polynomgrad | Ja | Abschnitt 8.1 |
| 45 | Auto-Daten laden und aufteilen | Ja | Abschnitt 8.1 |
| 46 | Auto-Modellierung mit Hold-out | Ja | Abschnitt 8.2 |
| 47 | Hold-out-Plot, alle Iterationen | Ja | Abbildung in Abschnitt 8.2 |
| 48 | Hold-out-Plot, Median | Ja | Abbildung in Abschnitt 8.2 |
| 49 | Hold-out-Schlussfolgerungen | Ja | Abschnitt 8.2 |
| 50 | Übergang zu Cross-Validation | Ja | Abschnitt 8.3 |
| 51 | Auto-Daten mit Cross-Validation | Ja | Abschnitt 8.3 |
| 52 | CV-Plot, alle Iterationen | Ja | Abbildung in Abschnitt 8.3 |
| 53 | CV-Plot, Median | Ja | Abbildung in Abschnitt 8.3 |
| 54 | CV-Schlussfolgerungen | Ja | Abschnitt 8.3 |
| 55 | Übergang zu Bootstrap | Ja | Abschnitt 8.4 |
| 56 | Auto-Daten mit Bootstrap | Ja | Abschnitt 8.4 |
| 57 | Bootstrap-Plot, alle Iterationen | Ja | Abbildung in Abschnitt 8.4 |
| 58 | Bootstrap-Plot, Median | Ja | Abbildung in Abschnitt 8.4 |
| 59 | Bootstrap-Schlussfolgerungen | Ja | Abschnitt 8.4 |