Klausurzusammenfassung: Trees, Ensembles
Vorlesungsskript 60_Ch.8, KI und ML: Supervised Learning
1. Überblick und klausurrelevanter Kern
Dieses Kapitel behandelt Baumverfahren für Regression und Klassifikation und zeigt danach, warum einzelne Entscheidungsbäume zwar gut interpretierbar, aber oft nicht sehr genau sind. Der prüfungsrelevante rote Faden lautet: Ein Baum zerlegt den Feature-Raum in einfache rechteckige Regionen. In jeder Region wird eine einfache Vorhersage gemacht. Ensemble-Methoden kombinieren viele Bäume, um die Vorhersagegenauigkeit zu erhöhen, verlieren dabei aber einen Teil der direkten Interpretierbarkeit.
Gliederung
2. Entscheidungsbäume für Regression
2.1 Grundidee: Segmentierung des Feature-Raums
Baumbasierte Methoden teilen den Feature-Raum in mehrere nicht überlappende Regionen auf. Bei den im Skript behandelten Standardbäumen entstehen diese Regionen durch wiederholte binäre Splits entlang einzelner Features. Dadurch sind die Regionen im mehrdimensionalen Raum Rechtecke beziehungsweise Boxen. Ein Baum ist also eine grafische Darstellung einer schrittweisen Wenn-dann-Regel.
2.2 Baseball-Beispiel: Regionsbildung
Im Baseball-Beispiel wird das Gehalt Salary mit den Features Years und Hits erklärt. Der Baum trennt zunächst bei Years < 4.5. Für erfahrenere Spieler wird anschließend bei Hits < 117.5 getrennt. Dadurch entstehen drei Regionen R1, R2 und R3.
Regionen im Feature-Raum der Baseballdaten
2.3 Baumbegriffe
Die Wurzel ist der Startknoten des Baums. Interne Knoten enthalten Split-Regeln, zum Beispiel Years < 4.5. Von dort führen Zweige zu weiteren Knoten oder zu Blättern. Blätter enthalten keine weiteren Splits, sondern die finale Vorhersage. Im Skript sind Years und Hits die internen Knoten, die drei Endregionen sind die Blätter.
Regressionsbaum für die Baseballdaten
2.4 Interpretation des Baseball-Baums
Der erste Split zeigt, dass Years in diesem Baum der wichtigste Faktor ist: weniger Erfahrung führt im Modell zu niedrigeren Gehältern. Für Spieler mit weniger als fünf Jahren Erfahrung wird Hits nicht weiter genutzt. Für erfahrene Spieler wird Hits relevant: Mehr Treffer im Vorjahr führen in der Baumlogik zu einer höheren Gehaltsvorhersage. Das ist bewusst stark vereinfacht, dafür aber sehr gut erklärbar.
2.5 Vorhersage eines numerischen Labels
Für Regression ist die Vorhersage in einem Blatt der Mittelwert der Trainingslabels in der entsprechenden Region. Ein neuer Datenpunkt wird durch die Split-Regeln geschickt, bis er in einem Blatt endet. Dort erhält er die Blattvorhersage.
Variablen: f̂(x) ist die Baumvorhersage für einen neuen Punkt x. Rj ist das Blatt beziehungsweise die Region, in die x fällt. ȳRj ist der Mittelwert der Trainingslabels im Blatt. |Rj| ist die Anzahl der Trainingsbeobachtungen in der Region.
3. Baumaufbau und Pruning
3.1 Zielgröße bei Regressionsbäumen: RSS
Ein Regressionsbaum soll Regionen finden, in denen die Zielwerte möglichst homogen sind. Für Regression wird dazu typischerweise die Residual Sum of Squares minimiert. Je kleiner der RSS, desto näher liegen die echten Trainingswerte an den Blattmittelwerten.
Variablen: J ist die Anzahl der Blätter. xi ist der Feature-Vektor der Beobachtung i. yi ist ihr echtes Label. Rj ist eine Blattregion. ȳRj ist der Mittelwert der Labels in dieser Region.
3.2 Recursive Binary Splitting
Die optimale globale Zerlegung des Feature-Raums wäre rechnerisch zu teuer, weil sehr viele mögliche Split-Kombinationen geprüft werden müssten. Deshalb nutzt der Baumaufbau einen top-down greedy Ansatz: Man startet an der Wurzel, sucht den besten einzelnen Split, teilt die Daten in zwei Regionen und wiederholt das Verfahren rekursiv in den neuen Regionen.
Variablen: Xj ist das betrachtete Feature, s der Splitpunkt. R1 und R2 sind die beiden durch den Split erzeugten Teilregionen. Der greedy Schritt wählt das Paar (j,s), das den RSS im aktuellen Knoten am stärksten senkt.
Wichtig ist das Wort greedy: Der aktuell beste Split muss nicht zu einem global optimalen Baum führen, weil der Algorithmus nicht alle späteren Split-Folgen vorausplant. In Klausuren wird häufig geprüft, ob man diese lokale Optimierung korrekt vom globalen Optimum unterscheidet.
3.3 Beispiele für rechteckige Regionen
Da jeder Split nur eine Achse eines Features nutzt, entstehen Treppenstrukturen und rechteckige Boxen. Komplexe Entscheidungsgrenzen können durch viele Splits approximiert werden, aber ein einzelner Baum bleibt stückweise konstant.
Rechteckige Regionen, Baum und stückweise konstante Vorhersage
3.4 Pruning und Begrenzung der Baumgröße
Sehr große Bäume passen die Trainingsdaten oft zu stark an. Das erzeugt Overfitting, verschlechtert die Generalisierung und macht den Baum schwerer interpretierbar. Eine einfache Gegenmaßnahme ist Pre-Pruning über Grenzen wie maximale Tiefe, minimale Blattgröße oder maximale Anzahl von Blättern. Das Skript nennt außerdem Pruning: Zuerst wird ein großer Baum erzeugt, anschließend werden Zweige gezielt abgeschnitten, um einen besseren Kompromiss aus Fehler und Komplexität zu erhalten.
4. Entscheidungsbäume für Klassifikation
4.1 Vorhersage im Klassifikationsbaum
Klassifikationsbäume funktionieren strukturell wie Regressionsbäume, aber die Zielvariable ist diskret oder kategorisch. Die Vorhersage in einem Blatt ist die häufigste Klasse der Trainingsbeobachtungen in diesem Blatt, also der Modus. Zusätzlich lassen sich Klassenwahrscheinlichkeiten als relative Klassenhäufigkeiten im Blatt interpretieren.
Variablen: Rm ist ein Blatt. nm ist die Anzahl der Trainingsbeobachtungen im Blatt. k bezeichnet eine Klasse. p̂mk ist der geschätzte Anteil der Klasse k im Blatt m. I(·) ist die Indikatorfunktion.
4.2 Warum RSS nicht passt
RSS setzt numerische Abstände voraus und ist deshalb kein geeignetes Splitkriterium für kategoriale Labels. Eine naheliegende Alternative ist die Klassifikationsfehlerrate im Knoten. Sie zählt den Anteil der Beobachtungen, die nicht zur Mehrheitsklasse gehören. Das ist einfach, aber für Split-Auswahl oft zu grob.
Variablen: Em ist die Fehlerrate in Blatt m. maxk p̂mk ist der Anteil der Mehrheitsklasse. Alle anderen Beobachtungen wären bei einer Blattvorhersage falsch klassifiziert.
4.3 Gini-Index und Cross-Entropy
Für die Split-Auswahl werden Gini-Index und Cross-Entropy bevorzugt, weil sie sensibler auf Änderungen der Klassenmischung reagieren. Beide Maße sind klein, wenn ein Knoten rein ist, also fast nur eine Klasse enthält. Für einen Split berechnet man das Maß für beide Kindknoten und bildet ein nach Knotengröße gewichtetes Mittel.
Variablen: K ist die Anzahl der Klassen. p̂mk ist der Klassenanteil der Klasse k in Knoten m. Ein kleiner Gm bedeutet hohe Reinheit.
Variablen: Dm ist die Cross-Entropy des Knotens. Klassen mit Anteil nahe 0 oder 1 erzeugen niedrige Werte. In der Praxis liefern Gini und Cross-Entropy oft ähnliche Splits.
Variablen: Q steht für Gini oder Cross-Entropy. nL und nR sind die Beobachtungszahlen im linken und rechten Kindknoten, n ist die Beobachtungszahl im Elternknoten.
4.4 Beispiel: Fehlerrate ist nicht sensitiv genug
Das Skript zeigt zwei Splits mit jeweils vier Fehlklassifikationen. Die Fehlerrate bewertet beide gleich, obwohl ein Split reinere Kindknoten erzeugt. Der Gini-Index erkennt diesen Unterschied und bevorzugt den besseren Split.
Fehlerrate versus Gini-Index
5. Bewertung einzelner Bäume
5.1 Bäume vs. lineare Modelle
Lineare Modelle bilden lineare Entscheidungs- oder Regressionsgrenzen gut ab. Entscheidungsbäume erzeugen dagegen achsenparallele, stückweise konstante Regionen. Bei stark nichtlinearen oder intervallartigen Strukturen können Bäume passender sein; bei tatsächlich linearen Zusammenhängen wirkt die Baumgrenze oft treppenförmig und unnötig grob.
Bäume im Vergleich zu linearen Modellen
5.2 Vorteile und Nachteile
| Aspekt | Einzelner Entscheidungsbaum | Klausurrelevante Einordnung |
|---|---|---|
| Interpretierbarkeit | Sehr hoch, oft als Wenn-dann-Regeln erklärbar. | Baum lesen, Pfad verfolgen und Blattvorhersage begründen können. |
| Grafische Darstellung | Sehr gut möglich. | Diagramme mit internen Knoten, Blättern und Regionen deuten. |
| Kategorische Features | Einfach handhabbar, oft ohne Dummy-Variablen. | Implementierungsdetails hängen vom Paket ab. |
| Vorhersagegenauigkeit | Häufig schlechter als flexiblere Modelle. | Motivation für Ensembles. |
| Stabilität | Kleine Datenänderungen können andere Splits erzeugen. | Varianzproblem, das Bagging adressiert. |
6. Ensemble-Modelle
Ensemble-Methoden kombinieren mehrere einzelne Modelle zu einem größeren Modell. Die Idee ist, Schwächen einzelner Modelle auszugleichen. Im Skript werden Bagging, Random Forests, Boosting und Stacking genannt; vertieft werden Bagging, Random Forests und Boosting.
| Methode | Kernidee | Wichtige Prüfungsaussage |
|---|---|---|
| Bagging | Viele Modelle auf Bootstrap-Stichproben trainieren und mitteln. | Reduziert Varianz, Bäume sind unabhängig voneinander trainiert. |
| Random Forest | Bagging von Bäumen plus zufällige Feature-Teilmenge je Split. | Dekorreliert Bäume, dadurch sinkt die Varianz der Mittelung stärker. |
| Boosting | Modelle sequenziell trainieren, jedes neue Modell korrigiert bisherige Fehler. | Kann sehr genau sein, ist aber stärker tuning- und overfitting-sensitiv. |
| Stacking | Mehrere Modelltypen kombinieren, oft mit Meta-Modell. | Nur genannt, nicht Schwerpunkt des Skripts. |
7. Bagging und Out-of-Bag-Fehler
7.1 Warum Mittelung Varianz reduziert
Bagging basiert auf der Beobachtung, dass Mittelwerte weniger variabel sind als einzelne Beobachtungen oder einzelne Schätzungen. Im Skript wird das mit simulierten Stichproben gezeigt: Der Mittelwert vieler unabhängiger Ziehungen hat eine deutlich kleinere Varianz als eine einzelne Ziehung. Übertragen auf Modelle heißt das: Wenn viele instabile Bäume gemittelt werden, wird die Gesamtvorhersage stabiler.
Variablen: Zb sind unabhängige Schätzer mit Varianz σ2. B ist die Anzahl der Schätzer beziehungsweise Bäume. Je größer B, desto kleiner wird die Varianz des Mittelwerts.
7.2 Bootstrap als Ersatz für mehrere Trainingsdatensätze
In der Praxis gibt es meist nur einen Trainingsdatensatz. Bagging erzeugt deshalb künstliche Trainingsdatensätze durch Bootstrapping: Es werden wiederholt Stichproben gleicher Größe mit Zurücklegen aus dem Trainingsdatensatz gezogen. Jede Bootstrap-Stichprobe enthält manche Beobachtungen mehrfach und manche gar nicht.
Variablen: n ist die Größe des Trainingsdatensatzes. Bei einer Bootstrap-Stichprobe der Größe n bleibt eine konkrete Beobachtung ungefähr in 36.8 % der Bäume out-of-bag und wird in ungefähr 63.2 % der Bäume mindestens einmal gezogen.
7.3 Bagging für Regressionsbäume
Für Regression wird jeder Baum auf einer eigenen Bootstrap-Stichprobe trainiert. Die finale Vorhersage ist der Durchschnitt der Baumvorhersagen.
Variablen: B ist die Anzahl der Bootstrap-Stichproben beziehungsweise Bäume. f̂*b(x) ist die Vorhersage des auf Bootstrap-Stichprobe b trainierten Baums. f̂bag(x) ist der gemittelte Ensemble-Schätzer.
7.4 Bagging für Klassifikationsbäume
Bei Klassifikation ist der Mittelwert von Klassenlabels nicht sinnvoll. Deshalb nutzt man eine Mehrheitsabstimmung über die B Klassifikatoren. Alternativ kann man die von den Bäumen geschätzten Klassenhäufigkeiten beziehungsweise Wahrscheinlichkeiten mitteln und daraus die Klasse mit der höchsten mittleren Wahrscheinlichkeit wählen.
7.5 Out-of-Bag-Fehler
Out-of-Bag-Beobachtungen sind Trainingsbeobachtungen, die für einen bestimmten Baum nicht in dessen Bootstrap-Stichprobe enthalten waren. Für jede Beobachtung kann man eine OOB-Vorhersage berechnen, indem man nur die Bäume verwendet, für die diese Beobachtung nicht im Training war. Dadurch erhält man eine interne Schätzung des Testfehlers, ohne einen zusätzlichen Validierungssplit zu verwenden.
7.6 Baseball-Ergebnis im Skript
Im Baseball-Beispiel wird Bagging mit B = 200 Bootstrap-Replikationen trainiert. Die OOB-Schätzung des RMSE beträgt etwa 300.65. Auf dem Testset ergibt der Einzelbaum einen RMSE von 341.63, das Bagging-Ensemble einen RMSE von 308.03. Das illustriert die erwartete Varianzreduktion durch Mittelung vieler Bäume.
8. Random Forests
8.1 Random Forest = Bagging plus Dekorrelation
Random Forests sind Bagging mit Entscheidungsbäumen, ergänzt um eine wichtige Änderung: Bei jedem Split darf der Baum nur eine zufällig gewählte Teilmenge von m Features aus insgesamt p Features betrachten. Dadurch werden die einzelnen Bäume weniger ähnlich. Weniger Korrelation zwischen den Bäumen bedeutet eine stärkere Varianzreduktion beim Mitteln.
Variablen: Z̄ ist der Mittelwert von B Schätzern. Jeder Schätzer hat Varianz σ2. ρ ist die paarweise Korrelation. Wenn ρ groß ist, bleibt die Varianz trotz vieler Bäume hoch.
8.2 Verfahren und Parameter m
Für jeden Baum wird wie beim Bagging eine Bootstrap-Stichprobe gezogen. Beim Aufbau des Baums wird bei jedem Split neu eine Teilmenge von m Features ausgewählt. Der Split darf nur diese Features verwenden. Typischerweise ist m ≈ √p oder m = floor(√p), kann aber getuned werden. Wenn m = p, entspricht das Verfahren im Kern normalem Bagging, weil alle Features bei jedem Split verfügbar sind.
8.3 Baseball-Ergebnis und Feature Importance
Im Baseball-Beispiel verbessert Random Forest den Test-RMSE weiter: Einzelbaum etwa 341.63, Bagging etwa 308.03, Random Forest etwa 297.93. Die OOB-Fehlerschätzung des Random-Forest-Modells liegt bei ungefähr 294.68.
Feature Importance wird im Skript als Summe der Fehler- beziehungsweise Impurity-Abnahme definiert, die Splits über ein bestimmtes Feature verursachen, gemittelt über alle B Bäume. Ein großer Wert deutet darauf hin, dass das Feature häufig nützliche Splits erzeugt.
Feature Importance im Random Forest
8.4 Einfluss von m und B
Das Experiment im Skript variiert die Anzahl der Bäume B und die Anzahl der pro Split betrachteten Features m. Die Fehlerkurven zeigen: Sehr kleine Ensembles sind instabil. Mit mehr Bäumen stabilisiert sich der Fehler. m = 19 entspricht im Datensatz einfachem Bagging, weil alle 19 Features zugelassen werden. Kleinere m-Werte können besser sein, weil sie die Bäume dekorrelieren.
Einfluss von m und B im Random Forest
8.5 Random-Forest-Parameter
| Parameter | Bedeutung | Prüfungsaussage |
|---|---|---|
| B | Anzahl der Bäume. | Mehr ist meist besser oder stabiler, erhöht aber Rechenkosten. |
| m | Anzahl der pro Split betrachteten Features. | Steuert Dekorrelation; m = p entspricht Bagging. |
| Baumgröße | Maximale Tiefe, Blattanzahl, minimale Blattgröße. | Kann Overfitting und Rechenkosten beeinflussen. |
| Bootstrap-Details | Anteil gezogener Daten, mit oder ohne Zurücklegen. | Beeinflusst Diversität der Bäume und OOB-Schätzung. |
Das Skript betont, dass Random Forests bei nicht extremen Parametern oft relativ robust sind. Kleine Parameteränderungen haben häufig weniger dramatische Auswirkungen als bei Boosting.
9. Boosting
9.1 Unterschied zu Bagging
Boosting ist ebenfalls ein Ensemble-Verfahren, aber die Bäume werden nicht unabhängig und parallel trainiert. Sie entstehen sequenziell: Jeder neue Baum nutzt Informationen aus dem bisherigen Modell. Für Regression wird im Skript erklärt, dass neue Bäume an die aktuellen Residuen angepasst werden. Dadurch korrigiert jeder Baum schrittweise Fehler, die das Ensemble bisher noch macht.
9.2 Boosting-Algorithmus für Regressionsbäume
Variablen: ri ist das aktuelle Residuum der Beobachtung i. B ist die Anzahl der Boosting-Schritte beziehungsweise Bäume. d steuert die Baumtiefe beziehungsweise die Anzahl der Splits eines Einzelbaums. λ ist die Lernrate, in xgboost oft eta genannt.
Die zentrale Idee ist langsames Lernen. Jeder kleine Baum reduziert einen Teil der aktuellen Residuen. Durch die Lernrate λ wird der Beitrag eines neuen Baums absichtlich verkleinert, damit das Modell nicht zu schnell und zu stark auf Trainingsdetails reagiert.
9.3 Boosting für Klassifikation
Boosting für Klassifikation folgt derselben Grundidee, ist mathematisch aber komplexer. Das Skript verweist auf gbm und xgboost. Gerade xgboost ist bei klassischen tabellarischen Daten sehr leistungsfähig, benötigt aber sauberes Tuning und passende Datenvorverarbeitung. Kategorische Features müssen für xgboost im gezeigten Beispiel numerisch beziehungsweise über Dummy-Variablen codiert werden.
9.4 xgboost-Beispiel und schlechte Defaults
Im Baseball-Beispiel liefert ein erstes xgboost-Modell mit Standardparametern einen RMSE von etwa 409.61, also deutlich schlechter als Baum, Bagging und Random Forest. Das Skript interpretiert das nicht als grundsätzliches Scheitern von Boosting, sondern als Hinweis auf ungeeignete Defaultparameter. Besonders wichtig sind nrounds, max_depth und eta.
9.5 Einfluss der Baumtiefe
Das Skript variiert die Tiefe der Boosting-Bäume bei eta = 0.05. Die Kurven zeigen typisch: Bei wenigen Bäumen sinkt der Fehler zunächst stark. Danach kann der Fehler wieder steigen, vor allem bei komplexeren Bäumen. Das ist ein klares Overfitting-Signal.
Einfluss der Tiefe beim Boosting
9.6 Tuning-Parameter für Boosting
| Parameter | Bedeutung | Wirkung/Falle |
|---|---|---|
| B / nrounds | Anzahl der Bäume im Ensemble. | Zu groß kann bei Boosting deutlich overfitten. |
| λ / eta | Lernrate, Schrittgröße jedes Baums. | Kleiner Wert lernt langsamer und braucht meist größeres B. |
| d / max_depth | Tiefe beziehungsweise Anzahl der Splits der Einzelbäume. | Steuert Modellkomplexität und Interaktionstiefe. |
Typische Lernraten im Skript sind kleine positive Werte wie 0.01 oder 0.001, wobei die konkrete Wahl problemabhängig ist. Der R-Default von xgboost, eta = 0.3, wird als häufig zu groß beschrieben. Kleine λ-Werte benötigen dafür deutlich mehr Bäume.
10. Gesamtvergleich der Methoden
| Methode | Stärken | Schwächen | Wann klausurrelevant? |
|---|---|---|---|
| Einzelbaum | Einfach erklärbar, grafisch gut darstellbar. | Hohe Varianz, oft geringe Genauigkeit. | Baum lesen, Splits und Blattmittelwerte berechnen. |
| Bagging | Reduziert Varianz instabiler Modelle. | Weniger interpretierbar, Bäume können stark korreliert bleiben. | Bootstrap, Mittelung, OOB erklären. |
| Random Forest | Dekorreliert Bäume, oft sehr robust und genau. | Interpretation nur indirekt, Feature Importance mit Vorsicht. | m, B, OOB, Unterschied zu Bagging. |
| Boosting | Sehr leistungsfähig, korrigiert Fehler sequenziell. | Tuning-sensitiv, Overfitting bei zu großem B möglich. | Residual-Algorithmus, Lernrate, Tiefe, Fehlerkurven deuten. |
11. Lab: xgboost mit Auto-Daten
Die Lab-Aufgabe fordert, die Parameter eines xgboost-Modells auf dem Auto-Datensatz zu untersuchen. Das Beispiel lädt die Daten, zieht einen zufälligen Trainingssplit, trennt mpg als Label ab, trainiert ein Regressionsmodell mit objective = reg:squarederror und berechnet den RMSE auf dem Testset. Mit nrounds = 2 ergibt sich im Beispiel ein RMSE von etwa 4.892.
| Parameteränderung | Erwarteter Effekt | Zu beobachten |
|---|---|---|
| nrounds erhöhen | Training lernt länger. | Validierungsfehler sinkt zunächst, kann später steigen. |
| eta senken | Kleinere Schritte, langsameres Lernen. | Mehr Runden nötig, oft stabilere Generalisierung. |
| max_depth erhöhen | Komplexere Einzelbäume, höhere Interaktionstiefe. | Mehr Overfitting-Risiko. |
12. Typische Klausuraufgaben und Rechenwege
12.1 Baumvorhersage aus Diagramm
Rechenweg: Years = 6 ≥ 4.5, also rechter Zweig. Hits = 130 ≥ 117.5, also Blatt mit hoher Hits-Gruppe. Vorhersage ist der im Blatt angegebene Mittelwert, im Skript ungefähr 949.
12.2 Split-Kriterium berechnen
Rechenweg: Berechne pro Kindknoten die Klassenanteile p̂mk, daraus Gm oder Dm, bilde das nach Knotengröße gewichtete Mittel und wähle den Split mit dem kleineren Wert.
12.3 OOB-Anzahl schätzen
Rechenweg: 0.368 · 500 ≈ 184. Die OOB-Vorhersage dieser Beobachtung nutzt also ungefähr 184 Bäume.
12.4 Bagging, Random Forest und Boosting unterscheiden
Lösung: Bagging trainiert unabhängige Bäume auf Bootstrap-Stichproben und mittelt. Random Forest macht dasselbe, beschränkt aber zusätzlich je Split zufällig die Features. Boosting trainiert Bäume sequenziell an den bisherigen Fehlern beziehungsweise Residuen.
12.5 Fehlerkurven deuten
Lösung: Bis etwa 40 Bäume verbessert das Modell die Generalisierung. Danach beginnt Overfitting; ein sinnvoller Wert für B liegt nahe dem Minimum der Validierungs- oder Testkurve, wobei der finale Test nicht zum Tuning missbraucht werden sollte.
13. Häufige Fehler und Prüfungsfallen
- Trainingsfehler mit Generalisierung verwechseln: Große Bäume können Trainingsdaten perfekt erklären und trotzdem schlecht auf neuen Daten sein.
- Fehlerrate als bestes Splitkriterium annehmen: Sie ist leicht verständlich, aber für Split-Auswahl oft zu unsensitiv.
- Gini falsch interpretieren: Kleiner Gini bedeutet reinerer Knoten; es wird der gewichtete Split-Score minimiert.
- Bagging und Random Forest gleichsetzen: Random Forest nutzt zusätzlich zufällige Feature-Teilsets bei jedem Split.
- m falsch verstehen: m ist die Anzahl der pro Split betrachteten Features, nicht die Anzahl der Bäume.
- OOB mit Testset verwechseln: OOB ist eine interne Schätzung innerhalb des Trainingsprozesses.
- Feature Importance kausal lesen: Sie zeigt modellinterne Nützlichkeit, keine Ursache-Wirkungs-Aussage.
- Boosting ohne Tuning bewerten: Schlechte Defaults können zu schlechten Ergebnissen führen.
- Testdaten für Tuning nutzen: Parameterwahl gehört auf Validierung/Cross-Validation, nicht auf den finalen Test.
14. Lerncheckliste und mögliche Klausurfragen
14.1 Kompakte Lerncheckliste
- Ich kann interne Knoten, Blätter, Wurzel, Split und Region an einem Baumdiagramm benennen.
- Ich kann für einen neuen Datenpunkt den Pfad durch einen Regressionsbaum verfolgen und die Blattvorhersage ablesen.
- Ich kann RSS für Blattregionen formulieren und erklären.
- Ich kann recursive binary splitting als top-down greedy Verfahren erklären.
- Ich kann Overfitting bei großen Bäumen begründen und Pruning einordnen.
- Ich kann Fehlerrate, Gini-Index und Cross-Entropy für Klassifikationsbäume berechnen und interpretieren.
- Ich kann erklären, warum einzelne Bäume interpretierbar, aber oft ungenau sind.
- Ich kann Bagging als Bootstrap-Aggregating mit Mittelung oder Mehrheitsvotum beschreiben.
- Ich kann OOB-Beobachtungen und OOB-Fehler herleiten.
- Ich kann Random Forests von Bagging unterscheiden und die Rolle von m und B erklären.
- Ich kann Feature Importance kritisch interpretieren.
- Ich kann Boosting als sequentielle Residuenkorrektur erklären und die Parameter B, λ und d einordnen.
14.2 Mögliche Klausurfragen
- Erklären Sie am Baseball-Baum, welche Vorhersage ein Spieler mit gegebenen Years und Hits erhält.
- Formulieren Sie den RSS eines Regressionsbaums und erklären Sie alle Variablen.
- Warum wird recursive binary splitting als greedy bezeichnet?
- Warum kann ein sehr tiefer Baum overfitten, und wie hilft Pruning?
- Berechnen Sie Fehlerrate, Gini-Index und Cross-Entropy für einen Knoten mit gegebenen Klassenhäufigkeiten.
- Warum ist die Fehlerrate für die Split-Auswahl weniger geeignet als Gini oder Cross-Entropy?
- Vergleichen Sie Bäume und lineare Modelle anhand linearer und nichtlinearer Entscheidungsgrenzen.
- Leiten Sie her, warum ungefähr ein Drittel der Trainingsbeobachtungen für einen Bootstrap-Baum OOB ist.
- Erklären Sie den Unterschied zwischen Bagging und Random Forest.
- Welche Wirkung hat ein kleineres m im Random Forest?
- Warum erhöht Korrelation zwischen Bäumen die Varianz der Ensemble-Vorhersage?
- Beschreiben Sie den Boosting-Algorithmus für Regressionsbäume.
- Welche Rolle spielen eta, nrounds und max_depth in xgboost?
- Wie würden Sie die Lab-Aufgabe sauber validieren, ohne den Testdatensatz für Tuning zu missbrauchen?
15. Folienabdeckung
| Folie/Kapitel | Inhalt | In Zusammenfassung enthalten? | Wo behandelt? |
|---|---|---|---|
| Folie 1 | Titel: Trees, Ensembles | Ja | Überblick |
| Folie 2 | Kapitelstart Entscheidungsbäume | Ja | Abschnitt 2 |
| Folie 3 | Baumbasierte Methoden, Segmentierung des Featureraums | Ja | 2.1 |
| Folie 4 | Pros/Cons: Interpretierbarkeit vs. Genauigkeit, Ensembles | Ja | 1 und 5 |
| Folie 5 | Baseballdaten: Aufteilungsfrage | Ja | 2.2 |
| Folie 6 | Drei Regionen im Feature-Raum | Ja | 2.2 und Abbildung |
| Folie 7 | Baumbegriffe: Blätter, interne Knoten, Splits | Ja | 2.3 |
| Folie 8 | Baseball-Regressionsbaum mit Years und Hits | Ja | 2.3 und Abbildung |
| Folie 9 | Interpretation: Years und Hits für Salary | Ja | 2.4 |
| Folie 10 | Vorhersage numerischer Labels über Blattmittelwerte | Ja | 2.5 |
| Folie 11 | Rechteckige Regionen/Boxen, RSS-Ziel | Ja | 3.1 |
| Folie 12 | Top-down greedy recursive binary splitting | Ja | 3.2 |
| Folie 13 | Feature und Splitpunkt wählen, rekursiv wiederholen, Abbruch | Ja | 3.2 |
| Folie 14 | Beispiele für Boxen, Regionen, Baumdarstellung | Ja | 3.3 und Abbildung |
| Folie 15 | Pruning und Begrenzung der Baumgröße | Ja | 3.4 |
| Folie 16 | Kapitelstart Klassifikationsbäume | Ja | Abschnitt 4 |
| Folie 17 | Vorhersage über häufigste Klasse im Blatt | Ja | 4.1 |
| Folie 18 | Fehlerrate als Splitkriterium und ihre Schwäche | Ja | 4.2 |
| Folie 19 | Gini-Index und Cross-Entropy | Ja | 4.3 |
| Folie 20 | Beispiel: Fehlerrate nicht sensitiv, Gini unterscheidet | Ja | 4.4 und Abbildung |
| Folie 21 | Abschließende Überlegungen zu Bäumen | Ja | Abschnitt 5 |
| Folie 22 | Bäume vs. lineare Modelle | Ja | 5.1 und Abbildung |
| Folie 23 | Vorteile/Nachteile von Bäumen | Ja | 5.2 |
| Folie 24 | Kapitelstart Ensemble Models | Ja | Abschnitt 6 |
| Folie 25 | Ensemble-Methoden: Bagging, Random Forest, Boosting, Stacking | Ja | 6.1 |
| Folie 26 | Kapitelstart Bagging | Ja | Abschnitt 7 |
| Folie 27 | Bagging als varianzreduzierende Ensemble-Methode | Ja | 7.1 |
| Folie 28 | Mittelwertbildung verringert Varianz, Simulation | Ja | 7.2 |
| Folie 29 | Modellmittelung auf mehreren Datensätzen, Problem nur eines Trainingssets | Ja | 7.2 |
| Folie 30 | Bootstrapping als Lösungsidee | Ja | 7.3 |
| Folie 31 | Bagging-Formel für Regression | Ja | 7.4 |
| Folie 32 | Bagging von Klassifikationsbäumen: Mehrheitsvotum | Ja | 7.5 |
| Folie 33 | Out-of-Bag-Fehler | Ja | 7.6 |
| Folie 34 | Bagging-Beispiel Baseball: OOB-RMSE 300.6547 | Ja | 7.7 |
| Folie 35 | Vergleich Einzelbaum vs. Bagging | Ja | 7.7 |
| Folie 36 | Kapitelstart Random Forest | Ja | Abschnitt 8 |
| Folie 37 | Random Forest als dekorreliertes Bagging | Ja | 8.1 |
| Folie 38 | Simulation korrelierter Samples | Ja | 8.2 |
| Folie 39 | Korrelationssimulation: Varianz steigt bei Korrelation | Ja | 8.2 |
| Folie 40 | RF-Verfahren: zufällige Feature-Teilmenge je Split | Ja | 8.3 |
| Folie 41 | RF-Beispiel Baseball mit OOB- und Testfehler | Ja | 8.4 |
| Folie 42 | Feature Importance über Impurity-Abnahme | Ja | 8.5 und Abbildung |
| Folie 43 | Experiment zum Einfluss von m und B | Ja | 8.6 |
| Folie 44 | Ergebnis Einfluss von m | Ja | 8.6 und Abbildung |
| Folie 45 | RF-Parameter: B, m, Baumgröße, Bootstrap-Details | Ja | 8.7 |
| Folie 46 | Kapitelstart Boosting | Ja | Abschnitt 9 |
| Folie 47 | Boosting vs. Bagging: sequentiell statt unabhängig | Ja | 9.1 |
| Folie 48 | Boosting-Algorithmus für Regressionsbäume | Ja | 9.2 |
| Folie 49 | Idee: langsames Lernen an Residuen, d und λ | Ja | 9.3 |
| Folie 50 | Boosting für Klassifikation, gbm/xgboost | Ja | 9.4 |
| Folie 51 | xgboost-Beispiel Baseball, Dummy-Encoding, RMSE 409.6103 | Ja | 9.5 |
| Folie 52 | Auswertung: schlechte Defaults, Tuning nötig | Ja | 9.5 |
| Folie 53 | Experiment Baumtiefe mit eta 0.05 | Ja | 9.6 |
| Folie 54 | Ergebnis Einfluss der Tiefe | Ja | 9.6 und Abbildung |
| Folie 55 | Boosting-Parameter B, λ/eta, d/max_depth | Ja | 9.7 |
| Folie 56 | Zusammenfassung der Methoden | Ja | 10 |
| Folie 57 | Kapitelstart Lab | Ja | 11 |
| Folie 58 | Lab-Aufgabe: Auto-Datensatz, xgboost-Parameter untersuchen | Ja | 11 |
| Folie 59 | Auto-Beispiel mit xgboost und RMSE | Ja | 11 |