Klausurzusammenfassung: Trees, Ensembles

Vorlesungsskript 60_Ch.8, KI und ML: Supervised Learning

Fokus: Entscheidungsbäume, Split-Kriterien, Pruning, Bagging, Out-of-Bag-Fehler, Random Forests, Boosting, Tuning und typische Klausuraufgaben.

1. Überblick und klausurrelevanter Kern

Dieses Kapitel behandelt Baumverfahren für Regression und Klassifikation und zeigt danach, warum einzelne Entscheidungsbäume zwar gut interpretierbar, aber oft nicht sehr genau sind. Der prüfungsrelevante rote Faden lautet: Ein Baum zerlegt den Feature-Raum in einfache rechteckige Regionen. In jeder Region wird eine einfache Vorhersage gemacht. Ensemble-Methoden kombinieren viele Bäume, um die Vorhersagegenauigkeit zu erhöhen, verlieren dabei aber einen Teil der direkten Interpretierbarkeit.

Prüfungskern: Du solltest einen Baum lesen können, einen neuen Datenpunkt durch den Baum schicken, RSS, Klassifikationsfehlerrate, Gini-Index und Cross-Entropy berechnen, Bagging und Random Forests sauber unterscheiden, OOB-Fehler erklären und Boosting als sequenzielles Lernen an Residuen verstehen.

Gliederung

  1. Regressionsbäume
  2. Baumaufbau und Pruning
  3. Klassifikationsbäume
  4. Bäume vs. lineare Modelle
  5. Ensemble-Modelle
  6. Bagging und OOB-Fehler
  7. Random Forests
  8. Boosting
  9. Typische Klausuraufgaben
  10. Lerncheckliste und Folienabdeckung

2. Entscheidungsbäume für Regression

2.1 Grundidee: Segmentierung des Feature-Raums

Baumbasierte Methoden teilen den Feature-Raum in mehrere nicht überlappende Regionen auf. Bei den im Skript behandelten Standardbäumen entstehen diese Regionen durch wiederholte binäre Splits entlang einzelner Features. Dadurch sind die Regionen im mehrdimensionalen Raum Rechtecke beziehungsweise Boxen. Ein Baum ist also eine grafische Darstellung einer schrittweisen Wenn-dann-Regel.

Definition: Ein Entscheidungsbaum ist ein Modell, das Beobachtungen über interne Knoten anhand von Split-Regeln in Blätter leitet. Jedes Blatt entspricht einer Region Rj des Feature-Raums und enthält eine lokale Vorhersageregel.

2.2 Baseball-Beispiel: Regionsbildung

Im Baseball-Beispiel wird das Gehalt Salary mit den Features Years und Hits erklärt. Der Baum trennt zunächst bei Years < 4.5. Für erfahrenere Spieler wird anschließend bei Hits < 117.5 getrennt. Dadurch entstehen drei Regionen R1, R2 und R3.

Regionen im Feature-Raum der Baseballdaten

Folie 6: Regionen im Feature-Raum der Baseballdaten
Folie 6: Die vertikale Linie trennt unerfahrene von erfahrenen Spielern. Die horizontale Linie wirkt nur im rechten Teilraum und erzeugt dort zwei weitere Regionen.

2.3 Baumbegriffe

Die Wurzel ist der Startknoten des Baums. Interne Knoten enthalten Split-Regeln, zum Beispiel Years < 4.5. Von dort führen Zweige zu weiteren Knoten oder zu Blättern. Blätter enthalten keine weiteren Splits, sondern die finale Vorhersage. Im Skript sind Years und Hits die internen Knoten, die drei Endregionen sind die Blätter.

Regressionsbaum für die Baseballdaten

Folie 8: Regressionsbaum für die Baseballdaten
Folie 8: Die Zahlen in den Blättern sind Mittelwerte von Salary für die Trainingsbeobachtungen, die im jeweiligen Blatt landen.

2.4 Interpretation des Baseball-Baums

Der erste Split zeigt, dass Years in diesem Baum der wichtigste Faktor ist: weniger Erfahrung führt im Modell zu niedrigeren Gehältern. Für Spieler mit weniger als fünf Jahren Erfahrung wird Hits nicht weiter genutzt. Für erfahrene Spieler wird Hits relevant: Mehr Treffer im Vorjahr führen in der Baumlogik zu einer höheren Gehaltsvorhersage. Das ist bewusst stark vereinfacht, dafür aber sehr gut erklärbar.

Prüfungsfalle: Die erste Split-Variable ist nicht automatisch in jedem denkbaren Modell der wichtigste kausale Faktor. Sie ist der erste greedy gewählte Split für diese Daten, diese Features und dieses Kriterium.

2.5 Vorhersage eines numerischen Labels

Für Regression ist die Vorhersage in einem Blatt der Mittelwert der Trainingslabels in der entsprechenden Region. Ein neuer Datenpunkt wird durch die Split-Regeln geschickt, bis er in einem Blatt endet. Dort erhält er die Blattvorhersage.

Vorhersage im Regressionsbaum f̂(x) = ȳRj, falls x ∈ RjRj = 1 / |Rj| · ∑i: xi ∈ Rj yi

Variablen: f̂(x) ist die Baumvorhersage für einen neuen Punkt x. Rj ist das Blatt beziehungsweise die Region, in die x fällt. Rj ist der Mittelwert der Trainingslabels im Blatt. |Rj| ist die Anzahl der Trainingsbeobachtungen in der Region.

3. Baumaufbau und Pruning

3.1 Zielgröße bei Regressionsbäumen: RSS

Ein Regressionsbaum soll Regionen finden, in denen die Zielwerte möglichst homogen sind. Für Regression wird dazu typischerweise die Residual Sum of Squares minimiert. Je kleiner der RSS, desto näher liegen die echten Trainingswerte an den Blattmittelwerten.

RSS eines Baums mit J Blättern RSS = ∑j=1Ji: xi ∈ Rj (yi − ȳRj)2

Variablen: J ist die Anzahl der Blätter. xi ist der Feature-Vektor der Beobachtung i. yi ist ihr echtes Label. Rj ist eine Blattregion. Rj ist der Mittelwert der Labels in dieser Region.

3.2 Recursive Binary Splitting

Die optimale globale Zerlegung des Feature-Raums wäre rechnerisch zu teuer, weil sehr viele mögliche Split-Kombinationen geprüft werden müssten. Deshalb nutzt der Baumaufbau einen top-down greedy Ansatz: Man startet an der Wurzel, sucht den besten einzelnen Split, teilt die Daten in zwei Regionen und wiederholt das Verfahren rekursiv in den neuen Regionen.

Kandidatensplit für Feature Xj und Splitpunkt s R1(j,s) = {x | xj < s}R2(j,s) = {x | xj ≥ s}RSS(j,s) = ∑i: xi ∈ R1(yi − ȳR1)2 + ∑i: xi ∈ R2(yi − ȳR2)2

Variablen: Xj ist das betrachtete Feature, s der Splitpunkt. R1 und R2 sind die beiden durch den Split erzeugten Teilregionen. Der greedy Schritt wählt das Paar (j,s), das den RSS im aktuellen Knoten am stärksten senkt.

Wichtig ist das Wort greedy: Der aktuell beste Split muss nicht zu einem global optimalen Baum führen, weil der Algorithmus nicht alle späteren Split-Folgen vorausplant. In Klausuren wird häufig geprüft, ob man diese lokale Optimierung korrekt vom globalen Optimum unterscheidet.

3.3 Beispiele für rechteckige Regionen

Da jeder Split nur eine Achse eines Features nutzt, entstehen Treppenstrukturen und rechteckige Boxen. Komplexe Entscheidungsgrenzen können durch viele Splits approximiert werden, aber ein einzelner Baum bleibt stückweise konstant.

Rechteckige Regionen, Baum und stückweise konstante Vorhersage

Folie 14: Rechteckige Regionen, Baum und stückweise konstante Vorhersage
Folie 14: Mehrere binäre Splits erzeugen rechteckige Regionen. Die 3D-Darstellung zeigt, dass die Vorhersage innerhalb einer Region konstant bleibt.

3.4 Pruning und Begrenzung der Baumgröße

Sehr große Bäume passen die Trainingsdaten oft zu stark an. Das erzeugt Overfitting, verschlechtert die Generalisierung und macht den Baum schwerer interpretierbar. Eine einfache Gegenmaßnahme ist Pre-Pruning über Grenzen wie maximale Tiefe, minimale Blattgröße oder maximale Anzahl von Blättern. Das Skript nennt außerdem Pruning: Zuerst wird ein großer Baum erzeugt, anschließend werden Zweige gezielt abgeschnitten, um einen besseren Kompromiss aus Fehler und Komplexität zu erhalten.

Prüfungsfalle: Ein Baum mit niedrigerem Trainings-RSS ist nicht automatisch besser. Ohne Validierung oder Cross-Validation kann ein größerer Baum nur Rauschen gelernt haben.

4. Entscheidungsbäume für Klassifikation

4.1 Vorhersage im Klassifikationsbaum

Klassifikationsbäume funktionieren strukturell wie Regressionsbäume, aber die Zielvariable ist diskret oder kategorisch. Die Vorhersage in einem Blatt ist die häufigste Klasse der Trainingsbeobachtungen in diesem Blatt, also der Modus. Zusätzlich lassen sich Klassenwahrscheinlichkeiten als relative Klassenhäufigkeiten im Blatt interpretieren.

Klassenanteil und Blattvorhersage mk = 1 / nm · ∑i: xi ∈ Rm I(yi = k)clasŝ(Rm) = arg maxkmk

Variablen: Rm ist ein Blatt. nm ist die Anzahl der Trainingsbeobachtungen im Blatt. k bezeichnet eine Klasse. mk ist der geschätzte Anteil der Klasse k im Blatt m. I(·) ist die Indikatorfunktion.

4.2 Warum RSS nicht passt

RSS setzt numerische Abstände voraus und ist deshalb kein geeignetes Splitkriterium für kategoriale Labels. Eine naheliegende Alternative ist die Klassifikationsfehlerrate im Knoten. Sie zählt den Anteil der Beobachtungen, die nicht zur Mehrheitsklasse gehören. Das ist einfach, aber für Split-Auswahl oft zu grob.

Klassifikationsfehlerrate im Blatt Em = 1 − maxkmk

Variablen: Em ist die Fehlerrate in Blatt m. maxkmk ist der Anteil der Mehrheitsklasse. Alle anderen Beobachtungen wären bei einer Blattvorhersage falsch klassifiziert.

4.3 Gini-Index und Cross-Entropy

Für die Split-Auswahl werden Gini-Index und Cross-Entropy bevorzugt, weil sie sensibler auf Änderungen der Klassenmischung reagieren. Beide Maße sind klein, wenn ein Knoten rein ist, also fast nur eine Klasse enthält. Für einen Split berechnet man das Maß für beide Kindknoten und bildet ein nach Knotengröße gewichtetes Mittel.

Gini-Index Gm = ∑k=1Kmk(1 − p̂mk) = 1 − ∑k=1Kmk2

Variablen: K ist die Anzahl der Klassen. mk ist der Klassenanteil der Klasse k in Knoten m. Ein kleiner Gm bedeutet hohe Reinheit.

Cross-Entropy Dm = − ∑k=1Kmk log(p̂mk)

Variablen: Dm ist die Cross-Entropy des Knotens. Klassen mit Anteil nahe 0 oder 1 erzeugen niedrige Werte. In der Praxis liefern Gini und Cross-Entropy oft ähnliche Splits.

Gewichtete Bewertung eines Splits Score = nL / n · QL + nR / n · QR

Variablen: Q steht für Gini oder Cross-Entropy. nL und nR sind die Beobachtungszahlen im linken und rechten Kindknoten, n ist die Beobachtungszahl im Elternknoten.

4.4 Beispiel: Fehlerrate ist nicht sensitiv genug

Das Skript zeigt zwei Splits mit jeweils vier Fehlklassifikationen. Die Fehlerrate bewertet beide gleich, obwohl ein Split reinere Kindknoten erzeugt. Der Gini-Index erkennt diesen Unterschied und bevorzugt den besseren Split.

Fehlerrate versus Gini-Index

Folie 20: Fehlerrate versus Gini-Index
Folie 20: Beide Splits haben dieselbe Anzahl falscher Klassifikationen. Der Gini-Index ist kleiner für den reineren Split und damit besser für die Split-Auswahl geeignet.
Typischer Rechenweg: Bestimme pro Kindknoten die Klassenanteile mk, berechne pro Knoten Gm, gewichte die beiden Werte mit den Knotengrößen und vergleiche die Split-Scores. Der kleinere Score ist besser.

5. Bewertung einzelner Bäume

5.1 Bäume vs. lineare Modelle

Lineare Modelle bilden lineare Entscheidungs- oder Regressionsgrenzen gut ab. Entscheidungsbäume erzeugen dagegen achsenparallele, stückweise konstante Regionen. Bei stark nichtlinearen oder intervallartigen Strukturen können Bäume passender sein; bei tatsächlich linearen Zusammenhängen wirkt die Baumgrenze oft treppenförmig und unnötig grob.

Bäume im Vergleich zu linearen Modellen

Folie 22: Bäume im Vergleich zu linearen Modellen
Folie 22: Oben ist die wahre Grenze linear: das lineare Modell passt natürlich besser. Unten ist die Grenze nichtlinear/rechteckig: der Baum kann die Struktur besser nachbilden.

5.2 Vorteile und Nachteile

AspektEinzelner EntscheidungsbaumKlausurrelevante Einordnung
InterpretierbarkeitSehr hoch, oft als Wenn-dann-Regeln erklärbar.Baum lesen, Pfad verfolgen und Blattvorhersage begründen können.
Grafische DarstellungSehr gut möglich.Diagramme mit internen Knoten, Blättern und Regionen deuten.
Kategorische FeaturesEinfach handhabbar, oft ohne Dummy-Variablen.Implementierungsdetails hängen vom Paket ab.
VorhersagegenauigkeitHäufig schlechter als flexiblere Modelle.Motivation für Ensembles.
StabilitätKleine Datenänderungen können andere Splits erzeugen.Varianzproblem, das Bagging adressiert.
Prüfungsfalle: Ein interpretierbares Modell ist nicht automatisch genauer. Ensembles erhöhen oft die Genauigkeit, aber die direkte Pfadinterpretation eines einzelnen Baums geht weitgehend verloren.

6. Ensemble-Modelle

Ensemble-Methoden kombinieren mehrere einzelne Modelle zu einem größeren Modell. Die Idee ist, Schwächen einzelner Modelle auszugleichen. Im Skript werden Bagging, Random Forests, Boosting und Stacking genannt; vertieft werden Bagging, Random Forests und Boosting.

MethodeKernideeWichtige Prüfungsaussage
BaggingViele Modelle auf Bootstrap-Stichproben trainieren und mitteln.Reduziert Varianz, Bäume sind unabhängig voneinander trainiert.
Random ForestBagging von Bäumen plus zufällige Feature-Teilmenge je Split.Dekorreliert Bäume, dadurch sinkt die Varianz der Mittelung stärker.
BoostingModelle sequenziell trainieren, jedes neue Modell korrigiert bisherige Fehler.Kann sehr genau sein, ist aber stärker tuning- und overfitting-sensitiv.
StackingMehrere Modelltypen kombinieren, oft mit Meta-Modell.Nur genannt, nicht Schwerpunkt des Skripts.

7. Bagging und Out-of-Bag-Fehler

7.1 Warum Mittelung Varianz reduziert

Bagging basiert auf der Beobachtung, dass Mittelwerte weniger variabel sind als einzelne Beobachtungen oder einzelne Schätzungen. Im Skript wird das mit simulierten Stichproben gezeigt: Der Mittelwert vieler unabhängiger Ziehungen hat eine deutlich kleinere Varianz als eine einzelne Ziehung. Übertragen auf Modelle heißt das: Wenn viele instabile Bäume gemittelt werden, wird die Gesamtvorhersage stabiler.

Varianz des Mittelwerts unabhängiger Schätzer Var(1 / B · ∑b=1B Zb) = σ2 / B

Variablen: Zb sind unabhängige Schätzer mit Varianz σ2. B ist die Anzahl der Schätzer beziehungsweise Bäume. Je größer B, desto kleiner wird die Varianz des Mittelwerts.

7.2 Bootstrap als Ersatz für mehrere Trainingsdatensätze

In der Praxis gibt es meist nur einen Trainingsdatensatz. Bagging erzeugt deshalb künstliche Trainingsdatensätze durch Bootstrapping: Es werden wiederholt Stichproben gleicher Größe mit Zurücklegen aus dem Trainingsdatensatz gezogen. Jede Bootstrap-Stichprobe enthält manche Beobachtungen mehrfach und manche gar nicht.

OOB-Wahrscheinlichkeit einer Beobachtung pro Baum P(nicht gezogen) = (1 − 1 / n)n ≈ e−1 ≈ 0.368

Variablen: n ist die Größe des Trainingsdatensatzes. Bei einer Bootstrap-Stichprobe der Größe n bleibt eine konkrete Beobachtung ungefähr in 36.8 % der Bäume out-of-bag und wird in ungefähr 63.2 % der Bäume mindestens einmal gezogen.

7.3 Bagging für Regressionsbäume

Für Regression wird jeder Baum auf einer eigenen Bootstrap-Stichprobe trainiert. Die finale Vorhersage ist der Durchschnitt der Baumvorhersagen.

Bagging-Vorhersage für Regression bag(x) = 1 / B · ∑b=1B*b(x)

Variablen: B ist die Anzahl der Bootstrap-Stichproben beziehungsweise Bäume. *b(x) ist die Vorhersage des auf Bootstrap-Stichprobe b trainierten Baums. bag(x) ist der gemittelte Ensemble-Schätzer.

7.4 Bagging für Klassifikationsbäume

Bei Klassifikation ist der Mittelwert von Klassenlabels nicht sinnvoll. Deshalb nutzt man eine Mehrheitsabstimmung über die B Klassifikatoren. Alternativ kann man die von den Bäumen geschätzten Klassenhäufigkeiten beziehungsweise Wahrscheinlichkeiten mitteln und daraus die Klasse mit der höchsten mittleren Wahrscheinlichkeit wählen.

7.5 Out-of-Bag-Fehler

Out-of-Bag-Beobachtungen sind Trainingsbeobachtungen, die für einen bestimmten Baum nicht in dessen Bootstrap-Stichprobe enthalten waren. Für jede Beobachtung kann man eine OOB-Vorhersage berechnen, indem man nur die Bäume verwendet, für die diese Beobachtung nicht im Training war. Dadurch erhält man eine interne Schätzung des Testfehlers, ohne einen zusätzlichen Validierungssplit zu verwenden.

Rechenintuition: Bei B = 300 Bäumen ist eine Beobachtung ungefähr in 0.368 · 300 ≈ 110 Bäumen OOB. Ihre OOB-Vorhersage wird aus diesen etwa 110 Baumvorhersagen gebildet.

7.6 Baseball-Ergebnis im Skript

Im Baseball-Beispiel wird Bagging mit B = 200 Bootstrap-Replikationen trainiert. Die OOB-Schätzung des RMSE beträgt etwa 300.65. Auf dem Testset ergibt der Einzelbaum einen RMSE von 341.63, das Bagging-Ensemble einen RMSE von 308.03. Das illustriert die erwartete Varianzreduktion durch Mittelung vieler Bäume.

Prüfungsfalle: OOB-Fehler ist keine Magie und kein finaler externer Test. Er ist eine nützliche interne Fehlerschätzung für Bagging/Random-Forest-Modelle, weil jeder Baum nur einen Bootstrap-Ausschnitt der Trainingsdaten sieht.

8. Random Forests

8.1 Random Forest = Bagging plus Dekorrelation

Random Forests sind Bagging mit Entscheidungsbäumen, ergänzt um eine wichtige Änderung: Bei jedem Split darf der Baum nur eine zufällig gewählte Teilmenge von m Features aus insgesamt p Features betrachten. Dadurch werden die einzelnen Bäume weniger ähnlich. Weniger Korrelation zwischen den Bäumen bedeutet eine stärkere Varianzreduktion beim Mitteln.

Varianz des Mittelwerts korrelierter Schätzer Var(Z̄) = σ2 / B · (1 + (B − 1)ρ)

Variablen: ist der Mittelwert von B Schätzern. Jeder Schätzer hat Varianz σ2. ρ ist die paarweise Korrelation. Wenn ρ groß ist, bleibt die Varianz trotz vieler Bäume hoch.

8.2 Verfahren und Parameter m

Für jeden Baum wird wie beim Bagging eine Bootstrap-Stichprobe gezogen. Beim Aufbau des Baums wird bei jedem Split neu eine Teilmenge von m Features ausgewählt. Der Split darf nur diese Features verwenden. Typischerweise ist m ≈ √p oder m = floor(√p), kann aber getuned werden. Wenn m = p, entspricht das Verfahren im Kern normalem Bagging, weil alle Features bei jedem Split verfügbar sind.

Prüfungsfalle: Die zufällige Feature-Auswahl passiert bei jedem Split neu, nicht nur einmal pro Baum.

8.3 Baseball-Ergebnis und Feature Importance

Im Baseball-Beispiel verbessert Random Forest den Test-RMSE weiter: Einzelbaum etwa 341.63, Bagging etwa 308.03, Random Forest etwa 297.93. Die OOB-Fehlerschätzung des Random-Forest-Modells liegt bei ungefähr 294.68.

Feature Importance wird im Skript als Summe der Fehler- beziehungsweise Impurity-Abnahme definiert, die Splits über ein bestimmtes Feature verursachen, gemittelt über alle B Bäume. Ein großer Wert deutet darauf hin, dass das Feature häufig nützliche Splits erzeugt.

Feature Importance im Random Forest

Folie 42: Feature Importance im Random Forest
Folie 42: Die Balken zeigen die über die Bäume aggregierte Impurity-Abnahme. Große Balken bedeuten hohe modellinterne Wichtigkeit, nicht automatisch Kausalität.
Prüfungsfalle: Feature Importance ist modell- und datenabhängig. Korrelierte Features können Wichtigkeit teilen oder sich gegenseitig verdrängen; hohe Importance beweist keine kausale Wirkung.

8.4 Einfluss von m und B

Das Experiment im Skript variiert die Anzahl der Bäume B und die Anzahl der pro Split betrachteten Features m. Die Fehlerkurven zeigen: Sehr kleine Ensembles sind instabil. Mit mehr Bäumen stabilisiert sich der Fehler. m = 19 entspricht im Datensatz einfachem Bagging, weil alle 19 Features zugelassen werden. Kleinere m-Werte können besser sein, weil sie die Bäume dekorrelieren.

Einfluss von m und B im Random Forest

Folie 44: Einfluss von m und B im Random Forest
Folie 44: Mehr Bäume stabilisieren den Fehler. Der beste m-Wert ist datenabhängig; m = p ist Bagging und nicht zwingend optimal.

8.5 Random-Forest-Parameter

ParameterBedeutungPrüfungsaussage
BAnzahl der Bäume.Mehr ist meist besser oder stabiler, erhöht aber Rechenkosten.
mAnzahl der pro Split betrachteten Features.Steuert Dekorrelation; m = p entspricht Bagging.
BaumgrößeMaximale Tiefe, Blattanzahl, minimale Blattgröße.Kann Overfitting und Rechenkosten beeinflussen.
Bootstrap-DetailsAnteil gezogener Daten, mit oder ohne Zurücklegen.Beeinflusst Diversität der Bäume und OOB-Schätzung.

Das Skript betont, dass Random Forests bei nicht extremen Parametern oft relativ robust sind. Kleine Parameteränderungen haben häufig weniger dramatische Auswirkungen als bei Boosting.

9. Boosting

9.1 Unterschied zu Bagging

Boosting ist ebenfalls ein Ensemble-Verfahren, aber die Bäume werden nicht unabhängig und parallel trainiert. Sie entstehen sequenziell: Jeder neue Baum nutzt Informationen aus dem bisherigen Modell. Für Regression wird im Skript erklärt, dass neue Bäume an die aktuellen Residuen angepasst werden. Dadurch korrigiert jeder Baum schrittweise Fehler, die das Ensemble bisher noch macht.

9.2 Boosting-Algorithmus für Regressionsbäume

Sequenzielles Lernen an Residuen Initialisierung: f̂(x) = 0, ri = yiFür b = 1, 2, …, B: trainiere f̂b(x) mit d Splits auf (X, r)f̂(x) ← f̂(x) + λ f̂b(x)ri ← ri − λ f̂b(xi)Final: f̂(x) = ∑b=1B λ f̂b(x)

Variablen: ri ist das aktuelle Residuum der Beobachtung i. B ist die Anzahl der Boosting-Schritte beziehungsweise Bäume. d steuert die Baumtiefe beziehungsweise die Anzahl der Splits eines Einzelbaums. λ ist die Lernrate, in xgboost oft eta genannt.

Die zentrale Idee ist langsames Lernen. Jeder kleine Baum reduziert einen Teil der aktuellen Residuen. Durch die Lernrate λ wird der Beitrag eines neuen Baums absichtlich verkleinert, damit das Modell nicht zu schnell und zu stark auf Trainingsdetails reagiert.

9.3 Boosting für Klassifikation

Boosting für Klassifikation folgt derselben Grundidee, ist mathematisch aber komplexer. Das Skript verweist auf gbm und xgboost. Gerade xgboost ist bei klassischen tabellarischen Daten sehr leistungsfähig, benötigt aber sauberes Tuning und passende Datenvorverarbeitung. Kategorische Features müssen für xgboost im gezeigten Beispiel numerisch beziehungsweise über Dummy-Variablen codiert werden.

9.4 xgboost-Beispiel und schlechte Defaults

Im Baseball-Beispiel liefert ein erstes xgboost-Modell mit Standardparametern einen RMSE von etwa 409.61, also deutlich schlechter als Baum, Bagging und Random Forest. Das Skript interpretiert das nicht als grundsätzliches Scheitern von Boosting, sondern als Hinweis auf ungeeignete Defaultparameter. Besonders wichtig sind nrounds, max_depth und eta.

Prüfungsfalle: Boosting ist nicht automatisch besser. Ohne Tuning kann es schlechter sein als einfachere Verfahren. Der Testdatensatz darf nicht zum ständigen Nachjustieren verwendet werden; dafür braucht man Validierung oder Cross-Validation.

9.5 Einfluss der Baumtiefe

Das Skript variiert die Tiefe der Boosting-Bäume bei eta = 0.05. Die Kurven zeigen typisch: Bei wenigen Bäumen sinkt der Fehler zunächst stark. Danach kann der Fehler wieder steigen, vor allem bei komplexeren Bäumen. Das ist ein klares Overfitting-Signal.

Einfluss der Tiefe beim Boosting

Folie 54: Einfluss der Tiefe beim Boosting
Folie 54: Der Testfehler fällt zunächst und steigt später wieder. Tiefe Bäume können schneller overfitten; kleine Tiefen funktionieren oft überraschend gut.

9.6 Tuning-Parameter für Boosting

ParameterBedeutungWirkung/Falle
B / nroundsAnzahl der Bäume im Ensemble.Zu groß kann bei Boosting deutlich overfitten.
λ / etaLernrate, Schrittgröße jedes Baums.Kleiner Wert lernt langsamer und braucht meist größeres B.
d / max_depthTiefe beziehungsweise Anzahl der Splits der Einzelbäume.Steuert Modellkomplexität und Interaktionstiefe.

Typische Lernraten im Skript sind kleine positive Werte wie 0.01 oder 0.001, wobei die konkrete Wahl problemabhängig ist. Der R-Default von xgboost, eta = 0.3, wird als häufig zu groß beschrieben. Kleine λ-Werte benötigen dafür deutlich mehr Bäume.

10. Gesamtvergleich der Methoden

MethodeStärkenSchwächenWann klausurrelevant?
EinzelbaumEinfach erklärbar, grafisch gut darstellbar.Hohe Varianz, oft geringe Genauigkeit.Baum lesen, Splits und Blattmittelwerte berechnen.
BaggingReduziert Varianz instabiler Modelle.Weniger interpretierbar, Bäume können stark korreliert bleiben.Bootstrap, Mittelung, OOB erklären.
Random ForestDekorreliert Bäume, oft sehr robust und genau.Interpretation nur indirekt, Feature Importance mit Vorsicht.m, B, OOB, Unterschied zu Bagging.
BoostingSehr leistungsfähig, korrigiert Fehler sequenziell.Tuning-sensitiv, Overfitting bei zu großem B möglich.Residual-Algorithmus, Lernrate, Tiefe, Fehlerkurven deuten.
Merksatz: Bagging reduziert Varianz durch unabhängiges Mitteln. Random Forest verbessert Bagging durch Dekorrelation der Bäume. Boosting reduziert Fehler sequenziell durch langsame Korrektur der Residuen.

11. Lab: xgboost mit Auto-Daten

Die Lab-Aufgabe fordert, die Parameter eines xgboost-Modells auf dem Auto-Datensatz zu untersuchen. Das Beispiel lädt die Daten, zieht einen zufälligen Trainingssplit, trennt mpg als Label ab, trainiert ein Regressionsmodell mit objective = reg:squarederror und berechnet den RMSE auf dem Testset. Mit nrounds = 2 ergibt sich im Beispiel ein RMSE von etwa 4.892.

Klausurorientierter Lab-Ansatz: Variiere nicht blind viele Parameter auf dem Testset. Lege zuerst einen Validierungssplit oder Cross-Validation fest, untersuche dann systematisch nrounds, eta und max_depth, und bewerte erst das finale Modell auf dem Testset.
ParameteränderungErwarteter EffektZu beobachten
nrounds erhöhenTraining lernt länger.Validierungsfehler sinkt zunächst, kann später steigen.
eta senkenKleinere Schritte, langsameres Lernen.Mehr Runden nötig, oft stabilere Generalisierung.
max_depth erhöhenKomplexere Einzelbäume, höhere Interaktionstiefe.Mehr Overfitting-Risiko.

12. Typische Klausuraufgaben und Rechenwege

12.1 Baumvorhersage aus Diagramm

Aufgabe: Ein Spieler hat Years = 6 und Hits = 130. Welche Gehaltsvorhersage liefert der Baseball-Baum?
Rechenweg: Years = 6 ≥ 4.5, also rechter Zweig. Hits = 130 ≥ 117.5, also Blatt mit hoher Hits-Gruppe. Vorhersage ist der im Blatt angegebene Mittelwert, im Skript ungefähr 949.

12.2 Split-Kriterium berechnen

Aufgabe: Zwei Klassifikationssplits haben dieselbe Fehlerrate. Wie entscheidest du trotzdem?
Rechenweg: Berechne pro Kindknoten die Klassenanteile mk, daraus Gm oder Dm, bilde das nach Knotengröße gewichtete Mittel und wähle den Split mit dem kleineren Wert.

12.3 OOB-Anzahl schätzen

Aufgabe: Ein Bagging-Modell hat B = 500 Bäume. Für wie viele Bäume ist eine konkrete Beobachtung im Mittel OOB?
Rechenweg: 0.368 · 500 ≈ 184. Die OOB-Vorhersage dieser Beobachtung nutzt also ungefähr 184 Bäume.

12.4 Bagging, Random Forest und Boosting unterscheiden

Aufgabe: Erkläre den Unterschied in einem Satz je Methode.
Lösung: Bagging trainiert unabhängige Bäume auf Bootstrap-Stichproben und mittelt. Random Forest macht dasselbe, beschränkt aber zusätzlich je Split zufällig die Features. Boosting trainiert Bäume sequenziell an den bisherigen Fehlern beziehungsweise Residuen.

12.5 Fehlerkurven deuten

Aufgabe: Eine Boosting-Testfehlerkurve sinkt bis B = 40 und steigt danach. Was bedeutet das?
Lösung: Bis etwa 40 Bäume verbessert das Modell die Generalisierung. Danach beginnt Overfitting; ein sinnvoller Wert für B liegt nahe dem Minimum der Validierungs- oder Testkurve, wobei der finale Test nicht zum Tuning missbraucht werden sollte.

13. Häufige Fehler und Prüfungsfallen

14. Lerncheckliste und mögliche Klausurfragen

14.1 Kompakte Lerncheckliste

14.2 Mögliche Klausurfragen

  1. Erklären Sie am Baseball-Baum, welche Vorhersage ein Spieler mit gegebenen Years und Hits erhält.
  2. Formulieren Sie den RSS eines Regressionsbaums und erklären Sie alle Variablen.
  3. Warum wird recursive binary splitting als greedy bezeichnet?
  4. Warum kann ein sehr tiefer Baum overfitten, und wie hilft Pruning?
  5. Berechnen Sie Fehlerrate, Gini-Index und Cross-Entropy für einen Knoten mit gegebenen Klassenhäufigkeiten.
  6. Warum ist die Fehlerrate für die Split-Auswahl weniger geeignet als Gini oder Cross-Entropy?
  7. Vergleichen Sie Bäume und lineare Modelle anhand linearer und nichtlinearer Entscheidungsgrenzen.
  8. Leiten Sie her, warum ungefähr ein Drittel der Trainingsbeobachtungen für einen Bootstrap-Baum OOB ist.
  9. Erklären Sie den Unterschied zwischen Bagging und Random Forest.
  10. Welche Wirkung hat ein kleineres m im Random Forest?
  11. Warum erhöht Korrelation zwischen Bäumen die Varianz der Ensemble-Vorhersage?
  12. Beschreiben Sie den Boosting-Algorithmus für Regressionsbäume.
  13. Welche Rolle spielen eta, nrounds und max_depth in xgboost?
  14. Wie würden Sie die Lab-Aufgabe sauber validieren, ohne den Testdatensatz für Tuning zu missbrauchen?

15. Folienabdeckung

Folie/KapitelInhaltIn Zusammenfassung enthalten?Wo behandelt?
Folie 1Titel: Trees, EnsemblesJaÜberblick
Folie 2Kapitelstart EntscheidungsbäumeJaAbschnitt 2
Folie 3Baumbasierte Methoden, Segmentierung des FeatureraumsJa2.1
Folie 4Pros/Cons: Interpretierbarkeit vs. Genauigkeit, EnsemblesJa1 und 5
Folie 5Baseballdaten: AufteilungsfrageJa2.2
Folie 6Drei Regionen im Feature-RaumJa2.2 und Abbildung
Folie 7Baumbegriffe: Blätter, interne Knoten, SplitsJa2.3
Folie 8Baseball-Regressionsbaum mit Years und HitsJa2.3 und Abbildung
Folie 9Interpretation: Years und Hits für SalaryJa2.4
Folie 10Vorhersage numerischer Labels über BlattmittelwerteJa2.5
Folie 11Rechteckige Regionen/Boxen, RSS-ZielJa3.1
Folie 12Top-down greedy recursive binary splittingJa3.2
Folie 13Feature und Splitpunkt wählen, rekursiv wiederholen, AbbruchJa3.2
Folie 14Beispiele für Boxen, Regionen, BaumdarstellungJa3.3 und Abbildung
Folie 15Pruning und Begrenzung der BaumgrößeJa3.4
Folie 16Kapitelstart KlassifikationsbäumeJaAbschnitt 4
Folie 17Vorhersage über häufigste Klasse im BlattJa4.1
Folie 18Fehlerrate als Splitkriterium und ihre SchwächeJa4.2
Folie 19Gini-Index und Cross-EntropyJa4.3
Folie 20Beispiel: Fehlerrate nicht sensitiv, Gini unterscheidetJa4.4 und Abbildung
Folie 21Abschließende Überlegungen zu BäumenJaAbschnitt 5
Folie 22Bäume vs. lineare ModelleJa5.1 und Abbildung
Folie 23Vorteile/Nachteile von BäumenJa5.2
Folie 24Kapitelstart Ensemble ModelsJaAbschnitt 6
Folie 25Ensemble-Methoden: Bagging, Random Forest, Boosting, StackingJa6.1
Folie 26Kapitelstart BaggingJaAbschnitt 7
Folie 27Bagging als varianzreduzierende Ensemble-MethodeJa7.1
Folie 28Mittelwertbildung verringert Varianz, SimulationJa7.2
Folie 29Modellmittelung auf mehreren Datensätzen, Problem nur eines TrainingssetsJa7.2
Folie 30Bootstrapping als LösungsideeJa7.3
Folie 31Bagging-Formel für RegressionJa7.4
Folie 32Bagging von Klassifikationsbäumen: MehrheitsvotumJa7.5
Folie 33Out-of-Bag-FehlerJa7.6
Folie 34Bagging-Beispiel Baseball: OOB-RMSE 300.6547Ja7.7
Folie 35Vergleich Einzelbaum vs. BaggingJa7.7
Folie 36Kapitelstart Random ForestJaAbschnitt 8
Folie 37Random Forest als dekorreliertes BaggingJa8.1
Folie 38Simulation korrelierter SamplesJa8.2
Folie 39Korrelationssimulation: Varianz steigt bei KorrelationJa8.2
Folie 40RF-Verfahren: zufällige Feature-Teilmenge je SplitJa8.3
Folie 41RF-Beispiel Baseball mit OOB- und TestfehlerJa8.4
Folie 42Feature Importance über Impurity-AbnahmeJa8.5 und Abbildung
Folie 43Experiment zum Einfluss von m und BJa8.6
Folie 44Ergebnis Einfluss von mJa8.6 und Abbildung
Folie 45RF-Parameter: B, m, Baumgröße, Bootstrap-DetailsJa8.7
Folie 46Kapitelstart BoostingJaAbschnitt 9
Folie 47Boosting vs. Bagging: sequentiell statt unabhängigJa9.1
Folie 48Boosting-Algorithmus für RegressionsbäumeJa9.2
Folie 49Idee: langsames Lernen an Residuen, d und λJa9.3
Folie 50Boosting für Klassifikation, gbm/xgboostJa9.4
Folie 51xgboost-Beispiel Baseball, Dummy-Encoding, RMSE 409.6103Ja9.5
Folie 52Auswertung: schlechte Defaults, Tuning nötigJa9.5
Folie 53Experiment Baumtiefe mit eta 0.05Ja9.6
Folie 54Ergebnis Einfluss der TiefeJa9.6 und Abbildung
Folie 55Boosting-Parameter B, λ/eta, d/max_depthJa9.7
Folie 56Zusammenfassung der MethodenJa10
Folie 57Kapitelstart LabJa11
Folie 58Lab-Aufgabe: Auto-Datensatz, xgboost-Parameter untersuchenJa11
Folie 59Auto-Beispiel mit xgboost und RMSEJa11