Klausurzusammenfassung: Trees, Ensembles

Vorlesungsskript 60_Ch.8, KI und ML: Supervised Learning

Fokus: Entscheidungsbäume, Split-Kriterien, Pruning, Bagging, Out-of-Bag-Fehler, Random Forests, Boosting, Tuning und typische Klausuraufgaben.

Druckhinweis: Im Browser über Drucken > Als PDF speichern exportieren. Sinnvolle Einstellungen: Papierformat A4, Skalierung 100 %, Browser-Kopf-/Fußzeilen deaktivieren, Hintergrundgrafiken aktivieren.

1. Überblick und klausurrelevanter Kern

Dieses Kapitel behandelt Baumverfahren für Regression und Klassifikation und zeigt danach, warum einzelne Entscheidungsbäume zwar gut interpretierbar, aber oft nicht sehr genau sind. Der prüfungsrelevante rote Faden lautet: Ein Baum zerlegt den Feature-Raum in einfache rechteckige Regionen. In jeder Region wird eine einfache Vorhersage gemacht. Ensemble-Methoden kombinieren viele Bäume, um die Vorhersagegenauigkeit zu erhöhen, verlieren dabei aber einen Teil der direkten Interpretierbarkeit.

Prüfungskern: Du solltest einen Baum lesen können, einen neuen Datenpunkt durch den Baum schicken, RSS, Klassifikationsfehlerrate, Gini-Index und Cross-Entropy berechnen, Bagging und Random Forests sauber unterscheiden, OOB-Fehler erklären und Boosting als sequenzielles Lernen an Residuen verstehen.

2. Entscheidungsbäume für Regression

2.1 Grundidee: Segmentierung des Feature-Raums

Baumbasierte Methoden teilen den Feature-Raum in mehrere nicht überlappende Regionen auf. Bei den im Skript behandelten Standardbäumen entstehen diese Regionen durch wiederholte binäre Splits entlang einzelner Features. Dadurch sind die Regionen im mehrdimensionalen Raum Rechtecke beziehungsweise Boxen. Ein Baum ist also eine grafische Darstellung einer schrittweisen Wenn-dann-Regel.

Definition: Ein Entscheidungsbaum ist ein Modell, das Beobachtungen über interne Knoten anhand von Split-Regeln in Blätter leitet. Jedes Blatt entspricht einer Region R_j des Feature-Raums und enthält eine lokale Vorhersageregel.

2.2 Baseball-Beispiel: Regionsbildung

Im Baseball-Beispiel wird das Gehalt Salary mit den Features Years und Hits erklärt. Der Baum trennt zunächst bei Years < 4.5. Für erfahrenere Spieler wird anschließend bei Hits < 117.5 getrennt. Dadurch entstehen drei Regionen R₁, R₂ und R₃.

Folie 6: Regionen im Feature-Raum der Baseballdaten — **Folie 6:** Die vertikale Linie trennt unerfahrene von erfahrenen Spielern. Die horizontale Linie wirkt nur im rechten Teilraum und erzeugt dort zwei weitere Regionen.

2.3 Baumbegriffe

Die Wurzel ist der Startknoten des Baums. Interne Knoten enthalten Split-Regeln, zum Beispiel Years < 4.5. Von dort führen Zweige zu weiteren Knoten oder zu Blättern. Blätter enthalten keine weiteren Splits, sondern die finale Vorhersage. Im Skript sind Years und Hits die internen Knoten, die drei Endregionen sind die Blätter.

Folie 8: Regressionsbaum für die Baseballdaten — **Folie 8:** Die Zahlen in den Blättern sind Mittelwerte von Salary für die Trainingsbeobachtungen, die im jeweiligen Blatt landen.

2.4 Interpretation des Baseball-Baums

Der erste Split zeigt, dass Years in diesem Baum der wichtigste Faktor ist: weniger Erfahrung führt im Modell zu niedrigeren Gehältern. Für Spieler mit weniger als fünf Jahren Erfahrung wird Hits nicht weiter genutzt. Für erfahrene Spieler wird Hits relevant: Mehr Treffer im Vorjahr führen in der Baumlogik zu einer höheren Gehaltsvorhersage. Das ist bewusst stark vereinfacht, dafür aber sehr gut erklärbar.

Prüfungsfalle: Die erste Split-Variable ist nicht automatisch in jedem denkbaren Modell der wichtigste kausale Faktor. Sie ist der erste greedy gewählte Split für diese Daten, diese Features und dieses Kriterium.

2.5 Vorhersage eines numerischen Labels

Für Regression ist die Vorhersage in einem Blatt der Mittelwert der Trainingslabels in der entsprechenden Region. Ein neuer Datenpunkt wird durch die Split-Regeln geschickt, bis er in einem Blatt endet. Dort erhält er die Blattvorhersage.

Vorhersage im Regressionsbaum f̂(x) = ȳ_Rj, falls x ∈ R_jȳ_Rj = 1 / |R_j| · ∑_{i: x_i ∈ R_j} y_i

Variablen: f̂(x) ist die Baumvorhersage für einen neuen Punkt x. R_j ist das Blatt beziehungsweise die Region, in die x fällt. ȳ_Rj ist der Mittelwert der Trainingslabels im Blatt. |R_j| ist die Anzahl der Trainingsbeobachtungen in der Region.

3. Baumaufbau und Pruning

3.1 Zielgröße bei Regressionsbäumen: RSS

Ein Regressionsbaum soll Regionen finden, in denen die Zielwerte möglichst homogen sind. Für Regression wird dazu typischerweise die Residual Sum of Squares minimiert. Je kleiner der RSS, desto näher liegen die echten Trainingswerte an den Blattmittelwerten.

RSS eines Baums mit J Blättern RSS = ∑_j=1^J ∑_{i: x_i ∈ R_j} (y_i − ȳ_Rj)²

Variablen: J ist die Anzahl der Blätter. x_i ist der Feature-Vektor der Beobachtung i. y_i ist ihr echtes Label. R_j ist eine Blattregion. ȳ_Rj ist der Mittelwert der Labels in dieser Region.

3.2 Recursive Binary Splitting

Die optimale globale Zerlegung des Feature-Raums wäre rechnerisch zu teuer, weil sehr viele mögliche Split-Kombinationen geprüft werden müssten. Deshalb nutzt der Baumaufbau einen top-down greedy Ansatz: Man startet an der Wurzel, sucht den besten einzelnen Split, teilt die Daten in zwei Regionen und wiederholt das Verfahren rekursiv in den neuen Regionen.

Kandidatensplit für Feature X_j und Splitpunkt s R₁(j,s) = {x | x_j < s}R₂(j,s) = {x | x_j ≥ s}RSS(j,s) = ∑_{i: x_i ∈ R₁}(y_i − ȳ_R1)² + ∑_{i: x_i ∈ R₂}(y_i − ȳ_R2)²

Variablen: X_j ist das betrachtete Feature, s der Splitpunkt. R₁ und R₂ sind die beiden durch den Split erzeugten Teilregionen. Der greedy Schritt wählt das Paar (j,s), das den RSS im aktuellen Knoten am stärksten senkt.

Wichtig ist das Wort greedy: Der aktuell beste Split muss nicht zu einem global optimalen Baum führen, weil der Algorithmus nicht alle späteren Split-Folgen vorausplant. In Klausuren wird häufig geprüft, ob man diese lokale Optimierung korrekt vom globalen Optimum unterscheidet.

3.3 Beispiele für rechteckige Regionen

Da jeder Split nur eine Achse eines Features nutzt, entstehen Treppenstrukturen und rechteckige Boxen. Komplexe Entscheidungsgrenzen können durch viele Splits approximiert werden, aber ein einzelner Baum bleibt stückweise konstant.

Folie 14: Rechteckige Regionen, Baum und stückweise konstante Vorhersage — **Folie 14:** Mehrere binäre Splits erzeugen rechteckige Regionen. Die 3D-Darstellung zeigt, dass die Vorhersage innerhalb einer Region konstant bleibt.

3.4 Pruning und Begrenzung der Baumgröße

Sehr große Bäume passen die Trainingsdaten oft zu stark an. Das erzeugt Overfitting, verschlechtert die Generalisierung und macht den Baum schwerer interpretierbar. Eine einfache Gegenmaßnahme ist Pre-Pruning über Grenzen wie maximale Tiefe, minimale Blattgröße oder maximale Anzahl von Blättern. Das Skript nennt außerdem Pruning: Zuerst wird ein großer Baum erzeugt, anschließend werden Zweige gezielt abgeschnitten, um einen besseren Kompromiss aus Fehler und Komplexität zu erhalten.

Prüfungsfalle: Ein Baum mit niedrigerem Trainings-RSS ist nicht automatisch besser. Ohne Validierung oder Cross-Validation kann ein größerer Baum nur Rauschen gelernt haben.

4. Entscheidungsbäume für Klassifikation

4.1 Vorhersage im Klassifikationsbaum

Klassifikationsbäume funktionieren strukturell wie Regressionsbäume, aber die Zielvariable ist diskret oder kategorisch. Die Vorhersage in einem Blatt ist die häufigste Klasse der Trainingsbeobachtungen in diesem Blatt, also der Modus. Zusätzlich lassen sich Klassenwahrscheinlichkeiten als relative Klassenhäufigkeiten im Blatt interpretieren.

Klassenanteil und Blattvorhersage p̂_mk = 1 / n_m · ∑_{i: x_i ∈ R_m} I(y_i = k)clasŝ(R_m) = arg max_k p̂_mk

Variablen: R_m ist ein Blatt. n_m ist die Anzahl der Trainingsbeobachtungen im Blatt. k bezeichnet eine Klasse. p̂_mk ist der geschätzte Anteil der Klasse k im Blatt m. I(·) ist die Indikatorfunktion.

4.2 Warum RSS nicht passt

RSS setzt numerische Abstände voraus und ist deshalb kein geeignetes Splitkriterium für kategoriale Labels. Eine naheliegende Alternative ist die Klassifikationsfehlerrate im Knoten. Sie zählt den Anteil der Beobachtungen, die nicht zur Mehrheitsklasse gehören. Das ist einfach, aber für Split-Auswahl oft zu grob.

Klassifikationsfehlerrate im Blatt E_m = 1 − max_k p̂_mk

Variablen: E_m ist die Fehlerrate in Blatt m. max_k p̂_mk ist der Anteil der Mehrheitsklasse. Alle anderen Beobachtungen wären bei einer Blattvorhersage falsch klassifiziert.

4.3 Gini-Index und Cross-Entropy

Für die Split-Auswahl werden Gini-Index und Cross-Entropy bevorzugt, weil sie sensibler auf Änderungen der Klassenmischung reagieren. Beide Maße sind klein, wenn ein Knoten rein ist, also fast nur eine Klasse enthält. Für einen Split berechnet man das Maß für beide Kindknoten und bildet ein nach Knotengröße gewichtetes Mittel.

Gini-Index G_m = ∑_k=1^K p̂_mk(1 − p̂_mk) = 1 − ∑_k=1^K p̂_mk²

Variablen: K ist die Anzahl der Klassen. p̂_mk ist der Klassenanteil der Klasse k in Knoten m. Ein kleiner G_m bedeutet hohe Reinheit.

Cross-Entropy D_m = − ∑_k=1^K p̂_mk log(p̂_mk)

Variablen: D_m ist die Cross-Entropy des Knotens. Klassen mit Anteil nahe 0 oder 1 erzeugen niedrige Werte. In der Praxis liefern Gini und Cross-Entropy oft ähnliche Splits.

Gewichtete Bewertung eines Splits Score = n_L / n · Q_L + n_R / n · Q_R

Variablen: Q steht für Gini oder Cross-Entropy. n_L und n_R sind die Beobachtungszahlen im linken und rechten Kindknoten, n ist die Beobachtungszahl im Elternknoten.

4.4 Beispiel: Fehlerrate ist nicht sensitiv genug

Das Skript zeigt zwei Splits mit jeweils vier Fehlklassifikationen. Die Fehlerrate bewertet beide gleich, obwohl ein Split reinere Kindknoten erzeugt. Der Gini-Index erkennt diesen Unterschied und bevorzugt den besseren Split.

Folie 20: Fehlerrate versus Gini-Index — **Folie 20:** Beide Splits haben dieselbe Anzahl falscher Klassifikationen. Der Gini-Index ist kleiner für den reineren Split und damit besser für die Split-Auswahl geeignet.

Typischer Rechenweg: Bestimme pro Kindknoten die Klassenanteile p̂_mk, berechne pro Knoten G_m, gewichte die beiden Werte mit den Knotengrößen und vergleiche die Split-Scores. Der kleinere Score ist besser.

5. Bewertung einzelner Bäume

5.1 Bäume vs. lineare Modelle

Lineare Modelle bilden lineare Entscheidungs- oder Regressionsgrenzen gut ab. Entscheidungsbäume erzeugen dagegen achsenparallele, stückweise konstante Regionen. Bei stark nichtlinearen oder intervallartigen Strukturen können Bäume passender sein; bei tatsächlich linearen Zusammenhängen wirkt die Baumgrenze oft treppenförmig und unnötig grob.

Folie 22: Bäume im Vergleich zu linearen Modellen — **Folie 22:** Oben ist die wahre Grenze linear: das lineare Modell passt natürlich besser. Unten ist die Grenze nichtlinear/rechteckig: der Baum kann die Struktur besser nachbilden.

5.2 Vorteile und Nachteile

Aspekt	Einzelner Entscheidungsbaum	Klausurrelevante Einordnung
Interpretierbarkeit	Sehr hoch, oft als Wenn-dann-Regeln erklärbar.	Baum lesen, Pfad verfolgen und Blattvorhersage begründen können.
Grafische Darstellung	Sehr gut möglich.	Diagramme mit internen Knoten, Blättern und Regionen deuten.
Kategorische Features	Einfach handhabbar, oft ohne Dummy-Variablen.	Implementierungsdetails hängen vom Paket ab.
Vorhersagegenauigkeit	Häufig schlechter als flexiblere Modelle.	Motivation für Ensembles.
Stabilität	Kleine Datenänderungen können andere Splits erzeugen.	Varianzproblem, das Bagging adressiert.

Prüfungsfalle: Ein interpretierbares Modell ist nicht automatisch genauer. Ensembles erhöhen oft die Genauigkeit, aber die direkte Pfadinterpretation eines einzelnen Baums geht weitgehend verloren.

6. Ensemble-Modelle

Ensemble-Methoden kombinieren mehrere einzelne Modelle zu einem größeren Modell. Die Idee ist, Schwächen einzelner Modelle auszugleichen. Im Skript werden Bagging, Random Forests, Boosting und Stacking genannt; vertieft werden Bagging, Random Forests und Boosting.

Methode	Kernidee	Wichtige Prüfungsaussage
Bagging	Viele Modelle auf Bootstrap-Stichproben trainieren und mitteln.	Reduziert Varianz, Bäume sind unabhängig voneinander trainiert.
Random Forest	Bagging von Bäumen plus zufällige Feature-Teilmenge je Split.	Dekorreliert Bäume, dadurch sinkt die Varianz der Mittelung stärker.
Boosting	Modelle sequenziell trainieren, jedes neue Modell korrigiert bisherige Fehler.	Kann sehr genau sein, ist aber stärker tuning- und overfitting-sensitiv.
Stacking	Mehrere Modelltypen kombinieren, oft mit Meta-Modell.	Nur genannt, nicht Schwerpunkt des Skripts.

7. Bagging und Out-of-Bag-Fehler

7.1 Warum Mittelung Varianz reduziert

Bagging basiert auf der Beobachtung, dass Mittelwerte weniger variabel sind als einzelne Beobachtungen oder einzelne Schätzungen. Im Skript wird das mit simulierten Stichproben gezeigt: Der Mittelwert vieler unabhängiger Ziehungen hat eine deutlich kleinere Varianz als eine einzelne Ziehung. Übertragen auf Modelle heißt das: Wenn viele instabile Bäume gemittelt werden, wird die Gesamtvorhersage stabiler.

Varianz des Mittelwerts unabhängiger Schätzer Var(1 / B · ∑_b=1^B Z_b) = σ² / B

Variablen: Z_b sind unabhängige Schätzer mit Varianz σ². B ist die Anzahl der Schätzer beziehungsweise Bäume. Je größer B, desto kleiner wird die Varianz des Mittelwerts.

7.2 Bootstrap als Ersatz für mehrere Trainingsdatensätze

In der Praxis gibt es meist nur einen Trainingsdatensatz. Bagging erzeugt deshalb künstliche Trainingsdatensätze durch Bootstrapping: Es werden wiederholt Stichproben gleicher Größe mit Zurücklegen aus dem Trainingsdatensatz gezogen. Jede Bootstrap-Stichprobe enthält manche Beobachtungen mehrfach und manche gar nicht.

OOB-Wahrscheinlichkeit einer Beobachtung pro Baum P(nicht gezogen) = (1 − 1 / n)ⁿ ≈ e⁻¹ ≈ 0.368

Variablen: n ist die Größe des Trainingsdatensatzes. Bei einer Bootstrap-Stichprobe der Größe n bleibt eine konkrete Beobachtung ungefähr in 36.8 % der Bäume out-of-bag und wird in ungefähr 63.2 % der Bäume mindestens einmal gezogen.

7.3 Bagging für Regressionsbäume

Für Regression wird jeder Baum auf einer eigenen Bootstrap-Stichprobe trainiert. Die finale Vorhersage ist der Durchschnitt der Baumvorhersagen.

Bagging-Vorhersage für Regression f̂_bag(x) = 1 / B · ∑_b=1^B f̂^*b(x)

Variablen: B ist die Anzahl der Bootstrap-Stichproben beziehungsweise Bäume. f̂^*b(x) ist die Vorhersage des auf Bootstrap-Stichprobe b trainierten Baums. f̂_bag(x) ist der gemittelte Ensemble-Schätzer.

7.4 Bagging für Klassifikationsbäume

Bei Klassifikation ist der Mittelwert von Klassenlabels nicht sinnvoll. Deshalb nutzt man eine Mehrheitsabstimmung über die B Klassifikatoren. Alternativ kann man die von den Bäumen geschätzten Klassenhäufigkeiten beziehungsweise Wahrscheinlichkeiten mitteln und daraus die Klasse mit der höchsten mittleren Wahrscheinlichkeit wählen.

7.5 Out-of-Bag-Fehler

Out-of-Bag-Beobachtungen sind Trainingsbeobachtungen, die für einen bestimmten Baum nicht in dessen Bootstrap-Stichprobe enthalten waren. Für jede Beobachtung kann man eine OOB-Vorhersage berechnen, indem man nur die Bäume verwendet, für die diese Beobachtung nicht im Training war. Dadurch erhält man eine interne Schätzung des Testfehlers, ohne einen zusätzlichen Validierungssplit zu verwenden.

Rechenintuition: Bei B = 300 Bäumen ist eine Beobachtung ungefähr in 0.368 · 300 ≈ 110 Bäumen OOB. Ihre OOB-Vorhersage wird aus diesen etwa 110 Baumvorhersagen gebildet.

7.6 Baseball-Ergebnis im Skript

Im Baseball-Beispiel wird Bagging mit B = 200 Bootstrap-Replikationen trainiert. Die OOB-Schätzung des RMSE beträgt etwa 300.65. Auf dem Testset ergibt der Einzelbaum einen RMSE von 341.63, das Bagging-Ensemble einen RMSE von 308.03. Das illustriert die erwartete Varianzreduktion durch Mittelung vieler Bäume.

Prüfungsfalle: OOB-Fehler ist keine Magie und kein finaler externer Test. Er ist eine nützliche interne Fehlerschätzung für Bagging/Random-Forest-Modelle, weil jeder Baum nur einen Bootstrap-Ausschnitt der Trainingsdaten sieht.

8. Random Forests

8.1 Random Forest = Bagging plus Dekorrelation

Random Forests sind Bagging mit Entscheidungsbäumen, ergänzt um eine wichtige Änderung: Bei jedem Split darf der Baum nur eine zufällig gewählte Teilmenge von m Features aus insgesamt p Features betrachten. Dadurch werden die einzelnen Bäume weniger ähnlich. Weniger Korrelation zwischen den Bäumen bedeutet eine stärkere Varianzreduktion beim Mitteln.

Varianz des Mittelwerts korrelierter Schätzer Var(Z̄) = σ² / B · (1 + (B − 1)ρ)

Variablen: Z̄ ist der Mittelwert von B Schätzern. Jeder Schätzer hat Varianz σ². ρ ist die paarweise Korrelation. Wenn ρ groß ist, bleibt die Varianz trotz vieler Bäume hoch.

8.2 Verfahren und Parameter m

Für jeden Baum wird wie beim Bagging eine Bootstrap-Stichprobe gezogen. Beim Aufbau des Baums wird bei jedem Split neu eine Teilmenge von m Features ausgewählt. Der Split darf nur diese Features verwenden. Typischerweise ist m ≈ √p oder m = floor(√p), kann aber getuned werden. Wenn m = p, entspricht das Verfahren im Kern normalem Bagging, weil alle Features bei jedem Split verfügbar sind.

Prüfungsfalle: Die zufällige Feature-Auswahl passiert bei jedem Split neu, nicht nur einmal pro Baum.

8.3 Baseball-Ergebnis und Feature Importance

Im Baseball-Beispiel verbessert Random Forest den Test-RMSE weiter: Einzelbaum etwa 341.63, Bagging etwa 308.03, Random Forest etwa 297.93. Die OOB-Fehlerschätzung des Random-Forest-Modells liegt bei ungefähr 294.68.

Feature Importance wird im Skript als Summe der Fehler- beziehungsweise Impurity-Abnahme definiert, die Splits über ein bestimmtes Feature verursachen, gemittelt über alle B Bäume. Ein großer Wert deutet darauf hin, dass das Feature häufig nützliche Splits erzeugt.

Folie 42: Feature Importance im Random Forest — **Folie 42:** Die Balken zeigen die über die Bäume aggregierte Impurity-Abnahme. Große Balken bedeuten hohe modellinterne Wichtigkeit, nicht automatisch Kausalität.

Prüfungsfalle: Feature Importance ist modell- und datenabhängig. Korrelierte Features können Wichtigkeit teilen oder sich gegenseitig verdrängen; hohe Importance beweist keine kausale Wirkung.

8.4 Einfluss von m und B

Das Experiment im Skript variiert die Anzahl der Bäume B und die Anzahl der pro Split betrachteten Features m. Die Fehlerkurven zeigen: Sehr kleine Ensembles sind instabil. Mit mehr Bäumen stabilisiert sich der Fehler. m = 19 entspricht im Datensatz einfachem Bagging, weil alle 19 Features zugelassen werden. Kleinere m-Werte können besser sein, weil sie die Bäume dekorrelieren.

Folie 44: Einfluss von m und B im Random Forest — **Folie 44:** Mehr Bäume stabilisieren den Fehler. Der beste m-Wert ist datenabhängig; m = p ist Bagging und nicht zwingend optimal.

8.5 Random-Forest-Parameter

Parameter	Bedeutung	Prüfungsaussage
B	Anzahl der Bäume.	Mehr ist meist besser oder stabiler, erhöht aber Rechenkosten.
m	Anzahl der pro Split betrachteten Features.	Steuert Dekorrelation; m = p entspricht Bagging.
Baumgröße	Maximale Tiefe, Blattanzahl, minimale Blattgröße.	Kann Overfitting und Rechenkosten beeinflussen.
Bootstrap-Details	Anteil gezogener Daten, mit oder ohne Zurücklegen.	Beeinflusst Diversität der Bäume und OOB-Schätzung.

Das Skript betont, dass Random Forests bei nicht extremen Parametern oft relativ robust sind. Kleine Parameteränderungen haben häufig weniger dramatische Auswirkungen als bei Boosting.

9. Boosting

9.1 Unterschied zu Bagging

Boosting ist ebenfalls ein Ensemble-Verfahren, aber die Bäume werden nicht unabhängig und parallel trainiert. Sie entstehen sequenziell: Jeder neue Baum nutzt Informationen aus dem bisherigen Modell. Für Regression wird im Skript erklärt, dass neue Bäume an die aktuellen Residuen angepasst werden. Dadurch korrigiert jeder Baum schrittweise Fehler, die das Ensemble bisher noch macht.

9.2 Boosting-Algorithmus für Regressionsbäume

Sequenzielles Lernen an Residuen Initialisierung: f̂(x) = 0, r_i = y_iFür b = 1, 2, …, B: trainiere f̂^b(x) mit d Splits auf (X, r)f̂(x) ← f̂(x) + λ f̂^b(x)r_i ← r_i − λ f̂^b(x_i)Final: f̂(x) = ∑_b=1^B λ f̂^b(x)

Variablen: r_i ist das aktuelle Residuum der Beobachtung i. B ist die Anzahl der Boosting-Schritte beziehungsweise Bäume. d steuert die Baumtiefe beziehungsweise die Anzahl der Splits eines Einzelbaums. λ ist die Lernrate, in xgboost oft eta genannt.

Die zentrale Idee ist langsames Lernen. Jeder kleine Baum reduziert einen Teil der aktuellen Residuen. Durch die Lernrate λ wird der Beitrag eines neuen Baums absichtlich verkleinert, damit das Modell nicht zu schnell und zu stark auf Trainingsdetails reagiert.

9.3 Boosting für Klassifikation

Boosting für Klassifikation folgt derselben Grundidee, ist mathematisch aber komplexer. Das Skript verweist auf gbm und xgboost. Gerade xgboost ist bei klassischen tabellarischen Daten sehr leistungsfähig, benötigt aber sauberes Tuning und passende Datenvorverarbeitung. Kategorische Features müssen für xgboost im gezeigten Beispiel numerisch beziehungsweise über Dummy-Variablen codiert werden.

9.4 xgboost-Beispiel und schlechte Defaults

Im Baseball-Beispiel liefert ein erstes xgboost-Modell mit Standardparametern einen RMSE von etwa 409.61, also deutlich schlechter als Baum, Bagging und Random Forest. Das Skript interpretiert das nicht als grundsätzliches Scheitern von Boosting, sondern als Hinweis auf ungeeignete Defaultparameter. Besonders wichtig sind nrounds, max_depth und eta.

Prüfungsfalle: Boosting ist nicht automatisch besser. Ohne Tuning kann es schlechter sein als einfachere Verfahren. Der Testdatensatz darf nicht zum ständigen Nachjustieren verwendet werden; dafür braucht man Validierung oder Cross-Validation.

9.5 Einfluss der Baumtiefe

Das Skript variiert die Tiefe der Boosting-Bäume bei eta = 0.05. Die Kurven zeigen typisch: Bei wenigen Bäumen sinkt der Fehler zunächst stark. Danach kann der Fehler wieder steigen, vor allem bei komplexeren Bäumen. Das ist ein klares Overfitting-Signal.

Folie 54: Einfluss der Tiefe beim Boosting — **Folie 54:** Der Testfehler fällt zunächst und steigt später wieder. Tiefe Bäume können schneller overfitten; kleine Tiefen funktionieren oft überraschend gut.

9.6 Tuning-Parameter für Boosting

Parameter	Bedeutung	Wirkung/Falle
B / nrounds	Anzahl der Bäume im Ensemble.	Zu groß kann bei Boosting deutlich overfitten.
λ / eta	Lernrate, Schrittgröße jedes Baums.	Kleiner Wert lernt langsamer und braucht meist größeres B.
d / max_depth	Tiefe beziehungsweise Anzahl der Splits der Einzelbäume.	Steuert Modellkomplexität und Interaktionstiefe.

Typische Lernraten im Skript sind kleine positive Werte wie 0.01 oder 0.001, wobei die konkrete Wahl problemabhängig ist. Der R-Default von xgboost, eta = 0.3, wird als häufig zu groß beschrieben. Kleine λ-Werte benötigen dafür deutlich mehr Bäume.

10. Gesamtvergleich der Methoden

Methode	Stärken	Schwächen	Wann klausurrelevant?
Einzelbaum	Einfach erklärbar, grafisch gut darstellbar.	Hohe Varianz, oft geringe Genauigkeit.	Baum lesen, Splits und Blattmittelwerte berechnen.
Bagging	Reduziert Varianz instabiler Modelle.	Weniger interpretierbar, Bäume können stark korreliert bleiben.	Bootstrap, Mittelung, OOB erklären.
Random Forest	Dekorreliert Bäume, oft sehr robust und genau.	Interpretation nur indirekt, Feature Importance mit Vorsicht.	m, B, OOB, Unterschied zu Bagging.
Boosting	Sehr leistungsfähig, korrigiert Fehler sequenziell.	Tuning-sensitiv, Overfitting bei zu großem B möglich.	Residual-Algorithmus, Lernrate, Tiefe, Fehlerkurven deuten.

Merksatz: Bagging reduziert Varianz durch unabhängiges Mitteln. Random Forest verbessert Bagging durch Dekorrelation der Bäume. Boosting reduziert Fehler sequenziell durch langsame Korrektur der Residuen.

11. Lab: xgboost mit Auto-Daten

Die Lab-Aufgabe fordert, die Parameter eines xgboost-Modells auf dem Auto-Datensatz zu untersuchen. Das Beispiel lädt die Daten, zieht einen zufälligen Trainingssplit, trennt mpg als Label ab, trainiert ein Regressionsmodell mit objective = reg:squarederror und berechnet den RMSE auf dem Testset. Mit nrounds = 2 ergibt sich im Beispiel ein RMSE von etwa 4.892.

Klausurorientierter Lab-Ansatz: Variiere nicht blind viele Parameter auf dem Testset. Lege zuerst einen Validierungssplit oder Cross-Validation fest, untersuche dann systematisch nrounds, eta und max_depth, und bewerte erst das finale Modell auf dem Testset.

Parameteränderung	Erwarteter Effekt	Zu beobachten
nrounds erhöhen	Training lernt länger.	Validierungsfehler sinkt zunächst, kann später steigen.
eta senken	Kleinere Schritte, langsameres Lernen.	Mehr Runden nötig, oft stabilere Generalisierung.
max_depth erhöhen	Komplexere Einzelbäume, höhere Interaktionstiefe.	Mehr Overfitting-Risiko.

12. Typische Klausuraufgaben und Rechenwege

12.1 Baumvorhersage aus Diagramm

Aufgabe: Ein Spieler hat Years = 6 und Hits = 130. Welche Gehaltsvorhersage liefert der Baseball-Baum?
Rechenweg: Years = 6 ≥ 4.5, also rechter Zweig. Hits = 130 ≥ 117.5, also Blatt mit hoher Hits-Gruppe. Vorhersage ist der im Blatt angegebene Mittelwert, im Skript ungefähr 949.

12.2 Split-Kriterium berechnen

Aufgabe: Zwei Klassifikationssplits haben dieselbe Fehlerrate. Wie entscheidest du trotzdem?
Rechenweg: Berechne pro Kindknoten die Klassenanteile p̂_mk, daraus G_m oder D_m, bilde das nach Knotengröße gewichtete Mittel und wähle den Split mit dem kleineren Wert.

12.3 OOB-Anzahl schätzen

Aufgabe: Ein Bagging-Modell hat B = 500 Bäume. Für wie viele Bäume ist eine konkrete Beobachtung im Mittel OOB?
Rechenweg: 0.368 · 500 ≈ 184. Die OOB-Vorhersage dieser Beobachtung nutzt also ungefähr 184 Bäume.

12.4 Bagging, Random Forest und Boosting unterscheiden

Aufgabe: Erkläre den Unterschied in einem Satz je Methode.
Lösung: Bagging trainiert unabhängige Bäume auf Bootstrap-Stichproben und mittelt. Random Forest macht dasselbe, beschränkt aber zusätzlich je Split zufällig die Features. Boosting trainiert Bäume sequenziell an den bisherigen Fehlern beziehungsweise Residuen.

12.5 Fehlerkurven deuten

Aufgabe: Eine Boosting-Testfehlerkurve sinkt bis B = 40 und steigt danach. Was bedeutet das?
Lösung: Bis etwa 40 Bäume verbessert das Modell die Generalisierung. Danach beginnt Overfitting; ein sinnvoller Wert für B liegt nahe dem Minimum der Validierungs- oder Testkurve, wobei der finale Test nicht zum Tuning missbraucht werden sollte.

13. Häufige Fehler und Prüfungsfallen

Trainingsfehler mit Generalisierung verwechseln: Große Bäume können Trainingsdaten perfekt erklären und trotzdem schlecht auf neuen Daten sein.
Fehlerrate als bestes Splitkriterium annehmen: Sie ist leicht verständlich, aber für Split-Auswahl oft zu unsensitiv.
Gini falsch interpretieren: Kleiner Gini bedeutet reinerer Knoten; es wird der gewichtete Split-Score minimiert.
Bagging und Random Forest gleichsetzen: Random Forest nutzt zusätzlich zufällige Feature-Teilsets bei jedem Split.
m falsch verstehen: m ist die Anzahl der pro Split betrachteten Features, nicht die Anzahl der Bäume.
OOB mit Testset verwechseln: OOB ist eine interne Schätzung innerhalb des Trainingsprozesses.
Feature Importance kausal lesen: Sie zeigt modellinterne Nützlichkeit, keine Ursache-Wirkungs-Aussage.
Boosting ohne Tuning bewerten: Schlechte Defaults können zu schlechten Ergebnissen führen.
Testdaten für Tuning nutzen: Parameterwahl gehört auf Validierung/Cross-Validation, nicht auf den finalen Test.

14. Lerncheckliste und mögliche Klausurfragen

14.1 Kompakte Lerncheckliste

Ich kann interne Knoten, Blätter, Wurzel, Split und Region an einem Baumdiagramm benennen.
Ich kann für einen neuen Datenpunkt den Pfad durch einen Regressionsbaum verfolgen und die Blattvorhersage ablesen.
Ich kann RSS für Blattregionen formulieren und erklären.
Ich kann recursive binary splitting als top-down greedy Verfahren erklären.
Ich kann Overfitting bei großen Bäumen begründen und Pruning einordnen.
Ich kann Fehlerrate, Gini-Index und Cross-Entropy für Klassifikationsbäume berechnen und interpretieren.
Ich kann erklären, warum einzelne Bäume interpretierbar, aber oft ungenau sind.
Ich kann Bagging als Bootstrap-Aggregating mit Mittelung oder Mehrheitsvotum beschreiben.
Ich kann OOB-Beobachtungen und OOB-Fehler herleiten.
Ich kann Random Forests von Bagging unterscheiden und die Rolle von m und B erklären.
Ich kann Feature Importance kritisch interpretieren.
Ich kann Boosting als sequentielle Residuenkorrektur erklären und die Parameter B, λ und d einordnen.

14.2 Mögliche Klausurfragen

Erklären Sie am Baseball-Baum, welche Vorhersage ein Spieler mit gegebenen Years und Hits erhält.
Formulieren Sie den RSS eines Regressionsbaums und erklären Sie alle Variablen.
Warum wird recursive binary splitting als greedy bezeichnet?
Warum kann ein sehr tiefer Baum overfitten, und wie hilft Pruning?
Berechnen Sie Fehlerrate, Gini-Index und Cross-Entropy für einen Knoten mit gegebenen Klassenhäufigkeiten.
Warum ist die Fehlerrate für die Split-Auswahl weniger geeignet als Gini oder Cross-Entropy?
Vergleichen Sie Bäume und lineare Modelle anhand linearer und nichtlinearer Entscheidungsgrenzen.
Leiten Sie her, warum ungefähr ein Drittel der Trainingsbeobachtungen für einen Bootstrap-Baum OOB ist.
Erklären Sie den Unterschied zwischen Bagging und Random Forest.
Welche Wirkung hat ein kleineres m im Random Forest?
Warum erhöht Korrelation zwischen Bäumen die Varianz der Ensemble-Vorhersage?
Beschreiben Sie den Boosting-Algorithmus für Regressionsbäume.
Welche Rolle spielen eta, nrounds und max_depth in xgboost?
Wie würden Sie die Lab-Aufgabe sauber validieren, ohne den Testdatensatz für Tuning zu missbrauchen?

15. Folienabdeckung

Folie/Kapitel	Inhalt	In Zusammenfassung enthalten?	Wo behandelt?
Folie 1	Titel: Trees, Ensembles	Ja	Überblick
Folie 2	Kapitelstart Entscheidungsbäume	Ja	Abschnitt 2
Folie 3	Baumbasierte Methoden, Segmentierung des Featureraums	Ja	2.1
Folie 4	Pros/Cons: Interpretierbarkeit vs. Genauigkeit, Ensembles	Ja	1 und 5
Folie 5	Baseballdaten: Aufteilungsfrage	Ja	2.2
Folie 6	Drei Regionen im Feature-Raum	Ja	2.2 und Abbildung
Folie 7	Baumbegriffe: Blätter, interne Knoten, Splits	Ja	2.3
Folie 8	Baseball-Regressionsbaum mit Years und Hits	Ja	2.3 und Abbildung
Folie 9	Interpretation: Years und Hits für Salary	Ja	2.4
Folie 10	Vorhersage numerischer Labels über Blattmittelwerte	Ja	2.5
Folie 11	Rechteckige Regionen/Boxen, RSS-Ziel	Ja	3.1
Folie 12	Top-down greedy recursive binary splitting	Ja	3.2
Folie 13	Feature und Splitpunkt wählen, rekursiv wiederholen, Abbruch	Ja	3.2
Folie 14	Beispiele für Boxen, Regionen, Baumdarstellung	Ja	3.3 und Abbildung
Folie 15	Pruning und Begrenzung der Baumgröße	Ja	3.4
Folie 16	Kapitelstart Klassifikationsbäume	Ja	Abschnitt 4
Folie 17	Vorhersage über häufigste Klasse im Blatt	Ja	4.1
Folie 18	Fehlerrate als Splitkriterium und ihre Schwäche	Ja	4.2
Folie 19	Gini-Index und Cross-Entropy	Ja	4.3
Folie 20	Beispiel: Fehlerrate nicht sensitiv, Gini unterscheidet	Ja	4.4 und Abbildung
Folie 21	Abschließende Überlegungen zu Bäumen	Ja	Abschnitt 5
Folie 22	Bäume vs. lineare Modelle	Ja	5.1 und Abbildung
Folie 23	Vorteile/Nachteile von Bäumen	Ja	5.2
Folie 24	Kapitelstart Ensemble Models	Ja	Abschnitt 6
Folie 25	Ensemble-Methoden: Bagging, Random Forest, Boosting, Stacking	Ja	6.1
Folie 26	Kapitelstart Bagging	Ja	Abschnitt 7
Folie 27	Bagging als varianzreduzierende Ensemble-Methode	Ja	7.1
Folie 28	Mittelwertbildung verringert Varianz, Simulation	Ja	7.2
Folie 29	Modellmittelung auf mehreren Datensätzen, Problem nur eines Trainingssets	Ja	7.2
Folie 30	Bootstrapping als Lösungsidee	Ja	7.3
Folie 31	Bagging-Formel für Regression	Ja	7.4
Folie 32	Bagging von Klassifikationsbäumen: Mehrheitsvotum	Ja	7.5
Folie 33	Out-of-Bag-Fehler	Ja	7.6
Folie 34	Bagging-Beispiel Baseball: OOB-RMSE 300.6547	Ja	7.7
Folie 35	Vergleich Einzelbaum vs. Bagging	Ja	7.7
Folie 36	Kapitelstart Random Forest	Ja	Abschnitt 8
Folie 37	Random Forest als dekorreliertes Bagging	Ja	8.1
Folie 38	Simulation korrelierter Samples	Ja	8.2
Folie 39	Korrelationssimulation: Varianz steigt bei Korrelation	Ja	8.2
Folie 40	RF-Verfahren: zufällige Feature-Teilmenge je Split	Ja	8.3
Folie 41	RF-Beispiel Baseball mit OOB- und Testfehler	Ja	8.4
Folie 42	Feature Importance über Impurity-Abnahme	Ja	8.5 und Abbildung
Folie 43	Experiment zum Einfluss von m und B	Ja	8.6
Folie 44	Ergebnis Einfluss von m	Ja	8.6 und Abbildung
Folie 45	RF-Parameter: B, m, Baumgröße, Bootstrap-Details	Ja	8.7
Folie 46	Kapitelstart Boosting	Ja	Abschnitt 9
Folie 47	Boosting vs. Bagging: sequentiell statt unabhängig	Ja	9.1
Folie 48	Boosting-Algorithmus für Regressionsbäume	Ja	9.2
Folie 49	Idee: langsames Lernen an Residuen, d und λ	Ja	9.3
Folie 50	Boosting für Klassifikation, gbm/xgboost	Ja	9.4
Folie 51	xgboost-Beispiel Baseball, Dummy-Encoding, RMSE 409.6103	Ja	9.5
Folie 52	Auswertung: schlechte Defaults, Tuning nötig	Ja	9.5
Folie 53	Experiment Baumtiefe mit eta 0.05	Ja	9.6
Folie 54	Ergebnis Einfluss der Tiefe	Ja	9.6 und Abbildung
Folie 55	Boosting-Parameter B, λ/eta, d/max_depth	Ja	9.7
Folie 56	Zusammenfassung der Methoden	Ja	10
Folie 57	Kapitelstart Lab	Ja	11
Folie 58	Lab-Aufgabe: Auto-Datensatz, xgboost-Parameter untersuchen	Ja	11
Folie 59	Auto-Beispiel mit xgboost und RMSE	Ja	11