Klausurorientierte Zusammenfassung

Support Vector Machines

Basierend auf 40_Ch.9: Support Vector Machines, 48 Folien, KI und ML: Supervised Learning.

Druckhinweis: Im Browser über Drucken > Als PDF speichern exportieren. Sinnvolle Einstellungen: Papierformat A4, Skalierung 100 %, Browser-Kopf- und Fußzeilen deaktivieren.

1. Hyperebenen und Abstände

Folien 2-4

Definition Eine Hyperebene in ℝ^d ist ein affiner Unterraum der Dimension d − 1. In einer Dimension ist sie ein Punkt, in zwei Dimensionen eine Gerade, in drei Dimensionen eine Ebene.

Eine Hyperebene wird über eine Konstante und einen Normalenvektor beschrieben. Der Normalenvektor steht orthogonal auf der Hyperebene. Jeder Punkt x auf der Hyperebene erfüllt:

n₀ + n₁x₁ + n₂x₂ + ... + n_dx_d = 0 n₀ + n^Tx = 0

Dabei ist n₀ der Achsenabschnitt beziehungsweise Bias-Term, n der Normalenvektor, x ein Featurevektor und d die Anzahl der Features.

Abstand eines Punktes zur Hyperebene

Für einen Punkt p und die Hyperebene E: n^Tx + n₀ = 0 lautet der geometrische Abstand:

d(p, E) = |p^Tn + n₀| / ∥n∥ Falls ∥n∥ = 1: d(p, E) = |p^Tn + n₀|

Ohne Betrag liefert p^Tn + n₀ einen vorzeichenbehafteten Abstand, wenn n normiert ist. Das Vorzeichen sagt, auf welcher Seite der Hyperebene der Punkt liegt.

Prüfungsfalle Wenn der Normalenvektor nicht die Länge 1 hat, ist p^Tn + n₀ kein Abstand, sondern nur ein proportionaler Score. Beim Normieren muss nicht nur n, sondern auch n₀ durch ∥n∥ geteilt werden.

Typischer Rechenweg Für f(x) = −1 + 2x₁ + x₂ und p = (1, 2) gilt f(p) = 3. Der Normalenvektor ist (2, 1), also ∥n∥ = √5. Der Abstand ist 3 / √5; das positive Vorzeichen bedeutet: p liegt auf der positiven Seite der Hyperebene.

2. Lineare binäre Klassifikation

Folien 6-10

Die Folien betrachten zunächst binäre Klassifikation mit genau zwei Klassen. Ziel ist eine Regel, die die beiden Klassen durch eine Hyperebene trennt. Die Entscheidungsfunktion lautet:

f(x) = n₀ + n^Tx Entscheidung: Klasse nach dem Vorzeichen von f(x)

Folie 7: Binäre Klassifikation mit zwei gut trennbaren Punktwolken — Folie 7: Ausgangslage der binären Klassifikation. Gesucht ist eine Trennregel zwischen zwei Klassen.

Trennende Hyperebene prüfen

Man kodiert die Klassen als y_i = +1 und y_i = −1. Ein Datenpunkt (x_i, y_i) ist korrekt klassifiziert, wenn das Vorzeichen von f(x_i) zur Kodierung passt.

Trennung bei passender Vorzeichenkonvention: y_i · f(x_i) > 0 für alle i Entscheidungsgrenze: f(x) = 0

Falls die Klassenkodierung andersherum gewählt wird, kann die Bedingung äquivalent mit negativem Vorzeichen auftreten. Wichtig ist nicht das absolute Vorzeichen der Hyperebene, sondern die konsistente Zuordnung zwischen Klasse und Seite.

Folie 8: Mehrere Hyperebenen, einige trennen die Klassen korrekt, andere nicht — Folie 8: Einige Hyperebenen trennen beide Klassen exakt, andere schneiden durch die Punktwolken.

Typische Klausuraufgabe Gegeben sind mehrere Punkte, ihre Labels und eine Funktion f. Berechne für jeden Punkt y_i · f(x_i). Sind alle Werte positiv, trennt die Hyperebene die Trainingsdaten unter dieser Kodierung exakt. Ist ein Wert null, liegt der Punkt direkt auf der Grenze; ist ein Wert negativ, wird der Punkt falsch klassifiziert.

3. Hard Margin Classifier

Folien 11-15

Definition Die Margin ist der minimale Abstand der Trainingspunkte zur trennenden Hyperebene. Der Hard Margin Classifier wählt unter allen trennenden Hyperebenen diejenige mit größter Margin.

Wenn viele Hyperebenen die Daten korrekt trennen, ist nicht jede gleich gut. Eine große Margin bedeutet, dass die Entscheidungsgrenze möglichst weit von den nächsten Trainingspunkten entfernt liegt. Diese nächsten Punkte heißen Supportvektoren.

Folie 11: Hard Margin mit zentraler Trennlinie, Margin-Grenzen und Supportvektoren — Folie 11: Die gestrichelten Linien markieren die Margin-Grenzen. Die markierten Punkte sind Supportvektoren.

Warum Supportvektoren die Lösung bestimmen

Nur die Punkte auf den Margin-Grenzen stützen die Lage der optimalen Hyperebene. Kleine Änderungen an Nicht-Supportvektoren verändern die Hyperebene nicht, solange diese Punkte außerhalb der Margin bleiben. Änderungen an Supportvektoren können die Lage der Grenze direkt verschieben.

Margin-Bedingung

Für eine normierte Hyperebene ohne Margin-Verletzung gilt:

y_i · f(x_i) ≥ M für alle i ∈ {1, ..., m}

M ist die geforderte Margin, m die Anzahl der Beobachtungen. Diese Bedingung setzt voraus, dass n normiert ist; sonst steht links kein geometrischer Abstand.

Optimierungsproblem

Die Folien formulieren die Hard-Margin-Idee als Maximierung der Margin unter Nebenbedingungen:

      maxn0, n1, ..., np M
      unter Σj=1p nj2 = 1
      und yi · (n0 + nTxi) ≥ M für alle i ∈ {1, ..., m}
    

Hier steht p für die Anzahl der Features. Die Nebenbedingung Σ n_j² = 1 normiert den Normalenvektor. In der Praxis wird das Problem oft in ein quadratisches Optimierungsproblem umformuliert.

Folie 15: Nicht linear trennbare Daten als Grenze des Hard Margin Classifiers — Folie 15: Hard Margin scheitert, wenn keine trennende Hyperebene existiert.

Prüfungsfalle Hard Margin bedeutet keine Fehler und keine Margin-Verletzungen. Das ist bei realen Daten oft unrealistisch, besonders wenn viele Beobachtungen im Verhältnis zur Featurezahl vorhanden sind oder Messrauschen vorliegt.

4. Soft Margin / Support Vector Classifier

Folien 16-18

Der Soft Margin Classifier lockert die harte Forderung nach perfekter Trennung. Die Grundidee: Die meisten Punkte sollen gut getrennt werden, aber einzelne Punkte dürfen innerhalb der Margin oder sogar auf der falschen Seite der Hyperebene liegen.

Folie 17: Soft Margin mit Punkten auf der Margin, innerhalb der Margin und falsch klassifizierten Punkten — Folie 17: Beim Soft Margin Classifier zählen alle Margin-Verletzer als Supportvektoren.

Slack-Variablen

Für jeden Trainingspunkt gibt es eine Slack-Variable ε_i. Sie misst, wie stark der Punkt die Margin-Bedingung verletzt. Ein Budget C begrenzt in der Foliennotation die Summe dieser Verletzungen.

      maxn0, n1, ..., np, ε1, ..., εm M
      unter Σj=1p nj2 = 1
      yi · (n0 + nTxi) ≥ M − εi
      εi ≥ 0 und Σi=1m εi ≤ C
    

Größe	Bedeutung	Klausurinterpretation
ε_i = 0	Keine Margin-Verletzung	Punkt liegt korrekt außerhalb oder auf der Margin-Grenze.
0 < ε_i < M	Innerhalb der Margin	Punkt ist meist noch korrekt klassifiziert, aber zu nah an der Grenze.
ε_i ≥ M	Starke Verletzung	Punkt kann auf der falschen Seite der Hyperebene liegen.

Implementierungsfalle Die Folien verwenden C als Budget für die Summe der Slack-Variablen: größeres C erlaubt mehr Verletzung. In vielen Softwarepaketen heißt ein Parameter ebenfalls C oder cost, bedeutet aber eine Strafstärke: größeres cost bestraft Verletzungen stärker. Immer die jeweilige Dokumentation oder Vorlesungsdefinition verwenden.

5. Kernel und Feature-Räume

Folien 19-35

Warum lineare Grenzen nicht immer reichen

Manche Daten lassen sich im ursprünglichen Feature-Raum nicht sinnvoll linear trennen. Das liegt nicht nur an einem schlecht gewählten Soft-Margin-Parameter: Eine lineare Entscheidungsgrenze kann strukturell ungeeignet sein.

Folie 20: Nichtlinearer Klassifikationsfall, bei dem eine lineare Entscheidungsgrenze fehlschlägt — Folie 20: Eine lineare Grenze bleibt falsch, auch wenn der Soft-Margin-Spielraum verändert wird.

Feature-Raum erweitern

Eine Lösung ist, zusätzliche Features zu erzeugen, zum Beispiel Potenzen und Produkte der ursprünglichen Variablen. Ein linearer Klassifikator im erweiterten Raum kann im ursprünglichen Raum eine nichtlineare Grenze erzeugen.

β₀ + β₁X₁ + β₂X₂ + β₃X₁² + β₄X₂² + β₅X₁X₂ + β₆X₁³ + β₇X₂³ + β₈X₁X₂² + β₉X₁²X₂ = 0

Folie 22: Kubische Feature-Erweiterung erzeugt nichtlineare Grenze im ursprünglichen Raum — Folie 22: Ein lineares Modell in einem polynomiell erweiterten Raum entspricht einer nichtlinearen Grenze im Originalraum.

Das Problem: Polynome höherer Ordnung werden numerisch schnell schwierig. Außerdem ist vorab unklar, welcher Polynomgrad oder welche Feature-Kombination ausreicht.

Distanzfeatures als Motivation für Kernel

Die Folien zeigen eine 1D-Situation: Im ursprünglichen Raum sind die Klassen nicht durch einen Punkt trennbar. Wenn man aber als zweites Feature den Abstand zu einem geeigneten Referenzpunkt verwendet, entsteht eine lineare Trennmöglichkeit im erweiterten Raum.

Referenzpunkt: x′₁ = 1.5 Neues Feature: x₂ = |x₁ − x′₁|

Folie 25: 1D-Daten werden durch ein Distanzfeature in einen 2D-Raum erweitert — Folie 25: Aus einem eindimensionalen Problem wird durch ein Distanzfeature ein zweidimensionales Problem.

Folie 26: Lineare Trennung im erweiterten Distanzraum und resultierendes Intervall im ursprünglichen Raum — Folie 26: Die lineare Grenze im erweiterten Raum entspricht im ursprünglichen Raum einem Intervall der roten Klasse.

Der entscheidende Schritt: Statt einen einzelnen Referenzpunkt manuell zu wählen, kann man alle Trainingspunkte als Referenzen betrachten. Ein Kernel fasst diese Idee über eine parametrisierte Ähnlichkeits- oder innere-Produkt-Funktion zusammen.

Radial-Kernel

K(x, x′) = e^{−γ Σ_j=1^p(x_j − x′_j)²}

K ist die Kernelfunktion, γ steuert die Reichweite des Kernels, p ist die Featurezahl, und x_j beziehungsweise x′_j sind die j-ten Komponenten der beiden Vektoren. Große Werte von γ machen den Kernel lokaler und können zu sehr flexiblen Grenzen führen; kleine Werte glätten stärker.

Typischer Rechenweg Für x = (1, 2), x′ = (3, 1) und γ = 0.5 ist die quadrierte Distanz (1−3)² + (2−1)² = 5. Damit gilt K(x, x′) = e^−2.5 ≈ 0.082.

Kernel-Trick

Der Kernel-Trick vermeidet, die hochdimensionale Transformation explizit auszurechnen. Statt direkt mit ϕ(x) zu arbeiten, berechnet man nur innere Produkte im transformierten Raum:

K(x_i, x′_i) = ⟨ϕ(x_i), ϕ(x′_i)⟩ ϕ(X): ℝ^p → ℋ

Der Raum ℋ kann sehr hochdimensional oder beim Radial-Kernel sogar unendlich-dimensional sein. Man muss ϕ aber nicht explizit bilden; es reicht, K auszuwerten.

Vorhersage mit Kernel-SVM

Die Hyperebene im hochdimensionalen Raum kann durch Trainingspunkte und Gewichte beschrieben werden:

      f(x) = n0 + Σi=1n αiK(xi, x)
      Entscheidungsgrenze: f(x) = 0
      Klasse: ĉ(x) = sign(f(x))
    

Die Gewichte α_i werden im Training bestimmt. Punkte mit α_i = 0 werden für die Vorhersage nicht benötigt; Punkte mit α_i ≠ 0 sind Supportvektoren. Die Folien verwenden in der Kernel-Summe n als Anzahl der Trainingspunkte; an anderer Stelle steht dafür m.

Prüfungsfalle Der Kernel ist nicht einfach ein Trick zum Zeichnen nichtlinearer Kurven. Formal ersetzt er innere Produkte im transformierten Feature-Raum. Eine Funktion ist nur dann ein gültiger Kernel, wenn sie die notwendigen Eigenschaften wie Symmetrie und positive Semidefinitheit erfüllt.

6. Mehrklassen-SVM und Modellwahl

Folien 36-39

SVMs mit mehr als zwei Klassen

Die bisherige SVM-Formulierung ist binär. Für K Klassen nutzt man typischerweise Reduktionsstrategien:

Strategie	Prinzip	Entscheidungsregel	Wann sinnvoll?
One-vs-All	Trainiere K binäre Klassifikatoren: jede Klasse gegen den Rest.	Ordne x* der Klasse mit größtem Score f̂_k(x*) zu.	Gut, wenn K groß ist und Rechenaufwand zählt.
One-vs-One	Trainiere alle paarweisen Klassifikatoren.	Mehrheitsentscheidung über die paarweisen Siege.	Oft bevorzugt, wenn K nicht zu groß ist.

Modellwahl

Wenn Klassen fast exakt trennbar sind, können Soft-Margin-Klassifikatoren besser passen als logistische Regression oder LDA, weil die Margin-Idee die Grenze an den kritischsten Punkten ausrichtet. Wenn die Trennung nicht klar ist, können logistische Regression und Soft-Margin-SVM ähnlich wirken.

Wenn Wahrscheinlichkeiten benötigt werden, sind logistische Regression oder LDA naheliegender. Es gibt SVM-Varianten mit Wahrscheinlichkeiten, aber die Standard-SVM liefert primär Scores und Klassenentscheidungen. Für nichtlineare Daten sind Kernel-SVMs besonders relevant; Kernelideen können prinzipiell auch bei anderen Verfahren verwendet werden.

Prüfungsfalle Parameterbezeichnungen sind nicht standardisiert. Ein Parameter C, cost oder γ kann je nach Software und Vorlesungsnotation anders skaliert oder anders herum interpretiert werden. In Klausuren zählt die Definition aus der Aufgabe.

7. Lab und Implementierung

Folien 41-48

Der Lab-Teil nutzt R, die Pakete e1071 und ggplot2, einen künstlichen nichtlinearen Datensatz und eine SVM mit radialem Kernel.

Grundworkflow in R

library(e1071)
library(ggplot2)
set.seed(123)

x1 <- runif(100, -2, 2)
x2 <- runif(100, -2, 2)
y <- ifelse(x1^2 + x2^2 < 1.5, "Class_A", "Class_B")
dat <- data.frame(x1 = x1, x2 = x2, y = factor(y))

svm_model <- svm(
  y ~ .,
  data = dat,
  kernel = "radial",
  cost = 10,
  gamma = 1
)

Für die Visualisierung wird ein Gitter über den Feature-Raum gelegt. Das Modell sagt für jeden Gitterpunkt eine Klasse voraus. Daraus entstehen farbige Entscheidungsregionen und eine Konturlinie als Entscheidungsgrenze.

Folie 46: R-Plot mit radialer SVM, Entscheidungsregionen und schwarzer Entscheidungsgrenze — Folie 46: Radiale SVM auf einem nichtlinearen künstlichen Datensatz. Die schwarze Linie ist die Entscheidungsgrenze.

Moons-Datensatz

Die Moons-Aufgabe prüft, ob man die Modellidee übertragen kann: Ein linearer Kernel wird die halbmondförmigen Klassen typischerweise schlecht trennen, ein radialer Kernel kann die gekrümmte Struktur erfassen.

Typische Lab-Frage Was passiert beim Wechsel von kernel = "linear" zu kernel = "radial"? Erwartung: Der lineare Kernel erzeugt eine Gerade und scheitert bei halbmondförmigen Klassen; der radiale Kernel erzeugt eine flexible nichtlineare Entscheidungsgrenze.

8. Klausurteil

Typische Aufgaben und Rechenwege

Abstand berechnen: Setze den Punkt in f(x) ein, bilde ∥n∥, teile den Betrag des Scores durch die Norm.
Trennung prüfen: Berechne y_i · f(x_i) für alle Punkte. Positiv bedeutet korrekt unter der gewählten Kodierung.
Margin prüfen: Stelle zuerst sicher, dass der Normalenvektor normiert ist. Dann prüfe y_i · f(x_i) ≥ M.
Supportvektoren identifizieren: Hard Margin: Punkte auf den Margin-Grenzen. Soft Margin: Punkte auf der Grenze, innerhalb der Margin oder falsch klassifiziert.
Slack-Budget prüfen: Summiere die ε_i. Die Bedingung der Folien ist erfüllt, wenn Σ ε_i ≤ C.
RBF-Kernel berechnen: Quadrierte Distanz komponentenweise aufsummieren, mit −γ multiplizieren, Exponentialfunktion anwenden.
OVA/OVO zählen: One-vs-All benötigt K Klassifikatoren, One-vs-One benötigt K(K−1)/2.

Häufige Fehler

Fehler 1: Score mit Abstand verwechseln f(x) ist nur dann ein Abstand, wenn der Normalenvektor normiert ist. Sonst muss durch ∥n∥ geteilt werden.

Fehler 2: Klassenkodierung inkonsistent verwenden Die Bedingung y_i · f(x_i) > 0 funktioniert nur, wenn +1 und −1 konsistent zu den Seiten der Hyperebene gewählt werden.

Fehler 3: Hard Margin bei nicht trennbaren Daten anwenden Wenn eine trennende Hyperebene nicht existiert, hat das Hard-Margin-Problem keine sinnvolle Lösung. Dann braucht man Soft Margin oder Kernel/Feature-Erweiterungen.

Fehler 4: Kernel als explizite Feature-Tabelle missverstehen Beim Kernel-Trick wird der hochdimensionale Raum gerade nicht explizit berechnet. Man berechnet nur K(x, x′).

Fehler 5: Softwareparameter blind übertragen Besonders C, cost und γ müssen immer gemäß Aufgabenstellung interpretiert werden.

Kompakte Lerncheckliste

Ich kann die Gleichung einer Hyperebene erklären und alle Variablen benennen.
Ich kann den Abstand eines Punktes zur Hyperebene berechnen und das Vorzeichen interpretieren.
Ich kann prüfen, ob eine Hyperebene binäre Daten trennt.
Ich kann Margin und Supportvektoren in einer Grafik erkennen.
Ich kann das Hard-Margin-Optimierungsproblem erklären.
Ich kann erklären, warum Hard Margin bei realen Daten oft scheitert.
Ich kann Slack-Variablen ε_i und das Budget C interpretieren.
Ich kann erklären, warum Feature-Erweiterungen nichtlineare Grenzen erzeugen.
Ich kann den Radial-Kernel berechnen und die Rolle von γ beschreiben.
Ich kann den Kernel-Trick in Worten und mit Formel erklären.
Ich kann OVA und OVO unterscheiden und die Anzahl der Klassifikatoren bestimmen.
Ich kann begründen, wann SVM, logistische Regression, LDA oder Kernel-SVM naheliegend sind.
Ich kann den R-Lab-Code grob lesen und erklären, warum ein radialer Kernel beim Moons-Datensatz sinnvoll ist.

Mögliche Klausurfragen

Definieren Sie eine Hyperebene in ℝ^d und erklären Sie die Rolle des Normalenvektors.
Berechnen Sie den Abstand eines gegebenen Punktes zu einer angegebenen Hyperebene.
Prüfen Sie anhand von y_i · f(x_i), ob eine Hyperebene alle Trainingspunkte korrekt trennt.
Erklären Sie den Unterschied zwischen trennender Hyperebene und Hard-Margin-Hyperebene.
Identifizieren Sie in einer Grafik die Supportvektoren und begründen Sie Ihre Wahl.
Formulieren und interpretieren Sie die Nebenbedingungen des Hard-Margin-Problems.
Erklären Sie, warum Soft Margin bei nicht exakt trennbaren Daten eingesetzt wird.
Interpretieren Sie vorgegebene Slack-Werte ε_i und prüfen Sie das Budget C.
Zeigen Sie anhand eines Beispiels, wie eine Feature-Erweiterung eine nichtlineare Grenze im Originalraum erzeugt.
Berechnen Sie einen Radial-Kernelwert für zwei Featurevektoren.
Erklären Sie den Kernel-Trick ohne explizite Berechnung von ϕ.
Vergleichen Sie OVA und OVO für ein Klassifikationsproblem mit K Klassen.
Welche Modellwahl ist sinnvoll, wenn Wahrscheinlichkeiten benötigt werden?
Warum kann kernel = "radial" beim Moons-Datensatz funktionieren, während ein linearer Kernel scheitert?

9. Abdeckungstabelle

Folie/Kapitel	Inhalt	In Zusammenfassung enthalten?	Wo behandelt?
1	Titel: Support Vector Machines	Ja	Titel und Einordnung
2	Erinnerung: Hyperebenen	Ja	Abschnitt 1
3	Definition Hyperebene, Normalenvektor	Ja	Abschnitt 1
4	Abstand zur Hyperebene, vorzeichenbehafteter Abstand	Ja	Abschnitt 1, Prüfungsfalle
5	Erinnerung: Margin Classifier	Ja	Abschnitt 3
6	Klassifikation mit Hyperebenen, Hard/Soft Margin	Ja	Abschnitte 2-4
7	Binäre Klassifikation: Beispiel	Ja, mit Bild	Abschnitt 2, Abbildung Folie 7
8	Trennende Hyperebenen	Ja, mit Bild	Abschnitt 2, Abbildung Folie 8
9	Bedingung für trennende Hyperebene	Ja	Abschnitt 2, Formel und Rechenweg
10	Welche trennende Hyperebene ist am besten?	Ja	Übergang zu Abschnitt 3
11	Hard Margin, Margin, Supportvektoren	Ja, mit Bild	Abschnitt 3, Abbildung Folie 11
12	Warum Supportvektoren?	Ja	Abschnitt 3
13	Margin-Bedingung prüfen	Ja	Abschnitt 3, Formel und Klausurteil
14	Maximierung des Margins	Ja	Abschnitt 3, Optimierungsproblem
15	Grenzen des Hard Margins	Ja, mit Bild	Abschnitt 3, Abbildung Folie 15
16	Erinnerung Soft Margin / Support Vector Classification	Ja	Abschnitt 4
17	Support Vector Classifier, Margin-Verletzer	Ja, mit Bild	Abschnitt 4, Abbildung Folie 17
18	Soft-Margin-Optimierung mit ε_i und C	Ja	Abschnitt 4, Formel und Tabelle
19	Kernel	Ja	Abschnitt 5
20	Lineare Entscheidungsgrenze kann fehlschlagen	Ja, mit Bild	Abschnitt 5, Abbildung Folie 20
21	Erweiterung des Feature-Raumes	Ja	Abschnitt 5
22	Kubisches Polynom	Ja, mit Bild und Formel	Abschnitt 5, Abbildung Folie 22
23	Probleme polynomieller Erweiterung	Ja	Abschnitt 5
24	Alternative Erweiterung bei 1D-Daten	Ja	Abschnitt 5, Distanzfeatures
25	Alternative Erweiterung: Distanzen	Ja, mit Bild	Abschnitt 5, Abbildung Folie 25
26	Trennende Hyperebene im Distanzraum	Ja, mit Bild	Abschnitt 5, Abbildung Folie 26
27	Alle Trainingspunkte als Referenzen, Radial-Kernel	Ja, mit Bild	Abschnitt 5, Abbildung Folie 27
28	Kernel-Trick	Ja	Abschnitt 5, Kernel-Trick
29	Kernel-Trick: Motivation und Kernel-Eigenschaften	Ja	Abschnitt 5, Prüfungsfalle
30	Hyperebene und Skalarprodukt	Ja	Abschnitt 5, Kernel-Trick
31	Skalarprodukt als inneres Produkt	Ja	Abschnitt 5
32	Kernel als inneres Produkt im transformierten Raum	Ja	Abschnitt 5, Formel mit ϕ
33	Hyperebene im hochdimensionalen Raum	Ja	Abschnitt 5, Vorhersageformel
34	Bedeutung von α_i, Supportvektoren	Ja	Abschnitt 5
35	Vorhersage und Klassenbestimmung über Vorzeichen	Ja	Abschnitt 5, Vorhersage mit Kernel-SVM
36	Zusätzliche Überlegungen	Ja	Abschnitt 6
37	SVMs für mehr als zwei Klassen: OVA/OVO	Ja	Abschnitt 6, Tabelle
38	Welches Modell wann auswählen?	Ja	Abschnitt 6, Modellwahl
39	Implementierungsdetails und Parameterunterschiede	Ja	Abschnitt 6, Prüfungsfalle
40	Fragen?	Keine Fachinhalte	Im Aufbau nicht gesondert nötig
41	Lab	Ja	Abschnitt 7
42	Pakete und Initialisierung	Ja	Abschnitt 7, R-Workflow
43	Künstlicher Datensatz	Ja	Abschnitt 7, R-Workflow
44	Modellierung mit `svm()`	Ja	Abschnitt 7, R-Workflow
45	Vorhersage auf Datengitter	Ja	Abschnitt 7, Erklärung Visualisierung
46	Plot mit Entscheidungsgrenze	Ja, mit Bild	Abschnitt 7, Abbildung Folie 46
47	Aufgabe Moons-Datensatz	Ja	Abschnitt 7, Moons-Datensatz
48	Moons-Datensatz-Plot	Ja, mit Bild	Abschnitt 7, Abbildung Folie 48