Klausurzusammenfassung: Deep Learning / Neural Networks
Vorlesungsskript 80_Ch.10, KI und ML: Supervised Learning
1. Überblick und klausurrelevanter Kern
Dieses Kapitel führt neuronale Netze als parametrisierte, differenzierbare Funktionen ein. Ein neuronales Netz besteht aus vielen künstlichen Neuronen, die lineare Transformationen mit nichtlinearen Aktivierungsfunktionen kombinieren. Dadurch können Netze hochgradig nichtlineare Zusammenhänge modellieren, insbesondere bei großen und komplex strukturierten Daten wie Text, Bildern, Video, Genomik, Chemie oder physikalischen Simulationen.
Gliederung
- Motivation, Anwendungen und Grenzen
- Künstliche Neuronen und Netze
- Aktivierungsfunktionen
- Bezug zu klassischer Statistik und ML
- Inferenz und Forward Pass
- Computation Graphs
- Training, Loss, Backpropagation und Architektur
- Libraries und Keras
- Palmer-Penguins-Lab
- Typische Klausuraufgaben
- Lerncheckliste und Klausurfragen
- Folienabdeckung
2. Motivation, Anwendungen und Grenzen
2.1 Warum Deep Learning heute so erfolgreich ist
Neuronale Netze sind nicht neu; die Grundideen reichen weit zurück. Der heutige Erfolg entsteht vor allem aus dem Zusammenspiel von besserem algorithmischem Verständnis, deutlich mehr Rechenkapazität durch GPUs und TPUs, großen gelabelten Datenmengen sowie ausgereiften Open-Source-Werkzeugen und vortrainierten Modellen.
2.2 Moderne Anwendungen
Die Folien nennen Sprachmodelle wie ChatGPT, Gemini und Claude, Antwortmaschinen und Agentensysteme, Bild- und Videogenerierung, Bildklassifikation, AlphaFold in der Genomik, Moleküldesign in der Chemie und beschleunigte physikalische Simulationen. Klausurrelevant ist weniger das einzelne Produkt als die gemeinsame Idee: Eingaben wie Sprache, Bilder, Moleküle oder Zeitreihen werden in numerische Repräsentationen übersetzt und durch ein trainiertes Netz in Labels, Texte, Wahrscheinlichkeiten oder andere Zielgrößen abgebildet.
2.3 Grenzen und Risiken
Deep Learning ist leistungsfähig, aber nicht automatisch verlässlich. Generative Modelle können Inhalte verfälschen, Fakten halluzinieren, realitätsferne Bilder erzeugen oder nicht ausführbaren Code liefern. Zusätzlich entstehen Datenschutz-, Urheberrechts-, Bias-, Zensur-, Energie- und Hardwarefragen. Für Prüfungen ist wichtig: Hohe Modellkomplexität ersetzt keine saubere Problemdefinition, keine saubere Validierung und keine kritische Ergebnisprüfung.
3. Künstliche Neuronen und neuronale Netze
3.1 Vom natürlichen zum künstlichen Neuron
Die Analogie zum biologischen Neuron hilft bei der Intuition: Viele Eingaben werden gesammelt, verarbeitet und führen zu einer Ausgabe. Das künstliche Neuron ist jedoch ein mathematisches Rechenmodul, keine biologische Simulation. Es nimmt einen Eingabevektor entgegen, bildet daraus eine gewichtete Summe plus Bias und wendet anschließend eine Aktivierungsfunktion an.
- x
- Eingabevektor mit den Features eines Datenpunkts.
- w
- Gewichtsvektor; jedes Gewicht steuert den Einfluss eines Features.
- b
- Bias bzw. Achsenabschnitt; verschiebt die Vor-Aktivierung.
- z(x)
- Vor-Aktivierung, also der lineare Teil.
- g(·)
- Aktivierungsfunktion, meist nichtlinear und differenzierbar.
- f(x)
- Ausgabe des künstlichen Neurons.
3.2 Netz, Layer, MLP und Tiefe
Ein neuronales Netz ist ein Graph aus vielen Neuronen. In einem Multi-Layer Perceptron sind die Neuronen typischerweise in Schichten angeordnet: Eingabeschicht, eine oder mehrere Hidden Layers und Ausgabeschicht. Eine dichte Schicht verbindet jedes Neuron einer Schicht mit jedem Neuron der nächsten Schicht. Ein tiefes Netz besitzt mehrere Hidden Layers; dadurch können Merkmale stufenweise transformiert werden.
4. Aktivierungsfunktionen
Aktivierungsfunktionen bilden den nichtlinearen Teil eines Neurons. Ohne nichtlineare Aktivierungen wäre die Verkettung mehrerer linearer Layer wieder nur eine lineare Funktion. Die Nichtlinearität ist deshalb zentral für die Modellierung komplexer Zusammenhänge. Für Standardtraining per Backpropagation müssen die Bausteine außerdem differenzierbar sein; an einzelnen Knickstellen reichen in der Praxis oft Subgradienten.
4.1 ReLU
Variablen: x ist die Vor-Aktivierung eines Neurons, h(x) die aktivierte Ausgabe. Bei x = 0 ist die klassische Ableitung nicht eindeutig; Implementierungen wählen üblicherweise einen Subgradienten.
4.2 Sigmoid
Interpretation: Die Ausgabe liegt zwischen 0 und 1. Deshalb ist Sigmoid naheliegend für binäre Wahrscheinlichkeiten, kann in tiefen Hidden Layers aber durch Sättigung sehr kleine Gradienten erzeugen.
4.3 Tanh
Interpretation: Tanh gibt Werte zwischen −1 und 1 aus und ist um 0 zentriert. Auch Tanh kann für große Beträge von x sättigen.
4.4 Softmax und weitere Aktivierungen
Softmax wird typischerweise im Output Layer für Mehrklassenklassifikation mit exklusiven Klassen verwendet. Aus Rohwerten bzw. Logits entstehen Klassenwahrscheinlichkeiten, die zusammen 1 ergeben.
- zk
- Logit der Klasse k.
- K
- Anzahl der Klassen.
- pk
- Vorhergesagte Wahrscheinlichkeit für Klasse k.
Weitere Aktivierungen aus den Folien sind ELU, Leaky-ReLU, Swish, Cos/Sin und Soft-Sign. Klausurrelevant ist vor allem die Auswahl nach Aufgabe: ReLU häufig in Hidden Layers, Sigmoid für binären Output, Softmax für exklusiven Mehrklassen-Output.
5. Bezug zu klassischer Statistik und Machine Learning
Ein einzelnes Neuron besteht aus einem linearen Modell plus Aktivierungsfunktion. Mit Sigmoid-Aktivierung ist der Bezug zur logistischen Regression direkt: Auch dort wird eine lineare Kombination der Features durch die Sigmoid-Funktion in eine Wahrscheinlichkeit transformiert. Ein neuronales Netz verallgemeinert diese Idee, indem viele solcher Module verbunden und in mehreren Schichten verkettet werden.
Dies entspricht einem einzelnen Sigmoid-Neuron. Zusätzliche Hidden Layers machen das Modell flexibler, erhöhen aber auch Parameterzahl, Rechenaufwand und Overfitting-Risiko.
6. Modellvorhersage und Inferenz
6.1 Forward Pass im Single-Layer-NN
Bei der Inferenz sind die Gewichte bereits gelernt oder vorgegeben. Für einen neuen Eingabevektor werden zuerst die Hidden-Neuronen berechnet, danach die Ausgabeneuronen. Die Folien rechnen dies mit Sigmoid-Aktivierung und stark gerundeten Zwischenergebnissen vor.
Die Spalten von Wh gehören zu den Hidden-Neuronen, die Spalten von Wo zu den Output-Neuronen. Im Folienbeispiel werden Bias-Terme nicht sichtbar verwendet.
Die Zahlen können leicht abweichen, weil die Folien die Hidden-Werte stark runden.
6.2 Matrixform eines Layers
Statt jedes Neuron einzeln zu berechnen, werden alle Neuronen eines Layers gemeinsam per Matrixmultiplikation berechnet. Das ist der Kern der effizienten Ausführung auf GPUs und TPUs.
- A(l−1)
- Ausgaben des vorherigen Layers; für den ersten Layer ist das die Eingabematrix.
- W(l)
- Gewichtsmatrix des Layers l.
- b(l)
- Bias-Vektor des Layers l, auf alle Datenpunkte addiert.
- Z(l)
- Vor-Aktivierungen des Layers.
- A(l)
- Aktivierte Ausgaben des Layers.
7. Computation Graphs
Ein neuronales Netz kann als gerichteter Graph von Funktionen verstanden werden. Knoten sind Operationen wie lineare Transformationen, Aktivierungen oder Loss-Berechnung. Kanten transportieren Werte. Parameter wie Gewichte und Bias beeinflussen einzelne Knoten. Diese Sicht ist wichtig, weil Backpropagation Ableitungen entlang dieses Graphen rückwärts verknüpft.
8. Training, Loss, Backpropagation und Architektur
8.1 Parameter lernen
Alle Gewichte an den Kanten sowie Bias-Terme sind unbekannte Parameter. Manche Aktivierungsfunktionen besitzen zusätzliche Parameter, zum Beispiel Leaky-ReLU. Große Netze können Milliarden Parameter haben. Training bedeutet, diese Parameter so anzupassen, dass die Loss-Funktion auf den Trainingsdaten klein wird.
8.2 Loss-Funktionen
Eine Loss-Funktion misst, wie schlecht die Modellvorhersage zur Zielgröße passt. Typische Beispiele sind Mean Squared Error für Regression sowie Cross-Entropy oder Log-Loss für Klassifikation. Häufig wird zusätzlich Regularisierung addiert, um einfachere Modelle zu bevorzugen.
- θ
- Alle trainierbaren Parameter, also Gewichte und Bias-Terme.
- n
- Anzahl der Trainingsbeobachtungen.
- xi, yi
- Features und Zielwert der Beobachtung i.
- fθ
- Neuronales Netz mit Parametern θ.
- L
- Beobachtungsspezifische Loss-Funktion.
- λ · Ω(θ)
- Regularisierungsterm, zum Beispiel zur Bestrafung großer Gewichte.
yk ist 1 für die wahre Klasse und 0 sonst; pk ist die per Softmax vorhergesagte Wahrscheinlichkeit.
8.3 Backpropagation und Gradient Descent
Da die Knoten eines neuronalen Netzes normalerweise differenzierbar sind, können partielle Ableitungen berechnet und über die Kettenregel verkettet werden. Im Forward Pass werden Vorhersage und Loss berechnet. Im Backward Pass werden die Ableitungen des Loss rückwärts durch den Graphen propagiert, bis für alle Parameter ein Gradient vorliegt. Danach aktualisiert ein Gradientenverfahren die Parameter.
- η
- Lernrate; zu groß kann Divergenz verursachen, zu klein kann Training stark verlangsamen.
- ∇θJ
- Gradient des Loss nach allen Parametern.
8.4 Modellarchitektur
Die bisherigen Beispiele verwenden vollständig verbundene bzw. dichte Schichten. Die Folien nennen weitere Architekturbausteine: Convolutional Layers für Bilder, Videos und Zeitreihen; Skip- und Residual-Connections zur Stabilisierung tiefer Netze; rekurrente Schichten für Sequenzen; LSTM, GRU und Transformer-Blöcke insbesondere für Sprache und andere Sequenzen. Die Architektur selbst wird normalerweise nicht direkt durch Backpropagation gelernt, sondern durch Expertenwissen, Ausprobieren, Hyperparameter-Tuning oder Neural Architecture Search gewählt.
| Baustein | Typischer Einsatz | Klausurhinweis |
|---|---|---|
| Dense Layer | Tabellarische Daten, MLP-Grundbaustein | Parameterzahl und Matrixmultiplikation beherrschen. |
| Convolutional Layer | Bilder, Video, Zeitreihen | Nutzt lokale Strukturen statt vollständiger Verbindung. |
| Skip/Residual Connection | Sehr tiefe Netze | Hilft beim Gradientenfluss und bei stabilerem Training. |
| RNN/LSTM/GRU | Sequenzen und Zeitstruktur | Bezieht frühere Schritte in die Vorhersage ein. |
| Transformer | Sprache, Sequenzen, moderne Foundation Models | Zentraler Baustein vieler LLMs. |
9. Libraries und Keras/TensorFlow
Für neuronale Netze werden in der Praxis fast immer Frameworks verwendet. Die Folien zeigen Keras/TensorFlow; außerdem werden PyTorch, JAX, Caffe, CNTK, gensim, spaCy, Theano, MXNet und dmlc als Ökosystembeispiele genannt. Für die Klausur ist wichtig, dass Frameworks den Computation Graph, automatische Differentiation, Optimierung und GPU/TPU-Ausführung kapseln.
9.1 Keras Sequential als Computation Graph
Das Folienbeispiel baut ein einfaches sequentielles Netz: Dense Layer definiert die lineare Transformation mit Gewichtsmatrix, Activation definiert die Nichtlinearität, und Softmax erzeugt Klassenwahrscheinlichkeiten.
model = Sequential()
model.add(Dense(H, input_dim=N)) # linearer Layer mit Gewichtsmatrix W0
model.add(Activation("tanh")) # erste Nichtlinearität
model.add(Dense(K)) # linearer Output-Layer mit Gewichtsmatrix W1
model.add(Activation("softmax")) # Mehrklassen-Wahrscheinlichkeiten
10. Palmer-Penguins-Lab
10.1 Daten und Ziel
Das Lab verwendet den Datensatz palmerpenguins: 344 Pinguine mit drei Spezies, aufgenommen auf drei Inseln zwischen 2007 und 2009. Nach Entfernen fehlender Werte bleiben in den Folien 333 Beobachtungen. Als Features werden numerische Messwerte wie Schnabellänge, Schnabeltiefe, Flossenlänge und Körpergewicht genutzt; Ziel ist die Klassifikation der Spezies.
10.2 Python-Setup und Imports
import pandas
import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.utils import to_categorical, set_random_seed
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder
Der Seed set_random_seed(42) erhöht Reproduzierbarkeit. Er garantiert aber nicht, dass jede Umgebung bitgenau identische Ergebnisse liefert, weil Hardware, TensorFlow-Version und parallele Ausführung eine Rolle spielen können.
10.3 Datenvorbereitung
set_random_seed(42)
dataset = pandas.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/refs/heads/master/penguins.csv")
dataset = dataset.dropna()
X = dataset.values[:, 2:6]
X = numpy.asarray(X).astype("float32")
Y = dataset.values[:, 0]
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)
dummy_y = to_categorical(encoded_Y)
Die Labels werden zuerst als Klassenindizes codiert und danach per One-Hot-Encoding in Zielvektoren umgewandelt. Das passt zur Softmax-Ausgabe mit drei Neuronen und zur Loss-Funktion categorical_crossentropy.
10.4 Modellstruktur
def my_model():
model = Sequential()
model.add(Dense(10, input_dim=X.shape[1], activation="relu"))
model.add(Dense(8, activation="relu"))
model.add(Dense(3, activation="softmax"))
model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])
return model
Die „+1“ steht jeweils für den Bias pro Neuron.
10.5 Training und erste Bewertung
Die Folien trainieren zunächst fünf Epochen auf allen Daten. Die Genauigkeit bleibt niedrig, und ohne Validierung lässt sich nicht beurteilen, ob das Modell generalisiert. Ein niedriger Trainingswert kann an zu wenig Training, ungünstiger Skalierung, Modellstruktur, Optimierer-Einstellungen oder an Daten-/Labelproblemen liegen. Ein hoher Trainingswert wäre ebenfalls noch kein Beweis für gute Generalisierung.
10.6 K-fold Cross-Validation
Die Folien führen eine 5-fold Cross-Validation mit Shuffle und festem Random State durch. Für jeden Fold wird ein neues Modell erstellt, auf den Trainingsindizes trainiert und auf den Validierungsindizes evaluiert. Danach werden Mittelwert und Standardabweichung der Accuracy berichtet.
kf = KFold(n_splits=5, shuffle=True, random_state=42)
scores = []
for train_index, test_index in kf.split(X):
X_train, X_val = X[train_index], X[test_index]
y_train, y_val = dummy_y[train_index], dummy_y[test_index]
model = my_model()
model.fit(X_train, y_train, epochs=5, batch_size=5, verbose=0)
loss, acc = model.evaluate(X_val, y_val, verbose=0)
scores.append(acc)
numpy.mean(scores)
numpy.std(scores)
Die hohe Standardabweichung zeigt instabile Fold-Ergebnisse. Bei nur fünf Epochen und unskalierten numerischen Features ist das Modell noch kein überzeugendes Endmodell.
10.7 Naheliegende Verbesserungen für die Lab-Aufgabe
- Numerische Features innerhalb jedes Trainingsfolds skalieren, zum Beispiel mit Standardisierung.
- Mehr Epochen trainieren und Validierungsverlust beobachten.
- Batch Size, Lernrate, Layerbreite und Aktivierungen systematisch variieren.
- Stratifizierte Cross-Validation für Klassifikationsdaten prüfen, damit Klassenanteile stabiler bleiben.
- Finales Testset erst nach Modellauswahl verwenden.
11. Typische Klausuraufgaben und Rechenwege
Erkläre linearen Teil, Bias und Aktivierung. Schreibe z(x) = wTx + b und f(x) = g(z(x)). Nenne die Rolle jedes Symbols.
Für Hidden Layers ist ReLU ein plausibler Standard. Für binäre Klassifikation passt Sigmoid im Output. Für drei exklusive Klassen wie Pinguinspezies passt Softmax mit Cross-Entropy.
Berechne zuerst alle Vor-Aktivierungen im Hidden Layer, wende Sigmoid/ReLU/Tanh an, nutze diese Werte als Eingabe für den Output Layer und aktiviere erneut. Runde erst am Ende oder notiere, dass starke Rundung Abweichungen erzeugt.
Für einen Dense Layer mit d Eingaben und H Neuronen gilt (d + 1) · H. Addiere diese Größe über alle Dense Layers.
Beschreibe Forward Pass, Loss, lokale Ableitungen, Kettenregel im Backward Pass, Gradienten für alle Parameter und anschließendes Gradientenupdate.
Begründe, warum Training ohne Validierung keine Generalisierungsaussage erlaubt. Erkläre K-fold CV, warum pro Fold ein neues Modell trainiert wird, und warum Mittelwert plus Streuung informativer ist als ein einzelner Score.
12. Häufige Fehler und Prüfungsfallen
- Linearität unterschätzen: Mehrere lineare Layer ohne Aktivierung bleiben insgesamt linear.
- Bias vergessen: In Formeln und Parameterzählungen Bias-Terme berücksichtigen, sofern das Modell sie nutzt.
- Softmax falsch einsetzen: Softmax ist für exklusive Mehrklassenklassifikation, Sigmoid eher für binär oder Multi-Label.
- Matrixdimensionen ignorieren: Erst Dimensionen prüfen, dann multiplizieren.
- Zu früh runden: Im Forward Pass führen gerundete Hidden-Werte zu abweichenden Output-Werten.
- Training mit Test verwechseln: Trainingsaccuracy ist keine neutrale Schätzung der Generalisierung.
- Datenleckage: Skalierung, Imputation und Feature Selection müssen innerhalb der CV-Folds gelernt werden.
- Architektur als gelernt annehmen: Backpropagation optimiert Gewichte, nicht automatisch die gesamte Architekturwahl.
- Loss und Metrik verwechseln: Optimiert wird meist der Loss; berichtet wird oft zusätzlich Accuracy oder eine andere Metrik.
13. Lerncheckliste und mögliche Klausurfragen
Kompakte Lerncheckliste
- Ich kann ein künstliches Neuron mit z(x), Gewichten, Bias und Aktivierung erklären.
- Ich kann MLP, Dense Layer, Hidden Layer, Output Layer und Deep NN unterscheiden.
- Ich kenne ReLU, Sigmoid, Tanh und Softmax inklusive typischer Einsatzbereiche.
- Ich kann einen kleinen Forward Pass mit Sigmoid per Hand rechnen.
- Ich kann die Matrixform eines Layers und die Dimensionen erklären.
- Ich kann die Parameterzahl dichter Schichten berechnen.
- Ich kann Loss, Cross-Entropy, Regularisierung und Gradient Descent einordnen.
- Ich kann Backpropagation mit Forward Pass, Backward Pass und Kettenregel beschreiben.
- Ich kann typische Architekturen und ihre Einsatzgebiete nennen.
- Ich kann das Keras-Penguins-Beispiel methodisch kritisieren und verbessern.
Mögliche Klausurfragen
- Warum braucht ein neuronales Netz nichtlineare Aktivierungsfunktionen?
- Leite die Ausgabe eines Sigmoid-Neurons für einen gegebenen Eingabevektor und Gewichtsvektor her.
- Berechne die Parameterzahl eines Netzes mit Eingabedimension 4, Hidden Layers 10 und 8 sowie 3 Output-Neuronen.
- Erkläre den Unterschied zwischen Sigmoid und Softmax im Output Layer.
- Beschreibe Backpropagation in eigenen Worten und nenne die Rolle der Kettenregel.
- Warum reicht eine Trainingsaccuracy nicht aus, um Modellgüte zu bewerten?
- Welche Fehler können bei K-fold Cross-Validation mit neuronalen Netzen auftreten?
- Warum können GPUs/TPUs neuronale Netze besonders gut beschleunigen?
- Nenne Grenzen von generativer KI und erkläre, warum diese für ML-Projekte relevant sind.
- Welche Änderungen würdest du am Penguins-Lab vornehmen, um die Validierung belastbarer zu machen?
14. Folienabdeckung
| Folie/Kapitel | Inhalt | In Zusammenfassung enthalten? | Wo behandelt? |
|---|---|---|---|
| 1 | Titel und Kapitelkontext | Ja | Header, Überblick |
| 2 | Kapitel Deep Learning / Neural Networks | Ja | 1. Überblick |
| 3 | Quellen und Bezug zu ISL/Kursmaterial | Ja | Header, Überblick |
| 4 | Einführung und Motivation | Ja | 2. Motivation |
| 5 | Künstliches Neuron als Rechenmodul | Ja | 3.1 Künstliches Neuron |
| 6 | Neuronale Netze, MLP, dichte Schichten | Ja | 3.2 Netze und Layer |
| 7 | Tiefe neuronale Netze | Ja | 3.2 Netze und Layer |
| 8 | Erfolg durch besseres Verständnis | Ja | 2. Motivation |
| 9 | Erfolg durch GPUs/TPUs | Ja | 2. Motivation |
| 10 | Erfolg durch Datenmenge und Performance | Ja | 2. Motivation |
| 11 | Open-Source-Tools und Modelle | Ja | 9. Libraries |
| 12 | Moderne Anwendungen | Ja | 2.2 Anwendungen |
| 13 | Sprachanwendungen | Ja | 2.2 Anwendungen |
| 14 | LLMs, Antwortmaschinen, Agenten | Ja | 2.2 Anwendungen |
| 15 | Bildverarbeitung | Ja | 2.2 Anwendungen |
| 16 | Stable Diffusion | Ja | 2.2 Anwendungen |
| 17 | DALL.E 3 | Ja | 2.2 Anwendungen |
| 18 | Video-Generierung | Ja | 2.2 Anwendungen |
| 19 | Genomik / AlphaFold | Ja | 2.2 Anwendungen |
| 20 | Chemie / Moleküldesign | Ja | 2.2 Anwendungen |
| 21 | Physik / Fluid Simulation | Ja | 2.2 Anwendungen |
| 22 | Qualitätsgrenzen generativer KI | Ja | 2.3 Grenzen |
| 23 | Datenschutz, Urheberrecht, Bias, Rechenaufwand | Ja | 2.3 Grenzen |
| 24 | Kapitel Neuronen | Ja | 3. Neuronen |
| 25 | Natürliches Neuron detailliert | Ja | 3.1 Künstliches Neuron |
| 26 | Natürliches Neuron vereinfacht | Ja | 3.1 Künstliches Neuron |
| 27 | Künstliches Neuron, Gewichte, Bias, Aktivierung | Ja | 3.1 Künstliches Neuron |
| 28 | Kapitel Aktivierungsfunktionen | Ja | 4. Aktivierungsfunktionen |
| 29 | Rolle und Differenzierbarkeit von Aktivierungen | Ja | 4. Aktivierungsfunktionen |
| 30 | ReLU und Ableitung | Ja | 4.1 ReLU |
| 31 | Sigmoid und Ableitung | Ja | 4.2 Sigmoid |
| 32 | Tanh und Ableitung | Ja | 4.3 Tanh |
| 33 | Softmax und weitere Aktivierungen | Ja | 4.4 Weitere Aktivierungen |
| 34 | Anknüpfung zu Statistik und ML | Ja | 5. Bezug zu klassischer ML |
| 35 | Neuron als lineares Modell plus Transformation | Ja | 5. Bezug zu klassischer ML |
| 36 | Sigmoid-Neuron und logistische Regression | Ja | 5. Bezug zu klassischer ML |
| 37 | Modellvorhersage / Inferenz | Ja | 6. Inferenz |
| 38 | Single-Layer-NN-Struktur | Ja | 6. Inferenz |
| 39 | Eingaben, Gewichte, Sigmoid für Forward Pass | Ja | 6.1 Rechenbeispiel |
| 40 | Hidden-Layer-Berechnung | Ja | 6.1 Rechenbeispiel |
| 41 | Output-Layer-Berechnung und Rundung | Ja | 6.1 Rechenbeispiel |
| 42 | Matrixmultiplikation pro Layer | Ja | 6.2 Matrixform |
| 43 | NVIDIA-DLI-Inferenzbeispiel | Ja | 6.1 Rechenbeispiel |
| 44 | Alternative Sichtweise | Ja | 7. Computation Graphs |
| 45 | NN als parametrisierte nichtlineare Funktion | Ja | 7. Computation Graphs |
| 46 | Gerichteter Graph abhängig von Parametern | Ja | 7. Computation Graphs |
| 47 | Lineare und nichtlineare Funktionsblöcke | Ja | 7. Computation Graphs |
| 48 | Nicht strikt sequenzielle Graphen | Ja | 7. Computation Graphs |
| 49 | Modelldetails | Ja | 8. Training und Architektur |
| 50 | Parameter, Gewichte und Bias lernen | Ja | 8.1 Parameter |
| 51 | Loss-Funktionen und Regularisierung | Ja | 8.2 Loss |
| 52 | Differenzierbare Knoten und Kettenregel | Ja | 8.3 Backpropagation |
| 53 | Forward Pass, Backward Pass, Gradient Descent | Ja | 8.3 Backpropagation |
| 54 | Architekturen: Dense, CNN, Skip, RNN, Transformer, NAS | Ja | 8.4 Architektur |
| 55 | Libraries und Frameworks | Ja | 9. Libraries |
| 56 | Keras / TensorFlow | Ja | 9. Libraries |
| 57 | Keras Sequential Computation Graph | Ja | 9.1 Keras-Code |
| 58 | Lab-Beispiel | Ja | 10. Palmer-Penguins-Lab |
| 59 | Palmer-Penguins-Daten | Ja | 10.1 Daten |
| 60 | Module installieren | Ja | 10.2 Python-Setup |
| 61 | Imports | Ja | 10.2 Python-Setup |
| 62 | Daten lesen, fehlende Werte entfernen | Ja | 10.3 Datenvorbereitung |
| 63 | Feature-Auswahl und Klassenkodierung | Ja | 10.3 Datenvorbereitung |
| 64 | NN-Modellstruktur in Keras | Ja | 10.4 Modell |
| 65 | Training ohne Validierung | Ja | 10.5 Training |
| 66 | Modellgüte kritisch hinterfragen | Ja | 10.5 Training |
| 67 | K-fold Cross-Validation | Ja | 10.6 Validierung |
| 68 | CV-Mittelwert und Standardabweichung | Ja | 10.6 Validierung |
| 69 | Lab Task: ausprobieren und verbessern | Ja | 10.7 Verbesserungen |