Klausurzusammenfassung: Statistik 2

Fortgeschrittene Stochastik und Statistik: Verteilungen, induktive Tests, OLS-Regression, Regressionsprobleme und Maximum-Likelihood-Schätzung

Quelle: Foliensatz.pdf aus temp_statistik2, 225 Folien. Inhaltliche Struktur und Theorie stammen aus dem Foliensatz; die Codebeispiele wurden nachträglich aus den zugehörigen Jupyter Notebooks ergänzt.

Druckhinweis: Im Browser über Drucken > Als PDF speichern exportieren. Sinnvolle Einstellungen: Papierformat A4, Skalierung 100 %, Browser-Kopf- und Fußzeilen deaktivieren, Hintergrundgrafiken aktivieren.

1. Überblick und Klausurlogik

Statistik 2 wechselt von deskriptiven Kennzahlen zu Verteilungen, Stichprobenschlüssen und Modellschätzung. Die Klausurfrage ist selten nur: „Welche Formel passt?“. Entscheidend ist die Reihenfolge: Datentyp erkennen, Verteilungsannahme prüfen, Hypothesen sauber formulieren, Test oder Modell wählen, Kennzahlen korrekt interpretieren und die Grenzen der Aussage benennen.

Universelles Vorgehen: Datenart → Verteilungsannahme → Hypothesenpaar → Test/Schätzer → p-Wert oder Konfidenzintervall → fachliche Interpretation Bei Regressionen kommt zusätzlich hinzu: Zusammenhang ist nicht automatisch Kausalität; Residuen, Multikollinearität, Endogenität und Overfitting müssen kritisch geprüft werden.

Gliederung

Zufallsvariablen und Verteilungsfunktionen
Momente: Erwartungswert, Varianz, Schiefe und Wölbung
Ausgewählte Verteilungen und Modellierung
Normalverteilung und zentraler Grenzwertsatz
Induktive Statistik, Z-Test und Testauswahl
t-Test, Konfidenzintervalle und ANOVA
Normalität, nichtparametrische Alternativen und Testfehler
Chi-Quadrat-Testfamilie
Lineare Regression und OLS-Schätzung
Multikollinearität, Endogenität und Overfitting
Maximum-Likelihood-Schätzung
Codebeispiele aus den Notebooks
Klausurstrategie, Checkliste und mögliche Fragen
Abdeckung des Foliensatzes

2. Zufallsvariablen und Verteilungsfunktionen

2.1 Zufallsvariable als Abbildung

Eine Zufallsvariable ist eine Abbildungsvorschrift, die jedem Ereignis aus der Ereignismenge Ω eine reelle Zahl zuordnet. Ist das Ereignis selbst schon numerisch, kann die Abbildung direkt sein, etwa beim Würfel. Ist das Ereignis kategorial, muss eine sinnvolle Codierung gewählt werden, etwa Kopf = 0 und Zahl = 1.

Definition X: Ω → E, E ⊆ ℝ

X: Zufallsvariable bzw. Abbildungsvorschrift.
Ω: Ereignismenge, z. B. alle Würfelergebnisse oder alle Roulettefelder.
E: Wertebereich der Zufallsvariable, also die möglichen reellen Ausprägungen.

Folie 7: Funktionen zur Beschreibung diskreter und kontinuierlicher Verteilungen — Folie 7: Verteilungen werden bei diskreten Zufallsvariablen über Wahrscheinlichkeitsfunktion und Verteilungsfunktion beschrieben; bei kontinuierlichen Zufallsvariablen über Dichtefunktion und Verteilungsfunktion.

2.2 Diskret oder kontinuierlich

Typ	Eigenschaft	Funktion für „genau x“	Funktion für „höchstens x“
Diskret	Endlich oder abzählbar unendlich viele Werte.	f(x) = P(X = x)	F(x) = P(X ≤ x)
Kontinuierlich	Nicht abzählbar viele Werte in Intervallen.	Keine Punktwahrscheinlichkeit; P(X=x)=0.	F(x) = P(X ≤ x), berechnet über die Dichte.

Diskrete Wahrscheinlichkeitsfunktion f(x) = P(X = x), f(x) ∈ [0,1], ∑_x∈E f(x) = 1

Beispiel Würfel: f(x)=1/6 für x∈{1,2,3,4,5,6}, sonst 0.

Diskrete Verteilungsfunktion F(x) = P(X ≤ x)

Beim Würfel ist F(x) eine Treppenfunktion. Bei jedem zulässigen Wert steigt sie um dessen Wahrscheinlichkeit.

Folie 14: Zusammenhang zwischen Wahrscheinlichkeitsfunktion und Verteilungsfunktion — Folie 14: Die Verteilungsfunktion diskreter Variablen entsteht durch Summation der Sprünge der Wahrscheinlichkeitsfunktion.

2.3 Kontinuierliche Verteilungen

Bei kontinuierlichen Verteilungen beschreibt die Dichtefunktion φ(x) keine Wahrscheinlichkeit für den Einzelwert x. Wahrscheinlichkeiten entstehen erst als Fläche unter der Dichtekurve über einem Intervall.

Dichte zu Wahrscheinlichkeit P(a ≤ X ≤ b) = ∫_a^b φ(x) dx

Die Gesamtfläche muss 1 ergeben: ∫_-∞^∞ φ(x) dx = 1.

Verteilungsfunktion F(x) = ∫_-∞^x φ(t) dt

Die Dichte ist die Ableitung der Verteilungsfunktion, soweit diese differenzierbar ist.

Folie 21: Integration und Ableitung zwischen Dichte und Verteilungsfunktion — Folie 21: Dichte und Verteilungsfunktion sind über Integration und Ableitung verbunden.

Prüfungsfalle: Bei kontinuierlichen Verteilungen ist P(X=x) nicht die Höhe der Dichte. Eine hohe Dichte bedeutet nur, dass kleine Intervalle um diesen Wert relativ viel Wahrscheinlichkeit tragen.

3. Momente von Zufallsvariablen

3.1 Erwartungswert

Der Erwartungswert μ bzw. E(X) ist der Schwerpunkt einer Verteilung. Er ist nicht zwingend ein Wert, den die Zufallsvariable tatsächlich annehmen kann. Beim fairen Würfel ist der Erwartungswert 3,5, obwohl keine 3,5 gewürfelt werden kann.

Diskret μ = E(X) = ∑_x∈E x · f(x)

Würfel: (1+2+3+4+5+6)/6 = 3,5.

Kontinuierlich μ = E(X) = ∫_-∞^∞ x · φ(x) dx

Gleichverteilung auf [0,1]: ∫₀¹x dx = 0,5.

Linearität des Erwartungswertes E(aX+bY) = aE(X) + bE(Y)

Diese Linearität gilt unabhängig davon, ob X und Y unabhängig sind.

3.2 Varianz und Standardabweichung

Die Varianz misst die erwartete quadrierte Abweichung vom Erwartungswert. Die Standardabweichung σ_X ist die Wurzel der Varianz und wieder in der Einheit der Zufallsvariable interpretierbar.

Diskret Var(X) = ∑_x∈E [x - E(X)]² · f(x)

Kontinuierlich Var(X) = ∫_-∞^∞ [x - E(X)]² · φ(x) dx

Varianz linearer Kombinationen Var(aX+bY) = a²Var(X) + b²Var(Y) + 2ab Cov(X,Y)

Nur bei unabhängigen Zufallsvariablen ist die Kovarianz 0. Dann addieren sich die Varianzen gewichtet mit den quadrierten Faktoren.

3.3 Höhere Momente

Momente verallgemeinern Erwartungswert und Varianz. Der Erwartungswert ist das erste Moment, die Varianz das zweite zentrale Moment. Das dritte zentrale Moment beschreibt Schiefe, das vierte zentrale Moment Wölbung bzw. Exzess.

Folie 42: Tabelle der Momente und zentralen Momente — Folie 42: Erwartungswert, Varianz, Schiefe und Wölbung entstehen als Momente bzw. zentrale Momente einer Verteilung.

Größe	Formelidee	Interpretation
Moment m_k	E(X^k)	Rohmoment um 0.
Zentrales Moment μ_k	E((X-μ)^k)	Moment um den Erwartungswert.
Schiefe	γ = μ₃ / σ³	γ=0 symmetrisch, γ>0 rechtsschief, γ<0 linksschief.
Exzess	γ = μ₄ / σ⁴ - 3	Vergleich der Wölbung mit der Normalverteilung.

4. Ausgewählte Verteilungen und Modellierung

4.1 Gleichverteilung

Die kontinuierliche Gleichverteilung auf dem Intervall [a,b] hat eine konstante Dichte. Sie eignet sich, wenn alle Werte in einem Intervall gleich plausibel sind.

φ(x) = 1/(b-a) für x∈[a,b], μ = (a+b)/2, σ² = (b-a)²/12

a ist die Untergrenze, b die Obergrenze.

4.2 Binomialverteilung

Die Binomialverteilung beschreibt die Anzahl k erfolgreicher Versuche in n unabhängigen Versuchen mit konstanter Erfolgswahrscheinlichkeit p. Typische Klausurindikatoren sind „aus n Versuchen genau/mindestens/höchstens k Erfolge“.

P(X=k) = C(n,k)p^k(1-p)^n-k, C(n,k) = n!/[k!(n-k)!]

n: Anzahl unabhängiger Versuche.
k: Anzahl Erfolge.
p: Erfolgswahrscheinlichkeit je Versuch.

μ = np, σ² = np(1-p)

4.3 Poisson-Verteilung

Die Poisson-Verteilung modelliert die Anzahl von Ereignissen in einem festen Zeitraum oder Raum, wenn die durchschnittliche Rate λ bekannt ist. Sie ist ein Grenzfall der Binomialverteilung bei vielen Versuchen und kleiner Erfolgswahrscheinlichkeit.

P(X=k) = e^-λλ^k/k!, μ = σ² = λ

λ ist die erwartete Anzahl Ereignisse pro betrachteter Einheit, z. B. IT-Probleme pro Stunde.

4.4 Exponentialverteilung

Die Exponentialverteilung modelliert Wartezeiten zwischen Ereignissen eines Poisson-Prozesses. Sie ist gedächtnislos: Wer schon lange gewartet hat, hat dadurch keine höhere oder niedrigere Restwartewahrscheinlichkeit.

Dichte und Verteilung φ(x) = λe^-λx für x≥0, F(x)=1-e^-λx

Momente und Gedächtnislosigkeit μ = 1/λ, σ²=1/λ², P(X≥x+t | X≥x)=P(X≥t)

Typische Modellierungsaufgabe: Bei Darts mit drei Würfen ist „Treffer in T20“ binomialverteilt. Bei Hotline-Anrufen pro Stunde ist die Anzahl der Anrufe poissonverteilt; die Pause zwischen zwei Anrufen ist exponentialverteilt. In der Klausur ist die richtige Zuordnung meist wichtiger als die Rechenmechanik.

Prüfungsfalle: „Mindestens k“ bedeutet eine Summe über mehrere Wahrscheinlichkeiten, nicht nur P(X=k). „Zwischen zwei Ereignissen“ deutet oft auf Exponentialverteilung, nicht auf Poisson-Verteilung.

5. Normalverteilung und zentraler Grenzwertsatz

5.1 Normalverteilung

Die Normalverteilung ist zentral, weil viele natürliche Merkmale annähernd normalverteilt sind und weil Stichprobenmittelwerte unter breiten Bedingungen näherungsweise normalverteilt werden. Sie wird durch Erwartungswert μ und Varianz σ² parametrisiert.

Folie 68: Normalverteilung mit Dichteformel — Folie 68: Dichte der Normalverteilung mit Parametern Erwartungswert und Varianz.

Dichte der Normalverteilung φ(x)= exp(-0,5 · ((x-μ)/σ)²) / √(2πσ²)

μ: Erwartungswert, Lagezentrum.
σ: Standardabweichung, Streuung.
σ²: Varianz.

5.2 Zentraler Grenzwertsatz

Der zentrale Grenzwertsatz besagt: Summen und Mittelwerte vieler unabhängiger, identisch verteilter Zufallsvariablen werden näherungsweise normalverteilt. Für die Summe addieren sich Erwartungswerte und Varianzen. Für den Mittelwert bleibt der Erwartungswert gleich, die Varianz schrumpft mit 1/n.

Summe X₁+...+X_n ≈ N(nμ, nσ²)

Mittelwert X̄ = (1/n)∑_i=1ⁿX_i ≈ N(μ, σ²/n)

Als Faustregel nennt der Foliensatz etwa n≥30, bei schwierigen Einzelverteilungen eher n≥100. Diese Zahl ist keine Garantie, sondern eine praktische Orientierung.

Folie 75: Bereiche unter der Normalverteilung — Folie 75: Bei Normalverteilungen liegen ca. 68,2 % der Werte innerhalb einer Standardabweichung, ca. 95,4 % innerhalb zweier und ca. 99,6 % innerhalb dreier Standardabweichungen.

Bereich um μ	Wahrscheinlichkeit	Klausurbedeutung
±1σ	ca. 68,2 %	Normale Abweichung, selten signifikant.
±1,96σ	ca. 95 %	Zweiseitige 5 %-Schwelle.
±2,32σ	ca. 99 %	Zweiseitige 1 %-Schwelle.
±3,09σ	ca. 99,9 %	Sehr extreme Abweichung.

6. Induktive Statistik, Z-Test und Testauswahl

6.1 Grundidee induktiver Tests

Induktive Statistik schließt von einer Stichprobe auf die Grundgesamtheit. Ein statistischer Test prüft ein Hypothesenpaar. Die Nullhypothese H₀ ist die Ausgangsannahme; die Alternativhypothese H₁ beschreibt die Abweichung, die nachgewiesen werden soll.

p-Wert richtig interpretieren: Der p-Wert ist die Wahrscheinlichkeit, unter Gültigkeit von H₀ ein mindestens so extremes Stichprobenergebnis zu beobachten. Er ist nicht die Wahrscheinlichkeit, dass H₀ wahr ist.

6.2 Z-Test

Der Z-Test wird eingesetzt, wenn die Verteilung unter der Nullhypothese, insbesondere Erwartungswert und Varianz, theoretisch bekannt ist oder durch den ZGS ausreichend bestimmt werden kann. Im Würfelbeispiel ist die Augenzahl theoretisch gleichverteilt mit μ=3,5 und σ²=2,91.

Teststatistik für einen Mittelwert z = (x̄ - μ₀) / (σ/√n)

x̄: Stichprobenmittelwert.
μ₀: Erwartungswert unter der Nullhypothese.
σ/√n: Standardfehler des Mittelwerts.

Testart	Alternativhypothese	p-Wert-Bereich
Linksseitig	μ<μ₀	Linke Fläche unter der Standardnormalverteilung.
Rechtsseitig	μ>μ₀	Rechte Fläche unter der Standardnormalverteilung.
Zweiseitig	μ≠μ₀	Beide Extrembereiche; bei symmetrischer Verteilung typischerweise doppelte einseitige Fläche.

Prüfungsfalle: Die Richtung des Tests muss vor der Interpretation feststehen. Ein einseitiger Test hat mehr Power für eine konkrete Richtung, ist aber unpassend, wenn Abweichungen nach oben und unten fachlich problematisch sind.

6.3 Welche Tests gibt es?

Der Foliensatz unterscheidet Verteilungshypothesen, Parameterhypothesen und Abhängigkeitshypothesen. Die Testwahl hängt von abhängiger Variable, Skalenniveau, Anzahl der Gruppen, Paarung der Stichproben, Verteilungsannahmen und Stichprobengröße ab.

Folie 98: Entscheidungsbaum zur Testauswahl — Folie 98: Testauswahl hängt zuerst davon ab, ob eine numerische oder kategoriale abhängige Variable untersucht wird und ob Mittelwerte, Zusammenhänge oder Häufigkeiten geprüft werden.

7. t-Test, Konfidenzintervalle und ANOVA

7.1 Warum t statt z?

Beim t-Test ist die Varianz der Grundgesamtheit unbekannt und wird aus der Stichprobe geschätzt. Diese zusätzliche Unsicherheit wird durch die Studentsche t-Verteilung abgebildet. Mit steigender Zahl an Freiheitsgraden nähert sie sich der Normalverteilung an.

Folie 120: t-Wert, Standardfehler und t-Verteilung — Folie 120: Der t-Wert drückt die Abweichung in Standardfehlern aus; der p-Wert wird aus der t-Verteilung berechnet.

Einstichproben-t-Test t = (x̄ - μ₀) / (s/√n)

Getestet wird, ob der wahre Mittelwert einem Zielwert μ₀ entspricht. Beim Bierbeispiel führt p=0,0406 und ein 95 %-Konfidenzintervall von [4,004; 4,185] zur Verwerfung des Sollwerts 4,000.

7.2 Zwei Stichproben und Paarung

Fall	Beispiel aus Folien	Testlogik
Nicht gepaart	Leistung von WI- und Data-Science-Studierenden.	Die Beobachtungen sind unterschiedliche Personen. Die Gruppenmittelwerte werden getrennt verglichen.
Gepaart	Marketing- und Analysis-Leistung derselben Personen.	Die Differenzen innerhalb derselben Person sind relevant; die Paarung senkt störende Individualunterschiede.

7.3 p-Wert und Konfidenzintervall zusammen lesen

Ein Konfidenzintervall zeigt plausible Werte des wahren Unterschieds. Enthält ein zweiseitiges 95 %-Konfidenzintervall die 0 nicht, ist der zugehörige p-Wert kleiner als 5 %. Enthält es die 0, ist ein echter Unterschied auf diesem Niveau nicht nachgewiesen.

Klausurformulierung: „Wir verwerfen H₀ auf dem 5 %-Niveau“ bedeutet: Das beobachtete Ergebnis wäre unter H₀ so unwahrscheinlich, dass wir die Nullhypothese nicht beibehalten. Es bedeutet nicht, dass der Effekt praktisch groß oder kausal ist.

7.4 ANOVA

Die ANOVA erweitert die Mittelwertvergleiche auf mehr als zwei Gruppen. Sie prüft zunächst nur, ob mindestens ein Gruppenmittelwert von mindestens einem anderen abweicht. Welche Gruppen sich unterscheiden, klären Post-Hoc-Tests.

Hypothesen der ANOVA H₀: μ₁=μ₂=...=μ_g, H₁: ∃ i,j: μ_i≠μ_j

g ist die Anzahl der Gruppen.

Folie 128: Post-Hoc-Tests nach ANOVA — Folie 128: Nach signifikanter ANOVA werden Paarvergleiche über Post-Hoc-Tests wie Tukey HSD, Games-Howell oder korrigierte paarweise t-Tests interpretiert.

Prüfungsfalle: Eine signifikante ANOVA sagt nicht automatisch, welche Gruppe besser ist. Dafür braucht es Post-Hoc-Tests und ggf. eine Korrektur für multiples Testen.

8. Normalität, Alternativen und Testfehler

8.1 Voraussetzungen parametrischer Tests

t-Tests und ANOVA sind parametrische Tests. Für den t-Test müssen die Daten metrisch skaliert sein, und der Mittelwert der Stichprobe muss näherungsweise normalverteilt sein. Bei größeren Stichproben wird diese Voraussetzung durch den zentralen Grenzwertsatz oft praktikabel; bei kleinen Stichproben muss genauer geprüft werden.

Problem	Mögliche Alternative
Zwei ungepaarte Stichproben, Normalitätsannahme fraglich	Wilcoxon-Rangsummen-Test oder Mann-Whitney-U-Test
Zwei gepaarte Stichproben, Normalitätsannahme fraglich	Wilcoxon-Vorzeichen-Rang-Test
Median gegen Zielwert	Sign-Test

8.2 Q-Q-Plot und Normalitätstests

Histogramme hängen stark von der Klasseneinteilung ab. Q-Q-Plots vergleichen die sortierten Stichprobenwerte mit den theoretischen Quantilen der Normalverteilung und sind für kleine Stichproben oft informativer.

Folie 134: Q-Q-Plot für Normalität — Folie 134: Beim Q-Q-Plot werden Stichprobenquantile gegen Normalverteilungsquantile aufgetragen; starke Abweichungen von der Linie sprechen gegen Normalität.

Theoretische Quantile im Q-Q-Plot Q_i = Φ^-1(p_i), p_i = (i-0,5)/n

Φ^-1 ist die inverse Verteilungsfunktion der Standardnormalverteilung.

Formale Normalitätstests sind Shapiro-Wilk, Kolmogorov-Smirnov und Anderson-Darling. Die Nullhypothese lautet: Die Grundgesamtheit folgt der geprüften Verteilung. Für Normalität will man deshalb typischerweise keinen kleinen p-Wert.

Prüfungsfalle: Bei Normalitätstests ist „p-Wert über 5 %“ kein Beweis für Normalität, sondern nur kein ausreichender Hinweis auf Abweichung. Gerade kleine Stichproben haben geringe Sensitivität.

8.3 Fehlerarten

Fehler	Bedeutung	Auch bekannt als
Fehler erster Art	H₀ wird verworfen, obwohl sie wahr ist.	Falsch positiv; Wahrscheinlichkeit entspricht dem Signifikanzniveau.
Fehler zweiter Art	H₀ wird nicht verworfen, obwohl sie falsch ist.	Falsch negativ.
Datenfehler	Messdaten sind selbst fehlerhaft.	Qualitätsproblem der Datenerhebung.
Modellfehler	Ungeeigneter Test oder verletzte Verteilungsannahmen.	Methodenproblem.

9. Chi-Quadrat-Testfamilie

9.1 Unabhängigkeitstest

Der Chi-Quadrat-Unabhängigkeitstest prüft, ob zwei kategoriale Merkmale unabhängig sind. Er vergleicht die beobachtete Kontingenztabelle mit der erwarteten Tabelle unter H₀.

Teststatistik χ² = ∑ (O_ij-E_ij)²/E_ij

O_ij: Beobachtete Häufigkeit in Zelle i,j.
E_ij: Erwartete Häufigkeit unter Unabhängigkeit.

Folie 145: Beobachtete und erwartete Kontingenztabelle beim Werbemailing — Folie 145: Beim Werbemailing wird die beobachtete Öffnungsrate mit der erwarteten Öffnungsrate unter gleicher Häufigkeit verglichen.

Im Werbemailing-Beispiel ergibt der Unabhängigkeitstest einen p-Wert von 0,2174. Ein Unterschied der Öffnungsraten von 9,27 % zu 11,58 % ist unter H₀ plausibel; die Nullhypothese wird beibehalten.

9.2 Anpassungstest

Der Chi-Quadrat-Anpassungstest prüft, ob die beobachtete Verteilung eines kategorialen Merkmals zu einer erwarteten Verteilung passt. Im Studiengangsbeispiel führt ein p-Wert von 0,00808 zur Verwerfung: Das Sample weicht signifikant von der erwarteten Grundverteilung ab.

Test	Fragestellung	Nullhypothese
Unabhängigkeitstest	Hängen zwei kategoriale Merkmale zusammen?	Die Merkmale sind unabhängig.
Anpassungstest	Passt eine beobachtete Häufigkeitsverteilung zu einer erwarteten Verteilung?	Die beobachtete Verteilung passt zur erwarteten.

Prüfungsfalle: Chi-Quadrat-Tests arbeiten mit Häufigkeiten, nicht mit Mittelwerten. Außerdem sollten erwartete Zellhäufigkeiten nicht zu klein sein; sonst sind exakte Tests oder Kategorienzusammenfassungen zu prüfen.

10. Lineare Regression und OLS-Schätzung

10.1 Regression als Zusammenhangsmodell

Regression sucht Zusammenhänge zwischen abhängigen und unabhängigen Variablen. Bei der linearen OLS-Regression werden Koeffizienten so gewählt, dass die Summe der quadrierten Residuen minimal wird.

Einfache lineare Regression y_i = β₀ + β₁x_i,1 + ε_i

y_i: Abhängige Variable für Beobachtung i.
β₀: Achsenabschnitt; erwarteter Wert bei x=0.
β₁: Steigung; durchschnittliche Änderung von y bei einer zusätzlichen Einheit x.
ε_i: Störterm; alle nicht modellierten Einflüsse.

Folie 158: Residuen und OLS-Zielfunktion — Folie 158: OLS minimiert die Summe quadrierter Residuen, also die Abweichungen zwischen beobachteten und geschätzten Werten.

OLS-Zielfunktion min ∑_i=1ⁿ(y_i - ŷ_i)²

ŷ_i ist der durch das Modell geschätzte Wert.

10.2 Output interpretieren

Outputgröße	Bedeutung	Interpretation
Schätzer β̂_k	Geschätzter Effekt der unabhängigen Variable.	Beim Lernstundenbeispiel: Eine Lernstunde mehr ist mit ca. 4,534 Punkten mehr assoziiert.
Standardfehler	Unsicherheit des Schätzers.	Je größer, desto weniger präzise ist der geschätzte Effekt.
t-Wert und p-Wert	Test gegen H₀: β_k=0.	Kleiner p-Wert spricht gegen „kein Zusammenhang“.
Konfidenzintervall	Plausibler Bereich für den wahren Koeffizienten.	Enthält es 0 nicht, ist der Effekt auf dem zugehörigen Niveau signifikant.
R², korrigiertes R²	Erklärter Varianzanteil.	Korrigiertes R² bestraft zusätzliche Variablen.

10.3 Korrelation ist nicht Kausalität

OLS zeigt zunächst Assoziationen. Ein signifikanter Koeffizient beweist keinen kausalen Effekt. Dritte Variablen können gleichzeitig unabhängige und abhängige Variable beeinflussen und damit eine Scheinkorrelation erzeugen.

Folie 160: Beispiel Scheinkorrelation bei Eisverkäufen, Wetter und Sonnenbrand — Folie 160: Ein gefundener Zusammenhang kann durch eine dritte Variable erklärt werden; Kontrollvariablen können helfen, wenn sie beobachtet wurden.

10.4 Strommarktbeispiel

Im Strommarktbeispiel wirkt eine einfache Regression der Nachfrage auf den Strompreis zunächst statistisch signifikant, aber fachlich falsch gerichtet: Eine höhere Nachfrage treibt eher den Preis, nicht umgekehrt. Erst das Modell mit Preis als abhängiger Variable, Nachfrage und erneuerbarer Einspeisung als unabhängigen Variablen ist ökonomisch plausibler.

Folie 173: Einfache OLS-Schätzung im Strommarkt — Folie 173: Die einfache Strommarktregression illustriert, dass Signifikanz und fachliche Modellrichtung getrennt geprüft werden müssen.

Klausurformulierung für Koeffizienten: „Eine zusätzliche Einheit von x ist im Durchschnitt mit β̂ Einheiten Änderung in y assoziiert, unter Kontrolle der übrigen Modellvariablen.“ Nur bei sauberer kausaler Identifikation darf „führt zu“ geschrieben werden.

10.5 Residuenprüfung

Residuen sind die Abweichungen zwischen beobachtetem und geschätztem Wert. Sie sollten insbesondere auf Normalverteilung und Homoskedastizität geprüft werden. Homoskedastizität bedeutet, dass die Streuung der Residuen nicht systematisch mit dem geschätzten Wert zunimmt oder abnimmt.

11. Multikollinearität, Endogenität und Overfitting

11.1 Multikollinearität

Multikollinearität liegt vor, wenn unabhängige Variablen stark miteinander korrelieren. Das Modell kann y weiterhin gut erklären, aber die einzelnen Koeffizienten werden instabil, haben hohe Standardfehler und können fachlich unsinnig wirken. Der Schätzer kann weiterhin erwartungstreu sein, aber der zufällige Schätzfehler ist groß.

Folie 191: Variance Inflation Factor bei Multikollinearität — Folie 191: Der Variance Inflation Factor diagnostiziert, wie stark eine unabhängige Variable durch andere unabhängige Variablen erklärbar ist.

Variance Inflation Factor VIF = 1/(1 - R²)

Für jede unabhängige Variable wird sie auf die übrigen unabhängigen Variablen regressiert. Ab etwa 10 wird Multikollinearität im Foliensatz als problematisch eingeordnet.

Diagnose	Idee
Korrelationskoeffizient bzw. Korrelationsmatrix	Hohe Korrelationen zwischen unabhängigen Variablen sichtbar machen.
VIF	Erklärt eine unabhängige Variable durch die anderen und misst Varianzinflation.
Konditionszahl κ	Bei mehreren Variablen Analyse der Korrelationsmatrix; ab ca. 30 problematisch.

Behandlung: problematische Variablen entfernen, zusammenfassen, weiter zerlegen oder alternative Schätzverfahren wie Ridge-Regression einsetzen.

11.2 Endogenität

Endogenität entsteht, wenn eine unabhängige Variable mit dem Störterm korreliert. Dann ist der Schätzer verzerrt und nicht mehr erwartungstreu. Anders als zufälliger Schätzfehler verschwindet dieser Bias nicht automatisch bei größerer Stichprobe.

Endogenitätskriterium cor(x_i, ε) ≠ 0

ε enthält alle nicht modellierten Einflüsse auf die abhängige Variable.

Im Bildungs-Gehalts-Beispiel verursacht „Ability“ ein Omitted-Variable-Problem: Fähigkeit beeinflusst Bildung und Gehalt. Fehlt diese Variable, landet sie im Störterm und korreliert mit Bildung.

Folie 202: Zweistufige Instrumentalvariablenschätzung — Folie 202: IV-Schätzung verwendet ein relevantes und exogenes Instrument, um die problematische unabhängige Variable in einer ersten Stufe zu erklären.

Lösung	Voraussetzung	Grenze
Problemvariable kontrollieren	Daten zur omitted variable liegen vor.	Nur möglich, wenn die relevante Variable beobachtet wurde.
Instrumentalvariable	Instrument ist relevant und exogen.	Kausale Interpretation nur für die instrumentierte Variable und nur bei gültigem Instrument.

11.3 Overfitting, Ridge, Lasso und Elastic Net

Overfitting entsteht, wenn Modellwahl, Variablentransformationen oder Algorithmusparameter zu stark an die Stichprobe angepasst werden. Bei Regressionen passiert das besonders leicht, wenn Variablen solange ausgetauscht werden, bis gewünschte p-Werte erscheinen.

Folie 209: Ridge- und Lasso-Strafterme — Folie 209: Ridge ergänzt eine L2-Strafe, Lasso eine L1-Strafe. Der kleine mathematische Unterschied hat große Folgen für Variablenselektion.

Ridge min ∑(y_i-ŷ_i)² + λ∑β_k²

Schrumpft Koeffizienten, entfernt Variablen selten komplett; gut gegen Overfitting und Multikollinearität.

Lasso min ∑(y_i-ŷ_i)² + λ∑|β_k|

Kann Koeffizienten auf 0 setzen; gut für Variablenselektion.

Elastic Net min ∑(y_i-ŷ_i)² + λ₁∑β_k² + λ₂∑|β_k|

Verbindet Ridge- und Lasso-Strafe. Die Strafparameter werden sinnvollerweise per k-fold-Cross-Validation gewählt.

Prüfungsfalle: Ridge, Lasso und Elastic Net reduzieren Varianz und Instabilität, erzeugen aber Bias. Das ist der Bias-Variance-Tradeoff: Ein leicht verzerrtes, stabileres Modell kann prognostisch besser sein als ein unverzerrtes, sehr variables Modell.

12. Maximum-Likelihood-Schätzung

12.1 Grundidee

Maximum Likelihood schätzt Parameter einer angenommenen Verteilung so, dass die beobachtete Stichprobe unter dieser Verteilung möglichst wahrscheinlich ist. Dazu wird angenommen, dass die Beobachtungen unabhängig und identisch verteilt sind, also i.i.d.

Likelihood L(θ) = ∏_i=1ⁿ φ_θ(x_i)

θ: Parametervektor der angenommenen Verteilung.
φ_θ: Dichte oder Wahrscheinlichkeitsfunktion mit Parametern θ.
x_i: Beobachtungen der Stichprobe.

Produkte vieler kleiner Wahrscheinlichkeiten sind numerisch und algebraisch unhandlich. Deshalb wird mit der Log-Likelihood gearbeitet. Aus Produkten werden Summen.

Log-Likelihood ℓ(θ) = ∑_i=1ⁿ ln(φ_θ(x_i))

Je näher die Log-Likelihood an 0 liegt, desto besser passt das Modell im Vergleich zu Alternativen. Der absolute Wert allein hat keinen einfachen Qualitätsmaßstab.

Folie 221: Maximum-Likelihood-Herleitung für die Normalverteilung — Folie 221: Bei Normalverteilung führt die Log-Likelihood über Ableitungen zu Schätzern für Erwartungswert und Varianz.

12.2 Optimierung und Output

Die ML-Schätzer erhält man durch Optimierung der Log-Likelihood. Analytisch werden die partiellen Ableitungen auf 0 gesetzt und die Hessematrix geprüft. Praktisch liefern Softwarepakete Schätzer, Standardfehler, Log-Likelihood sowie Informationskriterien.

Ausgabe	Bedeutung	Interpretation
Parameter-Schätzer	Werte, die die Stichprobe am plausibelsten machen.	Im Binomialbeispiel wird etwa die Trefferwahrscheinlichkeit geschätzt.
Standardfehler	Unsicherheit des Schätzers.	Großer Standardfehler bedeutet hohe Schätzunsicherheit.
Log-Likelihood	Wert der Zielfunktion am Optimum.	Zum Modellvergleich geeignet, nicht als isolierte Gütenorm.
AIC	AIC = -2ℓ + 2k	Bestraft zusätzliche Parameter.
BIC	BIC = -2ℓ + k·ln(n)	Bestraft Parameter stärker bei größeren Stichproben.

Prüfungsfalle: ML-Schätzung ist nur so sinnvoll wie die angenommene Verteilungsfamilie und die i.i.d.-Annahme. Autokorrelation oder falsche Verteilungsannahmen machen die Interpretation schwach.

13. Codebeispiele aus den Notebooks

Die folgenden Ausschnitte stammen aus den Jupyter Notebooks im Ordner temp_statistik2. Sie sind bewusst kurz gehalten; Variablen wie data, calls, N oder delta werden in den jeweiligen Notebooks vorher geladen bzw. berechnet. In der Klausur ist wichtig, die statistische Fragestellung, den passenden Test und die Interpretation des Outputs zu verstehen; die Software nimmt nur die Rechenarbeit ab.

13.1 Verteilungen mit SciPy

Das Notebook Verteilungen.ipynb nutzt scipy.stats für Wahrscheinlichkeitsfunktionen, Verteilungsfunktionen, Zufallszahlen und Parameterschätzung.

import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

# Binomialverteilung: genau 4 Treffer aus 5 Versuchen bei p = 0.75
stats.binom.pmf(k=4, n=5, p=0.75)

# Poisson-Verteilung: genau 4 Ereignisse bei lambda = 1.5
stats.poisson.pmf(k=4, mu=1.5)

Für die Darts-Aufgabe wird die einzelne Trefferwahrscheinlichkeit aus beobachteten Trefferzahlen geschätzt und danach für mehrere Fragestellungen verwendet.

hits = [1,2,1,1,2,3,0,3,2,0,3,2,1,2,3,3,2,1,0,3,2,1,1,2]

p = stats.fit(stats.binom, hits, bounds={"n": [3, 3]}).params.p

1 - stats.binom.cdf(k=1, n=3, p=p)  # mindestens zwei T20
stats.binom.pmf(k=3, n=3, p=p)      # 180er
stats.binom.pmf(k=9, n=9, p=p)      # neun perfekte Darts

Für die Hotline-Aufgabe werden Poisson-Verteilung und Exponentialverteilung kombiniert: Anzahl der Anrufe pro Stunde vs. Wartezeit zwischen Anrufen.

lam = np.mean(calls["calls"])

stats.poisson.pmf(k=0, mu=lam)      # kein Anruf in einer Stunde
1 - stats.poisson.cdf(k=4, mu=lam)  # mindestens 5 Anrufe

# scale ist bei scipy.stats.expon der Kehrwert von lambda
stats.expon.cdf(5/60, loc=0, scale=1/lam)      # Pause maximal 5 Minuten
1 - stats.expon.cdf(30/60, loc=0, scale=1/lam) # Pause mindestens 30 Minuten

13.2 Z-Test

Das Z-Test-Notebook berechnet zuerst den Standardfehler des Mittelwerts und setzt die beobachtete Abweichung in Standardabweichungseinheiten.

import numpy as np
import scipy.stats as stats

variance = 2.91 / N
sigma = np.sqrt(variance)
z = delta / sigma

# einseitiger linksseitiger Test
p = stats.norm.cdf(z)

# zweiseitiger Test bei negativer Abweichung
p = 2 * stats.norm.cdf(z)

Interpretationsfalle: Der Code liefert nur den p-Wert. Ob stats.norm.cdf(z), 1 - stats.norm.cdf(z) oder die doppelte Fläche passt, entscheidet die Alternativhypothese.

13.3 t-Tests mit Pingouin und von Hand

Die t-Test-Notebooks verwenden pingouin für fertige Tests. Der Einstichproben-t-Test ersetzt die zweite Stichprobe durch den Sollwert.

import pingouin as pg

# Einstichproben-t-Test: Ist der Mittelwert von Alt gleich 4.00?
pg.ttest(data["Alt"], 4.00)

Der gleiche p-Wert lässt sich über Standardfehler, t-Wert und t-Verteilung nachvollziehen.

stdErr = np.std(data["Alt"], ddof=1) / np.sqrt(len(data["Alt"]))
t_value = (np.mean(data["Alt"]) - 4.00) / stdErr

from scipy.stats import t
prob = t.cdf(t_value, df=len(data["Alt"]) - 1)
p = (1 - prob) * 2  # zweiseitiger Test
round(p, 4)

Beim Zweistichproben-t-Test ist die Paarung entscheidend. Studiengänge sind ungepaart; Marketing und Analysis sind gepaart, weil dieselben Personen verglichen werden.

wi = data.loc[data["Kurs"] == "Wirtschaftsinformatik", "Punkte"]
ds = data.loc[data["Kurs"] == "Data Science", "Punkte"]
pg.ttest(wi, ds)

mkt = data.loc[data["Vorlesung"] == "Marketing", "Punkte"]
ana = data.loc[data["Vorlesung"] == "Analysis", "Punkte"]
pg.ttest(mkt, ana, paired=True)

13.4 ANOVA und Post-Hoc-Tests

Das ANOVA-Notebook formt die Daten zuerst ins lange Format. Danach prüft die ANOVA, ob mindestens ein Bot-Mittelwert abweicht.

data = data.melt(
    id_vars=["Arbeit"],
    value_vars=["Bot_A", "Bot_B", "Bot_C", "Bot_D"],
    var_name="Bot",
    value_name="Accuracy",
)

aov = pg.anova(dv="Accuracy", between="Bot", data=data, detailed=True)
aov

Wenn die ANOVA signifikant ist, folgen Paarvergleiche.

from statsmodels.stats.multicomp import pairwise_tukeyhsd

tukey = pairwise_tukeyhsd(endog=data["Accuracy"], groups=data["Bot"], alpha=0.05)
print(tukey)

games_howell = pg.pairwise_gameshowell(dv="Accuracy", between="Bot", data=data)
print(games_howell)

pairwise_ttest = pg.pairwise_tests(
    dv="Accuracy",
    between="Bot",
    data=data,
    padjust="bonferroni",
)
print(pairwise_ttest)

13.5 Normalität prüfen

Das Normalitäts-Notebook kombiniert visuelle Prüfung per Q-Q-Plot und formale Tests. Die Nullhypothese lautet jeweils: Die Daten folgen der geprüften Verteilung.

stats.probplot(data, dist="norm", plot=plt)
plt.title("Q-Q Plot")
plt.show()

stats.shapiro(data)

mu, std = stats.norm.fit(data)
stats.kstest(data, stats.norm.cdf, args=(mu, std))

stats.anderson(data, dist="norm")

Interpretationsfalle: Bei Normalitätstests ist ein kleiner p-Wert ein Warnsignal gegen die Normalitätsannahme. Ein großer p-Wert beweist Normalität nicht.

13.6 Chi-Quadrat-Tests

Der Unabhängigkeitstest kann direkt auf einer Kontingenztabelle laufen oder auf langen Daten mit pingouin.

from scipy.stats import chi2_contingency

chi2_stat, p_value, dof, expected = chi2_contingency(values)
p_value

data = pd.read_excel("Werbemailings.xlsx", usecols="B:D", skiprows=26)
data = pd.melt(data, value_vars=["Newsletter A", "Newsletter B", "Newsletter C"])
data = data.loc[data["variable"] != "Newsletter C", :]

expected, actual, result = pg.chi2_independence(
    data,
    "variable",
    "value",
    correction=True,
)
print(actual)
print(expected)
result

Der Anpassungstest vergleicht beobachtete Häufigkeiten mit einer erwarteten Verteilung. Die erwarteten Häufigkeiten werden vorher auf dieselbe Gesamtzahl normiert.

from scipy.stats import chisquare

observed = np.array([20, 25, 10])
expected = np.array([200, 300, 40])
expected = expected * (observed.sum() / expected.sum())

chi2_stat, p_value = chisquare(f_obs=observed, f_exp=expected)
p_value

13.7 OLS-Regression mit Statsmodels

Die OLS-Notebooks verwenden die Formel-API von statsmodels. Sie ist gut lesbar, weil die Modellgleichung fast wie die mathematische Spezifikation aussieht.

import statsmodels.formula.api as smf

model = smf.ols("Punkte ~ Lernstunden", data=data).fit()
print(model.summary())
print(model.conf_int(alpha=0.05))

Im Strommarkt-Notebook zeigt der Vergleich zweier Formeln, dass Modellrichtung und Kontrollvariablen fachlich begründet werden müssen.

# Einfaches, fachlich problematisches Modell
model = smf.ols("Netzlast ~ Preis", data=data).fit()
print(model.summary())

# Plausibleres Modell: Preis als abhängige Variable
model = smf.ols("Preis ~ Netzlast + GesamtEE", data=data).fit()
print(model.summary())
print(model.conf_int(alpha=0.05))

Das Mensa-Notebook zeigt eine multiple Regression mit kategorialen und numerischen Prädiktoren. Kategoriale Variablen werden von statsmodels über die Formel intern dummy-codiert.

model = smf.ols(
    "food_score ~ gender + status + preference + allergy + ambience_score + service_score",
    data=data,
).fit()
print(model.summary())

13.8 Endogenität und zweistufige IV-Schätzung

Das Endogenitäts-Notebook simuliert das Omitted-Variable-Problem und zeigt eine einfache zweistufige Instrumentalvariablenlogik. In der ersten Stufe wird die endogene Variable durch das Instrument erklärt; in der zweiten Stufe wird mit den gefitteten Werten weitergearbeitet.

model1 = smf.ols("education ~ availability", data=data).fit()
instrument = model1.fittedvalues

model2 = smf.ols("wage ~ instrument", data=data).fit()
beta.append(model2.params["instrument"])

Code richtig lesen: summary(), p-Werte und Konfidenzintervalle beantworten statistische Fragen. Die kausale Frage beantwortet der Code nicht allein; dafür müssen Modellannahmen, Kontrollvariablen oder Instrumente fachlich tragfähig sein.

13.9 Maximum Likelihood als Optimierung

Das Verteilungsnotebook zeigt Maximum Likelihood am Poisson-Parameter. Optimiert wird die negative Log-Likelihood, weil Minimierer in SciPy standardmäßig minimieren.

from scipy.optimize import minimize

def neg_log_likelihood(lmbda):
    return -np.sum(stats.poisson.logpmf(x, mu=lmbda))

initial_guess = np.mean(x)

result = minimize(
    neg_log_likelihood,
    x0=initial_guess,
    method="L-BFGS-B",
    bounds=[(0.0001, None)],
)

lambda_mle = result.x[0]
log_likelihood = -result.fun

14. Klausurstrategie, Checkliste und mögliche Fragen

13.1 Rechen- und Interpretationsschema

Variable identifizieren: numerisch oder kategorial, diskret oder kontinuierlich, eine oder mehrere Gruppen.
Verteilung oder Testfamilie auswählen: Binomial, Poisson, Exponential, Normal, t-Test, ANOVA, Chi-Quadrat, OLS oder ML.
Hypothesenpaar sauber formulieren, inklusive Richtung bei einseitigen Tests.
Teststatistik, p-Wert und Konfidenzintervall nicht nur berechnen, sondern in Worten interpretieren.
Annahmen prüfen: Normalität, Paarung, Unabhängigkeit, erwartete Häufigkeiten, Homoskedastizität, Multikollinearität, Endogenität.
Grenzen benennen: Signifikanz ist nicht Effektgröße, Korrelation ist nicht Kausalität, kleine Stichproben liefern unsichere Tests.

13.2 Kompakte Lerncheckliste

Kann ich ...?	Selbsttest
Diskrete und kontinuierliche Verteilungen unterscheiden?	Erkläre, warum P(X=x)=0 bei kontinuierlichen Verteilungen kein Widerspruch ist.
Erwartungswert und Varianz korrekt berechnen?	Rechne Würfel, Gleichverteilung auf [0,1] und Glücksrad nach.
Binomial, Poisson und Exponential sicher zuordnen?	Trefferzahl, Ereigniszahl pro Stunde und Wartezeit voneinander trennen.
ZGS und Standardfehler erklären?	Begründe, warum die Varianz des Mittelwerts σ²/n ist.
p-Werte korrekt formulieren?	Formuliere jeden p-Wert als Wahrscheinlichkeit unter Gültigkeit von H₀.
Gepaarte und nicht gepaarte t-Tests unterscheiden?	Prüfe, ob dieselbe Person/Einheit zweimal gemessen wurde.
ANOVA und Post-Hoc-Tests trennen?	Sage, warum ANOVA allein keine konkrete Paarung nennt.
Chi-Quadrat-Tests richtig einsetzen?	Unabhängigkeit zweier Merkmale vs. Anpassung an Sollverteilung unterscheiden.
OLS-Output interpretieren?	Schätzer, Standardfehler, p-Wert, Konfidenzintervall und R² in einem Satz erklären.
Regressionsprobleme erkennen?	Multikollinearität, Endogenität und Overfitting jeweils mit Ursache und Folge nennen.
ML-Schätzung verstehen?	Erkläre, warum aus der Likelihood durch Logarithmus eine Summe wird und wozu AIC/BIC dienen.

13.3 Mögliche Klausurfragen

Eine Hotline erhält im Mittel 2,5 Anrufe pro Stunde. Welche Verteilung beschreibt die Anzahl der Anrufe, welche die Wartezeit bis zum nächsten Anruf?
Berechne Erwartungswert und Varianz einer Gleichverteilung auf [2,4] und interpretiere beide Werte.
Ein Würfel wird 10.000-mal geworfen und zeigt einen deutlich zu niedrigen Mittelwert. Formuliere H₀, H₁, Teststatistik und p-Wert-Interpretation.
Warum kann ein zweiseitiger Test einen anderen p-Wert liefern als ein linksseitiger Test mit derselben Teststatistik?
Wann ist ein t-Test gepaart? Gib ein Beispiel und erkläre, was dann getestet wird.
Eine ANOVA ist signifikant. Warum brauchst du danach einen Post-Hoc-Test?
Ein Normalitätstest liefert p=0,12. Was darfst du sagen, was nicht?
Bei einem Werbemailing unterscheiden sich Öffnungsraten deskriptiv. Welcher Chi-Quadrat-Test passt und wie lautet H₀?
Interpretiere einen OLS-Koeffizienten mit Standardfehler, p-Wert und Konfidenzintervall in korrekter Sprache.
Warum kann ein hochsignifikanter Strompreis-Koeffizient fachlich trotzdem falsch interpretiert sein?
Wie erkennt und behandelt man Multikollinearität?
Was ist ein gültiges Instrument bei IV-Schätzung, und warum reichen Relevanz oder Exogenität allein nicht?
Vergleiche Ridge und Lasso: Zielfunktion, Effekt auf Koeffizienten und typische Anwendung.
Erkläre Likelihood, Log-Likelihood, AIC und BIC an einem Verteilungsfit.

15. Abdeckung des Foliensatzes

Folie/Kapitel	Inhalt	In Zusammenfassung enthalten?	Wo behandelt?
1-3	Titel, Vorwort, Inhaltsverzeichnis	Ja, als Quelle und Gesamtgliederung	Header, Überblick
4-8	Zufallsvariablen, Ereignismenge, diskret/kontinuierlich, Funktionsarten	Ja	Kapitel 2
9-14	Diskrete Verteilungen, Wahrscheinlichkeitsfunktion, Verteilungsfunktion, Summation	Ja	Kapitel 2.2
15-21	Kontinuierliche Verteilungen, Dichte, Integrale, Ableitung	Ja	Kapitel 2.3
22-31	Erwartungswert diskret/kontinuierlich, Linearität, Übungen Glücksrad/Zufallsgenerator	Ja	Kapitel 3.1, Aufgabenhinweise
32-41	Varianz, Standardabweichung, Additivität, Roulette-/Glücksradbeispiele	Ja	Kapitel 3.2
42-44	Momente, Schiefe, Wölbung/Exzess	Ja	Kapitel 3.3
45-47	Gleichverteilung, Erwartungswert, Varianzherleitung	Ja	Kapitel 4.1
48-53	Binomialverteilung, Fakultät, Binomialkoeffizient, Erwartungswert/Varianz	Ja	Kapitel 4.2
54-59	Poisson-Verteilung, Grenzwert zur Binomialverteilung, Erwartungswert/Varianz	Ja	Kapitel 4.3
60-64	Exponentialverteilung, Verteilungsfunktion, Momente, Gedächtnislosigkeit	Ja	Kapitel 4.4
65-67	Darts- und Hotline-Modellierungsübungen	Ja, als typische Aufgabenlogik	Kapitel 4, Kapitel 13
68-69	Normalverteilung	Ja	Kapitel 5.1
70-76	Zentraler Grenzwertsatz, Normalbereiche, Faustregeln	Ja	Kapitel 5.2
77-91	Induktive Statistik, Z-Test, einseitig/zweiseitig, Würfel- und Roulettebeispiele	Ja	Kapitel 6.1-6.2
92-98	Statistische Testarten und Testauswahl	Ja	Kapitel 6.3
99-113	Zweistichproben-t-Test, gepaart/nicht gepaart, p-Wert, Konfidenzintervall	Ja	Kapitel 7.1-7.3
114-124	Einstichproben-t-Test, t-Verteilung, Freiheitsgrade, Mensaübung	Ja	Kapitel 7.1-7.3, Kapitel 13
125-128	ANOVA und Post-Hoc-Tests	Ja	Kapitel 7.4
129-141	Parametrische Tests, Normalität, Q-Q-Plot, Normalitätstests, Sensitivität/Spezifität	Ja	Kapitel 8.1-8.2
142-147	Chi-Quadrat-Unabhängigkeitstest, Werbemailing	Ja	Kapitel 9.1
148-151	Chi-Quadrat-Anpassungstest, Mensaübung	Ja	Kapitel 9.2, Kapitel 13
152-153	Fehler erster/zweiter Art, Daten- und Modellfehler	Ja	Kapitel 8.3
154-169	Regressionsarten, OLS, Residuen, Output, p-Wert, Konfidenzintervall, R²	Ja	Kapitel 10.1-10.5
170-181	Strommarktbeispiel, Modellrichtung, Interpretation, Mensa-OLS-Übung	Ja	Kapitel 10.4, Kapitel 13
182-183	Erweiterungen und Baustellen der Regression	Ja	Kapitel 11
184-193	Multikollinearität, Bias/Schätzfehler, VIF, Konditionszahl, Behandlung	Ja	Kapitel 11.1
194-204	Endogenität, omitted variables, Instrumentalvariablen, zweistufige Regression	Ja	Kapitel 11.2
205-214	Overfitting, Ridge, Lasso, Elastic Net, Cross-Validation, Bias-Variance-Tradeoff	Ja	Kapitel 11.3
215-225	Maximum-Likelihood-Schätzung, Log-Likelihood, Optimierung, Standardfehler, AIC/BIC	Ja	Kapitel 12