Klausurzusammenfassung: Statistik 1

Deskriptive Statistik, bivariate Analyse, Regression, Zeitreihen, Verhältniszahlen und Wahrscheinlichkeit

Quelle: Statistik Jeske Gesamtskriptum, 235 PDF-Seiten. Fokus: Begriffe sicher unterscheiden, passende Formeln auswählen, Rechenwege nachvollziehbar darstellen und Ergebnisse korrekt interpretieren.

Druckhinweis: Im Browser über Drucken > Als PDF speichern exportieren. Sinnvolle Einstellungen: Papierformat A4, Skalierung 100 %, Browser-Kopf- und Fußzeilen deaktivieren, Hintergrundgrafiken aktivieren.

1. Überblick und Klausurlogik

Statistik reduziert Daten auf verständliche Aussagen, ohne relevante Informationen wegzuwerfen oder mehr zu behaupten, als die Daten hergeben. In der Klausur ist deshalb nicht nur das Einsetzen in Formeln wichtig. Zuerst muss geklärt werden, welcher Datentyp vorliegt, welches Skalenniveau die Variable besitzt und welche Aussage ein Maß überhaupt zulässt.

Universeller Lösungsweg: Datenart und Skalenniveau → Datenformat → zulässiges Maß oder Verfahren → saubere Rechnung → Interpretation in Worten Bei bivariaten Daten kommt zusätzlich die Frage hinzu, ob ein linearer, monotoner oder nominaler Zusammenhang untersucht wird.

Hinweis zur Skriptgliederung: Das Inhaltsblatt nennt Wahrscheinlichkeit als Kapitel 12. Die eigentlichen Folien führen diesen Teil als Kapitel 13. Diese Zusammenfassung behandelt den vollständigen Inhalt unabhängig von dieser Nummerierungsabweichung.

Gliederung

Grundbegriffe, Skalen und Daten
Datenformate und einfache Grafiken
Lagemaße
Streuungsmaße
Schiefe, Wölbung und hochwertige Grafiken
Bivariate Daten und Zusammenhangsmaße
Regression und Scheinkorrelation
Zeitreihenanalyse
Verhältniszahlen und Indizes
Wahrscheinlichkeit
Klausurstrategie, Checkliste und Fragen
Abdeckung des Skripts

2. Grundbegriffe, Skalen und Datenarten

2.1 Statistische Grundbegriffe

Begriff	Bedeutung	Beispiel
Statistische Einheit	Person oder Objekt, an dem Merkmale erhoben werden	Patient, Haushalt, Unternehmen
Grundgesamtheit	Menge aller relevanten statistischen Einheiten	Alle Studierenden eines Jahrgangs
Teilgesamtheit	Inhaltlich abgegrenzte Teilmenge der Grundgesamtheit	Studierende eines Studiengangs
Stichprobe	Tatsächlich erhobene Teilmenge der Grundgesamtheit	200 befragte Studierende
Merkmal	Erhobene Variable	Alter, Note, Nationalität
Merkmalsausprägung	Konkreter Wert eines Merkmals	22 Jahre, Note 2,3

Prüfungsfalle: Eine Stichprobe ist nicht automatisch repräsentativ. Ein Rückschluss auf die Grundgesamtheit ist nur zulässig, wenn Auswahlverfahren und Erhebung dies tragen.

2.2 Merkmalsarten und Skalenniveaus

Die Skala entscheidet, welche Rechenoperationen sinnvoll sind. Mit zunehmendem Skalenniveau werden mehr Verfahren zulässig.

Das Skalenniveau ist eine Mindestanforderung: Ein höherwertig skaliertes Merkmal darf auch mit einfacheren Methoden beschrieben werden, verliert dabei aber Information.

Unterscheidung	Definition	Typische Beispiele
Quantitativ	Ausprägungen unterscheiden sich durch ihre Größe; es wird gezählt oder gemessen.	Alter, Umsatz, Körpergröße
Qualitativ	Ausprägungen unterscheiden sich durch ihre Art.	Nationalität, Geschlecht, Produkttyp
Stetig	Beliebige Zwischenwerte sind möglich.	Exakt gemessene Körpergröße
Diskret	Endlich oder abzählbar viele Ausprägungen; auf der Achse gibt es Lücken.	Anzahl Kinder, Alter in vollen Jahren
Quasi-stetig	Eigentlich diskret, praktisch wie stetig behandelt.	Geldbeträge

2.3 Erhebung, Herkunft und zeitlicher Bezug

Dimension	Variante	Kernaussage
Umfang	Totalerhebung	Alle Einheiten der Grundgesamtheit werden erhoben.
Umfang	Stichprobe	Nur ein Teil wird erhoben; Repräsentativität muss begründet werden.
Herkunft	Primärdaten	Für den eigenen Zweck selbst erhobene Daten.
Herkunft	Sekundärdaten	Bereits vorhandene Daten fremder Quellen, etwa amtliche Statistik.
Zeitbezug	Querschnitt	Viele Objekte zu einem Zeitpunkt: x₁, …, x_n.
	Zeitreihe	Ein Objekt über mehrere Zeitpunkte: y₁, …, y_T.
	Panel	Mehrere Objekte über mehrere Zeitpunkte; Nachteil: Panelsterblichkeit.

3. Datenformate und einfache Grafiken

3.1 Von der Urliste zur Häufigkeitstabelle

Originaldaten können sortiert, gruppiert oder klassiert werden. Jede Verdichtung erleichtert die Übersicht, kann aber Information verlieren.

Datenformat	Beschreibung	Wichtige Größe
Urliste	Alle Einzelbeobachtungen x₁, …, x_n	Keine Verdichtung
Geordnete Stichprobe	Sortierte Urliste x₍₁₎ ≤ … ≤ x_(n)	Grundlage für Median und Quantile
Gruppierte Daten	Jede Ausprägung x_j mit absoluter Häufigkeit n_j	r_j = n_j / n
Klassierte Daten	Beobachtungen werden Intervallen zusammengefasst.	Klassenbreite Δ_j, Klassenmitte m_j

Kumulierte Häufigkeiten ab Ordinalskala kumuliert absolut: N_i = ∑_j=1ⁱ n_j kumuliert relativ: R_i = ∑_j=1ⁱ r_j = N_i / n

n: Stichprobenumfang; n_j: absolute Häufigkeit; r_j: relative Häufigkeit.

Klassenbildung: Als grobe Orientierung nennt das Skript 2√n Klassen nach Velleman oder 10 log₁₀(n) nach Dixon/Kronmal. Gleiche Klassenbreiten und keine offenen Endklassen sind sinnvoll; fachliches Augenmaß bleibt nötig.

3.2 Diagramme passend auswählen

Diagramm	Geeignet für	Prüfungsrelevante Aussage
Kreisdiagramm	Anteile eines Ganzen	Sektorwinkel α_j = 360° · r_j
Blockdiagramm	Ausprägungen oder Kategorien	Blockhöhe ist proportional zur Häufigkeit.
Stabdiagramm	Diskrete Ausprägungen	Stabhöhe ist proportional zur Häufigkeit.
Polygonzug	Verlauf über geordnete Ausprägungen oder Zeit	Benachbarte Punkte werden verbunden.
Histogramm	Klassierte metrische Daten	Fläche, nicht Höhe, ist proportional zur Häufigkeit.

Bei ungleichen Klassenbreiten darf die Histogrammhöhe nicht direkt als Häufigkeit gelesen werden.

Häufigkeitsdichte im Histogramm f_j = r_j / Δ_j

f_j: Höhe des Histogrammblocks; r_j: relative Häufigkeit; Δ_j: Klassenbreite.

4. Lagemaße

Lagemaße beschreiben das Zentrum einer Verteilung. Ein einzelnes Lagemaß ist vor allem bei eingipfligen Verteilungen sinnvoll. Bei mehreren Gipfeln ist eine Grafik aussagekräftiger.

4.1 Arithmetisches Mittel, Median und Modus

Arithmetisches Mittel x̄ = (1 / n) ∑_i=1ⁿ x_i gruppiert: x̄ = ∑_j=1^k r_jx_j klassiert: x̄ ≈ ∑_j=1^k r_jm_j

Ausreißerempfindlich; mindestens kardinales Skalenniveau. Bei klassierten Daten wird mit Klassenmitten genähert.

Median der geordneten Urliste ungerades n: x̃ = x_((n+1)/2) gerades n: x̃ = (x_(n/2) + x_(n/2+1)) / 2

Ausreißerunempfindlich; bereits ab Ordinalskala. Bei gruppierten Daten wird die erste Ausprägung mit kumulierter relativer Häufigkeit von mindestens 0,5 gesucht.

Modus: Häufigste Merkmalsausprägung, falls sie eindeutig ist. Er funktioniert bereits für Nominaldaten, ist bei höherwertigen Skalen allein aber meist zu informationsarm.

4.2 Quantile

Das p-Quantil x_p ist ein Wert, den mindestens der Anteil p der Daten nicht überschreitet und mindestens der Anteil 1 − p nicht unterschreitet. Wichtige Spezialfälle sind x_0,25, x_0,5 und x_0,75.

Prüfungsfalle: Bei Quantilen existieren mehrere Konventionen für Zwischenpositionen. In einer Rechnung die in der Vorlesung verwendete Regel konsequent anwenden und den Rechenweg zeigen.

4.3 Welches Mittel für Quotienten und Wachstumsraten?

Mittelwert	Formel	Typische Anwendung
Gewogenes arithmetisches Mittel	x̄_g = ∑_i=1^k h_ix_i, mit ∑ h_i = 1	Ungleiche Gewichte; Quotienten, wenn Nenneranteile bekannt sind
Geometrisches Mittel	x̄_geo = (∏_i=1ⁿ x_i)^1/n	Mittlere Wachstumsfaktoren
Harmonisches Mittel	x̄_harm = ((1 / n) ∑_i=1ⁿ 1 / x_i)⁻¹	Quotienten, wenn Zähleranteile bekannt sind

Typische Aufgabe: Durchschnittsgeschwindigkeit. Bei 2,5 Stunden mit 42 km/h und 3 Stunden mit 31 km/h sind Zeitanteile bekannt: gewogenes arithmetisches Mittel, Ergebnis 36 km/h. Bei 90 km mit 36 km/h und 40 km mit 32 km/h sind Streckenanteile bekannt: gewogenes harmonisches Mittel, Ergebnis rund 34,67 km/h.

Prüfungsfalle Wachstum: Wachstumsraten nicht arithmetisch mitteln. Erst in Faktoren umwandeln. Bei +30 % und −20 % gilt √(1,3 · 0,8) − 1 ≈ 1,98 %, nicht 5 %.

4.4 Lineare Transformationen

Transformation y_i = a + bx_i ȳ = a + bx̄, ỹ = a + bx̃, y_M = a + bx_M für b > 0: y_p = a + bx_p

Bei b < 0 kehrt sich die Reihenfolge um; für Quantile ist dann y_p = a + bx_1−p zu beachten.

5. Streuungsmaße

Streuung beschreibt, wie weit Beobachtungen um ihre Lage verteilt sind. Quadratische Abweichungen sind besonders wichtig, weil sie differenzierbar sind und sich algebraisch gut verarbeiten lassen.

5.1 Varianz und Standardabweichung

Varianz einer Grundgesamtheit σ² = (1 / n) ∑_i=1ⁿ (x_i − x̄)²

σ² besitzt die quadrierte Einheit der Ausgangsdaten.

Stichprobenvarianz s² = (1 / (n − 1)) ∑_i=1ⁿ (x_i − x̄)²

Bei einer Stichprobe steht n − 1 im Nenner. Diese Unterscheidung ist bei kleinen Stichproben besonders wichtig.

Verschiebungssatz und Umrechnung σ² = (1 / n) ∑_i=1ⁿ x_i² − x̄² s² = (n / (n − 1)) σ²

Der Verschiebungssatz spart bei manuellen Rechnungen Zeit. Für gruppierte Daten wird jeweils mit Häufigkeiten gewichtet.

Standardabweichung: σ = √(σ²) beziehungsweise s = √(s²). Sie ist leichter interpretierbar als die Varianz, weil sie dieselbe Einheit wie die Ausgangsdaten besitzt.

5.2 Spannweite, Quartilsabstand und Variationskoeffizient

Maß	Formel	Eigenschaft
Spannweite	R = x_(n) − x₍₁₎	Sehr ausreißerempfindlich; eher Orientierung bei Klassenbildung
Interquartilsabstand	IQR = x_0,75 − x_0,25	Robustes Streuungsmaß
Variationskoeffizient	V = s / x̄	Relative, einheitenfreie Streuung; sinnvoll bei positivem Mittelwert

Streuung bei y_i = a + bx_i s_y² = b²s_x², s_y = |b|s_x R_y = |b|R_x, IQR_y = |b|IQR_x

Der Variationskoeffizient bleibt nur bei reiner positiver Skalierung y = bx unverändert; eine additive Verschiebung verändert ihn.

6. Schiefe, Wölbung und hochwertige Grafiken

6.1 Momente, Schiefe und Wölbung

Momente nicht zentriert: m_k = (1 / n) ∑_i=1ⁿ x_i^k zentriert: μ_k = (1 / n) ∑_i=1ⁿ (x_i − x̄)^k

Die Varianz ist das zweite zentrierte Moment: μ₂ = σ².

Die Schiefe benennt die Richtung des langen Randes. Rechtsschief bedeutet: wenige große Werte ziehen den rechten Rand auseinander.

Fisher-Schiefe γ₁ = μ₃ / σ³

γ₁ = 0: symmetrisch; γ₁ > 0: rechtsschief; γ₁ < 0: linksschief. Stark ausreißerempfindlich.

Quartilskoeffizient der Schiefe Q = (x_0,75 − 2x_0,5 + x_0,25) / (x_0,75 − x_0,25)

Robuste Alternative auf Basis von Quartilen.

Lageregel nach Fechner: Näherungsweise gilt: x̄ = x̃ bei Symmetrie, x̄ > x̃ bei Rechtsschiefe und x̄ < x̃ bei Linksschiefe.

Wölbung und Exzess Wölbung: β₂ = μ₄ / σ⁴ Exzess nach Fisher: γ₂ = β₂ − 3

γ₂ = 0: normalgewölbt; γ₂ > 0: leptokurtisch beziehungsweise spitz; γ₂ < 0: platykurtisch beziehungsweise flach. In Aufgaben prüfen, ob bereits 3 abgezogen wurde.

6.2 Boxplot

Der Boxplot verdichtet die Fünf-Punkte-Zusammenfassung: Minimum, unteres Quartil, Median, oberes Quartil und Maximum. Punktierte Boxplots stellen auffällige Beobachtungen separat dar.

Medianlage und Boxhälften geben einen robusten Hinweis auf Symmetrie oder Schiefe. Außenpunkte sind Hinweise, nicht automatisch Fehler.

Punktierter Boxplot: Häufig werden Außenpunkte außerhalb von 1,5 · IQR und besonders extreme Fernpunkte außerhalb von 3 · IQR separat markiert. Bei normalverteilten Daten sind einzelne Außenpunkte nicht ungewöhnlich.

6.3 QQ-Plot und Kerndichteschätzung

Der QQ-Plot stellt theoretische Normalverteilungsquantile den empirischen Quantilen gegenüber. Liegen die Punkte ungefähr auf einer Geraden, ist eine Normalverteilung plausibel. Bogenformen weisen auf Schiefe, S-Formen auf abweichende Wölbung hin. Bei vertauschten Achsen kehren sich die visuellen Muster um.

Kerndichteschätzer f̂_h(x) = (1 / (nh)) ∑_i=1ⁿ K((x − x_i) / h)

K: Kernfunktion; h: Bandbreite; n: Anzahl Beobachtungen. Kleine Bandbreiten zeigen mehr Details, große Bandbreiten glätten stärker.

Prüfungsfalle: Histogramme hängen von Ursprung und Klassenbreite ab. Eine Kerndichteschätzung reduziert diese Sprungartefakte, bleibt aber von der Wahl der Bandbreite abhängig.

7. Bivariate Daten und Zusammenhangsmaße

Bivariate Daten enthalten je Einheit ein Wertepaar (x_i, y_i). Vor jeder Kennzahl lohnt sich ein Scatterplot: Er zeigt Ausreißer, Richtung und nichtlineare Muster, die eine einzelne Kennzahl verdecken kann.

7.1 Kovarianz und Pearson-Korrelation

Kovarianz s_xy = (1 / (n − 1)) ∑_i=1ⁿ (x_i − x̄)(y_i − ȳ)

Positiv: gemeinsame Abweichungen in dieselbe Richtung dominieren. Negativ: Abweichungen in entgegengesetzte Richtungen dominieren.

Bravais-Pearson-Korrelation r_xy = s_xy / (s_xs_y)

−1 ≤ r_xy ≤ 1. Pearson misst die Stärke eines linearen Zusammenhangs.

Korrelation von null bedeutet nicht automatisch Unabhängigkeit. Erst den Scatterplot lesen, dann die Kennzahl interpretieren.

Rechenökonomische Pearson-Formel r_xy = (n∑x_iy_i − ∑x_i∑y_i) / √((n∑x_i² − (∑x_i)²)(n∑y_i² − (∑y_i)²))

Diese Form spart in Klausuren Zeit, wenn Summen direkt aus einer Tabelle gebildet werden.

7.2 Spearman-Rangkorrelation

Für ordinal skalierte Merkmale werden Ränge statt Rohwerte korreliert. Spearman misst einen monotonen Zusammenhang. Ein nichtmonotones Muster kann auch hier einen Koeffizienten nahe null ergeben.

Spearman ohne Rangbindungen R_xy = 1 − (6∑_i=1ⁿ d_i²) / (n(n² − 1))

d_i = R(x_i) − R(y_i): Differenz der beiden Ränge. Bei Rangbindungen mittlere Ränge vergeben und Pearson auf den Rängen rechnen.

7.3 Assoziation und Kontingenz

Wenn mindestens ein Merkmal nominal skaliert ist, wird Kontingenz untersucht. Bei zwei binären Merkmalen entsteht eine Vierfeldertafel.

Yule-Koeffizient für die Vierfeldertafel Q = (n₁₁n₂₂ − n₁₂n₂₁) / (n₁₁n₂₂ + n₁₂n₂₁)

Nur für eine Vierfeldertafel geeignet.

Erwartete Häufigkeit bei Unabhängigkeit e_ij = (n_i·n_·j) / n

Randhäufigkeiten bleiben erhalten; die erwarteten Zellen bilden die Referenz für Unabhängigkeit.

Kontingenzkoeffizient χ² = ∑_i∑_j (n_ij − e_ij)² / e_ij C = √(χ² / (χ² + n)) C_korr = C / C_max, mit C_max = √((m − 1) / m) und m = min(Zeilen, Spalten)

Prüfungsfalle Kontingenz: Einen korrigierten Kontingenzkoeffizienten von beispielsweise 0,2 nicht mechanisch wie eine Pearson-Korrelation bewerten. Für belastbare Aussagen folgt in Statistik 2 ein Kontingenztest; die Art des Zusammenhangs wird über bedingte Verteilungen gelesen.

8. Einfache lineare Regression und Scheinkorrelation

8.1 Regression ist gerichtet

Korrelation beschreibt eine wechselseitige Beziehung x ↔ y. Regression modelliert eine gerichtete Erklärung x → y: Wie verändert sich die abhängige Variable y, wenn sich die erklärende Variable x ändert?

Regressionsgerade ŷ_i = â + b̂x_i b̂ = s_xy / s_x² = r_xy(s_y / s_x) â = ȳ − b̂x̄

ŷ_i: geschätzter Wert; â: Achsenabschnitt; b̂: Steigung; û_i = y_i − ŷ_i: Residuum.

Residuen sind vertikale Abstände zwischen beobachtetem und geschätztem Wert. Die Kleinste-Quadrate-Methode minimiert ihre Quadratsumme.

Bestimmtheitsmaß und Standardfehler R² = erklärte Streuung / Gesamtstreuung = 1 − nicht erklärte Streuung / Gesamtstreuung bei einfacher linearer Regression: R² = r_xy² s_u = √(∑_i=1ⁿ û_i² / (n − 2))

R²: erklärter Streuungsanteil; s_u: Standardfehler der Regression. Die zwei verlorenen Freiheitsgrade stammen aus der Schätzung von Achsenabschnitt und Steigung.

8.2 Scheinkorrelation und partielle Korrelation

Eine hohe Korrelation beweist keine Kausalität. Zwei Merkmale können stark korrelieren, weil beide durch eine Drittvariable z beeinflusst werden. Besonders häufig ist z die Zeit.

Partielle Korrelation r_xy|z = (r_xy − r_xzr_yz) / √((1 − r_xz²)(1 − r_yz²))

r_xy|z misst den linearen Zusammenhang von x und y, nachdem der lineare Effekt von z herausgerechnet wurde.

Prüfungsfalle: Trends in zwei Zeitreihen erzeugen oft hohe Scheinkorrelationen. Vor einer Interpretation immer nach einer plausiblen Drittvariable fragen.

9. Zeitreihenanalyse

Eine Zeitreihe besteht aus Beobachtungen y₁, …, y_T. Ziele sind Prognose, Glättung und gegebenenfalls Saisonbereinigung.

Additives Komponentenmodell y_t = g_t + s_t + u_t

g_t: glatte beziehungsweise Trendkomponente; s_t: saisonale Komponente; u_t: unregelmäßige Restkomponente.

9.1 Gleitende Durchschnitte

Ungerade Länge 2k + 1 y_t^* = (1 / (2k + 1)) ∑_j=−k^k y_t+j

Beispiel Dreierdurchschnitt: y_t^* = (y_t−1 + y_t + y_t+1) / 3.

Gerade Länge 2k: zentrieren y_t^* = (1 / (2k))(½y_t−k + y_t−k+1 + … + y_t+k−1 + ½y_t+k)

Beispiel Zweierdurchschnitt nach Zentrierung: ¼y_t−1 + ½y_t + ¼y_t+1.

Saisonbezug: Die Länge des gleitenden Durchschnitts an die Periodenlänge anpassen, etwa 12 bei Monatsdaten oder 4 bei Quartalsdaten. Ohne Saison ist eine ungerade Länge oft praktisch.

9.2 Trendregression

Eine alternative Glättung modelliert die Zeit selbst als erklärende Variable: x_t = t. Gleitende Durchschnitte passen sich flexibel an, sind aber am Rand schwer fortzuschreiben. Eine lineare Trendregression ist leicht fortschreibbar, bildet aber nur eine starre Gerade ab. In der Praxis werden Verfahren kombiniert; weiterführende Ansätze sind exponentielle Glättung, Holt-Winters und ARIMA.

10. Verhältniszahlen und Indexzahlen

Verhältniszahlen setzen eine Zählergröße in Bezug zu einer Nennergröße. Die Interpretation hängt entscheidend davon ab, welche Größen in Zähler und Nenner stehen.

Grundform V = Z / N

Z: Zählergröße; N: Nennergröße.

Typ	Charakteristik	Beispiele
Indexzahl	Vergleich einer Größe über Zeit oder Raum	Preisindex, Messziffer
Gliederungszahl	Zähler ist Teilmenge des Nenners: Z ⊂ N	Frauenanteil, Ausschussquote
Beziehungszahl	Zähler und Nenner sind verschieden, stehen aber in sinnvollem Bezug.	Geburten je relevante Bevölkerung, Krankenhausbetten je 1.000 Einwohner

10.1 Preisindizes

Laspeyres-Preisindex P_L = (∑_i p_i,tq_i,0) / (∑_i p_i,0q_i,0)

Verwendet den Warenkorb der Basisperiode. Praktisch, aber der Warenkorb veraltet.

Paasche-Preisindex P_P = (∑_i p_i,tq_i,t) / (∑_i p_i,0q_i,t)

Verwendet den Warenkorb der Berichtsperiode. Er ist aktueller, aber aufwändiger und kennt keine alten Preise neuer Produkte.

Wertgewichtsmethode: Laspeyres lässt sich als gewogenes arithmetisches Mittel einzelner Preismessziffern mit Basisperioden-Umsatzanteilen lesen. Paasche lässt sich als gewogenes harmonisches Mittel mit Berichtsperioden-Umsatzanteilen lesen.

Prüfungsfalle: Verhältniszahlen sind nicht automatisch vergleichbar. Prüfen, ob Bezugsgrößen, Warenkörbe, Zeiträume und Definitionen übereinstimmen.

11. Wahrscheinlichkeit

Das Skript unterscheidet subjektive, frequentistische und theoretische Wahrscheinlichkeit. Im Mittelpunkt steht die theoretische Modellierung von Zufallsexperimenten.

11.1 Kombinatorik

Vor jeder Zählaufgabe drei Fragen stellen: Ist die Reihenfolge wichtig? Wird ohne oder mit Wiederholung gezogen? Werden alle n Elemente oder nur k Elemente gewählt?

Fall	Reihenfolge?	Wiederholung?	Anzahl Möglichkeiten
Permutation	ja, alle n	nein	n!
Permutation mit gleichen Elementen	ja, alle n	Elementgruppen gleichartig	n! / (n₁! · … · n_m!)
Variation ohne Wiederholung	ja	nein	n! / (n − k)!
Variation mit Wiederholung	ja	ja	n^k
Kombination ohne Wiederholung	nein	nein	C(n,k) = n! / (k!(n − k)!)
Kombination mit Wiederholung	nein	ja	C(n + k − 1,k)

Prüfungsfalle: Nicht vorschnell eine Binomialkoeffizienten-Formel wählen. Bei PINs oder Ranglisten ist die Reihenfolge relevant; bei Teams oder Auswahlen meistens nicht.

11.2 Zufallsexperimente, Ereignisse und Axiome

Symbol	Bedeutung
ω	Elementarereignis, also einzelner möglicher Ausgang
Ω	Ergebnisraum, Menge aller Elementarereignisse
A, B	Ereignisse, also Teilmengen von Ω
A ∩ B	Beide Ereignisse treten ein.
A ∪ B	Mindestens eines der Ereignisse tritt ein.
A^c	Gegenereignis zu A

Kolmogorov-Axiome und Folgerungen P(A) ≥ 0, P(Ω) = 1 für disjunkte Ereignisse: P(A ∪ B) = P(A) + P(B) P(A^c) = 1 − P(A) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Laplace-Wahrscheinlichkeit P(A) = |A| / |Ω|

Nur wenn alle Elementarereignisse gleich wahrscheinlich sind. Zuerst korrekt zählen, dann günstige durch mögliche Fälle teilen.

11.3 Bedingte Wahrscheinlichkeit, Unabhängigkeit und Bayes

Bedingte Wahrscheinlichkeit und Multiplikationssatz P(A | B) = P(A ∩ B) / P(B), sofern P(B) > 0 P(A ∩ B) = P(A | B)P(B) = P(B | A)P(A)

Prüfungsfalle: P(A | B) und P(B | A) sind im Allgemeinen verschieden. Die Bedingung verändert den betrachteten Ergebnisraum.

Unabhängigkeit P(A ∩ B) = P(A)P(B)

Äquivalent zu P(A | B) = P(A), sofern P(B) > 0.

Totale Wahrscheinlichkeit P(A) = ∑_i=1^k P(A | B_i)P(B_i)

B₁, …, B_k bilden eine Zerlegung des Ergebnisraums.

Bayes-Formel P(B_j | A) = (P(A | B_j)P(B_j)) / (∑_i=1^k P(A | B_i)P(B_i))

Bayes dreht die Bedingungsrichtung um: aus bekannten Trefferwahrscheinlichkeiten werden Rückschlusswahrscheinlichkeiten.

Bei medizinischen Tests ist meist P(K | T) gesucht: die Wahrscheinlichkeit, tatsächlich krank zu sein, wenn der Test positiv ist. Diese hängt stark von der Prävalenz ab.

Begriff	Formel	Lesart
Prävalenz	P(K)	Anteil tatsächlich Kranker
Sensitivität	P(T \| K)	Test wird bei Kranken positiv.
Spezifität	P(T^c \| K^c)	Test wird bei Gesunden negativ.
Positiver Vorhersagewert	P(K \| T)	Gesuchte Rückschlusswahrscheinlichkeit nach positivem Test

12. Klausurstrategie

12.1 Entscheidungshilfe

Fragestellung	Naheliegendes Verfahren	Vorher prüfen
Zentrum einer Verteilung	Mittelwert, Median oder Modus	Skalenniveau, Ausreißer, Mehrgipfligkeit
Streuung	Standardabweichung oder IQR	Robustheit erforderlich? Einheitenvergleich?
Form der Verteilung	Histogramm, Boxplot, QQ-Plot, Schiefe, Exzess	Datensatz groß genug? Ausreißer?
Linearer Zusammenhang metrischer Daten	Pearson-Korrelation	Scatterplot, Nichtlinearität, Drittvariable
Monotoner Zusammenhang ordinaler Daten	Spearman-Rangkorrelation	Rangbindungen
Nominaler Zusammenhang	Yule bei Vierfeldertafel, sonst Kontingenzkoeffizient	Tabellengröße, erwartete Häufigkeiten, bedingte Verteilungen
Gerichtete lineare Erklärung	Einfache Regression	Richtung, Residuen, Scheinkorrelation
Fälle zählen	Kombinatorik	Reihenfolge? Wiederholung? Auswahlgröße?
Rückschluss nach Beobachtung	Bedingte Wahrscheinlichkeit und Bayes	Bedingungsrichtung, Basisrate

12.2 Typische Fehler

Histogrammhöhe mit Häufigkeit verwechseln, obwohl Klassenbreiten unterschiedlich sind.
Bei einer Stichprobe die Varianz durch n statt durch n − 1 teilen.
Wachstumsraten arithmetisch mitteln statt Wachstumsfaktoren geometrisch zu mitteln.
Pearson-Korrelation als Beweis für Kausalität oder Unabhängigkeit lesen.
Bei Spearman Rangbindungen ignorieren.
Laspeyres und Paasche ohne Angabe der verwendeten Warenkorbperiode vertauschen.
P(A | B) und P(B | A) gleichsetzen.
Bei Laplace-Aufgaben günstige und mögliche Fälle mit unterschiedlichen Zählregeln bestimmen.

12.3 Lerncheckliste

Ich kann Grundgesamtheit, Stichprobe, Merkmal und Ausprägung an einem Fallbeispiel bestimmen.
Ich leite aus dem Skalenniveau zulässige Lage- und Zusammenhangsmaße ab.
Ich rechne Mittelwert, Median, Quantile, Varianz, Standardabweichung und IQR für Urliste und Häufigkeitstabelle.
Ich erkenne, wann arithmetisches, geometrisches oder harmonisches Mittel erforderlich ist.
Ich interpretiere Histogramm, Boxplot, QQ-Plot und Scatterplot.
Ich berechne Pearson, Spearman, Yule und den korrigierten Kontingenzkoeffizienten.
Ich stelle eine Regressionsgerade auf und interpretiere R².
Ich erkläre Scheinkorrelation und berechne eine partielle Korrelation.
Ich bilde zentrierte gleitende Durchschnitte und unterscheide Laspeyres von Paasche.
Ich wähle in Kombinatorikaufgaben den richtigen Fall und rechne Bayes-Aufgaben mit sauberer Bedingungsrichtung.

12.4 Mögliche Klausurfragen

Welche Kennzahlen sind für nominale, ordinale und kardinale Merkmale zulässig? Begründen Sie.
Warum ist bei einem Histogramm mit ungleichen Klassenbreiten die Fläche entscheidend?
Berechnen und vergleichen Sie Mittelwert, Median, Standardabweichung und IQR für einen Datensatz mit Ausreißer.
Welche Durchschnittsgeschwindigkeit ergibt sich bei wechselnden Geschwindigkeiten: einmal bei bekannten Zeiten, einmal bei bekannten Strecken?
Interpretieren Sie einen Boxplot und einen QQ-Plot hinsichtlich Lage, Streuung, Ausreißern, Schiefe und Wölbung.
Warum kann eine Pearson-Korrelation von null trotz eindeutigem Zusammenhang auftreten?
Berechnen Sie die Regressionsgerade und das Bestimmtheitsmaß. Welche Aussage erlaubt R²?
Wie entsteht eine Scheinkorrelation? Wie hilft die partielle Korrelation?
Vergleichen Sie Laspeyres- und Paasche-Preisindex fachlich und rechnerisch.
Bestimmen Sie bei einer Kombinatorikaufgabe zuerst den Fall und lösen Sie anschließend eine Bayes-Aufgabe aus der medizinischen Diagnostik.

13. Abdeckung des Skripts

Die folgende Tabelle dokumentiert die vollständige Auswertung der 235 PDF-Seiten. Seiten mit reinen Beispieldaten oder Grafiken sind in die erklärenden Abschnitte integriert.

PDF-Seite / Kapitel	Inhalt	Enthalten?	Wo behandelt?
1–3	Titel, Literatur, Inhaltsübersicht	Ja	Quellenhinweis und Überblick
4–10 / Kapitel 1.1	Einführung, Grundbegriffe, quantitativ/qualitativ, stetig/diskret, Skalenniveaus	Ja	Abschnitt 2.1–2.2
11–17 / Kapitel 1.2.1–1.2.3	Erhebungsumfang, Datenherkunft, amtliche Statistik, Quer-, Längsschnitt- und Paneldaten	Ja	Abschnitt 2.3
18–29 / Kapitel 1.2.4	Urliste, Sortierung, Häufigkeitstabellen, Klassierung, kumulierte Häufigkeiten, Beispiele	Ja	Abschnitt 3.1
30–36 / Kapitel 2	Kreis-, Block-, Stab-, Linien- und Histogrammdarstellung	Ja	Abschnitt 3.2
37–52 / Kapitel 3.1–3.4	Mittelwert, Median, Quantile, Modus und Rechenbeispiele	Ja	Abschnitt 4.1–4.2
53–69 / Kapitel 3.5–3.8	Gewogenes arithmetisches, geometrisches und harmonisches Mittel; Anwendungswahl	Ja	Abschnitt 4.3
70–72 / Kapitel 3.9	Lineare Transformation von Lagemaßen	Ja	Abschnitt 4.4
73–84 / Kapitel 4.1	Varianz, Stichprobenvarianz, Verschiebungssatz, Standardabweichung, Beispiele	Ja	Abschnitt 5.1
85–90 / Kapitel 4.2–4.4	Spannweite, IQR, Transformationen, Variationskoeffizient	Ja	Abschnitt 5.2
91–106 / Kapitel 5	Momente, Schiefe, Fechner-Regel, Quartilskoeffizient, Wölbung und Exzess	Ja	Abschnitt 6.1
107–113 / Kapitel 6	Fünf-Punkte-Zusammenfassung und Boxplots	Ja	Abschnitt 6.2
114–124 / Kapitel 6	QQ-Plots, Kerndichteschätzung und Kernfunktionen	Ja	Abschnitt 6.3
125–132 / Kapitel 7	Bivariate Datenformate und Scatterplots	Ja	Einleitung Abschnitt 7
133–145 / Kapitel 8.1	Kovarianz und Bravais-Pearson-Korrelation einschließlich Interpretationsfallen	Ja	Abschnitt 7.1
146–154 / Kapitel 8.2	Spearman-Rangkorrelation, Rangbindungen und Beispiele	Ja	Abschnitt 7.2
155–163 / Kapitel 8.3	Yule-Assoziation, Kontingenzkoeffizient, bedingte Verteilungen	Ja	Abschnitt 7.3
164–174 / Kapitel 9	Einfache lineare Regression, Gütemaße und Standardfehler	Ja	Abschnitt 8.1
175–179 / Scheinkorrelation	Drittvariablen und partielle Korrelation	Ja	Abschnitt 8.2
180–187 / Kapitel 10	Zeitreihen, additive Zerlegung, gleitende Durchschnitte, Trendregression	Ja	Abschnitt 9
188–203 / Kapitel 11	Verhältniszahlen, Laspeyres, Paasche, Gliederungs- und Beziehungszahlen	Ja	Abschnitt 10
204–215 / Kapitel 13.1	Wahrscheinlichkeitsbegriffe und Kombinatorik	Ja	Abschnitt 11.1
216–228 / Kapitel 13.2	Zufallsexperimente, Ereignisse, Mengen, Laplace und klassische Wahrscheinlichkeit	Ja	Abschnitt 11.2
229–235 / Kapitel 13.3	Bedingte Wahrscheinlichkeit, Bayes, medizinische Tests	Ja	Abschnitt 11.3