Klausurzusammenfassung: Statistik 1

Deskriptive Statistik, bivariate Analyse, Regression, Zeitreihen, Verhältniszahlen und Wahrscheinlichkeit

Quelle: Statistik Jeske Gesamtskriptum, 235 PDF-Seiten. Fokus: Begriffe sicher unterscheiden, passende Formeln auswählen, Rechenwege nachvollziehbar darstellen und Ergebnisse korrekt interpretieren.

1. Überblick und Klausurlogik

Statistik reduziert Daten auf verständliche Aussagen, ohne relevante Informationen wegzuwerfen oder mehr zu behaupten, als die Daten hergeben. In der Klausur ist deshalb nicht nur das Einsetzen in Formeln wichtig. Zuerst muss geklärt werden, welcher Datentyp vorliegt, welches Skalenniveau die Variable besitzt und welche Aussage ein Maß überhaupt zulässt.

Universeller Lösungsweg: Datenart und Skalenniveau → Datenformat → zulässiges Maß oder Verfahren → saubere Rechnung → Interpretation in Worten Bei bivariaten Daten kommt zusätzlich die Frage hinzu, ob ein linearer, monotoner oder nominaler Zusammenhang untersucht wird.
Hinweis zur Skriptgliederung: Das Inhaltsblatt nennt Wahrscheinlichkeit als Kapitel 12. Die eigentlichen Folien führen diesen Teil als Kapitel 13. Diese Zusammenfassung behandelt den vollständigen Inhalt unabhängig von dieser Nummerierungsabweichung.

Gliederung

  1. Grundbegriffe, Skalen und Daten
  2. Datenformate und einfache Grafiken
  3. Lagemaße
  4. Streuungsmaße
  5. Schiefe, Wölbung und hochwertige Grafiken
  6. Bivariate Daten und Zusammenhangsmaße
  7. Regression und Scheinkorrelation
  8. Zeitreihenanalyse
  9. Verhältniszahlen und Indizes
  10. Wahrscheinlichkeit
  11. Klausurstrategie, Checkliste und Fragen
  12. Abdeckung des Skripts

2. Grundbegriffe, Skalen und Datenarten

2.1 Statistische Grundbegriffe

Begriff Bedeutung Beispiel
Statistische Einheit Person oder Objekt, an dem Merkmale erhoben werden Patient, Haushalt, Unternehmen
Grundgesamtheit Menge aller relevanten statistischen Einheiten Alle Studierenden eines Jahrgangs
Teilgesamtheit Inhaltlich abgegrenzte Teilmenge der Grundgesamtheit Studierende eines Studiengangs
Stichprobe Tatsächlich erhobene Teilmenge der Grundgesamtheit 200 befragte Studierende
Merkmal Erhobene Variable Alter, Note, Nationalität
Merkmalsausprägung Konkreter Wert eines Merkmals 22 Jahre, Note 2,3
Prüfungsfalle: Eine Stichprobe ist nicht automatisch repräsentativ. Ein Rückschluss auf die Grundgesamtheit ist nur zulässig, wenn Auswahlverfahren und Erhebung dies tragen.

2.2 Merkmalsarten und Skalenniveaus

Die Skala entscheidet, welche Rechenoperationen sinnvoll sind. Mit zunehmendem Skalenniveau werden mehr Verfahren zulässig.

Skalenniveaus als aufsteigende Leiter Nominalskala erlaubt nur Gleichheit, Ordinalskala zusätzlich Reihenfolgen und Kardinalskala zusätzlich interpretierbare Abstände. Nominalskala nur Verschiedenartigkeit Ordinalskala zusätzlich sinnvolle Reihenfolge Kardinalskala zusätzlich interpretierbare Abstände
Das Skalenniveau ist eine Mindestanforderung: Ein höherwertig skaliertes Merkmal darf auch mit einfacheren Methoden beschrieben werden, verliert dabei aber Information.
Unterscheidung Definition Typische Beispiele
Quantitativ Ausprägungen unterscheiden sich durch ihre Größe; es wird gezählt oder gemessen. Alter, Umsatz, Körpergröße
Qualitativ Ausprägungen unterscheiden sich durch ihre Art. Nationalität, Geschlecht, Produkttyp
Stetig Beliebige Zwischenwerte sind möglich. Exakt gemessene Körpergröße
Diskret Endlich oder abzählbar viele Ausprägungen; auf der Achse gibt es Lücken. Anzahl Kinder, Alter in vollen Jahren
Quasi-stetig Eigentlich diskret, praktisch wie stetig behandelt. Geldbeträge

2.3 Erhebung, Herkunft und zeitlicher Bezug

Dimension Variante Kernaussage
Umfang Totalerhebung Alle Einheiten der Grundgesamtheit werden erhoben.
Stichprobe Nur ein Teil wird erhoben; Repräsentativität muss begründet werden.
Herkunft Primärdaten Für den eigenen Zweck selbst erhobene Daten.
Sekundärdaten Bereits vorhandene Daten fremder Quellen, etwa amtliche Statistik.
Zeitbezug Querschnitt Viele Objekte zu einem Zeitpunkt: x1, …, xn.
Zeitreihe Ein Objekt über mehrere Zeitpunkte: y1, …, yT.
Panel Mehrere Objekte über mehrere Zeitpunkte; Nachteil: Panelsterblichkeit.

3. Datenformate und einfache Grafiken

3.1 Von der Urliste zur Häufigkeitstabelle

Originaldaten können sortiert, gruppiert oder klassiert werden. Jede Verdichtung erleichtert die Übersicht, kann aber Information verlieren.

Datenformat Beschreibung Wichtige Größe
Urliste Alle Einzelbeobachtungen x1, …, xn Keine Verdichtung
Geordnete Stichprobe Sortierte Urliste x(1) ≤ … ≤ x(n) Grundlage für Median und Quantile
Gruppierte Daten Jede Ausprägung xj mit absoluter Häufigkeit nj rj = nj / n
Klassierte Daten Beobachtungen werden Intervallen zusammengefasst. Klassenbreite Δj, Klassenmitte mj
Kumulierte Häufigkeiten ab Ordinalskala kumuliert absolut: Ni = ∑j=1i nj kumuliert relativ: Ri = ∑j=1i rj = Ni / n

n: Stichprobenumfang; nj: absolute Häufigkeit; rj: relative Häufigkeit.

Klassenbildung: Als grobe Orientierung nennt das Skript 2√n Klassen nach Velleman oder 10 log10(n) nach Dixon/Kronmal. Gleiche Klassenbreiten und keine offenen Endklassen sind sinnvoll; fachliches Augenmaß bleibt nötig.

3.2 Diagramme passend auswählen

Diagramm Geeignet für Prüfungsrelevante Aussage
Kreisdiagramm Anteile eines Ganzen Sektorwinkel αj = 360° · rj
Blockdiagramm Ausprägungen oder Kategorien Blockhöhe ist proportional zur Häufigkeit.
Stabdiagramm Diskrete Ausprägungen Stabhöhe ist proportional zur Häufigkeit.
Polygonzug Verlauf über geordnete Ausprägungen oder Zeit Benachbarte Punkte werden verbunden.
Histogramm Klassierte metrische Daten Fläche, nicht Höhe, ist proportional zur Häufigkeit.
Blockdiagramm und Histogramm im Vergleich Im Blockdiagramm steht die Höhe für die Häufigkeit. Im Histogramm steht die Fläche für die Häufigkeit, deshalb hängt die Höhe von der Klassenbreite ab. Blockdiagramm Höhe ∼ Häufigkeit Histogramm Fläche ∼ Häufigkeit
Bei ungleichen Klassenbreiten darf die Histogrammhöhe nicht direkt als Häufigkeit gelesen werden.
Häufigkeitsdichte im Histogramm fj = rj / Δj

fj: Höhe des Histogrammblocks; rj: relative Häufigkeit; Δj: Klassenbreite.

4. Lagemaße

Lagemaße beschreiben das Zentrum einer Verteilung. Ein einzelnes Lagemaß ist vor allem bei eingipfligen Verteilungen sinnvoll. Bei mehreren Gipfeln ist eine Grafik aussagekräftiger.

4.1 Arithmetisches Mittel, Median und Modus

Arithmetisches Mittel x̄ = (1 / n) ∑i=1n xi gruppiert: x̄ = ∑j=1k rjxj klassiert: x̄ ≈ ∑j=1k rjmj

Ausreißerempfindlich; mindestens kardinales Skalenniveau. Bei klassierten Daten wird mit Klassenmitten genähert.

Median der geordneten Urliste ungerades n: x̃ = x((n+1)/2) gerades n: x̃ = (x(n/2) + x(n/2+1)) / 2

Ausreißerunempfindlich; bereits ab Ordinalskala. Bei gruppierten Daten wird die erste Ausprägung mit kumulierter relativer Häufigkeit von mindestens 0,5 gesucht.

Modus: Häufigste Merkmalsausprägung, falls sie eindeutig ist. Er funktioniert bereits für Nominaldaten, ist bei höherwertigen Skalen allein aber meist zu informationsarm.

4.2 Quantile

Das p-Quantil xp ist ein Wert, den mindestens der Anteil p der Daten nicht überschreitet und mindestens der Anteil 1 − p nicht unterschreitet. Wichtige Spezialfälle sind x0,25, x0,5 und x0,75.

Prüfungsfalle: Bei Quantilen existieren mehrere Konventionen für Zwischenpositionen. In einer Rechnung die in der Vorlesung verwendete Regel konsequent anwenden und den Rechenweg zeigen.

4.3 Welches Mittel für Quotienten und Wachstumsraten?

Mittelwert Formel Typische Anwendung
Gewogenes arithmetisches Mittel g = ∑i=1k hixi, mit ∑ hi = 1 Ungleiche Gewichte; Quotienten, wenn Nenneranteile bekannt sind
Geometrisches Mittel geo = (∏i=1n xi)1/n Mittlere Wachstumsfaktoren
Harmonisches Mittel harm = ((1 / n) ∑i=1n 1 / xi)−1 Quotienten, wenn Zähleranteile bekannt sind
Typische Aufgabe: Durchschnittsgeschwindigkeit. Bei 2,5 Stunden mit 42 km/h und 3 Stunden mit 31 km/h sind Zeitanteile bekannt: gewogenes arithmetisches Mittel, Ergebnis 36 km/h. Bei 90 km mit 36 km/h und 40 km mit 32 km/h sind Streckenanteile bekannt: gewogenes harmonisches Mittel, Ergebnis rund 34,67 km/h.
Prüfungsfalle Wachstum: Wachstumsraten nicht arithmetisch mitteln. Erst in Faktoren umwandeln. Bei +30 % und −20 % gilt √(1,3 · 0,8) − 1 ≈ 1,98 %, nicht 5 %.

4.4 Lineare Transformationen

Transformation yi = a + bxi ȳ = a + bx̄, ỹ = a + bx̃, yM = a + bxM für b > 0: yp = a + bxp

Bei b < 0 kehrt sich die Reihenfolge um; für Quantile ist dann yp = a + bx1−p zu beachten.

5. Streuungsmaße

Streuung beschreibt, wie weit Beobachtungen um ihre Lage verteilt sind. Quadratische Abweichungen sind besonders wichtig, weil sie differenzierbar sind und sich algebraisch gut verarbeiten lassen.

5.1 Varianz und Standardabweichung

Varianz einer Grundgesamtheit σ2 = (1 / n) ∑i=1n (xi − x̄)2

σ2 besitzt die quadrierte Einheit der Ausgangsdaten.

Stichprobenvarianz s2 = (1 / (n − 1)) ∑i=1n (xi − x̄)2

Bei einer Stichprobe steht n − 1 im Nenner. Diese Unterscheidung ist bei kleinen Stichproben besonders wichtig.

Verschiebungssatz und Umrechnung σ2 = (1 / n) ∑i=1n xi2 − x̄2 s2 = (n / (n − 1)) σ2

Der Verschiebungssatz spart bei manuellen Rechnungen Zeit. Für gruppierte Daten wird jeweils mit Häufigkeiten gewichtet.

Standardabweichung: σ = √(σ2) beziehungsweise s = √(s2). Sie ist leichter interpretierbar als die Varianz, weil sie dieselbe Einheit wie die Ausgangsdaten besitzt.

5.2 Spannweite, Quartilsabstand und Variationskoeffizient

Maß Formel Eigenschaft
Spannweite R = x(n) − x(1) Sehr ausreißerempfindlich; eher Orientierung bei Klassenbildung
Interquartilsabstand IQR = x0,75 − x0,25 Robustes Streuungsmaß
Variationskoeffizient V = s / x̄ Relative, einheitenfreie Streuung; sinnvoll bei positivem Mittelwert
Streuung bei yi = a + bxi sy2 = b2sx2, sy = |b|sx Ry = |b|Rx, IQRy = |b|IQRx

Der Variationskoeffizient bleibt nur bei reiner positiver Skalierung y = bx unverändert; eine additive Verschiebung verändert ihn.

6. Schiefe, Wölbung und hochwertige Grafiken

6.1 Momente, Schiefe und Wölbung

Momente nicht zentriert: mk = (1 / n) ∑i=1n xik zentriert: μk = (1 / n) ∑i=1n (xi − x̄)k

Die Varianz ist das zweite zentrierte Moment: μ2 = σ2.

Symmetrische, rechtsschiefe und linksschiefe Verteilung Drei stilisierte Verteilungen zeigen Symmetrie sowie einen langen rechten oder linken Rand. symmetrisch rechtsschief linksschief
Die Schiefe benennt die Richtung des langen Randes. Rechtsschief bedeutet: wenige große Werte ziehen den rechten Rand auseinander.
Fisher-Schiefe γ1 = μ3 / σ3

γ1 = 0: symmetrisch; γ1 > 0: rechtsschief; γ1 < 0: linksschief. Stark ausreißerempfindlich.

Quartilskoeffizient der Schiefe Q = (x0,75 − 2x0,5 + x0,25) / (x0,75 − x0,25)

Robuste Alternative auf Basis von Quartilen.

Lageregel nach Fechner: Näherungsweise gilt: x̄ = x̃ bei Symmetrie, x̄ > x̃ bei Rechtsschiefe und x̄ < x̃ bei Linksschiefe.
Wölbung und Exzess Wölbung: β2 = μ4 / σ4 Exzess nach Fisher: γ2 = β2 − 3

γ2 = 0: normalgewölbt; γ2 > 0: leptokurtisch beziehungsweise spitz; γ2 < 0: platykurtisch beziehungsweise flach. In Aufgaben prüfen, ob bereits 3 abgezogen wurde.

6.2 Boxplot

Der Boxplot verdichtet die Fünf-Punkte-Zusammenfassung: Minimum, unteres Quartil, Median, oberes Quartil und Maximum. Punktierte Boxplots stellen auffällige Beobachtungen separat dar.

Anatomie eines Boxplots Ein horizontaler Boxplot zeigt Minimum, unteres Quartil, Median, oberes Quartil, Maximum und einen Außenpunkt. Minimum x0,25 Median x0,75 Maximum Außenpunkt Boxbreite = IQR
Medianlage und Boxhälften geben einen robusten Hinweis auf Symmetrie oder Schiefe. Außenpunkte sind Hinweise, nicht automatisch Fehler.
Punktierter Boxplot: Häufig werden Außenpunkte außerhalb von 1,5 · IQR und besonders extreme Fernpunkte außerhalb von 3 · IQR separat markiert. Bei normalverteilten Daten sind einzelne Außenpunkte nicht ungewöhnlich.

6.3 QQ-Plot und Kerndichteschätzung

Der QQ-Plot stellt theoretische Normalverteilungsquantile den empirischen Quantilen gegenüber. Liegen die Punkte ungefähr auf einer Geraden, ist eine Normalverteilung plausibel. Bogenformen weisen auf Schiefe, S-Formen auf abweichende Wölbung hin. Bei vertauschten Achsen kehren sich die visuellen Muster um.

Kerndichteschätzer h(x) = (1 / (nh)) ∑i=1n K((x − xi) / h)

K: Kernfunktion; h: Bandbreite; n: Anzahl Beobachtungen. Kleine Bandbreiten zeigen mehr Details, große Bandbreiten glätten stärker.

Prüfungsfalle: Histogramme hängen von Ursprung und Klassenbreite ab. Eine Kerndichteschätzung reduziert diese Sprungartefakte, bleibt aber von der Wahl der Bandbreite abhängig.

7. Bivariate Daten und Zusammenhangsmaße

Bivariate Daten enthalten je Einheit ein Wertepaar (xi, yi). Vor jeder Kennzahl lohnt sich ein Scatterplot: Er zeigt Ausreißer, Richtung und nichtlineare Muster, die eine einzelne Kennzahl verdecken kann.

7.1 Kovarianz und Pearson-Korrelation

Kovarianz sxy = (1 / (n − 1)) ∑i=1n (xi − x̄)(yi − ȳ)

Positiv: gemeinsame Abweichungen in dieselbe Richtung dominieren. Negativ: Abweichungen in entgegengesetzte Richtungen dominieren.

Bravais-Pearson-Korrelation rxy = sxy / (sxsy)

−1 ≤ rxy ≤ 1. Pearson misst die Stärke eines linearen Zusammenhangs.

Lineare und nichtlineare Zusammenhänge Links steigen Punkte näherungsweise linear. Rechts folgen Punkte einer U-Form; trotz deutlichem Zusammenhang kann Pearson nahe Null sein. linear: Pearson geeignet nichtlinear: r kann nahe 0 sein
Korrelation von null bedeutet nicht automatisch Unabhängigkeit. Erst den Scatterplot lesen, dann die Kennzahl interpretieren.
Rechenökonomische Pearson-Formel rxy = (n∑xiyi − ∑xi∑yi) / √((n∑xi2 − (∑xi)2)(n∑yi2 − (∑yi)2))

Diese Form spart in Klausuren Zeit, wenn Summen direkt aus einer Tabelle gebildet werden.

7.2 Spearman-Rangkorrelation

Für ordinal skalierte Merkmale werden Ränge statt Rohwerte korreliert. Spearman misst einen monotonen Zusammenhang. Ein nichtmonotones Muster kann auch hier einen Koeffizienten nahe null ergeben.

Spearman ohne Rangbindungen Rxy = 1 − (6∑i=1n di2) / (n(n2 − 1))

di = R(xi) − R(yi): Differenz der beiden Ränge. Bei Rangbindungen mittlere Ränge vergeben und Pearson auf den Rängen rechnen.

7.3 Assoziation und Kontingenz

Wenn mindestens ein Merkmal nominal skaliert ist, wird Kontingenz untersucht. Bei zwei binären Merkmalen entsteht eine Vierfeldertafel.

Yule-Koeffizient für die Vierfeldertafel Q = (n11n22 − n12n21) / (n11n22 + n12n21)

Nur für eine Vierfeldertafel geeignet.

Erwartete Häufigkeit bei Unabhängigkeit eij = (nn·j) / n

Randhäufigkeiten bleiben erhalten; die erwarteten Zellen bilden die Referenz für Unabhängigkeit.

Kontingenzkoeffizient χ2 = ∑ij (nij − eij)2 / eij C = √(χ2 / (χ2 + n)) Ckorr = C / Cmax, mit Cmax = √((m − 1) / m) und m = min(Zeilen, Spalten)
Prüfungsfalle Kontingenz: Einen korrigierten Kontingenzkoeffizienten von beispielsweise 0,2 nicht mechanisch wie eine Pearson-Korrelation bewerten. Für belastbare Aussagen folgt in Statistik 2 ein Kontingenztest; die Art des Zusammenhangs wird über bedingte Verteilungen gelesen.

8. Einfache lineare Regression und Scheinkorrelation

8.1 Regression ist gerichtet

Korrelation beschreibt eine wechselseitige Beziehung x ↔ y. Regression modelliert eine gerichtete Erklärung x → y: Wie verändert sich die abhängige Variable y, wenn sich die erklärende Variable x ändert?

Regressionsgerade i = â + b̂xi b̂ = sxy / sx2 = rxy(sy / sx) â = ȳ − b̂x̄

i: geschätzter Wert; : Achsenabschnitt; : Steigung; i = yi − ŷi: Residuum.

Regressionsgerade mit Residuum Mehrere Punkte liegen um eine steigende Gerade. Bei einem Punkt ist der vertikale Abstand zur Geraden als Residuum markiert. Residuum ûi ŷ = â + b̂x
Residuen sind vertikale Abstände zwischen beobachtetem und geschätztem Wert. Die Kleinste-Quadrate-Methode minimiert ihre Quadratsumme.
Bestimmtheitsmaß und Standardfehler R2 = erklärte Streuung / Gesamtstreuung = 1 − nicht erklärte Streuung / Gesamtstreuung bei einfacher linearer Regression: R2 = rxy2 su = √(∑i=1ni2 / (n − 2))

R2: erklärter Streuungsanteil; su: Standardfehler der Regression. Die zwei verlorenen Freiheitsgrade stammen aus der Schätzung von Achsenabschnitt und Steigung.

8.2 Scheinkorrelation und partielle Korrelation

Eine hohe Korrelation beweist keine Kausalität. Zwei Merkmale können stark korrelieren, weil beide durch eine Drittvariable z beeinflusst werden. Besonders häufig ist z die Zeit.

Partielle Korrelation rxy|z = (rxy − rxzryz) / √((1 − rxz2)(1 − ryz2))

rxy|z misst den linearen Zusammenhang von x und y, nachdem der lineare Effekt von z herausgerechnet wurde.

Prüfungsfalle: Trends in zwei Zeitreihen erzeugen oft hohe Scheinkorrelationen. Vor einer Interpretation immer nach einer plausiblen Drittvariable fragen.

9. Zeitreihenanalyse

Eine Zeitreihe besteht aus Beobachtungen y1, …, yT. Ziele sind Prognose, Glättung und gegebenenfalls Saisonbereinigung.

Additives Komponentenmodell yt = gt + st + ut

gt: glatte beziehungsweise Trendkomponente; st: saisonale Komponente; ut: unregelmäßige Restkomponente.

9.1 Gleitende Durchschnitte

Ungerade Länge 2k + 1 yt* = (1 / (2k + 1)) ∑j=−kk yt+j

Beispiel Dreierdurchschnitt: yt* = (yt−1 + yt + yt+1) / 3.

Gerade Länge 2k: zentrieren yt* = (1 / (2k))(½yt−k + yt−k+1 + … + yt+k−1 + ½yt+k)

Beispiel Zweierdurchschnitt nach Zentrierung: ¼yt−1 + ½yt + ¼yt+1.

Saisonbezug: Die Länge des gleitenden Durchschnitts an die Periodenlänge anpassen, etwa 12 bei Monatsdaten oder 4 bei Quartalsdaten. Ohne Saison ist eine ungerade Länge oft praktisch.

9.2 Trendregression

Eine alternative Glättung modelliert die Zeit selbst als erklärende Variable: xt = t. Gleitende Durchschnitte passen sich flexibel an, sind aber am Rand schwer fortzuschreiben. Eine lineare Trendregression ist leicht fortschreibbar, bildet aber nur eine starre Gerade ab. In der Praxis werden Verfahren kombiniert; weiterführende Ansätze sind exponentielle Glättung, Holt-Winters und ARIMA.

10. Verhältniszahlen und Indexzahlen

Verhältniszahlen setzen eine Zählergröße in Bezug zu einer Nennergröße. Die Interpretation hängt entscheidend davon ab, welche Größen in Zähler und Nenner stehen.

Grundform V = Z / N

Z: Zählergröße; N: Nennergröße.

Typ Charakteristik Beispiele
Indexzahl Vergleich einer Größe über Zeit oder Raum Preisindex, Messziffer
Gliederungszahl Zähler ist Teilmenge des Nenners: Z ⊂ N Frauenanteil, Ausschussquote
Beziehungszahl Zähler und Nenner sind verschieden, stehen aber in sinnvollem Bezug. Geburten je relevante Bevölkerung, Krankenhausbetten je 1.000 Einwohner

10.1 Preisindizes

Laspeyres-Preisindex PL = (∑i pi,tqi,0) / (∑i pi,0qi,0)

Verwendet den Warenkorb der Basisperiode. Praktisch, aber der Warenkorb veraltet.

Paasche-Preisindex PP = (∑i pi,tqi,t) / (∑i pi,0qi,t)

Verwendet den Warenkorb der Berichtsperiode. Er ist aktueller, aber aufwändiger und kennt keine alten Preise neuer Produkte.

Wertgewichtsmethode: Laspeyres lässt sich als gewogenes arithmetisches Mittel einzelner Preismessziffern mit Basisperioden-Umsatzanteilen lesen. Paasche lässt sich als gewogenes harmonisches Mittel mit Berichtsperioden-Umsatzanteilen lesen.
Prüfungsfalle: Verhältniszahlen sind nicht automatisch vergleichbar. Prüfen, ob Bezugsgrößen, Warenkörbe, Zeiträume und Definitionen übereinstimmen.

11. Wahrscheinlichkeit

Das Skript unterscheidet subjektive, frequentistische und theoretische Wahrscheinlichkeit. Im Mittelpunkt steht die theoretische Modellierung von Zufallsexperimenten.

11.1 Kombinatorik

Vor jeder Zählaufgabe drei Fragen stellen: Ist die Reihenfolge wichtig? Wird ohne oder mit Wiederholung gezogen? Werden alle n Elemente oder nur k Elemente gewählt?

Fall Reihenfolge? Wiederholung? Anzahl Möglichkeiten
Permutation ja, alle n nein n!
Permutation mit gleichen Elementen ja, alle n Elementgruppen gleichartig n! / (n1! · … · nm!)
Variation ohne Wiederholung ja nein n! / (n − k)!
Variation mit Wiederholung ja ja nk
Kombination ohne Wiederholung nein nein C(n,k) = n! / (k!(n − k)!)
Kombination mit Wiederholung nein ja C(n + k − 1,k)
Prüfungsfalle: Nicht vorschnell eine Binomialkoeffizienten-Formel wählen. Bei PINs oder Ranglisten ist die Reihenfolge relevant; bei Teams oder Auswahlen meistens nicht.

11.2 Zufallsexperimente, Ereignisse und Axiome

Symbol Bedeutung
ω Elementarereignis, also einzelner möglicher Ausgang
Ω Ergebnisraum, Menge aller Elementarereignisse
A, B Ereignisse, also Teilmengen von Ω
A ∩ B Beide Ereignisse treten ein.
A ∪ B Mindestens eines der Ereignisse tritt ein.
Ac Gegenereignis zu A
Kolmogorov-Axiome und Folgerungen P(A) ≥ 0, P(Ω) = 1 für disjunkte Ereignisse: P(A ∪ B) = P(A) + P(B) P(Ac) = 1 − P(A) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Laplace-Wahrscheinlichkeit P(A) = |A| / |Ω|

Nur wenn alle Elementarereignisse gleich wahrscheinlich sind. Zuerst korrekt zählen, dann günstige durch mögliche Fälle teilen.

11.3 Bedingte Wahrscheinlichkeit, Unabhängigkeit und Bayes

Bedingte Wahrscheinlichkeit und Multiplikationssatz P(A | B) = P(A ∩ B) / P(B), sofern P(B) > 0 P(A ∩ B) = P(A | B)P(B) = P(B | A)P(A)
Prüfungsfalle: P(A | B) und P(B | A) sind im Allgemeinen verschieden. Die Bedingung verändert den betrachteten Ergebnisraum.
Unabhängigkeit P(A ∩ B) = P(A)P(B)

Äquivalent zu P(A | B) = P(A), sofern P(B) > 0.

Totale Wahrscheinlichkeit P(A) = ∑i=1k P(A | Bi)P(Bi)

B1, …, Bk bilden eine Zerlegung des Ergebnisraums.

Bayes-Formel P(Bj | A) = (P(A | Bj)P(Bj)) / (∑i=1k P(A | Bi)P(Bi))

Bayes dreht die Bedingungsrichtung um: aus bekannten Trefferwahrscheinlichkeiten werden Rückschlusswahrscheinlichkeiten.

Wahrscheinlichkeitsbaum für einen medizinischen Test Ein Baum verzweigt zuerst nach krank und gesund, anschließend nach positivem und negativem Testergebnis. Start K Kc T Tc T Tc Prävalenz P(K) P(Kc) Sensitivität P(T | K) Spezifität P(Tc | Kc)
Bei medizinischen Tests ist meist P(K | T) gesucht: die Wahrscheinlichkeit, tatsächlich krank zu sein, wenn der Test positiv ist. Diese hängt stark von der Prävalenz ab.
Begriff Formel Lesart
Prävalenz P(K) Anteil tatsächlich Kranker
Sensitivität P(T | K) Test wird bei Kranken positiv.
Spezifität P(Tc | Kc) Test wird bei Gesunden negativ.
Positiver Vorhersagewert P(K | T) Gesuchte Rückschlusswahrscheinlichkeit nach positivem Test

12. Klausurstrategie

12.1 Entscheidungshilfe

Fragestellung Naheliegendes Verfahren Vorher prüfen
Zentrum einer Verteilung Mittelwert, Median oder Modus Skalenniveau, Ausreißer, Mehrgipfligkeit
Streuung Standardabweichung oder IQR Robustheit erforderlich? Einheitenvergleich?
Form der Verteilung Histogramm, Boxplot, QQ-Plot, Schiefe, Exzess Datensatz groß genug? Ausreißer?
Linearer Zusammenhang metrischer Daten Pearson-Korrelation Scatterplot, Nichtlinearität, Drittvariable
Monotoner Zusammenhang ordinaler Daten Spearman-Rangkorrelation Rangbindungen
Nominaler Zusammenhang Yule bei Vierfeldertafel, sonst Kontingenzkoeffizient Tabellengröße, erwartete Häufigkeiten, bedingte Verteilungen
Gerichtete lineare Erklärung Einfache Regression Richtung, Residuen, Scheinkorrelation
Fälle zählen Kombinatorik Reihenfolge? Wiederholung? Auswahlgröße?
Rückschluss nach Beobachtung Bedingte Wahrscheinlichkeit und Bayes Bedingungsrichtung, Basisrate

12.2 Typische Fehler

  • Histogrammhöhe mit Häufigkeit verwechseln, obwohl Klassenbreiten unterschiedlich sind.
  • Bei einer Stichprobe die Varianz durch n statt durch n − 1 teilen.
  • Wachstumsraten arithmetisch mitteln statt Wachstumsfaktoren geometrisch zu mitteln.
  • Pearson-Korrelation als Beweis für Kausalität oder Unabhängigkeit lesen.
  • Bei Spearman Rangbindungen ignorieren.
  • Laspeyres und Paasche ohne Angabe der verwendeten Warenkorbperiode vertauschen.
  • P(A | B) und P(B | A) gleichsetzen.
  • Bei Laplace-Aufgaben günstige und mögliche Fälle mit unterschiedlichen Zählregeln bestimmen.

12.3 Lerncheckliste

  • Ich kann Grundgesamtheit, Stichprobe, Merkmal und Ausprägung an einem Fallbeispiel bestimmen.
  • Ich leite aus dem Skalenniveau zulässige Lage- und Zusammenhangsmaße ab.
  • Ich rechne Mittelwert, Median, Quantile, Varianz, Standardabweichung und IQR für Urliste und Häufigkeitstabelle.
  • Ich erkenne, wann arithmetisches, geometrisches oder harmonisches Mittel erforderlich ist.
  • Ich interpretiere Histogramm, Boxplot, QQ-Plot und Scatterplot.
  • Ich berechne Pearson, Spearman, Yule und den korrigierten Kontingenzkoeffizienten.
  • Ich stelle eine Regressionsgerade auf und interpretiere R2.
  • Ich erkläre Scheinkorrelation und berechne eine partielle Korrelation.
  • Ich bilde zentrierte gleitende Durchschnitte und unterscheide Laspeyres von Paasche.
  • Ich wähle in Kombinatorikaufgaben den richtigen Fall und rechne Bayes-Aufgaben mit sauberer Bedingungsrichtung.

12.4 Mögliche Klausurfragen

  1. Welche Kennzahlen sind für nominale, ordinale und kardinale Merkmale zulässig? Begründen Sie.
  2. Warum ist bei einem Histogramm mit ungleichen Klassenbreiten die Fläche entscheidend?
  3. Berechnen und vergleichen Sie Mittelwert, Median, Standardabweichung und IQR für einen Datensatz mit Ausreißer.
  4. Welche Durchschnittsgeschwindigkeit ergibt sich bei wechselnden Geschwindigkeiten: einmal bei bekannten Zeiten, einmal bei bekannten Strecken?
  5. Interpretieren Sie einen Boxplot und einen QQ-Plot hinsichtlich Lage, Streuung, Ausreißern, Schiefe und Wölbung.
  6. Warum kann eine Pearson-Korrelation von null trotz eindeutigem Zusammenhang auftreten?
  7. Berechnen Sie die Regressionsgerade und das Bestimmtheitsmaß. Welche Aussage erlaubt R2?
  8. Wie entsteht eine Scheinkorrelation? Wie hilft die partielle Korrelation?
  9. Vergleichen Sie Laspeyres- und Paasche-Preisindex fachlich und rechnerisch.
  10. Bestimmen Sie bei einer Kombinatorikaufgabe zuerst den Fall und lösen Sie anschließend eine Bayes-Aufgabe aus der medizinischen Diagnostik.

13. Abdeckung des Skripts

Die folgende Tabelle dokumentiert die vollständige Auswertung der 235 PDF-Seiten. Seiten mit reinen Beispieldaten oder Grafiken sind in die erklärenden Abschnitte integriert.

PDF-Seite / Kapitel Inhalt Enthalten? Wo behandelt?
1–3 Titel, Literatur, Inhaltsübersicht Ja Quellenhinweis und Überblick
4–10 / Kapitel 1.1 Einführung, Grundbegriffe, quantitativ/qualitativ, stetig/diskret, Skalenniveaus Ja Abschnitt 2.1–2.2
11–17 / Kapitel 1.2.1–1.2.3 Erhebungsumfang, Datenherkunft, amtliche Statistik, Quer-, Längsschnitt- und Paneldaten Ja Abschnitt 2.3
18–29 / Kapitel 1.2.4 Urliste, Sortierung, Häufigkeitstabellen, Klassierung, kumulierte Häufigkeiten, Beispiele Ja Abschnitt 3.1
30–36 / Kapitel 2 Kreis-, Block-, Stab-, Linien- und Histogrammdarstellung Ja Abschnitt 3.2
37–52 / Kapitel 3.1–3.4 Mittelwert, Median, Quantile, Modus und Rechenbeispiele Ja Abschnitt 4.1–4.2
53–69 / Kapitel 3.5–3.8 Gewogenes arithmetisches, geometrisches und harmonisches Mittel; Anwendungswahl Ja Abschnitt 4.3
70–72 / Kapitel 3.9 Lineare Transformation von Lagemaßen Ja Abschnitt 4.4
73–84 / Kapitel 4.1 Varianz, Stichprobenvarianz, Verschiebungssatz, Standardabweichung, Beispiele Ja Abschnitt 5.1
85–90 / Kapitel 4.2–4.4 Spannweite, IQR, Transformationen, Variationskoeffizient Ja Abschnitt 5.2
91–106 / Kapitel 5 Momente, Schiefe, Fechner-Regel, Quartilskoeffizient, Wölbung und Exzess Ja Abschnitt 6.1
107–113 / Kapitel 6 Fünf-Punkte-Zusammenfassung und Boxplots Ja Abschnitt 6.2
114–124 / Kapitel 6 QQ-Plots, Kerndichteschätzung und Kernfunktionen Ja Abschnitt 6.3
125–132 / Kapitel 7 Bivariate Datenformate und Scatterplots Ja Einleitung Abschnitt 7
133–145 / Kapitel 8.1 Kovarianz und Bravais-Pearson-Korrelation einschließlich Interpretationsfallen Ja Abschnitt 7.1
146–154 / Kapitel 8.2 Spearman-Rangkorrelation, Rangbindungen und Beispiele Ja Abschnitt 7.2
155–163 / Kapitel 8.3 Yule-Assoziation, Kontingenzkoeffizient, bedingte Verteilungen Ja Abschnitt 7.3
164–174 / Kapitel 9 Einfache lineare Regression, Gütemaße und Standardfehler Ja Abschnitt 8.1
175–179 / Scheinkorrelation Drittvariablen und partielle Korrelation Ja Abschnitt 8.2
180–187 / Kapitel 10 Zeitreihen, additive Zerlegung, gleitende Durchschnitte, Trendregression Ja Abschnitt 9
188–203 / Kapitel 11 Verhältniszahlen, Laspeyres, Paasche, Gliederungs- und Beziehungszahlen Ja Abschnitt 10
204–215 / Kapitel 13.1 Wahrscheinlichkeitsbegriffe und Kombinatorik Ja Abschnitt 11.1
216–228 / Kapitel 13.2 Zufallsexperimente, Ereignisse, Mengen, Laplace und klassische Wahrscheinlichkeit Ja Abschnitt 11.2
229–235 / Kapitel 13.3 Bedingte Wahrscheinlichkeit, Bayes, medizinische Tests Ja Abschnitt 11.3