Statistische Inferenz (Vorlesung/Übung)

Inhalte und Zielpublikum

Diese Lehrveranstaltung richtet sich an alle, die etwas über Statistik lernen möchten, das über die üblichen Einführungen hinausgeht, die dabei aber alle wichtigen Verfahren der frequentistischen Statistik kennenlernen möchten. In dieser Vorlesung und Übung werden statistische Verfahren eingeführt. Der Fokus liegt nicht auf dem stupiden Auswendiglernen von Verfahren zur mechanischen Anwendung, sondern auf dem Verstehen gerechtfertigter und nicht gerechtfertigter Inferenzen auf Basis von Daten mittels statistischer Verfahren. Wir beschäftigen uns also mit dem ewigen Kampf, den die Wissenschaft mit der Varianz in ihren jeweiligen Betrachtungsbereichen führt. Es wird daher auf eine Einführung in R, SPSS oder ein anderes Statistikpaket verzichtet. Sie rechnen von Hand, soweit das geht, oder lernen, Ergebnisse statistischer Verfahren zu interpretieren, wenn ein Rechnen von Hand nicht praktikabel ist (nur bei GLMs und GLMMs). Eine Kombination mit meiner Vorlesung/meinem Seminar zur probabilistischen Grammatik liegt nahe und ist für Masterstudierende sowie bei Belegung zur Examensvorbereitung an der FSU Jena verpflichtend.

Allgemeine Hinweise

  • Sie benötigen einen (nicht programmierbaren) Taschenrechner in dieser Lehrveranstaltung. Im Grunde reicht Ihr Schultaschenrechner oder sogar eine Leistungsklasse darunter (TI 30 oder besser).
  • Die Aufgaben behandeln jeweils den Stoff der Vorwoche und werden in der im Semesterplan (s.u.) genannten Woche besprochen. Sie müssen die jeweiligen Aufgaben also zum genannten Datum erledigen. Die Aufteilung im Unterricht ist dann ungefähr: 30 Minuten Besprechung der Aufgaben, 60 Minuten neuer Stoff. Damit das funktioniert, müssen Sie auf jeden Fall von Woche zu Woche sehr gut vorbereitet sein. Andernfalls verlieren Sie ganz sicher den Faden.
  • Checkliste für Klausuren (vorläufig)
  • Übersicht über statistische Verfahren (vorläufig)

Lektionen und Links zu den Materialien

30. Oktober 2024 | Musterlösung 1 und Aufgaben für Lektion 2 verlinkt.

    1. Inferenz und sogenannte Wahrscheinlichkeit
      Fisher-Exakt-Test
      Folien | Aufgabe | Musterlösung
    2. Daten und Varianz
      Standardabweichung, Standardfehler, z-Wert
      Folien | Aufgabe | Musterlösung
    3. Überraschend große Unterschiede
      z-Test, t-Test
      Folien | Aufgabe | Musterlösung
    4. Simulationen
      Verteilungen, Sampling
      Folien (folgen 2025) | Aufgabe | Musterlösung
    5. Varianzen und Unterschiede
      ANOVA
      Folien | Aufgabe | Musterlösung
    6. Passendmachen
      χ², Chancenverhältnis, Binomialtest, Mann-Whitney-U, Kruskal-Wallis H
      Folien | Aufgabe | Musterlösung
    7. Sogenannte Effektstärken und Freiheitsgrade
      Cramérs v, Cohens d und r², η²
      Folien | Aufgabe | Musterlösung
    8. Größe von Stichproben, Teststärke und ernsthaftes Testen
      Power, Severity
      Folien (folgen 2024/2025) | Aufgabe | Musterlösung
    9. Varianz in numerischen Messwerten
      Korrelation, Likelihood, Lineares Modell
      Folien | Aufgabe | Musterlösung
    10. Wahrscheinlichkeiten
      Logit-Modelle
      Folien | Aufgabe | Musterlösung
    11. Varianz auf mehreren Ebenen
      Generalisierte Lineare Gemischte Modelle
      Folien (folgen 2024/2025) | Aufgabe | Musterlösung

Weitere Literatur

Einige weiterführende Titel, zu denen wir meistens nicht kommen: Mayo & Spanos (2006), Gelman & Hill (2006), Lehmann (2011), Senn (2011), Schäfer (2020). Den Artikel von mir von 2020 können/sollten Sie sich für die gemischten Modelle gegen Ende des Semesters ansehen.

Alle deutschsprachigen Bücher zur Korpuslinguistik und Statistik für Linguisten sind ausdrücklich nicht geeignet. Das Gleiche gilt für die meiste englischsprachige Literatur für Linguisten, insbesondere das Buch Corpus Linguistics von Anatol Stefanowitsch und das Buch How to do linguistics with R von Natalia Levshina. In diesen Büchern stehen Dinge, mit denen Sie bei mir durch die Prüfung fallen.

Aktueller Semesterplan (Wintersemester 2024/2025)

Aktualisiert: 30. Oktober 2024

  • 14. Oktober | 1. Inferenz und Wahrscheinlichkeit
  • 21. Oktober | Ausfall
  • 28. Oktober2. Daten und Varianz | Aufgabe: Fisher-Test
  • 4. November | 2. Standardfehler | Aufgaben zur Mittel und Streuung
  • 11. November | Aufgaben zum Standardfehler
  • 18. November | Ausfall
  • 25. November3. Überraschend große Unterschiede
  • 2. Dezember | Aufgaben zum z-Test und t-Test
  • 9. Dezember | 6. Passendmachen
  • 16. Dezember | Aufgaben zu nichtparametrischen Tests
  • 6. Januar | 9. Varianz in numerischen Messwerte
  • 13. Januar| 10. Wahrscheinlichkeiten modellieren | Aufgaben zu Korrelation und LM
  • 20. Januar | 11. Wahrscheinlichkeiten auf mehreren Ebenen | Aufgabe zu GLM
  • 27. Januar | Aufgaben zu GLM und GLMM
  • 3. Februar | Aufgaben zu GLM und GLMM