Modellierung grammatischer Alternationen (in prep.)

Diese Einführung in die Besonderheiten von Korpusstudien, die Generalisierte Lineare Modelle zur statistischen Auswertung verwenden, wird voraussichtlich 2016 fertiggestellt und ca. 200–300 Seiten umfassen. Alle Bearbeitungsstufen werden auf GitHub online zur Verfügung gestellt. Das Buch wird bei Language Science Press (Reihe Textbooks in Language Sciences) eingereicht, und ich werde versuchen, auf einem Open-Review-Prozess zu bestehen. Bei Erfolg überstze ich das Buch ggf. auf Englisch.

In diesem Buch wird in die Analyse grammatischer Alternationen anhand von Korpusstudien eingeführt. Der vom Autor präferierte theoretische Rahmen ist die kognitiv ausgerichtete Korpuslinguistik, aber der Schwerpunkt des Buches liegt mehr auf methodischen als theoretischen Fragen. Insbesondere steht die statistische Analyse von Korpusdaten mittels Generalisierter Linearer Modelle (GLMs) im Vordergrund. Die in den letzten zehn Jahren am meisten popularisierte Variante dieses Verfahrens ist das binomiale GLM mit logistischer Linkfunktion, oft gleichgesetzt mit der sogenannten Logistische Regression. In Verbindung mit sehr großen, aber ggf. verrauschten und sehr heterogenen Datenquellen sind (im Gegensatz zu kontrollierten Laborstudien) besondere Faktoren zu beachten, die im Buch diskutiert werden.
Ich lege großes Gewicht auf das Hinterfragen einer vereinfachten Kultur des Signifikanztestens (p-Wert-Gläubigkeit), auf die Modellevaluation und Modellselektion (z.B. Multimodellselektion) sowie auf die Interpretation, Darstellung (z.B. QI-Simulation) und Methoden zur zusätzlichen Absicherung der Verfahren (z.B. Bootstrap und Kreuzvalidierung). Während die Beispiele vor allem innergrammatische Faktoren zur Erklärung grammatischer Variation in den Vordergrund stellen, ist das vorgestellte Instrumentarium kompatibel zu allen Arten von technisch ähnlichen Korpusstudien, einschließlich soziolinguistischer Studien.

Im Gegensatz zu vielen anderen Einführungen wird in diesem Buch nicht in die Benutzung einer bestimmten Statistik-Software (z.B. R) eingeführt. Stattdessen wird dem Leser ein grundlegendes Verständnis von GLMs vermittelt, und das Buch eignet sich damit auch für Leser, die mit GLMs nicht selber arbeiten, sondern lediglich die einschlägige Literatur besser lesen können möchten. R-Skripte für alle Berechnungen und Visualisierungen im Buch werden separat auf einer Webseite zum Buch angeboten. Besondere Vorkenntnisse in Korpuslinguistik und Statistik bzw. Mathematik sind nicht erforderlich.