Talk & tutorial invited by Institut für Germanistik, Universität Leipzig on 25 April 2017 as part of a series of talks entitled Linguistik im digitalen Zeitalter (Linguistics in the Digitial Age).
Webkorpora sind in den letzten zehn Jahren immer wichtiger für die korpuslinguistische Forschung geworden. Die Gründe dafür sind unter anderem ihre oft erstaunliche Größe, die besonderen Inhalte, die sie enthalten, und die für sie typischen Register/Genres/Stile. Aktuelle Webkorpusprojekte haben dabei technologisch viele sogenannte “Referenzkorpora” überholt, so dass klassische Vorbehalte gegen Webkorpora als “unsaubere Datenquelle” nicht mehr greifen. Die COW-Webkorpora in der Version von 2016 sind z.B. mit verschiedenen Maßen für die Qualität der Dokumente und Absätze ausgezeichnet und die linguistischen Annotationsebenen umfassen Dependenzparsing und topologisches Parsing, morphologische Annotation, Analysen von Komposita, Basislemmas, Eigennamenerkennung usw.
In diesem Vortrag werden zunächst wichtige Eigenschaften von Webkorpora und ihrer Erstellung erläutert, die für ihre linguistische Nutzung relevant sind. Einige linguistische Studien, die mit traditionellen Korpora nicht möglich gewesen wären, werden vorgestellt. Im zweiten Teil wird die Nutzung der COW-Korpora (s. webcorpora.org) am praktischen Beispiel gezeigt und geübt.