Felix Bildhauer & Roland Schäfer. Induktive Topikmodellierung und extrinsische Topikdomanen. Kurzvortrag und Poster. Jahrestagung des Instituts für Deutsche Sprache (IDS) Mannheim. 09. März 2016.
Continue reading
Tag Archives: Linguistic annotation
texrex web page cleaning system
Moved to GitHub as of 1 May 2016 (from SourceForge rev. 622).
This is the work horse web page cleaning system behind the COW. It turns crawled HTML documents into clean XML corpus documents. It is released under a permissive 2-clause BSD license. Continue reading
Sehr große Webkorpora – Aufbau, Zusammensetzung und Anwendung (2014)
Felix Bildhauer & Roland Schäfer: Sehr große Webkorpora – Aufbau, Zusammensetzung und Anwendung (“Very large web corpora – construction, composition, and application”). Invited talk at Institut für Deutsche Sprache (IDS), Mannheim.
Web Corpus Construction (Morgan & Claypool)
Roland Schäfer & Felix Bildhauer (2013) Web Corpus Construction. Morgan and Claypool. [BibTeX]
Websites: Morgan & Claypool (official), Companion web site (additional information, errata, etc.)
Reviews: Serge Sharoff in Computational Linguistics 41(1) (2015), Mats Wirén in Nordic Journal of Linguistics 37, 03 (2014)