Induktive Topikmodellierung und extrinsische Topikdomänen (IDS Jahrestagung 2016)

Felix Bildhauer & Roland Schäfer. Induktive Topikmodellierung und extrinsische Topikdomanen. Kurzvortrag und Poster. Jahrestagung des Instituts für Deutsche Sprache (IDS) Mannheim. 09. März 2016.

Die automatische Auszeichnung mit Metadaten in sehr großen Korpora hat einen großen Stellenwert für linguistische Analysen, die mit diesen Korpora durchgeführt werden. Außerdem können Korpusevaluation und Korpusvergleich gut anhand der Verteilung von Metadaten durchgeführt werden. Auf Basis oft schwierig zu interpretierender automatisch induzierter Topikmodelle (z.B mit Latent Semantic Indexing und Latent Dirichelt Allocation) versuchen wir, eine Klassifikation nach Topikdomäne (hier ugf. Themengebiet, z.B. Politik, Medizin, Unterhaltung) in konkreten lexikalischen Besonderheiten der Korpusdokumente zu verankern und das Klassifikationsschema dabei so anzupassen, dass dies auch möglich wird. Dazu werden die Ergebnisse der Topikmodellierung auf einem Goldstandard-Datensatz als Eingabe für ein überwachtes maschinelles Lernverfahren verwendet (SVM) um die übergeordneten Topikdomänen vorherzusagen. Unser Ansatz erreicht in ersten Experimenten eine Vorhersagegenauigkeit um 70% (kappa>0.5) in einer zehnfachen Kreuzvalidierung. Es zeigen sich dabei sehr deutlich die Probleme, deren Lösung zu einer erheblichen Qualitätsverbesserung führen kann.