Available courses

CorpusExplorer - Workshop 2019 (JLU Gießen)

Die automatisierte Erschließung historischer Texte, deren Sprache und Orthografie noch keiner Standardisierung unterliegt, ist schwierig. Am Zentrum für Informationsmodellierung laufen zur Zeit drei Projekte, die sprachlich im Frühneuhochdeutschen angesiedelt sind: die Erforschung frühneuzeitlicher Diplomatenkorrespondenz (fwf, P 30091), die Edition von Reichstagsakten von 1576 (fwf, I 3446) und die Erschließung und Auswertung spätmittelalterlicher Kochrezepte (fwf, I 3614). Um eine computergestützte Aufbereitung sprachlicher Inhalte bei der Texterschließung einsetzen zu können, richten die drei Projekte in Kooperation mit dem HRSM Projekt KONDE - Kompetenznetzwerk Digitale Edition einen Workshop aus, in dem NLP-Methoden und Werkzeuge zum Information Extraction auf frühneuhochdeutsche Texte angewandt werden sollen. Der Workshop umfasst folgende Einheiten:

Montag Nachmittag, 18.03.2019:

• Einführung in die Varianz des Frühneuhochdeutschen (Erika Windberger-Heidenkummer, Universität Graz)

Dienstag, 19.03.2019:

• Corpus Explorer (Jan Oliver Rüdiger, Universität Siegen), https://notes.jan-oliver-ruediger.de/software/corpusexplorer-overview/
• Lunchtime Lecture „A Field Spotter's Guide to Canonicalization Errors“ (Bryan Jurish, Berlin-Brandenburgische Akademie der Wissenschaften)
• CAB Web Service des Detuschen Textarchivs (Bryan Jurish), http://www.deutschestextarchiv.de/demo/cab/

Mittwoch Vormittag, 20.03.2019:

SpacyApp (Matthias Schlögl und Peter Andorfer, Österreichische Akademie der Wissenschaften), https://spacyapp.acdh.oeaw.ac.at/

Der Workshop wird auf das Textmaterial der Projekte fokussieren, Interessierte sind aber prinzipiell willkommen! Die Teilnahme ist für zentrumsexterne Personen allerdings kostenpflichtig (€200.-/Person); Anmeldungen bitte bei helmut.klug(at)uni-graz.at.


Die Fähigkeit zur Kritik setzt voraus, dass die notwendigen Fähigkeiten zur Durchführung vorhanden sind. Es bedarf jedoch des Mutes sich zu entschließen, durchzuhalten und nicht bequem zu werden und somit die eigenen Fähigkeiten/Methoden kontinuierlich zu verbessern. Methoden wie Sie in den Digital Humanities und speziell in der Korpuslinguistik zum Einsatz kommen, lassen sich nur verbessern, wenn man selbst tätig wird, hinterfragt, ausprobiert und gemeinsam diskutiert. Im Rahmen dieses Workshops wird der CorpusExplorer v2.0 vorgestellt (OpenSource), der unterschiedlichste Methoden aus dem Bereich der Forschung holt und diese für die universitäre Lehre bereitstellt. Studenten sollen mit dieser Software ermutigt werden, eigene kleine Forschungsprojekte zu realisieren (es wurden bereits Seminararbeiten, Bachlor-/Masterarbeiten sowie (laufende) Dissertationsprojekte mittels CorpusExplorer umgesetzt).

Dies ist nicht selbstverständlich, so weisen bereits (Bubenhofer 2011) „Oft bedingen korpuslinguistische Arbeiten einen großen Aufwand, sowohl für Lernende als auch die Betreuenden, der im Rahmen eines Studiums nicht geleistet werden kann.“ oder (Dipper 2011) „Bei der Arbeit mit ‚echten‘ Daten, [...] werden die Computerlinguistik- Studenten früh mit Problemen wie dem Daten-Encoding oder der Datengröße konfrontiert [...]“ auf elementare Probleme zu Seminar-/Projektstart hin. Außerdem ist es in der Regel notwendig, dass unterschiedliche Programme kombiniert werden, um ein (visuelles) Ergebnis zu erzielen.

Der CorpusExplorer v2.0 beseitigt viele dieser (Einstiegs-)Hürden. Unterschiedlichste Programme und Methoden werden unter einer benutzerfreundlichen Programmoberfläche kombiniert, die zudem vielfältige Visualisierung/Weiterverarbeitungsmöglichkeiten zur Verfügung stellt (wie auch in den Video-Tutorials von (Rüdiger 2017) bereits gezeigt wurde). Im Vergleich zu AntConc, TXM und anderen verbreiteten Tools wird schnell klar, wie stark sich der CorpusExplorer an Forschung -und- Lehre orientiert.