Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten

Methoden zur Zusammenstellung und Erschließung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestützte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv für die Forschung zu greifen, zu überprüfen oder zu durchleuchten. Es wird nicht mehr nur gelesen, es wird immer häufiger auch eingelesen, wobei diese Entwicklung und die damit einhergehenden Denkverfahren, Arbeitsschritte und Standards hinterfragt und eingeordnet werden sollten.

Der am 25.11. an der BBAW stattfindende Workshop bietet eine interdisziplinäre, mehrsprachige Bühne für einen wissenschaftlich fundierten Austausch. Im Blickpunkt stehen verschiedene Prozesse des Lesens, zum Beispiel die Erfassung von Keilschrift und Frakturschrift, bis hin zum tatsächlichen Einlesen mithilfe korpus- und computerlinguistischer Werkzeuge. Das breite fachliche Spektrum (u.a. Amerikanistik, Linguistik, Philosophie) und der Fokus auf junge, international aktive Forscher*innen werden dem Workshop ein besonderes Momentum verleihen.

Organisation

Adrien Barbaresi (BBAW) et Maud Ehrmann (DHLAB – École Polytechnique fédérale de Lausanne)

Programme

Empfang ab 9.30 Uhr

9.45-10.45 Uhr: Antoine Doucet (Univ. La Rochelle): Keynote
10.45-11.15 Uhr: Marine Béranger (Collège de France): Assessing Literacy in Mesopotamia Using Digital Technologies: A Case Study Based On The Royal Secretary

Kaffeepause

11.30-12 Uhr: Naomi Truan (Univ. Leipzig): Gesprochene Sprache und Transkription: die XML-TEI Annotation von Parlamentsdebatten
12-12.30 Uhr: Susanne Haaf (BBAW): Auswertung von TEI-Korpora für die Ermittlung von Differenzierungskriterien historischer Textsorten

Lunch

14-14.30 Uhr: Jan Oliver Rüdiger (Univ. Siegen): Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer
14.30-15 Uhr: Melanie Andresen (Univ. Hamburg): Data-Driven Corpus Exploration with Syntactic Annotations
15-15.30 Uhr: Anatole Lucet (ENS Lyon – HFG Karlsruhe): Que peut le numérique en histoire de la philosophie ? L’exemple des œuvres de Gustav Landauer

Kaffeepause

15.45-16.15 Uhr: Raphaël Barman (DHLAB, EPFL): Newspaper semantic segmentation using visual and textual features
16.15-16.45 Uhr: Jana Keck (Univ. Stuttgart): Digging into America’s 19th-Century German-Language Newspapers with Text Reuse and Word Vector Models
16.45-17.15 Uhr: Gaël Lejeune (STIH, Sorbonne Université): Preserving Linguistic Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach

17.15 Uhr: Bilanz