Textverknüpfung

Bidirektionale Verknüpfung von Wörterbuch-Belegen mit digitalen Volltexten

2. Arbeitsschritte
2.1 Webservice-Spezifikation für Texte
2.2 Implementation entsprechender Webservices durch Anbieter elektronischer Volltexte
2.3 Anpassung der Webservices für Quellenverzeichnisse
2.4 Entwicklung einer Demonstrator-Oberfläche

3. Arbeitsprogramm

Leitung und Partner:

Akademie der Wissenschaften und der Literatur | Mainz

Beteiligte Projektpartner im ZHistLex:

Akademie der Wissenschaften zu Göttingen
Berlin-Brandenburgische Akademie der Wissenschaften
Universität Frankfurt, LOEWE-Schwerpunkt „Digital Humanities“
Universität Gießen, Inst. für Germanistik/Zentrum für Medien und Interaktivität
Universität Trier, Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften

Laufzeit:

Oktober 2017 bis September 2019

Aufgaben und Ziele

Aufgabe des Teilprojektes „Exemplarische bidirektionale Verknüpfung von Wörterbuch-Belegen mit digitalen Volltexten“ ist es, die Verknüpfung von Belegzitaten und Stellenangaben in Wörterbüchern mit den entsprechenden Stellen in den Volltexten der Quellen an ausgewählten Ressourcen beispielhaft zu realisieren, und zwar in beiderlei Richtung. Federführend verantwortlich für das Arbeitspaket ist die Trierer Arbeitsstelle des Vorhabens ‚Mittelhochdeutsches Wörterbuch‘ (MWB) der Akademie der Wissenschaften und der Literatur | Mainz.

Ausgangsvorstellung bei der Projektbeantragung war die schon vorhandene Verknüpfung des MWB mit seinen Quellentexten im Online-Angebot, die über feste Verlinkungen zwischen Belegen im Wörterbuch und ihren elektronischen Quellentexten realisiert sind.

Für das Zentrum für Historische Lexikographie kann es jedoch nicht um Einzelverknüpfung von bestimmten Wörterbüchern mit ihren Quellentexten gehen, sondern um die Bereitstellung einer Schnittstelle, die Texte und Wörterbücher in geeigneter Weise abfragbar und interoperabel macht. Entsprechend der ZHistLex-Architektur sollen solche Abfragen mittels Webservices realisiert werden, die einheitlich nach der ZHistLex-Spezifikation einzurichten sind. Wörterbücher und Texte verbleiben bei ihren Anbietern und können von jeder beliebigen anderen Stelle abgefragt werden.

Vorzüge dieses webservice-basierten Ansatzes sind leichte Erweiterbarkeit, Flexibilität und dezentrale Datenhaltung. Bereits vorhandene feste Verlinkungen können weitgehend ohne Mehraufwand in das webservice-basierte Verfahren überführt werden. Die unten skizzierten Abfragesituationen illustrieren, dass auf diese Weise Ressourcen verschiedener Anbieter virtuell zusammengeführt werden können, ohne dass sie von vornherein fest miteinander vernetzt sind, wie das z.B. im MWB und seinem Quellenkorpus der Fall ist.

Für die Verlinkung von Wörterbüchern und Texten wird in der ZHistLex-Architektur wie im gedruckten Wörterbuch die Zitierreferenz der Texte benutzt. Eine andere Möglichkeit wäre die Verknüpfung über die Lemmatisierungsinformation. Dies setzt jedoch eine zuverlässige Lemmatisierung voraus, die im Falle von historischen Texten aber sehr aufwändig ist, weil sie – anders als bei gegenwartssprachlichen Texten – nicht automatisch durchgeführt werden kann.

2. Arbeitsschritte

2.1 Webservice-Spezifikation für Texte

Der ursprüngliche Arbeitsplan sah zunächst nur die technische Webservice-Spezifikation für Wörterbücher vor. Damit auch elektronische Volltexte über die Schnittstelle abgefragt werden können, muss sie entsprechend erweitert werden. Ein zentraler Text-Abfragetyp ist z.B. die auf ein Belegzitat im Wörterbuch bezogene Anforderung: „Gib die Textumgebung aus dem Text ‚Kaiserchronik‘ für die Referenz 575 aus“. – Diese Erweiterung der Spezifikation für Texte erfolgt in enger Zusammenarbeit mit der Berliner Arbeitsgruppe im Aufgabenbereich “Standards”.

2.2 Implementation entsprechender Webservices durch Anbieter elektronischer Volltexte

Datengeber, die ihre elektronischen Texte für Abfragen in der in 2.1 spezifizierten Art zur Verfügung stellen möchten, müssen eine entsprechende Implementation auf Basis ihrer Daten vornehmen. Je nach Kodierungszustand des Textkorpus kann hierfür eine Kuratierung der Daten nötig oder erwünscht sein (vgl. Aufgabenbereich “Ressourcen”).

Die Implementation dieser Services ist vorbereitet worden erstens für das rund 240 Textausgaben umfassende Korpus des MWB durch die Arbeitsgruppe der ADWL Mainz und zweitens für das gesamte Referenzkorpus Altdeutsch (ReA) durch die Frankfurter Arbeitsgruppe. Für das MWB-Korpus wurden die Daten aufbereitet und der Webservice implementiert. Er befindet sich zur Zeit in der letzten Prüfung. – Für das ReA wurden ebenfalls Kuratierungsmaßnahmen ergriffen: die gut 100 tiefannotierten Volltexte wurden durch die Frankfurter Arbeitsgruppe in Lesetexte konvertiert und so das Lesekorpus Altdeutsch (LeA) geschaffen. Die HTML-Textdateien des LeA liegen parallel auch im XML-Format (TEI-P5) vor und bieten somit die Voraussetzungen für eine Verknüpfung mit anderen Ressourcen, zunächst vor allem mit dem Althochdeutschen Wörterbuch (AWB). Die Zitierreferenz war für den Großteil der Texte bereits identisch mit der im AWB gebrauchten, für die übrigen wurde sie an die des AWB angepasst.

2.3 Anpassung der Webservices für Quellenverzeichnisse

Im Arbeitsbereich “Quellenverzeichnisse” ist die Bedeutung der Quellenbibliographien, genauer ihrer gemeinsamen Abfragbarkeit für die bidirektionale Text-Wörterbuch-Verbindung mittels Webservices dargestellt. Auch in diesem Arbeitspaket war nämlich die ursprüngliche Idee eines festen, kumulierten Gesamtverzeichnisses aufgegeben worden zugunsten eines Systems von dynamischen Webservices. Dabei werden die einzelnen Einträge in den verschiedenen Quellenverzeichnissen nach dem bibliothekarischen Standard über ihre PICA-Produktionsnummern (PPN) identifiziert.

Für die Zwecke der bidirektionalen Text-Wörterbuch-Verknüpfung war die Spezifikation der Webservices so anzupassen, dass die Zitierreferenz eines Textes aus den Quellenverzeichnissen ermittelt und ggf. verschiedene Referenzsysteme aufeinander bezogen werden können. Der inhaltliche Problembereich erstreckt sich von einfachen Fällen, in denen ein bestimmtes Wörterbuch einen Text nach einem anderen Referenzmuster zitiert als ein anderes Wörterbuch bis hin zu komplexen Fällen, in denen verschiedene Ausgaben eines Textes zugrundliegen. Im technischen Bereich war die Webservice-Spezifikation entsprechend anzupassen und von den Anbietern der Quellenverzeichnisse zu implementieren.

Umfang und Komplexität der technischen Arbeiten in diesem Bereich – insbesondere im Zusammenhang mit den hier skizzierten Zusatzaufgaben – erwiesen sich als zu groß, als dass sie im Rahmen der Eigenmittel der Projektpartner realisiert werden konnten. Vorläufig werden daher für die althochdeutschen und mittelhochdeutschen Texte Hilfskonstruktionen benutzt.

2.3 Entwicklung einer Demonstrator-Oberfläche

Die zentrale technische Idee des ZHistLex ist es, die einzelnen beteiligten Wörterbuchressourcen des Zentrums über ein standardisiertes System von Webservices interoperabel zu machen. Die Entwicklung einer Oberfläche für menschliche Nutzung (GUI) ist dabei von zweitrangiger Ordnung. Auf Basis der entwickelten Webservices sind ohnehin viele verschiedene GUI-Implementationen und Visualisierungen denk- und realisierbar, die verschiedenen Zwecken und Nutzungssituationen dienen. Dennoch soll auf die Entwicklung einer Demonstrator-Oberfläche für die bidirektionale Text-Wörterbuch-Verlinkung nicht vollkommen verzichtet werden. Es handelt sich dabei um eine Oberfläche, die eine Benutzereingabe in eine Folge von Webservice-Anfragen umsetzt und das Ergebnis in menschenlesbarer Form ausgibt.

Zwei beispielhafte Anfragesituationen seien hier skizziert:

A) Zeige alle Artikel der beteiligten Wörterbuch-Angebote, in denen die Textstelle ‚Kaiserchronik‘ 575 zitiert ist.

Webservice-Abfolge:

Alle Quellenverzeichnis-Webservices des Zentrums werden darauf abgefragt, ob sie die ‚Kaiserchronik‘ im Quellenverzeichnis führen. Zurückgeliefert wird eine PPN-Liste, ggf angereichert um das verwendete Zitiermuster.
Anhand der ermittelten PPNs werden alle Wörterbücher des Zentrums daraufhin abgefragt, in welchen Artikeln diese PPNs mit der Referenz 575 vorkommen. Zurückgeliefert wird eine Lemmaliste.

Benutzerausgabe:

Alle bibliographischen Angaben und Anbieter, die im ersten Schritt ermittelt wurden.
Alle Artikel, in denen die gesuchte Textstelle gefunden wurde, mit Links in die betreffenden Wörterbuch-Angebote.

B) Zeige in allen beteiligten Textangeboten die Stelle ‚Kaiserchronik‘ 575.