Computergestützte Etablierung epochenübergreifender Wortfamilienstrukturen

1. Ziel
2. Stand der Arbeiten
2.1 Halbautomatische Segmentierung der mittelhochdeutschen Lemmata
2.2 Halbautomatische Zuordnung mittelhochdeutscher Lemmata
zu althochdeutschen Wortfamilien
2.2.1 Beim ahd.-mhd. fortgesetzten Wortschatz:
automatische Zuordnung der mhd. Wortstämme zu ahd. Wortfamilien

2.2.2 Automatische tentative Übertragung der ahd. Wortfamilien
auf mhd. erstmals überlieferte Lemmata mit den gleichen Wortstämmen

2.2.3 Anpassung der ahd. Wortfamilien-Bezeichnungen ans Mhd.
2.2.4 Weitere Übertragung der mhd. Wortfamilien auf mhd. Lemmata
2.2.5 Manuelle Prüfung der Zuordnung der mhd. Lemmata
zu (ahd.-)mhd. Wortfamilien

2.3 Einrichtung einer ahd./mhd. Wortfamilien-Datenbank
2.4 Exemplarische wortgeschichtliche Auswertung der epochenübergreifenden Wortfamilienstruktur am Beispiel der ahd.-mhd. Wortfamilie BÛWAN/BÛWEN (nhd. bauen)
3. Bibliographie

Leitung und Partner:

Universität Frankfurt
Akademie der Wissenschaften und der Literatur | Mainz

Zusammenarbeit mit:
Prof. Dr. Thomas Klein (Universität Bonn)
Prof. Dr. Jochen Splett (Universität Münster)

Laufzeit:

Oktober 2016 bis November 2019

1. Ziel: Computergestützte Etablierung epochenübergreifender Wortfamilienstrukturen, zunächst für Althochdeutsch/ Mittelhochdeutsch

Ob historische Wörterbücher den Wortschatz streng einzelwortbezogen oder in Wortfamilien bearbeiten und darbieten sollen, ist seit den Anfängen der wissenschaftlichen Lexikographie umstritten. Während in der Anfangszeit mehrfach auch Wortfamilienwörterbücher realisiert wurden (z.B. Schmellers Bayerisches Wörterbuch 1827-1837, Graffs Althochdeutscher Sprachschatz 1834-1842, das Mittelhochdeutsche Wörterbuch von Benecke/Müller/Zarncke 1854-1866), dominiert heute bei den großen Belegwörterbüchern das einzelwortbezogen alphabetisch fortschreitende Wörterbuch. Ausnahmen bilden das Schweizerische Idiotikon und das Deutsche Fremdwörterbuch, in gewisser Weise auch das Althochdeutsche Wörterbuch.

Der Grund für die Bevorzugung der einzelwortbezogen alphabetisch fortschreitenden Wörterbucharbeit ist nicht inhaltlicher Natur, sondern vor allem wörterbuchplanerischer Art. Bei Ausarbeitung von Wortfamilien lässt sich der Arbeitsfortschritt scheinbar nicht so stringent planen, kontrollieren und durch Publikation dokumentieren wie bei Abarbeitung einer alphabetischen Stichwortliste. Dies spielt vor allem eine Rolle für die Großunternehmen der Akademienforschung, die mit engen planerischen Vorgaben und Auflagen arbeiten. Dass auch in diesen Arbeit nach Wortfamilien möglich ist, zeigt das Beispiel des Althochdeutschen Wörterbuchs (AWB) der Sächsischen Akademie der Wissenschaften, dessen Begründer in einer längeren Vorbereitungsphase zunächst mit der Ausarbeitung von Wortfamilien begonnen haben (vgl. z. B. den Werkstattbericht von Karg-Gasterstädt 1942); das ist bis heute im Wesentlichen beibehalten worden, publiziert wird allerdings (gemäßigt) einzelwort-alphabetisch.

Der Erkenntniswert der Wortfamilieneinheit für die Lexikographie und darüber hinaus für sprachgeschichtliche Fragen überhaupt ist völlig unbestritten (vgl. etwa Hundsnurscher 2002 und Splett 2002). Eindrucksvolle Zeugnisse dafür sind die beiden Wortfamilienwörterbücher zum Althochdeutschen und zum Gegenwartsdeutschen, die – abseits der Akademienforschung – von Jochen Splett an der Universität Münster ausgearbeitet worden sind (erschienen 1993 und 2009). Der Fokus liegt bei ihnen auf der Analyse der Wortbildungen und ihrer Ableitungsbeziehungen, die Bedeutungsangaben beruhen auf den zugrundeliegenden Belegwörterbüchern und weiteren lexikographischen Hilfsmitteln.

Wo es bereits digitale Lemmalisten gibt, können Wortfamilienstrukturen computergestützt erarbeitet und epochen- und (unter bestimmten Bedingungen auch) sprachübergreifend verknüpft werden, wie präzise und auf umfangreiche Materialien gestützte Überlegungen und Erprobungen von Thomas Klein (2013, 2018) zeigen. Diese Wortfamilienstrukturen können auch nachträglich mit den Artikeln für einzelwortbezogen alphabetisch publizierte Wörterbücher verknüpft werden, so dass für diese dann eine Benutzung nach Wortfamilien möglich wird.

ZHistLex setzt sich im Rahmen dieses Aufgabengebiets zum Ziel, eine solche epochenübergreifende Wortfamilienstruktur exemplarisch für das Althochdeutsche und das Mittelhochdeutsche zu realisieren; für diese beiden Sprachepochen sind die Bedingungen aufgrund der exzellenten Vorarbeiten von Splett und Klein und aufgrund des Vorliegens von umfassenden lexikographischen Online-Angeboten (in Gestalt des AWB, des Verbunds der älteren Mittelhochdeutschen Wörterbücher im Trierer Wörterbuchnetz und des in Ausarbeitung befindlichen Mittelhochdeutschen Wörterbuchs) besonders günstig. Neben dem materiellen Ergebnis, den ahd.-mhd. Wortfamilien, sollen die dabei gewonnenen Erfahrungen und eingesetzten Programme dokumentiert werden für die Anwendung auf weitere Sprachepochen bzw. -varietäten (nicht nur) des Deutschen.

2. Stand der Arbeiten
2.1. Halbautomatische Segmentierung der mittelhochdeutschen Lemmata

Die von Thomas Klein (Universität Bonn) zur Verfügung gestellten Programme zur Segmentierung der mhd. Stichwörter wurden in mehreren Durchläufen erprobt und angepasst. Durch automatische Segmentierung von Affixen und Wortstämmen der mhd. Stichwörter sowie Bereinigung von Umlaut und – bei starken Verben – auch Ablaut hat Klein die jeweiligen Wortstämme („Kernwörter“) ermittelt. Auf diese Weise war auch die Auszeichnung von – mehrere Wortstämme enthaltenden – Komposita möglich, um diese später allen beteiligten Wortfamilien zuzuordnen zu können. Mhd. bëtegültig ‚steuerpflichtig‘ etwa wurde als bët-e-gült-ig segmentiert und die um- und ablautbereinigten Wortstämme bit und gëlt ermittelt.
In der anschließenden Bewertung des Ergebnisses wurde als Hauptproblem der korrekten automatischen Segmentierung der Bereich der mhd. nicht mehr produktiven „Alt-Suffixe“ erkannt, und es wurde für die beiden häufigsten von ihnen (-el und -en) eine vollständige Einzelprüfung und ggf. Korrektur der Segmentierung der rd. 6.000 mhd. Stichwörter mit dieser Zeichenfolge durchgeführt. Beim mhd. Zahlwort siben ‚sieben‘ (und mit ihm gebildeten Komposita) etwa wurde die Abtrennung von -en rückgängig gemacht.

2.2. Halbautomatische Zuordnung mittelhochdeutscher Lemmata zu althochdeutschen Wortfamilien
2.2.1 Beim ahd.-mhd. fortgesetzten Wortschatz:
automatische Zuordnung der mhd. Wortstämme zu ahd. Wortfamilien

Die Zuordnung des mhd. Wortschatzes zu den bereits im Ahd. bezeugten Wortfamilien konnte sich die Vereinigung der ahd. und mhd. Lemmalisten zunutze machen, die bereits von Thomas Klein halbautomatisch (d.h. sorgfältig geprüft) durchgeführt worden war: Rund 15.000 der 28.000 ahd. Lemmata – also etwa 53 % – sind noch im Mhd. erhalten. Die Wortstämme dieser Lemmata ließen sich nun den zugehörigen ahd. Wortfamilien zuordnen (z.B. die mhd. Wortstämme bit und gëlt zu den ahd. Wortfamilien BITTEN bzw. GELTAN im Falle etwa der Lemmata ahd./mhd. bitten bzw. ahd. geltan/mhd. gëlten).

2.2.2 Automatische tentative Übertragung der ahd. Wortfamilien
auf mhd. erstmals überlieferte Lemmata mit den gleichen Wortstämmen

Wenn ein mhd. Wortstamm bereits einmal mit einer ahd. Wortfamilie identifiziert worden war, ließ sich diese Zuweisung nun tentativ auch auf alle weiteren mhd. Wortbildungen mit diesen Wortstämmen übertragen, die keine ahd. Vorgänger haben: Rund 60.500 der 73.000 mhd. Lemmata (ca. 83 %) sind ahd. noch nicht bezeugt; bei den Kompositalgliedern (Teil-Lemmata), die für die Wortfamilienzuweisung relevant sind, sind es sogar rund 85.000 von 100.000 (ca. 85 %). Mhd. bët-e-gült-ig konnte so mithilfe der Wortstämme bit und gëlt den ahd. Wortfamilien BITTEN und GELTAN zugewiesen werden, mhd. sibelen ‚(aus)sieben‘ mithilfe des Wortstamms sib der ahd. Wortfamilie SIB ‚Sieb‘ –also nicht auch der Wortfamilie SIBUN ‚7‘, dem ja ein Wortstamm siben zugeordnet wurde (s. o.). Dennoch ist die automatische Zuordnung nicht immer eindeutig: Der mhd. Wortstamm dërb etwa wurde den ahd. Wortfamilien -DERBAN, DERB und DURFAN zugeordnet; bei einigen mhd. Wortstämmen war hingegen keinerlei Zuordnung zu ahd. Wortfamilien möglich.

2.2.3 Anpassung der ahd. Wortfamilien-Bezeichnungen ans Mhd.

Um die mhd. Bezeichnungen der schon im Ahd. überlieferten Wortfamilien zu bestimmen, wurden zudem die den ahd. Wortfamilien-Köpfen entsprechenden Lemmata (z.B. geltan im Falle der Wortfamilie GELTAN) ermittelt und ihre mhd. Entsprechungen als mhd. Wortfamilien-Köpfe (z.B. GËLTEN) angesetzt. Zu 2.170 von 3.623 ahd. Wortfamilien (rund 60 %) ließen sich so automatisiert mhd. Entsprechungen ermitteln. Diese Liste wurde sodann einzeln geprüft und korrigiert, ggf. fehlende mhd. Entsprechungen ergänzt und die Bezeichnungen der nach dem Ahd. ausgestorbenen Wortfamilien getilgt. Als ein Ergebnis kann festgehalten werden, dass die ahd. Wortfamilien im Mhd. zu knapp 82 % (2.957 von 3.623) erhalten sind. Der Wortfamilien-Bestand ist also viel konstanter als der Lemma-Bestand überliefert (mhd. Bezeugung von nur 15.000 der 28.000 ahd. Lemmata, 53 %).

2.2.4 Weitere Übertragung der mhd. Wortfamilien auf mhd. Lemmata

Für rund 84 % (ca. 71.000) der rund 85.000 im Mhd. erstmals überlieferten Lemmata (Simplizia) oder Teil-Lemmata (Kompositalglieder) konnte tentativ mindestens eine zugehörige Wortfamilie ermittelt werden. Für mehr als die Hälfte (rund 50.000, ca. 59 %) lag eine 1:1-Zuordnung vor, für rund 14 % (ca. 12.000) eine 1:2-Zuordnung und für die übrigen 11 % (ca. 9.000) eine Zuordnung von 1:3 bis 1:6, in eingen Fällen auch von 1:9.
Für die übrigen rund 14.000 (16 %) Fälle wurde anschließend systematisch untersucht, warum keine automatische Zuordnung möglich war, sei es etwa aufgrund von Entlehnung oder von unregelmäßigen Formen von Affixen, die einer korrekten Segmentierung durch den Computer entgegenstanden.
Durch Wortfamilienübertragung nach tentativer Abtrennung weiterer niederfrequenter Suffixe vom Wortstamm, Übertragung der bei der -el/-en-Einzelprüfung (s. 2.1) ermittelten Wortfamilien sowie Übertragung der Wortfamilienzuordnung parallel zu den Angaben bei Benecke/Müller/Zarncke (1854-1866, s. 1. und 2.2.5) – jeweils auf Grundlage des Wortstamms – konnten die Fälle ohne Zuordnung auf rund 11.500 (13,5 %) und die 1:2-bis-1:9-Zuordnungen auf rund 15.500 (18 %) statt bisher 21.000 (25 %) gesenkt werden. Die Zahl der 1:1-Zuordnungen ließ sich hingegen von rund 50.000 (59 %) auf rund 58.000 (ca. 68 %) steigern.

2.2.5 Manuelle Prüfung der Zuordnung der mhd. Lemmata
zu (ahd.-)mhd. Wortfamilien

Nach Abschluss der automatischen Zuordnung müssen die Vorschläge nun einzeln geprüft, Mehrfach-Zuweisungen disambiguiert und fehlende Zuweisungen ergänzt werden (Letzteres etwa bei Lemmata mit dem Kernwort worht – z.B. ungeworht – zur mhd. Wortfamilie WÜRKEN). Zudem müssen die im Mhd. erstmals bezeugten Wortfamilien definiert und die zugehörigen Lemmata ermittelt werden – hierfür sind den mhd. Lemmata die Wortfamilien-Bezeichnungen nach Benecke/Müller/Zarncke (1854-1866, s. 1. und 2.2.4) zugeordnet. Diese Prüfungen und Ergänzungen können im Projekt nicht mehr unternommen werden. Wie vorgesehen wird die Prüfung nur exemplarisch für die Wortfamilie KIESEN und einige weitere Wortfamilien durchgeführt.

2.3. Einrichtung einer ahd./mhd. Wortfamilien-Datenbank

Mit der Besetzung der Informatik-Stelle zum 1.4.2019 wurde die Einrichtung einer ahd./mhd. Wortfamilien-Datenbank begonnen, die u.a. die elektronische Nutzung der umfangreichen und komplexen Projektmaterialien nach Projektende gewährleistet.

2.4. Exemplarische wortgeschichtliche Auswertung der epochenübergreifenden Wortfamilienstruktur am Beispiel
der ahd.-mhd. Wortfamilie BÛWAN/BÛWEN (nhd. bauen)

Im Zusammenhang der Mitarbeit in AP7 ergab sich die Aufgabe einer Demonstration des Werts der epochenübergreifenden Wortfamilien-Struktur für wortgeschichtliche Fragen. Darüber ist in zwei ausführlichen Referaten auf dem Arbeitsgespräch zur historischen Lexikographie in Bullay 2018 (Abstract, Handout und Literaturexzerpte online auf der Tagungsseite) sowie dem 26. Deutschen Germanistentag in Saarbrücken 2019 berichtet worden.

3. Bibliographie

Hundsnurscher, Franz, Das Wortfamilienproblem in der Forschungsdiskussion, in: Lexikologie / Lexicology. Ein internationales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen / An international handbook on the nature and structure of words and vocabularies, hg. v. D. Alan Cruse u.a., Bd. 1 (HSK 21,1), Berlin / New York 2002, Art. 86, S. 675-680.Karg-Gasterstädt, Elisabeth, Aus den Ergebnissen unserer Arbeit am Althochdeutschen Wörterbuch (Aus der Werkstatt des Althochdeutschen Wörterbuchs 15), PBB 65 (1942), S. 241-256.

Klein, Thomas, Verknüpfung digitaler Lemmalisten historischer Sprachstufen des Deutschen – wie und wozu? Vortrag auf dem Arbeitsgespräch zur historischen Lexikographie 2013.

Klein, Thomas, Mittelhochdeutsche Wortfamilien: Ermittlung und Perspektiven, in: Zeitschrift für Wortbildung / Journal of Word Formation, Jg. 2 (2018), S. 11-31.

Splett, Jochen, Althochdeutsches Wörterbuch. Analyse der Wortfamilienstrukturen des Althochdeutschen, zugleich Grundlegung einer zukünftigen Strukturgeschichte des deutschen Wortschatzes, 3 Bd.e, Berlin/New York 1993.

Splett, Jochen, Bedingungen des Aufbaus, Umbaus und Abbaus von Wortfamilien, in: Lexikologie [wie Hundsnurscher], Art. 88, S. 688-699.

Splett, Jochen, Deutsches Wortfamilienwörterbuch. Analyse der Wortfamilienstrukturen der deutschen Gegenwartssprache, zugleich Grundlegung einer zukünftigen Strukturgeschichte des deutschen Wortschatzes, 18 Bd.e, Berlin/New York 2009.

Letzte Änderung auf dieser Seite: 27.9.2019