Computergestützte Etablierung epochenübergreifender Wortfamilienstrukturen

Abschlussbericht (Redaktion Ralf Plate); letzte Änderung dieser Seite 13.7.2020

1. Ziel
2. Erprobung am Alt- und Mittelhochdeutschen
2.1 Segmentierung der mittelhochdeutschen Lemmata
2.2 Ermittlung der mhd. Fortsetzungen ahd. Wortfamilien
2.2.1 Zuordnung der Wortstämme mhd. Fortsetzungen ahd. Lexeme zu ahd. Wortfamilien
2.2.2 Zuordnung mhd. Lexeme ohne ahd. Vorgänger zu ahd. Wortfamilien

2.2.3 Feststellung der mhd. Fortsetzungen ahd. Wortfamilien
2.3. Nutzung von Strukturformeln
2.4. Desiderate
2.4.1. Prüfung der automatisch erzeugten Wortfamilienzuweisungen
2.4.2. Einrichtung einer ahd./mhd. Wortfamilien-Datenbank
3. Exemplarische wortgeschichtliche Auswertung am Beispiel der Wortfamilie BÛWAN/BÛWEN (nhd. bauen)
4. Bibliographie

Leitung und Partner:

Universität Frankfurt
Akademie der Wissenschaften und der Literatur | Mainz

Zusammenarbeit mit:
Prof. Dr. Thomas Klein (Universität Bonn)
Prof. Dr. Jochen Splett (Universität Münster)

Laufzeit:

Oktober 2016 bis November 2019

1. Ziel: Computergestützte Etablierung epochenübergreifender Wortfamilienstrukturen, zunächst für Althochdeutsch/ Mittelhochdeutsch

Ob historische Wörterbücher den Wortschatz streng einzelwortbezogen oder in Wortfamilien bearbeiten und darbieten sollen, ist seit den Anfängen der wissenschaftlichen Lexikographie umstritten. Während in der Anfangszeit mehrfach auch Wortfamilienwörterbücher realisiert wurden (z.B. Schmellers Bayerisches Wörterbuch 1827-1837, Graffs Althochdeutscher Sprachschatz 1834-1842, das Mittelhochdeutsche Wörterbuch von Benecke/Müller/Zarncke 1854-1866), dominiert heute bei den großen Belegwörterbüchern das einzelwortbezogen alphabetisch fortschreitende Wörterbuch. Ausnahmen bilden das Schweizerische Idiotikon und das Deutsche Fremdwörterbuch, in gewisser Weise auch das Althochdeutsche Wörterbuch.

Der Grund für die Bevorzugung der einzelwortbezogen alphabetisch fortschreitenden Wörterbucharbeit ist nicht inhaltlicher Natur, sondern vor allem wörterbuchplanerischer Art. Bei Ausarbeitung von Wortfamilien lässt sich der Arbeitsfortschritt scheinbar nicht so stringent planen, kontrollieren und durch Publikation dokumentieren wie bei Abarbeitung einer alphabetischen Stichwortliste. Dies spielt vor allem eine Rolle für die Großunternehmen der Akademienforschung, die mit engen planerischen Vorgaben und Auflagen arbeiten. Dass auch in diesen Arbeit nach Wortfamilien möglich ist, zeigt das Beispiel des Althochdeutschen Wörterbuchs (AWB) der Sächsischen Akademie der Wissenschaften, dessen Begründer in einer längeren Vorbereitungsphase zunächst mit der Ausarbeitung von Wortfamilien begonnen haben (vgl. z. B. den Werkstattbericht von Karg-Gasterstädt 1942); das ist bis heute im Wesentlichen beibehalten worden, publiziert wird allerdings (gemäßigt) einzelwort-alphabetisch.

Der Erkenntniswert der Wortfamilieneinheit für die Lexikographie und darüber hinaus für sprachgeschichtliche Fragen überhaupt ist völlig unbestritten (vgl. etwa Hundsnurscher 2002 und Splett 2002). Eindrucksvolle Zeugnisse dafür sind die beiden Wortfamilienwörterbücher zum Althochdeutschen und zum Gegenwartsdeutschen, die – abseits der Akademienforschung – von Jochen Splett an der Universität Münster ausgearbeitet worden sind (erschienen 1993 und 2009). Der Fokus liegt bei ihnen auf der Analyse der Wortbildungen und ihrer Ableitungsbeziehungen, die Bedeutungsangaben beruhen auf den zugrundeliegenden Belegwörterbüchern und weiteren lexikographischen Hilfsmitteln.

Wo es bereits digitale Lemmalisten gibt, können Wortfamilienstrukturen computergestützt erarbeitet und epochen- und (unter bestimmten Bedingungen auch) sprachübergreifend verknüpft werden, wie präzise und auf umfangreiche Materialien gestützte Überlegungen und Erprobungen von Thomas Klein (2013, 2018) zeigen. Diese Wortfamilienstrukturen können auch nachträglich mit den Artikeln für einzelwortbezogen alphabetisch publizierte Wörterbücher verknüpft werden, so dass für diese dann eine Benutzung nach Wortfamilien möglich wird. Darüber hinaus ist die wortbildungsmorphologische Analyse der betreffenden Stichwortbestände, die der Wortfamiliengliederung zugrundeliegt, ein unschätzbares Hilfsmittel der historischen Wortbildungslehre.

ZHistLex hat es sich im Rahmen dieses Aufgabengebiets zum Ziel gesetzt, eine solche epochenübergreifende Wortfamilienstruktur exemplarisch für das Althochdeutsche und das Mittelhochdeutsche zu realisieren; für diese beiden Sprachepochen sind die Bedingungen aufgrund der exzellenten Vorarbeiten von Splett und Klein und aufgrund des Vorliegens von umfassenden lexikographischen Online-Angeboten (in Gestalt des AWB, des Verbunds der älteren Mittelhochdeutschen Wörterbücher im Trierer Wörterbuchnetz und des in Ausarbeitung befindlichen Mittelhochdeutschen Wörterbuchs) besonders günstig.

2. Erprobung am Alt- und Mittelhochdeutschen
2.1. Segmentierung der mittelhochdeutschen Lemmata

Voraussetzung für die Zuweisung von Lexemen zu Wortfamilien ist ihre wortbildungsmorphologische Segmentierung (Abtrennung der Affixe, Feststellung der Grundmorpheme) und die weitere Feststellung der Kernwort-Stämme (ggf. durch Ablaut- und Umlautbereinigung) und der Kernwörter der Wortfamilien selbst; vgl. dazu ausführlich Klein 2018, S. 17-25. So ist etwa mhd. bëtegültig ‚steuerpflichtig‘ als bët-e-gült-ig zu segmentieren, nach Um- und Ablautbereinigung ergeben sich als Kernwort-Stämme bit und gëlt, als Kernwörter (Wortfamilien-Köpfe) selbst bitten und gëlten (vgl. Klein 2018, S. 17). Die von Thomas Klein für diese Analyseschritte zur Verfügung gestellten Scripte wurden in mehreren Durchläufen erprobt und angepasst.

Als Hauptproblem der automatischen Segmentierung hat Klein (2018, S. 18f.) die mhd. nicht mehr produktiven „Alt-Suffixe“ erkannt. Für die beiden häufigsten von ihnen (-el und ‑en) wurde daher eine vollständige Einzelprüfung und ggf. Korrektur der automatischen Segmentierung der rd. 6.000 mhd. Stichwörter durchgeführt, in der diese Zeichenfolge als Suffix abgetrennt wurde. Beispiele, die den Korrekturbedarf illustrieren, sind die Rückgängigmachung der Segmentierung, im Falle von Erbwörtern etwa bei sib-en ‘sieben’ (42 Lemmata) und sat-el ‘Sattel’ (35 Lemmata), bei Lehnwörtern etwa von zirk-el ‘Zirkel’ (20 Lemmata) und tav-el ‘Tafel’ (53 Lemmata).

Bei diesem Korrekturgang zur Prüfung der automatischen Abtrennung von -en/-el wurde zugleich auch die automatische Wortfamilien-Zuordnung (vgl. die folgenden Punkte) geprüft und in zahlreichen Fällen korrigiert.

2.2. Ermittlung der mhd. Fortsetzungen ahd. Wortfamilien
2.2.1 Zuordnung der Wortstämme mhd. Fortsetzungen ahd. Lexeme zu ahd. Wortfamilien

Die Zuordnung des mhd. Wortschatzes zu den bereits im Ahd. bezeugten Wortfamilien konnte sich die Vereinigung der ahd. und mhd. Lemmalisten zunutze machen, die bereits von Thomas Klein halbautomatisch (d.h. sorgfältig geprüft) durchgeführt worden war (vgl. Klein 2018, S. 13-16).  Dabei ist zunächst bei den rd. 12.500 der rd. 73.000 mhd. Lexeme anzusetzen, für die ahd. Vorgänger bezeugt sind (17%). Diese 12.500 mhd. Lemmata weisen (bei Mehrfachzählung der Komposita entsprechend der Zahl ihrer Stämme / Grundmorpheme) insgesamt 15.000 durch Segmentierung und Alternanzbereinigung gewonnene Kernwortstämme auf, die sich nun automatisch den Wortfamilien-Kernwörtern ihrer ahd. Entsprechungen zuordnen ließen, so etwa im Fall der ahd./mhd. Simplex-Entsprechungen bitten / bitten und geltan gëlten die mhd. Wortstämme bit und gëlt den ahd. Wortfamilien BITTEN bzw. GELTAN.

2.2.2 Zuordnung mhd. Lexeme ohne ahd. Vorgänger zu ahd. Wortfamilien

Von rd. 73.000 mhd. Lexemen sind für rd. 60.500 (83%) keine ahd. Vorgänger bezeugt; bei den rd. 100.000 Wortstämmen (Stamm-tokens) dieser Lexeme, die für die Wortfamilienzuweisung relevant sind, sind es rund 85.000. Doch können für jenen Teil dieser Wortstämme (types), die in Schritt 2.2.1 bereits ahd. Wortfamilien zugeordnet worden waren, automatisch Zuordnungsvorschläge erzeugt werden: So hat etwa mhd. bët-e-gült-ig keine ahd. Entsprechung, kann aber aufgrund seiner Wortstämme bit und gëlt den ahd. Wortfamilien BITTEN und GELTAN zugewiesen werden.

Die automatische Zuordnung ist allerdings nicht immer eindeutig. So wird etwa der mhd. Wortstamm dërb den drei ahd. Wortfamilien -DERBAN (z.B. mhd. ver‑dërb‑en / ahd. firderban st.V.), DERB (mhd. dërb / ahd. derb Adj.’ungesäuert usw.’)  und DURFAN (z.B. mhd. bí-derbe  / ahd. biderbi  ‘nützlich, brauchbar’ Adj.  [nhd. bieder]) zugewiesen. In einem ersten Durchgang durch die rd. 85.000 mhd. Wortstämme ohne ahd. Vorgänger ergab die automatische Zuordnung  

  • für rd. 50.000 Stämme (rd. 59%) einen 1:1-Zuordnung,
  • für rund 12.000 Stämme (14%) eine 1:2-Zuordnung,
  • für 9.000 Stämme (11%) eine Zuordnung von 1:3 bis 1:6, in einigen Fällen auch von 1:9,
  • und für rd. 14.000 Stämme (16%) keine Zuordnung zu einer Wortfamilie.

Durch verschiedene Maßnahmen konnte dieses Ergebnis noch einmal beträchtlich verbessert werden. Dazu zählt die Berücksichtigung der Korrekturen und Zuweisungen, die bei der Abarbeitung der -en/-el-Liste (s. oben unter 2.1) gemacht wurden, vor allem aber die Einbeziehung der Wortfamiliengliederung im Mhd. Wörterbuch von Benecke /Müller/ Zarncke (BMZ, vgl. oben unter 1.). Dazu wurden aus den Daten des Mhd. Wörterbuchverbunds die Wortfamilien-Lemmata des BMZ in die mhd. Lemmaliste übernommen, so z.B. zu  becke swM. ‘Bäcker’ das BMZ-Wortfamilienlemma BACHE (1.Sg. des stV. bachen ‘backen’).

Mhd. becke sw.M. hat als Simplex keinen ahd. Vorgänger (nur als Grundwort im Kompositum brôt-becko). Nach der automatischen Zuordnung ergab sein Wortstamm BACK keinen 1:1-Zuordnungsvorschlag zu einem ahd. Kernwort, sondern einen 1:3-Vorschlag zu den ahd. Kernwörtern BACKAN ‘backen’, BACKO ‘Backe’ und BECKÎN ‘Becken’. Das BMZ-Wortfamilienlemma BACHE findet sich aber nur zu mhd. Entsprechungen von ahd. Wörtern der Wortfamilie BACKAN. So konnte mhd. becke swM. automatisch der Wortfamilie ahd. BACKAN zugewiesen werden. Knapp 5.100 Zuordnungen konnten auf diese Weise vorgenommen werden.

Im Ergebnis konnten die Fälle ohne Zuordnung auf rund 11.500 (13,5 %) und die 1:2‑ bis1:9-Zuordnungen auf rund 15.500 (18 %) statt bisher 21.000 (25 %) gesenkt werden. Die Zahl der 1:1-Zuordnungen ließ sich entsprechend von rund 50.000 (59 %) auf rund 58.000 (ca. 68 %) steigern.

2.2.3 Feststellung der mhd. Fortsetzungen ahd. Wortfamilien

Ein anderer Weg, die Fortsetzung ahd. Wortfamilien im Mhd. festzustellen, besteht in der systematischen Prüfung, ob die Kernwörter der ahd. Wortfamilien im Mittelhochdeutschen bezeugt sind. Dazu wurden zu den ahd. Wortfamilien-Köpfen ihre regelhaften mhd. Entsprechungen in der mhd. Lemmaliste gesucht (im Falle der Wortfamilie GELTAN z.B. gëlten) und bei Erfolg als mhd. Wortfamilien-Köpfe (z.B. GËLTEN) angesetzt. Auf diese Weise ließen sich zu 2.170 von 3.623 ahd. Wortfamilien (rund 60%) automatisiert mhd. Entsprechungen ermitteln. Diese Liste wurde sodann einzeln geprüft und korrigiert, ggf. fehlende mhd. Entsprechungen ergänzt, umgekehrt vermeintliche mhd. Entsprechungen für tatsächlich nicht fortgesetzte ahd. Wortfamilien wieder getilgt. Als Ergebnis kann festgehalten werden, dass die ahd. Wortfamilien im Mhd. zu knapp 82 % (2.957 von 3.623) erhalten sind. Der Wortfamilien-Bestand ist also viel konstanter als der Lexem-Bestand (nur 47% der ahd. Lexeme haben mhd. Fortsetzer).   

2.3. Nutzung von Strukturformeln

Sowohl Spletts Wörterbuch als auch Kleins Programme halten das Ergebnis der wortbildungsmorphologischen Analyse in Strukturformeln fest. Kleins Formeln sind sehr einfach gehalten und nur für einen Programmschritt der Segmentierung der Lemmata gedacht, die Abtrennung der Affixe und Feststellung der Kernwortstämme (vgl. Klein 2018, S. 17-22). Die Formeln Spletts sind hingegen sehr viel komplexer, denn sie sollen “die hierarchische Struktur der Wörter, das darauf basierende Beziehungsgeflecht innerhalb der Wortfamilie und die Verbindung zu anderen Wortfamilien” ausdrücken (Bd. I, S. XXX), nicht zuletzt durch hierarchische Klammerung. Die Strukturformeln wurden daher aus dem Frankfurter Digitalisat des Splettschen Wörterbuchs in die Projektdaten übernommen, wie bereits bei Klein 2018 (S. 16) angeregt worden ist. Der Versuch der Nutzung dieser Formeln zur automatischen Rekonstruktion der hierarchischen Binnenstruktur der Wortfamilien, z.B. in der Visualisierung in einem sog. “Stufungsprofil” (vgl. unter Materialien & Papiere), stieß aber bei vielen Lexemen auf bislang ungelöste Schwierigkeiten, die darauf beruhen, dass nicht jedem der hierarchisierten Klammerelemente der Strukturformel ein Element der segmentierten Wortform entspricht. Vgl. das Beispiel der dreigliedrig segmentierten Form ana-far-tôn ‘angreifen’ mit der viergliedrigen Strukturformel ((p(wV))sS)Vôn (zu lesen als: anafartôn < anafart < anafaran < faran), in der das Suffix t der Substantivbildung fart nicht als eigenes segmentiertes Morphem erscheint (vgl. Splett I,1, S. XXXI und im Zusammenhang der Wortfamilie faran auf S. 207). Insgesamt enthält die Wortliste 12.741 Einträge mit mindestens einem coverten Element.

2.4. Desiderate
2.4.1 Prüfung der automatisch erzeugten Wortfamilienzuweisungen

Für die Etablierung der ahd./mhd. Wortfamilienstruktur dürften mit den im Projekt geleisteten Arbeiten die Möglichkeiten der Computerunterstützung methodisch umfassend ausgeschöpft sein. Für eine vollständige Durchführung der ahd./mhd. Wortfamiliengliederung sind Vorschlagslisten zu prüfen, die mit den in 2.2.2 beschriebenen Verfahren erzeugt worden sind.  Dies betrifft die Fortsetzung der ahd. Wortfamilien im Mhd. Die neuen mhd. Wortfamilien (zum großen Teil im Bereich des lateinischen und vor allem französischen Lehnwortschatzes) und die verbleibenden mhd. Einzellexeme erfordern eigene weitere Arbeitsschritte

2.4.2. Einrichtung einer ahd./mhd. Wortfamilien-Datenbank

Die Projektergebnisse werden zur Zeit in einer Excel-Tabelle aufbewahrt. Die Überführung in eine Datenbank bleibt Desiderat, sie konnte im Rahmen des Projekts nicht mehr in Angriff genommen werden, vor allem weil die Informatikstelle erst im letzten Halbjahr des Projektzeitraums besetzt werden konnte.  

3. Exemplarische wortgeschichtliche Auswertung am Beispiel
der Wortfamilie BÛWAN/BÛWEN (nhd. bauen)

Im Zusammenhang der Mitarbeit in AP7 ergab sich die Aufgabe einer Demonstration des Werts der epochenübergreifenden Wortfamilien-Struktur für wortgeschichtliche Fragen. Darüber ist in zwei ausführlichen Referaten auf dem Arbeitsgespräch zur historischen Lexikographie in Bullay 2018 (Abstract, Handout und Literaturexzerpte online auf der Tagungsseite) sowie auf dem 26. Deutschen Germanistentag in Saarbrücken 2019 berichtet worden.

4. Bibliographie

Hundsnurscher, Franz, Das Wortfamilienproblem in der Forschungsdiskussion, in: Lexikologie / Lexicology. Ein internationales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen / An international handbook on the nature and structure of words and vocabularies, hg. v. D. Alan Cruse u.a., Bd. 1 (HSK 21,1), Berlin / New York 2002, Art. 86, S. 675-680.

Karg-Gasterstädt, Elisabeth, Aus den Ergebnissen unserer Arbeit am Althochdeutschen Wörterbuch (Aus der Werkstatt des Althochdeutschen Wörterbuchs 15), PBB 65 (1942), S. 241-256.

Klein, Thomas, Verknüpfung digitaler Lemmalisten historischer Sprachstufen des Deutschen – wie und wozu? Vortrag auf dem Arbeitsgespräch zur historischen Lexikographie 2013.

Klein, Thomas, Mittelhochdeutsche Wortfamilien: Ermittlung und Perspektiven, in: Zeitschrift für Wortbildung / Journal of Word Formation, Jg. 2 (2018), S. 11-31.

Splett, Jochen, Althochdeutsches Wörterbuch. Analyse der Wortfamilienstrukturen des Althochdeutschen, zugleich Grundlegung einer zukünftigen Strukturgeschichte des deutschen Wortschatzes, 3 Bd.e, Berlin/New York 1993.

Splett, Jochen, Bedingungen des Aufbaus, Umbaus und Abbaus von Wortfamilien, in: Lexikologie [wie Hundsnurscher], Art. 88, S. 688-699.

Splett, Jochen, Deutsches Wortfamilienwörterbuch. Analyse der Wortfamilienstrukturen der deutschen Gegenwartssprache, zugleich Grundlegung einer zukünftigen Strukturgeschichte des deutschen Wortschatzes, 18 Bd.e, Berlin/New York 2009.