ComputergestĂŒtzte Etablierung epochenĂŒbergreifender Wortfamilienstrukturen

Abschlussbericht (Redaktion Ralf Plate); letzte Änderung dieser Seite 13.7.2020

1. Ziel
2. Erprobung am Alt- und Mittelhochdeutschen
2.1 Segmentierung der mittelhochdeutschen Lemmata
2.2 Ermittlung der mhd. Fortsetzungen ahd. Wortfamilien
2.2.1 Zuordnung der WortstÀmme mhd. Fortsetzungen ahd. Lexeme zu ahd. Wortfamilien
2.2.2 Zuordnung mhd. Lexeme ohne ahd. VorgÀnger zu ahd. Wortfamilien

2.2.3 Feststellung der mhd. Fortsetzungen ahd. Wortfamilien
2.3. Nutzung von Strukturformeln
2.4. Desiderate
2.4.1. PrĂŒfung der automatisch erzeugten Wortfamilienzuweisungen
2.4.2. Einrichtung einer ahd./mhd. Wortfamilien-Datenbank
3. Exemplarische wortgeschichtliche Auswertung am Beispiel der Wortfamilie BÛWAN/BÛWEN (nhd. bauen)
4. Bibliographie

Leitung und Partner:

UniversitÀt Frankfurt
Akademie der Wissenschaften und der Literatur | Mainz

Zusammenarbeit mit:
Prof. Dr. Thomas Klein (UniversitÀt Bonn)
Prof. Dr. Jochen Splett (UniversitĂ€t MĂŒnster)

Laufzeit:

Oktober 2016 bis November 2019

1. Ziel: ComputergestĂŒtzte Etablierung epochenĂŒbergreifender Wortfamilienstrukturen, zunĂ€chst fĂŒr Althochdeutsch/ Mittelhochdeutsch

Ob historische WörterbĂŒcher den Wortschatz streng einzelwortbezogen oder in Wortfamilien bearbeiten und darbieten sollen, ist seit den AnfĂ€ngen der wissenschaftlichen Lexikographie umstritten. WĂ€hrend in der Anfangszeit mehrfach auch WortfamilienwörterbĂŒcher realisiert wurden (z.B. Schmellers Bayerisches Wörterbuch 1827-1837, Graffs Althochdeutscher Sprachschatz 1834-1842, das Mittelhochdeutsche Wörterbuch von Benecke/MĂŒller/Zarncke 1854-1866), dominiert heute bei den großen BelegwörterbĂŒchern das einzelwortbezogen alphabetisch fortschreitende Wörterbuch. Ausnahmen bilden das Schweizerische Idiotikon und das Deutsche Fremdwörterbuch, in gewisser Weise auch das Althochdeutsche Wörterbuch.

Der Grund fĂŒr die Bevorzugung der einzelwortbezogen alphabetisch fortschreitenden Wörterbucharbeit ist nicht inhaltlicher Natur, sondern vor allem wörterbuchplanerischer Art. Bei Ausarbeitung von Wortfamilien lĂ€sst sich der Arbeitsfortschritt scheinbar nicht so stringent planen, kontrollieren und durch Publikation dokumentieren wie bei Abarbeitung einer alphabetischen Stichwortliste. Dies spielt vor allem eine Rolle fĂŒr die Großunternehmen der Akademienforschung, die mit engen planerischen Vorgaben und Auflagen arbeiten. Dass auch in diesen Arbeit nach Wortfamilien möglich ist, zeigt das Beispiel des Althochdeutschen Wörterbuchs (AWB) der SĂ€chsischen Akademie der Wissenschaften, dessen BegrĂŒnder in einer lĂ€ngeren Vorbereitungsphase zunĂ€chst mit der Ausarbeitung von Wortfamilien begonnen haben (vgl. z. B. den Werkstattbericht von Karg-GasterstĂ€dt 1942); das ist bis heute im Wesentlichen beibehalten worden, publiziert wird allerdings (gemĂ€ĂŸigt) einzelwort-alphabetisch.

Der Erkenntniswert der Wortfamilieneinheit fĂŒr die Lexikographie und darĂŒber hinaus fĂŒr sprachgeschichtliche Fragen ĂŒberhaupt ist völlig unbestritten (vgl. etwa Hundsnurscher 2002 und Splett 2002). Eindrucksvolle Zeugnisse dafĂŒr sind die beiden WortfamilienwörterbĂŒcher zum Althochdeutschen und zum Gegenwartsdeutschen, die – abseits der Akademienforschung – von Jochen Splett an der UniversitĂ€t MĂŒnster ausgearbeitet worden sind (erschienen 1993 und 2009). Der Fokus liegt bei ihnen auf der Analyse der Wortbildungen und ihrer Ableitungsbeziehungen, die Bedeutungsangaben beruhen auf den zugrundeliegenden BelegwörterbĂŒchern und weiteren lexikographischen Hilfsmitteln.

Wo es bereits digitale Lemmalisten gibt, können Wortfamilienstrukturen computergestĂŒtzt erarbeitet und epochen- und (unter bestimmten Bedingungen auch) sprachĂŒbergreifend verknĂŒpft werden, wie prĂ€zise und auf umfangreiche Materialien gestĂŒtzte Überlegungen und Erprobungen von Thomas Klein (2013, 2018) zeigen. Diese Wortfamilienstrukturen können auch nachtrĂ€glich mit den Artikeln fĂŒr einzelwortbezogen alphabetisch publizierte WörterbĂŒcher verknĂŒpft werden, so dass fĂŒr diese dann eine Benutzung nach Wortfamilien möglich wird. DarĂŒber hinaus ist die wortbildungsmorphologische Analyse der betreffenden StichwortbestĂ€nde, die der Wortfamiliengliederung zugrundeliegt, ein unschĂ€tzbares Hilfsmittel der historischen Wortbildungslehre.

ZHistLex hat es sich im Rahmen dieses Aufgabengebiets zum Ziel gesetzt, eine solche epochenĂŒbergreifende Wortfamilienstruktur exemplarisch fĂŒr das Althochdeutsche und das Mittelhochdeutsche zu realisieren; fĂŒr diese beiden Sprachepochen sind die Bedingungen aufgrund der exzellenten Vorarbeiten von Splett und Klein und aufgrund des Vorliegens von umfassenden lexikographischen Online-Angeboten (in Gestalt des AWB, des Verbunds der Ă€lteren Mittelhochdeutschen WörterbĂŒcher im Trierer Wörterbuchnetz und des in Ausarbeitung befindlichen Mittelhochdeutschen Wörterbuchs) besonders gĂŒnstig.

2. Erprobung am Alt- und Mittelhochdeutschen
2.1. Segmentierung der mittelhochdeutschen Lemmata

Voraussetzung fĂŒr die Zuweisung von Lexemen zu Wortfamilien ist ihre wortbildungsmorphologische Segmentierung (Abtrennung der Affixe, Feststellung der Grundmorpheme) und die weitere Feststellung der Kernwort-StĂ€mme (ggf. durch Ablaut- und Umlautbereinigung) und der Kernwörter der Wortfamilien selbst; vgl. dazu ausfĂŒhrlich Klein 2018, S. 17-25. So ist etwa mhd. bĂ«tegĂŒltig ‚steuerpflichtig‘ als bĂ«t-e-gĂŒlt-ig zu segmentieren, nach Um- und Ablautbereinigung ergeben sich als Kernwort-StĂ€mme bit und gĂ«lt, als Kernwörter (Wortfamilien-Köpfe) selbst bitten und gĂ«lten (vgl. Klein 2018, S. 17). Die von Thomas Klein fĂŒr diese Analyseschritte zur VerfĂŒgung gestellten Scripte wurden in mehreren DurchlĂ€ufen erprobt und angepasst.

Als Hauptproblem der automatischen Segmentierung hat Klein (2018, S. 18f.) die mhd. nicht mehr produktiven „Alt-Suffixe“ erkannt. FĂŒr die beiden hĂ€ufigsten von ihnen (-el und ‑en) wurde daher eine vollstĂ€ndige EinzelprĂŒfung und ggf. Korrektur der automatischen Segmentierung der rd. 6.000 mhd. Stichwörter durchgefĂŒhrt, in der diese Zeichenfolge als Suffix abgetrennt wurde. Beispiele, die den Korrekturbedarf illustrieren, sind die RĂŒckgĂ€ngigmachung der Segmentierung, im Falle von Erbwörtern etwa bei sib-en ‘sieben’ (42 Lemmata) und sat-el ‘Sattel’ (35 Lemmata), bei Lehnwörtern etwa von zirk-el ‘Zirkel’ (20 Lemmata) und tav-el ‘Tafel’ (53 Lemmata).

Bei diesem Korrekturgang zur PrĂŒfung der automatischen Abtrennung von -en/-el wurde zugleich auch die automatische Wortfamilien-Zuordnung (vgl. die folgenden Punkte) geprĂŒft und in zahlreichen FĂ€llen korrigiert.

2.2. Ermittlung der mhd. Fortsetzungen ahd. Wortfamilien
2.2.1 Zuordnung der WortstÀmme mhd. Fortsetzungen ahd. Lexeme zu ahd. Wortfamilien

Die Zuordnung des mhd. Wortschatzes zu den bereits im Ahd. bezeugten Wortfamilien konnte sich die Vereinigung der ahd. und mhd. Lemmalisten zunutze machen, die bereits von Thomas Klein halbautomatisch (d.h. sorgfĂ€ltig geprĂŒft) durchgefĂŒhrt worden war (vgl. Klein 2018, S. 13-16).  Dabei ist zunĂ€chst bei den rd. 12.500 der rd. 73.000 mhd. Lexeme anzusetzen, fĂŒr die ahd. VorgĂ€nger bezeugt sind (17%). Diese 12.500 mhd. Lemmata weisen (bei MehrfachzĂ€hlung der Komposita entsprechend der Zahl ihrer StĂ€mme / Grundmorpheme) insgesamt 15.000 durch Segmentierung und Alternanzbereinigung gewonnene KernwortstĂ€mme auf, die sich nun automatisch den Wortfamilien-Kernwörtern ihrer ahd. Entsprechungen zuordnen ließen, so etwa im Fall der ahd./mhd. Simplex-Entsprechungen bitten / bitten und geltan gĂ«lten die mhd. WortstĂ€mme bit und gĂ«lt den ahd. Wortfamilien BITTEN bzw. GELTAN.

2.2.2 Zuordnung mhd. Lexeme ohne ahd. VorgÀnger zu ahd. Wortfamilien

Von rd. 73.000 mhd. Lexemen sind fĂŒr rd. 60.500 (83%) keine ahd. VorgĂ€nger bezeugt; bei den rd. 100.000 WortstĂ€mmen (Stamm-tokens) dieser Lexeme, die fĂŒr die Wortfamilienzuweisung relevant sind, sind es rund 85.000. Doch können fĂŒr jenen Teil dieser WortstĂ€mme (types), die in Schritt 2.2.1 bereits ahd. Wortfamilien zugeordnet worden waren, automatisch ZuordnungsvorschlĂ€ge erzeugt werden: So hat etwa mhd. bĂ«t-e-gĂŒlt-ig keine ahd. Entsprechung, kann aber aufgrund seiner WortstĂ€mme bit und gĂ«lt den ahd. Wortfamilien BITTEN und GELTAN zugewiesen werden.

Die automatische Zuordnung ist allerdings nicht immer eindeutig. So wird etwa der mhd. Wortstamm dĂ«rb den drei ahd. Wortfamilien -DERBAN (z.B. mhd. ver‑dĂ«rb‑en / ahd. firderban st.V.), DERB (mhd. dĂ«rb / ahd. derb Adj.’ungesĂ€uert usw.’)  und DURFAN (z.B. mhd. bĂ­-derbe  / ahd. biderbi  ‘nĂŒtzlich, brauchbar’ Adj.  [nhd. bieder]) zugewiesen. In einem ersten Durchgang durch die rd. 85.000 mhd. WortstĂ€mme ohne ahd. VorgĂ€nger ergab die automatische Zuordnung  

  • fĂŒr rd. 50.000 StĂ€mme (rd. 59%) einen 1:1-Zuordnung,
  • fĂŒr rund 12.000 StĂ€mme (14%) eine 1:2-Zuordnung,
  • fĂŒr 9.000 StĂ€mme (11%) eine Zuordnung von 1:3 bis 1:6, in einigen FĂ€llen auch von 1:9,
  • und fĂŒr rd. 14.000 StĂ€mme (16%) keine Zuordnung zu einer Wortfamilie.

Durch verschiedene Maßnahmen konnte dieses Ergebnis noch einmal betrĂ€chtlich verbessert werden. Dazu zĂ€hlt die BerĂŒcksichtigung der Korrekturen und Zuweisungen, die bei der Abarbeitung der -en/-el-Liste (s. oben unter 2.1) gemacht wurden, vor allem aber die Einbeziehung der Wortfamiliengliederung im Mhd. Wörterbuch von Benecke /MĂŒller/ Zarncke (BMZ, vgl. oben unter 1.). Dazu wurden aus den Daten des Mhd. Wörterbuchverbunds die Wortfamilien-Lemmata des BMZ in die mhd. Lemmaliste ĂŒbernommen, so z.B. zu  becke swM. ‘BĂ€cker’ das BMZ-Wortfamilienlemma BACHE (1.Sg. des stV. bachen ‘backen’).

Mhd. becke sw.M. hat als Simplex keinen ahd. VorgĂ€nger (nur als Grundwort im Kompositum brĂŽt-becko). Nach der automatischen Zuordnung ergab sein Wortstamm BACK keinen 1:1-Zuordnungsvorschlag zu einem ahd. Kernwort, sondern einen 1:3-Vorschlag zu den ahd. Kernwörtern BACKAN ‘backen’, BACKO ‘Backe’ und BECKÎN ‘Becken’. Das BMZ-Wortfamilienlemma BACHE findet sich aber nur zu mhd. Entsprechungen von ahd. Wörtern der Wortfamilie BACKAN. So konnte mhd. becke swM. automatisch der Wortfamilie ahd. BACKAN zugewiesen werden. Knapp 5.100 Zuordnungen konnten auf diese Weise vorgenommen werden.

Im Ergebnis konnten die FĂ€lle ohne Zuordnung auf rund 11.500 (13,5 %) und die 1:2‑ bis1:9-Zuordnungen auf rund 15.500 (18 %) statt bisher 21.000 (25 %) gesenkt werden. Die Zahl der 1:1-Zuordnungen ließ sich entsprechend von rund 50.000 (59 %) auf rund 58.000 (ca. 68 %) steigern.

2.2.3 Feststellung der mhd. Fortsetzungen ahd. Wortfamilien

Ein anderer Weg, die Fortsetzung ahd. Wortfamilien im Mhd. festzustellen, besteht in der systematischen PrĂŒfung, ob die Kernwörter der ahd. Wortfamilien im Mittelhochdeutschen bezeugt sind. Dazu wurden zu den ahd. Wortfamilien-Köpfen ihre regelhaften mhd. Entsprechungen in der mhd. Lemmaliste gesucht (im Falle der Wortfamilie GELTAN z.B. gĂ«lten) und bei Erfolg als mhd. Wortfamilien-Köpfe (z.B. GËLTEN) angesetzt. Auf diese Weise ließen sich zu 2.170 von 3.623 ahd. Wortfamilien (rund 60%) automatisiert mhd. Entsprechungen ermitteln. Diese Liste wurde sodann einzeln geprĂŒft und korrigiert, ggf. fehlende mhd. Entsprechungen ergĂ€nzt, umgekehrt vermeintliche mhd. Entsprechungen fĂŒr tatsĂ€chlich nicht fortgesetzte ahd. Wortfamilien wieder getilgt. Als Ergebnis kann festgehalten werden, dass die ahd. Wortfamilien im Mhd. zu knapp 82 % (2.957 von 3.623) erhalten sind. Der Wortfamilien-Bestand ist also viel konstanter als der Lexem-Bestand (nur 47% der ahd. Lexeme haben mhd. Fortsetzer).   

2.3. Nutzung von Strukturformeln

Sowohl Spletts Wörterbuch als auch Kleins Programme halten das Ergebnis der wortbildungsmorphologischen Analyse in Strukturformeln fest. Kleins Formeln sind sehr einfach gehalten und nur fĂŒr einen Programmschritt der Segmentierung der Lemmata gedacht, die Abtrennung der Affixe und Feststellung der KernwortstĂ€mme (vgl. Klein 2018, S. 17-22). Die Formeln Spletts sind hingegen sehr viel komplexer, denn sie sollen “die hierarchische Struktur der Wörter, das darauf basierende Beziehungsgeflecht innerhalb der Wortfamilie und die Verbindung zu anderen Wortfamilien” ausdrĂŒcken (Bd. I, S. XXX), nicht zuletzt durch hierarchische Klammerung. Die Strukturformeln wurden daher aus dem Frankfurter Digitalisat des Splettschen Wörterbuchs in die Projektdaten ĂŒbernommen, wie bereits bei Klein 2018 (S. 16) angeregt worden ist. Der Versuch der Nutzung dieser Formeln zur automatischen Rekonstruktion der hierarchischen Binnenstruktur der Wortfamilien, z.B. in der Visualisierung in einem sog. “Stufungsprofil” (vgl. unter Materialien & Papiere), stieß aber bei vielen Lexemen auf bislang ungelöste Schwierigkeiten, die darauf beruhen, dass nicht jedem der hierarchisierten Klammerelemente der Strukturformel ein Element der segmentierten Wortform entspricht. Vgl. das Beispiel der dreigliedrig segmentierten Form ana-far-tĂŽn ‘angreifen’ mit der viergliedrigen Strukturformel ((p(wV))sS)VĂŽn (zu lesen als: anafartĂŽn < anafart < anafaran < faran), in der das Suffix t der Substantivbildung fart nicht als eigenes segmentiertes Morphem erscheint (vgl. Splett I,1, S. XXXI und im Zusammenhang der Wortfamilie faran auf S. 207). Insgesamt enthĂ€lt die Wortliste 12.741 EintrĂ€ge mit mindestens einem coverten Element.

2.4. Desiderate
2.4.1 PrĂŒfung der automatisch erzeugten Wortfamilienzuweisungen

FĂŒr die Etablierung der ahd./mhd. Wortfamilienstruktur dĂŒrften mit den im Projekt geleisteten Arbeiten die Möglichkeiten der ComputerunterstĂŒtzung methodisch umfassend ausgeschöpft sein. FĂŒr eine vollstĂ€ndige DurchfĂŒhrung der ahd./mhd. Wortfamiliengliederung sind Vorschlagslisten zu prĂŒfen, die mit den in 2.2.2 beschriebenen Verfahren erzeugt worden sind.  Dies betrifft die Fortsetzung der ahd. Wortfamilien im Mhd. Die neuen mhd. Wortfamilien (zum großen Teil im Bereich des lateinischen und vor allem französischen Lehnwortschatzes) und die verbleibenden mhd. Einzellexeme erfordern eigene weitere Arbeitsschritte

2.4.2. Einrichtung einer ahd./mhd. Wortfamilien-Datenbank

Die Projektergebnisse werden zur Zeit in einer Excel-Tabelle aufbewahrt. Die ÜberfĂŒhrung in eine Datenbank bleibt Desiderat, sie konnte im Rahmen des Projekts nicht mehr in Angriff genommen werden, vor allem weil die Informatikstelle erst im letzten Halbjahr des Projektzeitraums besetzt werden konnte.  

3. Exemplarische wortgeschichtliche Auswertung am Beispiel
der Wortfamilie BÛWAN/BÛWEN (nhd. bauen)

Im Zusammenhang der Mitarbeit in AP7 ergab sich die Aufgabe einer Demonstration des Werts der epochenĂŒbergreifenden Wortfamilien-Struktur fĂŒr wortgeschichtliche Fragen. DarĂŒber ist in zwei ausfĂŒhrlichen Referaten auf dem ArbeitsgesprĂ€ch zur historischen Lexikographie in Bullay 2018 (Abstract, Handout und Literaturexzerpte online auf der Tagungsseite) sowie auf dem 26. Deutschen Germanistentag in SaarbrĂŒcken 2019 berichtet worden.

4. Bibliographie

Hundsnurscher, Franz, Das Wortfamilienproblem in der Forschungsdiskussion, in: Lexikologie / Lexicology. Ein internationales Handbuch zur Natur und Struktur von Wörtern und WortschÀtzen / An international handbook on the nature and structure of words and vocabularies, hg. v. D. Alan Cruse u.a., Bd. 1 (HSK 21,1), Berlin / New York 2002, Art. 86, S. 675-680.

Karg-GasterstÀdt, Elisabeth, Aus den Ergebnissen unserer Arbeit am Althochdeutschen Wörterbuch (Aus der Werkstatt des Althochdeutschen Wörterbuchs 15), PBB 65 (1942), S. 241-256.

Klein, Thomas, VerknĂŒpfung digitaler Lemmalisten historischer Sprachstufen des Deutschen – wie und wozu? Vortrag auf dem ArbeitsgesprĂ€ch zur historischen Lexikographie 2013.

Klein, Thomas, Mittelhochdeutsche Wortfamilien: Ermittlung und Perspektiven, in: Zeitschrift fĂŒr Wortbildung / Journal of Word Formation, Jg. 2 (2018), S. 11-31.

Splett, Jochen, Althochdeutsches Wörterbuch. Analyse der Wortfamilienstrukturen des Althochdeutschen, zugleich Grundlegung einer zukĂŒnftigen Strukturgeschichte des deutschen Wortschatzes, 3 Bd.e, Berlin/New York 1993.

Splett, Jochen, Bedingungen des Aufbaus, Umbaus und Abbaus von Wortfamilien, in: Lexikologie [wie Hundsnurscher], Art. 88, S. 688-699.

Splett, Jochen, Deutsches Wortfamilienwörterbuch. Analyse der Wortfamilienstrukturen der deutschen Gegenwartssprache, zugleich Grundlegung einer zukĂŒnftigen Strukturgeschichte des deutschen Wortschatzes, 18 Bd.e, Berlin/New York 2009.