1. Datengeleiteter Kernwortschatz Deutsch
Grundwortschätze wollen Lernenden jene Lexeme einer Standardsprache näher bringen, die dazu befähigen, sich möglichst schnell mit den Angehörigen einer Sprachgemeinschaft, die Trägerin der zu erlernenden Fremdsprache ist, zu verständigen. Doch Lernerinnen und Lernern können nicht alle Wörter einer Sprache erlernen, Lehrwerke und Grundwortschätze müssen eine Auswahl treffen. Das Kriterium, das bei der Auswahl fast immer implizit zur Begründung dient, ist die Wahrscheinlichkeit, mit der ein Lerner bzw. eine Lernerin mit einem Wort in Kontakt kommt. Doch wie bestimmt man die Wahrscheinlichkeit, mit der man mit einem Wort einer Fremdsprache konfrontiert wird?

  • Der kommunikativ-pragmatische Ansatz geht von in Sprachgemeinschaften typischen kommunikativen Situationen und Sprechintentionen aus, denen dann die sprachlichen Mittel – und somit auch der Wortschatz – zugeordnet werden können. So plausibel dieser Ansatz auch erscheint, so wenig empirisch fundiert ist er: er beruht nicht auf einer Erhebung oder gar Quantifizierung des Sprachgebrauchs in typischen Alltagssituationen. Der Situationsbegriff ist theoretisch ebenso wenig hinreichend bestimmt wie das Alltagskonzept. Zudem sind die sprachlichen Selektionsverfahren meist intransparent.
  • Der frequenzorientierte Ansatz bestimmt die Wahrscheinlichkeit, mit der man mit einem Wort einer Fremdsprache konfrontiert wird, indem er große Korpora auf die Häufigkeit des Auftretens von Lexemen hin untersucht. Die vorhandenen Korpora freilich sind meist sehr selektiv im Hinblick auf die von ihnen abgedeckten Kommunikationsbereiche und bilden die gesprochene Sprache nur äußerst fragmentarisch ab. Zudem kann man am frequenzorientierten Ansatz kritisieren, dass Häufigkeit und Wichtigkeit von Lexemen verkürzend gleichgesetzt wird und dass wegen der starken Formbezogenheit Bedeutungsgesichtspunkte und die kommunikative Funktion von Wörtern generell vernachlässigt wird. Gleichwohl haben frequenzorientierte Ansätze den Vorteil, dass sie überhaupt eine empirische Grundlage haben, ihre Ergebnisse somit reproduzierbar sein müssen und somit die Möglichkeit eröffnen, intersubjektiv nachvollziehbare Maßstäbe in die Wortschatzselektion einzubringen.
  • Der lexikographische Ansatz schließlich nimmt eine Metaperspektive ein: Auf der Basis von vorhandenen Wörterbüchern oder Wortschatzsammlungen wird versucht, einen Kern bzw. ein Zentrum zu herauszudestillieren.
Der auf www.basic-german.com publizierte Kernwortschatz des Deutschen wurde frequenzorientiert berechnet.

Wir verstehen frequenzorientiert allgemeiner im Sinn von "die Distribution von Lexemen / lexikalischen Morphemen betreffend" und differenzieren den Frequenzaspekt in die Dimensionen (1) Häufigkeit, (2) Stabilität und (3) Produktivität.

Datengeleitet ist unser Ansatz, weil wir nicht Hypothesen über die Häufigkeit, Stabilität und Produktivität von Lexemen anhand von großen Korpora getestet haben, sondern für jedes lexikalische Morphem induktiv mehrere Kennzahlen berechnet haben, aus deren Zusammenfassung sich der Rang der lexikalischen Einheit ergibt.
2. Berechnungskriterien
Die Kriterien zur Berechnung des Kernwortschatzes haben wir wie folgt spezifiziert:
1. Häufigkeit
Zum Kernwortschatz zählen wir Lexeme,

  • die häufig vorkommen.
  • Häufigkeit ist sinnvoll quantifizierbar als relative Frequenz (bspw. je 100.000 Wörter) oder
  • als Häufigkeitsklasse (die Frequenz eines Wortes ist umgekehrt proportional zu seinem Rang).
2. Stabilität
Zum Kernwortschatz zählen wir Lexeme, die

  • über einen längeren Zeitraum gleichmäßig häufig auftreten (also keine Modewörter sind)
  • nicht bzw. kaum themenaffin sind (d.h. in Texten unterschiedlicher thematischer Prägung gleichmäßig distribuiert sind).
3. Produktivität
Zum Kernwortschatz zählen wir Lexeme, die

  • als lexikalische Morpheme in vielen Ableitungen und Zusammensetzungen (Types) vorkommen,
  • deren Ableitungen und Komposita häufig sind (Tokens), und die
  • als lexikalische Morpheme häufiger als Zweitglied in Komposita verwendet werden
Die Frequenzdimensionen wurden mittels der in der folgenden Tabelle dargestellten Werte operationalisiert:

Dimension Spezifizierung Berechnungsbasis Wert Gewichtung
Häufigkeit Frequenz gesamtes Korpus Häufigkeitsklasse 3
Stabilität temporale Stabilität jahresspezifische Subkorpora Gries’ DP 2
thematische Stabilität Rubriken / Teilforen als Subkorpora Gries’ DP 2
Produktivität Anzahl unterschiedlicher Ableitungen und Komposita Types absolute Frequenz 1
Frequenz des Auftretens der Ableitungen und Komposita Token absolute Frequenz 1
Anzahl von Ableitungen und Komposita in niedrigen Häufigkeitsklassen Distribution der Ableitungen und Komposita über die Häufigkeitsklassen Entropie 1
Frequenz in Funktion als Determinatum auf der Basis der Types relative Frequenz 1
3. Datengrundlage
Bei der Zusammenstellung des Textkorpus, auf dessen Basis der Kernwortschatz berechnet wurde, gingen wir von zwei kommunikativen Grundkonstellationen aus:

  1. mehrfachadressierende und konzeptionell schriftliche Texte: Texte von Zeitungen und Magazinen
  2. persönlich adressierende und konzeptionell mündliche Texte: Online-Diskussionsforen
Weiter waren folgende Überlegungen bei der Zusammenstellung des Korpus leitend:

  • Zwecks Messung der temporalen Stabilität sollte das Korpus mehrere Jahre abdecken.
  • Zwecks Messung der thematischen Stabilität sollte das Korpus thematisch diversifiziert sein
  • Um Stabilität und Produktivität valide messen zu können, sollte das Korpus umfangreich sein
1. Forenkorpus (1998-2012)
Das Korpus aus Online-Diskussionsforen setzt sich wie folgt zusammen:

Quelle Beiträge Wörter
seniorentreff.de 1.005.159 68.514.967
brigitte.de 1.719.564 141.686.509
politikforen.net 3.260.363 263.866.105
Gesamt Foren: 5.985.086 474.067.581
2. Zeitungskorpus
Das Zeitungs-Diskussionsforen ist etwas kleiner und besteht aus folgenden Teilkorpora:

Quelle Beiträge Wörter
SPON 2000-2012 374.253 151.852.627
Spiegel 1990-2011 139.578 87.156.665
ZEIT 1995-2011 114.109 86.915.216
FOCUS 1993-2012 106.400 43.349.229
Gesamt Zeitungen: 734.340 369.273.737
4. Vortrag zur Einführung
Bei den Datenspuren 2016, einer Konferenz des Chaos Computer Club Dresden (C3D2), haben wir unser Projekt vorgestellt.

5. Förderung
Die Berechnung des Kernwortschatzes und die lexikographische Beschreibung des Grundwortschatzes wurde von der Japanese Society for the Promotion of Science im Rahmen folgender Projekte gefördert:
  • Korpusgeleitete Bestimmung eines Grund- und Aufbauwortschatzes für Deutschlerner /「コーパス駆動型研究に基づく学習用ドイツ語語彙」(Kakenhi Kibankenkyu B, 2011-2014)
  • Wortschatzerwerb und Sprachgebrauch: Empirische Grundlagen für kognitive Erwerbsmodelle des Grundwortschatzes Deutsch「語彙習得と言語使用:ドイツ語基本語彙の認知的習得モデルの実証的な基盤研究」(Kakenhi C, 2015-2017)
6. Personen
  • Willi Lange, Prof. em. der Waseda Universität in Tokyo, Forschungsschwerpunkte: Gesprächslinguistik, Deutsch als Fremdsprache
  • Saburo Okamura, Prof. an der Waseda Universität in Tokyo, Forschungschwerpunkte: Sprache und Geschlecht, Sprachdidaktik, Lexikographie
  • Joachim Scharloth ➚, Professor für Angewandte Linguistik an der TU Dresden, Forschungsschwerpunkte: Korpuslinguistik, Kulturwissenschaftliche Linguistik
7. Publikationen
  • Lange, Willi / Saburo Okamura / Joachim Scharloth (2016): Datengeleiteter Grundwortschatz Deutsch. In: Peter Colliander / Hans Drumbl / Doris Höhmann / Svitlana Ivanenko / Dagmar Knorr / Sandro Moraldo (Hrsg.): Linguistische Grundlagen für den Sprachunterricht. Bozen-Bolzano University Press. S. 221-230. ➚ Download
  • Scharloth, Joachim / Saburo Okamura / Willi Lange (2016): Gibt es einen Kernwortschatz? Datengeleitete Perspektiven auf die Erstellung von Grundwortschätzen für Deutsch als Fremdsprache. In: Simona Brunetti et al. (Hrsg.): Versprachlichung von Welt. Il mondo in parole. Festschrift zum 60. Geburtstag von Maria Lieber. Tübingen: Stauffenburg. S. 273-284. ➚ Download
  • Lange, Willi / Saburo Okamura / Joachim Scharloth (2015): Grundwortschatz Deutsch als Fremdsprache: Ein datengeleiteter Ansatz. In: Jörg Kilian/Jan Eckhoff (Hrsg.): Deutscher Wortschatz – beschreiben, lernen, lehren. Beiträge zur Wortschatzarbeit in Wissenschaft, Sprachunterricht, Gesellschaft. Peter Lang. ➚ Download
  • Bubenhofer, Noah / Willi Lange / Saburo Okamura / Joachim Scharloth (2015): Wortschatz in Lehrwerken für Deutsch als Fremdsprache: ein frequenzorientierter Ansatz. In: Jana Kiesendahl / Christine Ott (Hrsg.): Linguistik und Schulbuchforschung. Göttingen: V&R unipress.
  • Okamura, Saburo / Willi Lange / Joachim Scharloth (Hrsg.) (2012): Grundwortschatz Deutsch: Lexikografische und fremdsprachendidaktische Perspektiven. JGG: Tokyo. (= Studienreihe der Japanischen Gesellschaft fuer Germanistik 088) ➚ Download
  • Bubenhofer, Noah (2012): Lehrwerke und Referenzwortschätze. Der Nutzen frequenzbasierter Grundwortschätze. In: Okamura, Saburo/Lange, Willi/Scharloth, Joachim (Hrsg.): Grundwortschatz Deutsch: lexiko-grafische und fremdsprachendidaktische Perspektiven, Studienreihe der Japanischen Gesellschaft für Germanistik (SrJGG) 088, Tokyo, S. 13-27.
  • Okamura, Saburo / Willi Lange / Joachim Scharloth (2012): Methoden der Bestimmung des Kernwortschatzes Deutsch. In: Dies. (Hrsg.): Grundwortschatz Deutsch: Lexikografische und fremdsprachendidaktische Perspektiven. JGG: Tokyo. S. 29-44. (= Studienreihe der Japanischen Gesellschaft für Germantistik 088)
  • Bubenhofer, Noah / Willi Lange / Saburo Okamura / Joachim Scharloth (2011): Welcher Wortschatz? Korpuslinguistische Untersuchungen zur Wortschatzselektion japanischer Deutschlehrbücher für Anfänger. In: Doitsugo Kyoiku - Deutschunterricht in Japan, 16, S. 43-60. ➚ Download
8. Weitere Forschungsarbeiten im Kontext des Projekts
Im Rahmen des Projekts werden bzw. wurden zwei Dissertationen (co-) betreut:

  • Frank Nickel (Dresden): Die Bedeutung der Englischkompetenz japanischer Deutschlerner für den Wortschatzsaufbau DaF in Japan
  • Nelli Nurgalieva (Ufa): Anglizismen in der Pressesprache
Im Kontext des Projekts sind folgende Master- und Bacherlorarbeiten entstanden:

  • Ana Katovčić (Dresden): Sprachenlernen mit Chunks: Eine korpusbasierte Methode zur Auswahl von Konstruktionen für den DaF-Unterricht
  • Veronika Valvodová (Dresden): Zur thematischen Gliederung der Grund- und Aufbauwortschätze für DaF. Lemmaselektion und -zuordnung
  • Lydia Barth (Dresden): Präsentation von Lernerwortschätzen auf der Basis kognitiver Modelle des Wortschatzerwerbs
  • Anna Bonazzi (Dresden): Grundwortschatz Deutsch Ein Korpusansatz. Analysen zur Textabdeckung unterschiedlicher Grundwortschätze
9. Lizenz