1.データ駆動型ドイツ語基礎語彙
基礎語彙はある標準的言語が持つ特定のレキセーム(語彙素)を学習者に示し、それにより学習者ができるだけ短期間に自分が学習している言語を担う言語共同体の構成員と意志の疎通ができるようになることを目標とするものである。しかし学習者はある言語のあらゆる語を覚えるわけにはいかないので、その言語の教科書及び基礎語彙は選択しなければならない。選択の際に、ほとんど常に暗黙のうちに選択の根拠となるのは、学習者がある語と接触するであろう可能性である。しかし学習者が外国語のある語と接触する可能性はどのようにすれば確認できるのだろうか。
このwww.basic-german.comで公表されているドイツ語基礎語彙を我々は頻度による方法によって算出した。我々は「頻度による」ということを、より一般的に「レキセーム(語彙素)及び辞書的なモルフェーム(形態素)の分布に該当する」という意味に理解し、頻度の観点を以下の3つの要素に分ける:(1)(出現)頻度、(2)安定性、及び(3)造語能力。我々の方法は以下の理由からデータ駆動型であると呼ぶことができる:我々はレキセーム(語彙素))の(出現)頻度、安定性、及び造語能力についての仮説を大きなコーパスを使って検証しようとするのではなく、我々は辞書的なモルフェーム(形態素)一つ一つについて帰納的に数々の指標を算出し、それらの指標を総合することによってこれらの辞書的単位(すなわちレキセームと辞書的なモルフェーム)のランク付けを行っている。
2.算出の基準
基礎語彙算出のための基準を我々は以下のように詳しく定める:
1. (出現)頻度
以下に述べるレキセーム(語彙素)を基礎語彙に数える:
  • 出現頻度が高いもの
  • 頻度は相対的な頻度(例えば10万語の中に何回出現するか)、または頻度クラス (ある語の頻度はそのランクに反比例する)として有意的に数量化できる。
2. 安定性
以下に述べるレキセーム(語彙素))を基礎語彙に数える:
  • 比較的長い期間にわたって均等に頻繁に出現するもの(故に一時的によく使われる流行語は含まない)
  • 特定のテーマと関連がない、または関連がそれほど強くないもの(いろいろな種類のテーマのテクストの中に均等に分布しているもの)
3. 造語能力
以下に述べるレキセーム(語彙素)を基礎語彙に数える:
  • 辞書的なモルフェーム(形態素)として多くの派生語及び合成語の中に現れるもの(タイプ)
  • その派生語及び合成語が頻繁に現れるもの(トークン)。そして辞書的なモルフェーム(形態素)としては、合成語の(第1構成要素ではなく)第2構成要素となってより頻繁につかわれるもの。
頻度の要素は次表に挙げられた値によって処理された。
要素 内容 計算の基盤 換算率
頻度 出現頻度 全コーパス 頻度クラス x 3            
安定性 経時的な安定性 年度ごとのサブコーパス Gries’ DP x 2
テーマの安定性 テーマ、題名ごとのサブコーパス Gries’ DP x 2
造語能力 異なる派生語及び合成語の数 タイプ 絶対的な頻度 x 1
派生語及び合成語の出現頻度 トークン 絶対的な頻度 x 1
下位の頻度クラスにおける派生語及び合成語の数 派生語及び合成語の全頻度クラスに渡る分布 エントロピー x 1
(合成語の)基礎語として機能する頻度 タイプをもとにして 相対的な頻度 x 1
3.データの基盤
基礎語彙を算出するためのテクストコーパスを作成する際に、我々は二つのコミュニカティヴな条件から出発した。
  1. 多数の人を相手として想定する、コンセプトとして書き言葉のテクスト:新聞や雑誌のテクスト
  2. 個人を相手として想定する、コンセプトとして話し言葉のテクスト:ネットの議論フォーラム
コーパス作成においてはさらに以下の考慮が重要な意味を持った:
  • 時間的な安定性を計るためにコーパスは何年かに渡る期間をカバーすべきである、
  • テーマ的な安定性を計るためにコーパスは種々のテーマをカバーすべきである
  • 安定性及び造語能力を有効に計るためにはコーパスは十分な規模を持つべきである
1. フォーラム・コーパス (1998-2012)
ネットの議論フォーラムのコーパスは以下の部分からなっている:
出典 記事数 語数
seniorentreff.de 1.005.159 68.514.967
brigitte.de 1.719.564 141.686.509
politikforen.net 3.260.363 263.866.105
フォーラム全体: 5.985.086 474.067.581
2. 新聞コーパス
新聞コーパスは以下の部分コーパスからなっている:
出典 記事数 語数
SPON 2000-2012 374.253 151.852.627
Spiegel 1990-2011 139.578 87.156.665
ZEIT 1995-2011 114.109 86.915.216
FOCUS 1993-2012 106.400 43.349.229
新聞全体 734.340 369.273.737
(注:SPONはSPIEGEL ONLINE の略)
4.このプロジェクトを紹介する講演
カオス・コンピュータ・クラブ・ドレスデン(C3D2)の会議 Datenspuren 2016において我々のプロジェクトを紹介した。

5.助成
基礎語彙の算出及び基礎語彙の辞書的な記述は、以下の2研究に関して日本学術振興会(Japanese Society for the Promotion of Science)の助成を受けている。
  • 「コーパス駆動型研究に基づく学習用ドイツ語語彙」(科研費B, 2011-2014)
  • 「語彙習得と言語使用:ドイツ語基本語彙の認知的習得モデルの実証的な基盤研究」(科研費 C, 2015-2017)
  • "Modelling Linguistic Practices for Learners of German: A Data-driven Approach to Speech Act Sets and Speech Act Sequences" (科研費 C, 2018-2020)
6.研究参加者
  • Willi Lange, 前早稻田大学教授 研究領域:談話研究、外国語としてのドイツ語
  • 岡村三郎, 前早稻田大学教授 研究領域:言語とジェンダー、言語教育、辞書学
  • Joachim Scharloth ➚(シャルロート ヨアヒム), 前ドレスデン工科大学教授(応用言語学)、早稻田大学教授 研究領域:コーパス言語学、ディジタル・ヒューマニティーズ
  • 原口厚, 早稻田大学教授 研究領域:外国語としてのドイツ語
7.このプロジェクトに関する出版物
  • Lange, Willi / Saburo Okamura / Joachim Scharloth (2016): Datengeleiteter Grundwortschatz Deutsch. In: Peter Colliander / Hans Drumbl / Doris Höhmann / Svitlana Ivanenko / Dagmar Knorr / Sandro Moraldo (Hrsg.): Linguistische Grundlagen für den Sprachunterricht. Bozen-Bolzano University Press. S. 221-230. ➚ Download
  • Scharloth, Joachim / Saburo Okamura / Willi Lange (2016): Gibt es einen Kernwortschatz? Datengeleitete Perspektiven auf die Erstellung von Grundwortschätzen für Deutsch als Fremdsprache. In: Simona Brunetti et al. (Hrsg.): Versprachlichung von Welt. Il mondo in parole. Festschrift zum 60. Geburtstag von Maria Lieber. Tübingen: Stauffenburg. S. 273-284. ➚ Download
  • Lange, Willi / Saburo Okamura / Joachim Scharloth (2015): Grundwortschatz Deutsch als Fremdsprache: Ein datengeleiteter Ansatz. In: Jörg Kilian/Jan Eckhoff (Hrsg.): Deutscher Wortschatz – beschreiben, lernen, lehren. Beiträge zur Wortschatzarbeit in Wissenschaft, Sprachunterricht, Gesellschaft. Peter Lang. ➚ Download
  • Bubenhofer, Noah / Willi Lange / Saburo Okamura / Joachim Scharloth (2015): Wortschatz in Lehrwerken für Deutsch als Fremdsprache: ein frequenzorientierter Ansatz. In: Jana Kiesendahl / Christine Ott (Hrsg.): Linguistik und Schulbuchforschung. Göttingen: V&R unipress.
  • Okamura, Saburo / Willi Lange / Joachim Scharloth (Hrsg.) (2012): Grundwortschatz Deutsch: Lexikografische und fremdsprachendidaktische Perspektiven. JGG: Tokyo. (= Studienreihe der Japanischen Gesellschaft fuer Germanistik 088) ➚ Download
  • Bubenhofer, Noah (2012): Lehrwerke und Referenzwortschätze. Der Nutzen frequenzbasierter Grundwortschätze. In: Okamura, Saburo/Lange, Willi/Scharloth, Joachim (Hrsg.): Grundwortschatz Deutsch: lexiko-grafische und fremdsprachendidaktische Perspektiven, Studienreihe der Japanischen Gesellschaft für Germanistik (SrJGG) 088, Tokyo, S. 13-27.
  • Okamura, Saburo / Willi Lange / Joachim Scharloth (2012): Methoden der Bestimmung des Kernwortschatzes Deutsch. In: Dies. (Hrsg.): Grundwortschatz Deutsch: Lexikografische und fremdsprachendidaktische Perspektiven. JGG: Tokyo. S. 29-44. (= Studienreihe der Japanischen Gesellschaft für Germantistik 088)
  • Bubenhofer, Noah / Willi Lange / Saburo Okamura / Joachim Scharloth (2011): Welcher Wortschatz? Korpuslinguistische Untersuchungen zur Wortschatzselektion japanischer Deutschlehrbücher für Anfänger. In: Doitsugo Kyoiku - Deutschunterricht in Japan, 16, S. 43-60. ➚ Download
8.このプロジェクトに関連する研究
このプロジェクトと関連して次の博士論文が作成されている:
  • Frank Nickel (Dresden): Die Bedeutung der Englischkompetenz japanischer Deutschlerner für den Wortschatzsaufbau DaF in Japan
  • Nelli Nurgalieva (Ufa): Anglizismen in der Pressesprache
このプロジェクトと関連して次のマスター、バチェラー論文が作成されている:
  • Ana Katovčić (Dresden): Sprachenlernen mit Chunks: Eine korpusbasierte Methode zur Auswahl von Konstruktionen für den DaF-Unterricht
  • Veronika Valvodová (Dresden): Zur thematischen Gliederung der Grund- und Aufbauwortschätze für DaF. Lemmaselektion und -zuordnung
  • Lydia Barth (Dresden): Präsentation von Lernerwortschätzen auf der Basis kognitiver Modelle des Wortschatzerwerbs
  • Anna Bonazzi (Dresden): Grundwortschatz Deutsch_ Ein Korpusansatz. Analysen zur Textabdeckung unterschiedlicher Grundwortschätze
  • Elisabeth Muntschick (Leipzig): Zur Bewertung von Textschwierigkeit am Beispiel von Kinder- und Jugendliteratur - Eine korpuslinguistische Analyse im Kontext DaF
9.ライセンス
クリエイティブ・コモンズ・ライセンス     この 作品 は クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンスの下に提供されています。