コーパスをつくったよ!UH-UT CSLAD ちいさい言語学者の冒険・第二言語編
本稿は「言語学な人々 Annex Advent Calendar 2024」(松浦年男氏主宰)の20日目の記事として書かせていただいた。毎年こうした場をつくって言語学研究の裾野を広げてくださる松浦氏に感謝する。
言語習得系の研究発表では「調査対象は自分の子どもです」というのがよくある。かくいう私、かつてはそれらに接する度に「あ〜はいはい、またですか」なんて思っていたことを白状するが、今となってはオマエが言うか感も甚だしい。これまで我が子の母語(日本語)習得珍プレーをネタに恥ずかしながら3冊も本を書いておいて、こんどは外国語(英語)だとはどこまでも欲張りオカンであることよ。ちいさい言語学者の、ほぼストーカーと言われても仕方ないだろう。目下親子仲はバッチバチのギッスギスだけれど...。
というわけで、本稿のねらいはまず、日本語母語話者である子ども1名の英語習得課程を縦断的に追った我々のコーパスについて知っていただくことである。その名は
UH-UT Child Second Language Acquisition Database: A collection of Longitudinal case studies (UH-UT CSLAD)(目下、説明は英語版のみです)
(科学研究費補助金 研究成果公開促進研究(データベース)平成31〜令和5 の補助を受けて遂行)
OSFというプラットフォームを利用しており、リンク先画面左上のWiki の部分がデータベース全体の説明で、その下にあるFilesとあるボックスのなかに、65セッションぶんのデータが入っている。セッションごとの中身はWikiに詳細な説明があるが、本稿の後半でも言及する。
まずはこのコーパスの生まれた経緯。私は2017年8月から2018年3月までサバティカルをいただき、University of Hawaii at Manoaに滞在した。このとき帯同した息子はすぐに現地の公立小学校(Noelani Elementary School)に通いはじめた(新学期開始が到着直後の8月1日だった)。その時のことだけ考えると、彼には苦労をかけたと思う。周囲で話されていることの1ミリも、なんなら今先生に叱られているのかどうかすらも理解できなかったことだろう。ただ、さすがハワイ、日本語継承語話者のお子さんは数名クラスにいたので、適度に助けてもらいながら、機嫌良く、とまではいかないまでもそう嫌がらずに学校には通っていた。WWEプロレス動画を観ながら「どうしてプロレスで負けたらレモネードって言うの?」という名台詞もいただいた(敗退してトーナメントから姿を消すレスラーについてアナウンサーが"xx has been eLIMINATED." というのをそう聴いたもよう)。
そんな彼の英語習得過程を記録しようではないか、ということで、ハワイ大学のDepartment of Second Language StudiesのDr. Theres Grüterと始めた、いわばこれはサバティカル期間のサイドプロジェクトだった。彼女(Theres)は彼女で、学部生に学期をとおして何かしら課題に従事させるという趣旨のコースを担当していたので好タイミングでもあったらしい。息子の会話相手としてデータに登場してくれる大学生(優しいお姉さん2名)もこのコースの履修者の中からすぐに見つけることができた。倫理申請も予め通してあった。
データとして記録するのは、とにかく本人が他人にみせびらかしたがりそうなおもちゃを持ち込んで、それでハワイ大のお姉さん(遊び相手担当と、撮影担当で交替)と遊ぶだけ、という状況。練習すべき表現が先にあるのでなく、「自分本位に場を仕切る」「あわよくば自慢する」などの、目的だけが先にある状態。本人にしてみたら、欲望、もとい目的が達せられるかどうか、しか、言語を使ううえでの関心事になっていない。それがいいのだ。
なお私が収録時同じ部屋にいると挙動不審甚だしいので、私だけがその場から排除されるという流れであった。(TheresがこっそりFacetimeで繋いでくれて、その場の様子を空き教室でスマホ越しに伺っていたなあ)
両親が別々の言語を話すようなバイリンガルのご家庭では、これは幼少期からの言語使用の記録をぜひとるべきですねえ、という心構えが生まれ実行されやすいが、純粋に第二言語として英語を、それも英語教室などの環境の外で使う(使おうとする)日本語母語話者のデータ記録は、実はそう多くない。親の仕事で英語圏に渡る小学生は世の中にはあまたいるだろうが、普通のご家族では、新しい環境でそんな段取りしてまで会話を記録するより大事なことが目白押しにきまっている。言語学者でもない限り。
第二言語習得研究プロジェクトとして行う以上、我々がここで「第二言語として」というのは、第一言語である日本語の文法がまず完成していることが前提であり、こだわりポイントでもあった。
(本稿での例文の殆どは、私がメモした日常の観察日記であり、データベースには入っていない。カッコ内の日数は小学校入学を起点にしている)
I think Manoa is police everywhere 2017.10.12 (2ヶ月11日)
母語の知識や文法操作能力がなまじあるため、例えばこのように、単文での構文知識が整う前から複文構造を出してくるあたりなかなか尊い。
息子は渡米した時点で7歳10ヶ月だったので、純粋な第二言語としての英語の、発達過程の姿をなるだけ自然にとらえるという目的にはもってこいの逸材だった。つまり第一言語が完成しているといえる程度に歳をとっているが、「自分の使う英語は間違ってるかもしれない」という意識は希薄というか皆無で、自分の欲求を満たすことしか眼中にない程度には幼い。
My class finish change ok? 2017.10.24 (2ヶ月23日)
(意訳:オレのクラス終わったらヤモリの世話交替な!)←これで伝わるんか!?ってか伝わるかどうか心配してもない
といわけで滞在中は隔週で1時間弱のプレイセッションを設け録画を続けた。さらに、サバティカル期間が終わっての帰国後は、我々が再度ハワイに短期滞在で訪れたり、またその後はなんとハワイ大学の学生さんのほうが短期研究グラントをとって交替で日本に来てくれたので、本コーパスには2019年5月まで、約20ヶ月分の期間にわたるデータを収めることができた。(なおその後もデータは継続してとり続けたので、東大独自のプロジェクト UT CSLAD(仮称)として一部コーパス化を進めている。)
開始時点では、一語文もしくは、カタマリで覚えたフレーズらしきものが大半だったが、そのカタマリ単位での過剰適用例や、
母:なんで宿題もってかえってけーへんかったん
K太郎:BECAUSE, i was helping べつのひと〜
I was … bringyourbackpack everyone 2017.12.04 (4ヶ月3日)
(bringyourbackpackをひとかたまりの他動詞だとしている。みんなに荷物を渡してあげていたのでうっかり自分の宿題は持ち帰り忘れた、と言いたいのね)
その過程での構文知識の変化は日常を観察しているだけでもとても興味深かった。
Today is not coming to Japanese school. 2017.11.21 (3ヶ月20日)
Today is I’m not coming to Japanese school. 2017.11.22 (3ヶ月21日)
(日本語の主題表現が影響しているが、それでも1日で変化(進歩?いちおう?)しているのが興味深い。放課後は、日本語非母語話者や継承話者向けの日本語教室に学童保育代わりに行っていた。小学校とは立場逆転で、唯一日本語ができるヤツとして重宝されてよかった。Japanese schoolとはそこのことを指している)
しばらくすると、英語という言語へのメタ的な視点からの疑問も表されたのも印象深かった。さすがにコーパスの中には出てこないのは残念だが、このあたりでは本人の冠詞や複数形の概念ってどうなってたんだろう(気になり始めてはいたらしい)、という補助的な情報を提供してくれるのでここに記しておく。
a って何?
sがつくからふたつあるの? 2017.11.29 (3ヶ月28日)
さて、隔週で録りためた録画データをどのようにコーパス化するか、について。もうひとつ白状すると、コーパス作成って、地道に、きっちり正確にフォーマットに則って粘り強く膨大な時間を費やして作業するという... そんなん自分が絶対やるわけねえ!というジャンルである。しかし私くらいにそこそこ歳を重ねると、苦手なことをやってくれる人たちをいかにつかまえるかという手腕に長けてくるもので、東大側でも、延べあまた多くの学生さんやもと学生さん、研究員さんたちの手を借りて本コーパスを公開までこぎ着けた。その作業にかかる人件費のために科研もとった。以下が収録データの内容である。
1セッションの情報は以下の3種類からなる。
- quick text ファイル(.txt): 特別なプログラムを用いず直感的に読むことがより容易な、発話書き起こしの随所にタイムスタンプのみ施したテキストファイル。
- CHAT形式ファイル(.cha):発話を文字化したテキスト部分に加え、話者情報や話者情報(会話相手の情報も含む)、付帯状況、コメント、録画場所タグおよび、CLANプログラムを用いて生成した形態素タグ(%mor)を伴ったメインデータファイル。さらに、映像ファイルの随所に対応する時間区切り情報(bullets)記録により映像と関連付ける機能が施されている。
- 映像ファイル(mp4) (または代替の音声ファイル)顔や、個人情報に位置づけられる視覚的情報のみモザイク処理が施されている。
どんなかんじの発話かみてみたい、という方は、映像ファイルを再生(ブラウザ上再生できるか、ダウンロードしないと観られないかは環境による)してみたり、テキストファイルの書き起こしをご覧になるのがわかりやすい。一方、CLANを用いたCHILDES(MacWhinney, 2000)上のデータ等の分析にすでに精通している方は.chaファイルを使って形態素タグの情報や、また文字情報に対応する部分の映像を自動再生する機能を使えるのが便利である。
たとえば、2018-09-11_part2 というセッションの冒頭のやりとりは、quick text (.txt)ではこう記録されている。話者情報として、インフォーマントである子どもはCHI、そして会話相手の大人は、個人名由来のVILという記号で表される。タイムスタンプは1分ごとについている。
min speaker utterance
0.0 *CHI: hey why are you saw the camera ?
*VIL: I know .
一方、以下はchat形式(.cha)である。冒頭なので、そのセッションファイル全体のメタデータが最初の9行を占めている。それ以下は会話部分であるが、単なる書き起こしに加え、正しい英語の構文だとこうなるはずだという語形 ([: seeing] これ自体は発話の一部ではないが、もし正しい英語文だったらどうであったはずか、ということを、動画や文脈から判断した情報が分析上必要になってくる) が記され、直後の行(%mor で始まる)は、品詞や語形変化に関する形態素情報が付記されている。アンダーバーで繋がった数字部分がbulletsと呼ばれる時間情報で、会話の区切りを意識して人間が割り振ったものである。映像の当該部分だけを呼び出すのに役立つ。
@UTF8
@Window: 0_0_0_0_13746_1_14249_0_14249_0
@Begin
@Languages: eng, jpn
@Participants: CHI Kotaro Target_Child, VIL Victoria Investigator, THG Theres Investigator
@ID: eng, jpn|uh_ut_cslad|CHI|8;11.04|male|||Target_Child|||
@ID: eng|uh_ut_cslad|VIL||female|||Investigator|||
@ID: eng|uh_ut_cslad|THG||female|||Investigator|||
@Media: 2018-09-11_part
@Date: 11-SEP-2018@Date: 11-SEP-2018
*CHI: hey why are you saw [: seeing] [*] the camera ? 0_3200
%mor: co|hey pro:int|why aux|be&PRES pro:per|you part|see-PRESP det:art|the n|camera ?
*VIL: I know . 3200_4179
%mor: pro:sub|I v|know .
それにしても、これを実現するのに、いやはや想像を超えた作業工程が必要となり、当初予定していた制作期間を大幅に超えてしまった。映像記録、書き起こしから始まり、前述したCHILDESで用いられるCLANという分析プログラム(MacWhinney, 2000)に対応する形で、形態素タグの施されたchat形式でのデータを作成し、映像情報と関連づけた形で公開するまでのすべての過程で「やってみないとわからない」類のさまざまな問題点やその対応が必要となった。そのあたりの苦労話はまたの機会に、とも思うが、これらすべてに取り組んでくれた歴代のメンバー(制作期間が数年に及んだ)には感謝と尊敬の気持ちが尽きない。
なお、私の中では、統語知識習得のマイルストーンとして、関係節がいつ出るのかに興味があったが、UH-UT CSLADの収録範囲において、その生産的な例(誰かの台詞の丸コピでないもの)は確認できなかった。私が観察した限り、初出の主語関係節は、2年7ヶ月経過後の2020年3月24日。先行研究に登場する5歳女児(同様にサバティカル帯同パターン)は9ヶ月くらいだったので(Kawaguchi and Yamaguchi 2019)、個人差の幅が相当大きいこともわかる。構文レベルの発達に比して、数の概念やその形態論的知識のフリーダムさが引き立つ。
There's a Kimetsutai (鬼滅隊), that get kill oni (鬼), and there's a nine guys that so strong... on Kimetsu (鬼滅)... on the Kisatsutai (鬼殺隊)... 2020.3.24 (2年7ヶ月23日)
目的語抜き出しを回避するためにget受動態を使う傾向はあったのだが、ここではそれを能動文に過剰適用している("get kill"のまとまりが他動詞扱い)のが興味深い。本例は現在鋭意作成中のUT CSLAD コーパス(仮称)に収録される見込みである。
そして、ラスボス的存在というべき(勝手にそう決めていた)、完全(省略なしの)目的語関係節は、2020年5月23日。記念すべきその文は、まさかの、母の腹肉についてであった... 幸か不幸か本例はコーパス収録対象ではない。
There is two punipuni that you can touch. 2020.5.23 (2年9ヶ月22日)
というわけで、元・ちいさい言語学者の冒険はまだまだ続いている。旅路の続きは、年齢が上がるにつれ、内容的に不適切(公開できるか!)だったり、各種権利や、本人含むプライバシーへの抵触レベルが上がったりと、それまでとは異なる困難に直面しており、後続のUT CSLADコーパスがどの程度のデータをカバーさせてもらえることになるのかはまだ不明であるものの、ひとまず、内容的にはほぼ無害なUH-UT CSLADコーパスを多くの方にお役立ていただけるなら、これ以上の幸いはない。
追記:Wikiに詳しく説明しているが、タグの品詞付与にはエラーが多く、人海戦術で手動で訂正したものの、完全にエラーフリーにはできていない点悪しからずご了承お願いする。エラーが残る傾向が高そうなパターンや、修正対象になっていない品詞、またイディオムと我々が新たに判断したケースのリストなど付録にしてある。
以下これまでの研究成果。コーパス完成前の時点で段階的に学会研究会などで口頭発表を行っていたもの。今後は論文化もがんばりたい:
広瀬友紀 (2023).子どもは英文法知識をどのように習得していくか?(1)—Wh疑問文と関係節に着目して—. 日本言語学会第166回 公開特別シンポジウム「言語学から見た子どもの英語習得」, 専修大学. 2023年6月18日.
田中広宣 (2023).子どもは英文法知識をどのように習得していくか?(2)—複雑な名詞句を使うようになるまで—. 日本言語学会第166回 公開特別シンポジウム「言語学から見た子どもの英語習得, 専修大学. 」 2023年6月18日.
田中広宣・広瀬友紀 (2023).日本語を母語とする子どものL2英語における名詞句習得の発達段階—縦断的産出データに基づくケーススタディ—.日本第二言語習得学会第23回国際年次大会, 学習院大学. 2023年10月14日.
深津聡世・広瀬友紀 (2023). 動詞形態素の獲得過程における 語彙アスペクトの影響―第二言語として英語を学習する 子どもの自然発話を用いた分析―.日本第二言語習得学会第23回国際年次大会, 学習院大学. 2023年10月15日.
中野義之・広瀬友紀 (2023).児童の L2 英語における be 動詞の過剰生成の分析.日本第二言語習得学会第23回国際年次大会, 学習院大学. 2023年10月15日.
広瀬友紀, 宮本大輔, 中野義之, 田中広宣, 安田哲也 (2023). 子供の第二言語としての英語自然発話コーパス構築. 信学技報, 123(197), 42-47.
Hirose, Y. (2024). Subject and Object Gaps in Young Learners’ L2 English. The English Linguistic Society of Japan 17th International Spring Forum. Kyoto University, May 26, 2024.
田中広宣・広瀬友紀 (2024).日本語を母語とする子どものL2英語関係節の習得過程—縦断的データに基づくケーススタディ—.日本第二言語習得学会第24回国際年次大会, 大阪教育大学. 2024年6月22日.



コメント