(cache) 自然言語処理の深層学習において転移学習はうまく行くのか?

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。

[1603.06111] How Transferable are Neural Networks in NLP Applications?

モチベーション

画像方面では、あるタスク(source side)で学習させた深層学習の結果を、別データセット(target side)でソフトマックス層だけ再学習させる転移学習(Transfer Learning)がうまくいっていると報告されています。

あるタスクでうまくいった深層学習の重みやネットワーク構造を他のタスクに適用させることができれば

再学習の手間が減る
source sideのおかげで、target sideで学習させるデータ量も少なめでもよい精度を出る(ことが期待できる)
深層学習で問題になりやすい過学習の問題を回避しやすくなる

などのメリットがありそうです。深層学習が登場する以前から、自然言語処理の分野でも転移学習の研究はされていましたが(EasyAdapt、instance weighting、structural correspondence learningなどが有名。余談だが、特にEasyAdaptはむかつくほど簡単なのにうまく行く)、深層学習の場合では、うまくいったと報告している論文もあれば、あまり精度は向上しなかったと報告している論文もあります。

この論文は自然言語処理での深層学習の有効性について、システマチックに調査することを目的としています。これを調査するために複数タスクにおいて埋め込み層、中間層、出力層をそれぞれ転移させる/させないの組み合わせで実験した結果を報告しています。結果としては、画像ほどうまく行かないといった感じの結果になっているようでした。世の中甘くはなかった...。

実験設定

データセット

データセットは全部で6つ実験していますが、大きく分けるとSentence classificationのタスクとSentence-pair classificationのタスクに分かれます。それぞれのタスクにおいて、あまり難しいネットワーク構造は出てきません。

Sentence classificationのタスク

3つのデータセットからなります。

文がpositiveかnegativeかを分類させるタスク(IMDB、MR)
文が場所、時間、数など(6種類)のどれについて聞いているかを分類させるタスク(QC)

の2つです。IMDB => MRで転移学習させる際は意味的に似たタスクを解かせていることになりますが、IMDB => QCだと意味的に大分違うタスクを解かせていることになります。

解かせる方法は基本的なLSTMで、最後にsoftmaxでどれかのクラスを吐く構造です。論文よりネットワーク構造の図を引用します。

f:id:syou6162:20161204234925p:plain

Sentence-pair classificationのタスク

3つのデータセットからなります。

文のペアのentailmentを認識させるタスク(SNIL、SICK)
2つの文が同じ意味を持つかどうかを当てるタスク(MSRP)

解かせる方法はCNNベースの方法で、そんなに凝った方法ではありません。ネットワーク構造の図(論文より引用)を載せておきます。

f:id:syou6162:20161204234945p:plain

転移学習の方法

これも大きくわけで2つ用意しています。まず1つ目は転移学習の一般的な方法でsource sideで学習した結果をtarget sideで使うという方法(INIT)。今回の実験の場合はsource sideで学習したものをtarget sideの初期値として利用するというものです、それだけ。2つ目は転移学習というよりはマルチタスク学習として解く方法(MULT)。目的関数をそれぞれのタスクの線形和でつないだものを一度に学習させます。

論文ではMULTとINITを組み合わせた方法でも実験されていますが、それほどうまく行っていないので省略します。