東大2年生インターンがバイオ系ビックデータを解析に挑戦して直面した2つの壁と得た気づき
こんにちは、芦田翼です。私は現在、東京大学学部2年に所属し、3年からは統合生命科学を専攻する予定です。私はこのサイキンソーで4月から12月までの約半年間、インターンという形で社内のデータ分析に携わりました。その紆余曲折の記録と、私なりに学び得たことをお話します。
焦り、挫折、そして出会い
私がインターンをしようと思ったのは焦りの感情からでした。大学の座学だけでただ漫然と時間を過ごしている危機感に突き動かされ、やっと見つけたある大学院の研究インターンに出願するも不合格に終わり、焦りは募るばかりでした。当時は、何を研究したいのかという目的意識に欠けていたかもしれません。それでも、何か実践的な学びの機会を得たい思いでいた時に、Wantedlyで見つけたのがこのサイキンソーという会社でした。
腸内フローラのデータ、それは膨大なデータ量だった
サイキンソーは腸内フローラ検査「マイキンソー」を提供し、病気や生活習慣との関連を研究している会社です。腸内フローラという単語は授業で聞いたことがある程度で、まったく未知の分野でした。インターンが始まって最初の頃は、文献調査や社内データの加工・整理をし、腸内フローラに関する専門用語や基本的な概念を勉強しました。社内データとは、「マイキンソー」の利用者約2,000人分の食・生活習慣のアンケート結果と腸内細菌の解析結果から成る研究データのことです。腸内細菌の解析結果はのべ500種類以上の腸内細菌とその存在割合が記されたもので、これが約2,000人分集まったエクセルファイルはゆうに100万個を超えるセルからなる膨大なデータサイズになります。まだビッグデータというほどの規模ではありませんが、それでも相当量の情報です。
はじめのうちは指示された観点でこの社内データの分析をしていましたが、しばらく経ってからこの大規模なデータから何か面白い発見ができないかというお題をいただき、自ら分析を始めることになりました。
マニュアルのない世界。どうする、自分
しかしどうすればいいのか。学部生の私が踏み出せた第一歩は、それまで学びかじった分析手法をとりあえず当てはめてみるということでした。そして主要細菌と呼ばれる菌が何らかの食習慣と関連しているのではないかと仮説を立てて、お題に取り組むことにしました。
主要細菌の代表格に、いわゆる善玉菌のビフィズス菌と乳酸産生菌があります。まずこれらの菌を保有している人の割合を見てみると、ビフィズス菌の保有者は95.1%であるのに対して、乳酸産生菌の保有者は70.1%でした(図1)。
図1 ビフィズス菌と乳酸産生菌の保有者率
正直、算出した当時の私にはこれが大した差には思えませんでした。そこでもう少し詳しく見るために、各菌の腸内フローラにおける存在割合の人数分布をヒストグラムにしました(図2)。この2つのグラフを見比べると、左のビフィズス菌に比べて右の乳酸産生菌では、その存在割合が全体的に低いことがわかります。
図2 ビフィズス菌(左)と乳酸産生菌(右)の存在割合のヒストグラム
次に、これらの菌の存在割合は特定の食品を食べれば食べるほど増えるのではないかと仮説を立て、菌の存在割合と相関のある食品を探しました。その結果、ビフィズス菌の存在割合は牛乳やチーズを食べる頻度との相関が見られました(図3左)。つまり、牛乳・チーズを食べる頻度が高いほど、大腸内でビフィズス菌が占める割合が増える可能性あるということです。ここで注意したいのが、相関があるといっても相関係数は0.3程度で有意水準5%程度ですから、その相関は小さいということです。
一方の乳酸産生菌では、その存在割合と相関する食品は見つけられませんでした。ところが、少し視点をずらし乳酸産生菌の保有している人の割合と食品の摂取頻度との関係を見ると、ヨーグルトや乳酸菌飲料の摂取頻度が高いほど、乳酸産生菌の保有者率が高くなることがわかりました(図3右)。
図3牛乳・チーズの摂取頻度によるビフィズス菌の存在割合(左)、ヨーグルト・乳酸産生菌飲料の摂取頻度による乳酸産生菌の保有者率(右)(棒グラフ内の数字は人数)
このように、よく知られた善玉菌2種でも、その存在と食事との関連はまったく異なることがわかりました。しかし当初のお題に立ち戻ると、これでは取り立てて面白い発見になっていないと気づきます。ビフィズス菌の存在割合が牛乳・チーズと、乳酸産生菌の保有者率がヨーグルト・乳酸菌飲料と関係していることは、スーパーで見かける多くの機能性食品が示す通り、目新しい発見ではないからです。
でも、面白い発見があった
ところが、ある食品と非常に興味深い関係性を示す菌を見つけることができました。それは納豆菌です。学名をBacillus subtilis var. nattoといい、バチルス属菌の一種です(以降、バチルス属菌を納豆菌と表現します)。この納豆菌は「納豆」を食べる頻度と明らかに関係することが分かってきたのです。
納豆菌の保有者率は35.4%で、先に述べたビフィズス菌の95.1%や乳酸産生菌の70.1%とは大きく差があることがわかります。また、納豆の摂取頻度と納豆菌の保有者率の相関を調べたところ、検査前1週間以内に納豆を食べた人ほど納豆菌が検出される人の割合が高くなることがわかりました(図4)。
図4 納豆菌の保有者率(左)と納豆の摂取頻度による納豆菌の保有者率(右)(棒グラフ内の数字は人数)
これは一見すると当然の結果に感じられます。なぜなら、納豆を食べたのだから、そこに含まれる納豆菌が検出されることに疑念を挟む余地がないように思われるからです。しかし、先述したヨーグルトでは、ヨーグルトの摂取頻度が高い方が乳酸産生菌の保有者率が高いであるとか、乳酸産生菌の存在割合が高くなるという結果は見受けられませんでした。このヨーグルトは乳酸産生菌の発酵によるので、乳酸産生菌をふんだんに含んでいるにも関わらずです。このことからも、納豆の摂取頻度が高いほど納豆菌の保有者率が高くなることは注目に値するといえます。
納豆菌には、まだ面白いことがあるはず
他の観点でも分析できないかと先行論文を探すと、納豆菌は腸内フローラの多様性向上に寄与するため、納豆を摂取することで整腸作用が期待できるという研究を見つけました。そこで社内データでも同じことが言えるのかを検証するため、納豆菌の保有者と非保有者で多様性スコアに統計的な違いがあるかを調べました。多様性スコアとは腸内細菌の種類の多様性を表し、多様性スコアが高いほど腸内フローラのバランスが理想的であるとされています。その結果は、先行研究の示す結果と同じく、多様性スコアは納豆菌の保有者の方が有意に高いことが判明しました。さらに、納豆の摂取頻度が高いほど多様性スコアが高いということもわかりました(図5)。
図5 納豆の摂取頻度による多様性スコア
以上の検証結果から、1週間に1回以上納豆を食べることによって納豆菌が検出される確率が高まると言えます。また、腸内フローラの多様性スコアが低い場合には、納豆を食べることで多様性スコアの向上が期待出来ると言えるかもしれません。
しかしそれと同時に興味深いのは、納豆を高頻度で食べていても納豆菌が全く検出されない人がいるということです。この人たちの腸内フローラは一体どうなっているのか、疑問は尽きません。しかし、既にインターンは時間切れ、検証は持ち越しになりました。
科学的営みの一端を垣間見た
今回のインターンを通して、私は膨大なデータを前に試行錯誤してはみたものの、すでに知られている知見を社内データで再現することに終始してしまいました。結果的には「社内データから何か面白い発見ができないか」というお題を満足することはできなかったと感じています。そこで最後は、分析をする私の前に立ちはだかった2つの壁に言及したいと思います。
一つ目の壁は、社内データはコホート研究を目的としたものであるのに対して、私が行った分析は仮説検証型のアプローチだったということです。この仮説検証型のアプローチで良い結果を得るには、次のようにしてデータを収集する必要があったと考えられます。例えば、納豆を直近2週間食べていない状態で腸内フローラ検査を行い、次の2週間で納豆を週1回以上食べる群と引き続き食べない群の2つに分け、再度検査するというものです。こうすることで、納豆菌の摂取頻度が高いほど納豆菌の保有者率が高くなるという仮説をシンプルに検証できるでしょう。次の機会にぜひとも挑戦したい課題です。
もう一つの重大な壁は、腸内フローラを分析するには、私が知っていた基礎的な統計手法ではまったく歯が立たなかったことです。例えば、前述の牛乳・チーズの摂取頻度とビフィズ菌の保有者率の分析では、相関係数は「弱い相関」とされる0.3程度で学術論文に掲載できるほど強い結果ではありませんでした。複雑な生態系である腸内フローラを適切に分析するには、私が用いたt検定やカイ二乗検定といった単純な関係を仮定したモデルは不向きであったのでしょう。つまり、分析対象に合わせて適切に分析手法を選択するというところに難しさがあったのです。この壁は、腸内フローラを対象とした研究に限らず、他の分野でも常に直面する課題だと予想できます。解決方法は様々あると思いますが、複雑で大規模なデータを複雑で大規模なまま解析するために、ディープラーニングなどで腸内細菌と食事の法則性を見出すことに挑戦してみたいと思い至りました。
今、約半年間のインターンを終えて、私は当初思いもしなかった学びを得ることができました。それは単に分析手法をインプットし結果をアウトプットするという経験だけでなく、本物のデータと直接向き合い科学研究の根幹的な思想とじっくり対話するという、実践的な学びなのです。加えて、インターンに対する強い目的意識がなかったことも、良い方に働いたのではないかと思います。というのも、はなから目的を決めつけてそれにこだわり過ぎれば、その目的の外にある思わぬ気づきや発見を逃してしまったかもしれないからです。焦りの感情から飛び込んだ環境で、素朴な疑問を無理して飲み込まずじっくり向き合えたこと経験は、大学の座学では得られない有意義なものとなりました。
以上が、私の学び得たことです。