医学の地平線
第117号 データサイエンスの歴史
世界の科学も産業も、「モノ」だけを対象にした時代から、「データと情報」も対象とする時代に移りつつあります。データと情報を対象とする科学分野を「データサイエンス」と呼ぶ傾向が強くなりました。そこで、本稿ではデータサイエンスの歴史について解説したいと思います。
我が国では科学も産業も欧米からの輸入に頼ってきたというのが現実です。もちろん、輸入したものに改良を加え、世界最高の品質を誇ってきたという自負はあるでしょう。しかし輸入に頼るとどうしても現場主義が最優先され、歴史は置き去りにされることが多いものです。科学や産業の由来はどうでもいいから、とにかくすぐ役立つものを作ってくれという要請が強いのが我が国です。追いつき、追い越すためには歴史を振り返る余裕はなかったのではないでしょうか。製造業では、ある程度それが通用したかも知れません。モノは誰にでも見え、しかも理解しやすいからです。しかし、これから重要になる「データと情報」の世界ではそういうわけには行かないというのが私の考えです。それを理解するためには目に見えない「概念」や「関連と因果」を理解する必要があるからです。
我々が認識できる対象として「モノ」「データ」「情報」があります。我が国ではデータと情報を区別しないことが多いようですが、私は、データと情報はかなり異なった対象であると考えています。例えば遺伝子について考えてみましょう。遺伝子は、モノとしてはDNAという化合物です。しかし、データとしてみるとアデニン、グアニン、チミン、シトシンという4文字の配列です。ヒトゲノムはこの文字が30億個でできています。父由来の30億の文字、母由来の30億の文字が次の世代の受精卵に伝えられ、一人の人間が形成されるわけです。データはモノほどではありませんが多くの人に理解しやすいものです。データそのものは見ることができるとは言い切れませんが、書いた文字や記号の並び方として見ることができます。データは多くの場合、モノと一対一対応することが多いものです。
これに比較して「情報」は理解することが容易ではありません。例えばデータである遺伝子の配列と表現型の関係が「情報」です。遺伝子のこの配列が変化しているから、この病気になる、あるいは遺伝子のその配列が変化しているから、この薬の副作用がでやすい、というようなものが「情報」です。
このように情報はモノやデータの間の「関係」に関するものが多いといえます。その中でも最も重要な情報は「因果」に関するものです。「関係」の情報であっても、それが「因果関係」でなければ価値は低いものです。因果に関する情報が重要な理由は、それを予測に用いることができるためです。例えば、血液型と性格の関連が単なる「関係」であれば、血液型から性格は予測できません。しかし、因果関係であれば、血液型から性格が予測できることになります。日本では情報を直感や純粋な数学として考える傾向があるため、因果の把握が甘い傾向があるように思われます。
また因果関係があれば、原因を動かすことで結果を動かすことができます。例えば、喫煙が癌の原因であれば、喫煙をやめることで癌の可能性を減らすことができます。しかし、単なる関係であればそのようなことは起きません。
既に世界の重要な産業は、対象を「モノ」から「データと情報」に移しています。日本も「モノ」だけを対象とした教育から、「データと情報」も対象とした教育に重点を移す必要があります。これには、現在の教育の大幅な改革が必要だと考えています。
現場主義だけではなく、歴史を知る必要があるという最初の問題に戻りますが、データサイエンスは次のような歴史を辿っています。
遺伝学の時代 → 統計学の時代 → 情報学の時代 → 人工知能の時代
今、まさにデータサイエンスは「情報学の時代」から「人工知能の時代」に移行しつつあります。もちろん、その前の3つの項目の重要性は継続しますが、人工知能の重要性が今後増してくるといえます。我が国は輸入科学の特徴として、これらの時代の間の学問的、あるいは人的なつながりが無いことが多いといえます。新しい時代の学問は、ある程度完成してから輸入すれば良いからです。前の時代の人々と学会の非難と迫害に耐え、新しい分野を切り開く苦しみを味わう必要はありませんでした。例えば、我が国では統計学は遺伝学とは関係なく始まり、発展してきたし、人工知能は統計学、情報学と無関係に輸入されてきたように見えます。これでは「どのように(how)」はわかっても「なぜ(why)」がわかりません。それでは、当面の現場の要望には答えられても、次の時代を生み出す力は生まれてきません。
上記の、データサイエンスの歴史について説明しましょう。遺伝学では「親と子」「遺伝子と表現型」の因果は自明です。それを前提として「回帰」「尤度と最尤法」「多変量モデル」「線形モデル」「ランダム化」などの基本的概念が構築されました(遺伝学の時代)。即ち、データサイエンスの分野では「自明の因果」を前提として様々な概念が生み出されたのです。数学から生み出された概念ではありません。統計学や人工知能で使われる概念の多くがこの時代に生み出された事は重要な事です。
しかし、因果が自明である遺伝学の対象分野は広くありません。このままではデータサイエンスの応用範囲は限られていたでしょう。次第に、因果が自明ではない対象にもデータサイエンスの手法が応用されるようになりました(統計学の時代)。しかし、統計学の時代には多くの人々は因果を前提に思考を進めていました。現在のデータを基に、「過去の出来事の確率を考える」事には大きな抵抗がありました。
その後、コンピュータの発達とともに手計算より複雑な計算が可能となり、モンテカルロ法やマルコフ連鎖のような自動計算が容易にできるようになると、Bayesの定理のような、「前後関係」を逆転した発想も容認する研究者が次第に増えてきました(情報学の時代)。
それでは、最も新しい「人工知能の時代」の、その前の時代からの本質的な変化は何でしょう。遺伝学の時代から情報学の時代まで、データサイエンスは主として生物が生み出す複雑なデータを解析することを対象としてきました。「モノ」と違って「生き物」のふるまいは不確実で多様です。その生み出すデータは複雑で膨大です(ビッグデータ)。このようなものを対象とする学問は科学ではないと物理学者の一部に言われながら、それでも何とか分析し、生き物の本質に迫る努力を続けてきたのがデータサイエンスの歴史でしょう。しかし、ここにきて、データサイエンスは、生物から得られるデータを解析するだけではなく、「生物そのものを模倣する」方向へと進んできたようにみえます(人工知能の時代)。もう一つの大きな変化は、遺伝学の時代以来主流であった「線形モデル」が、人工知能の時代では「非線形モデル」に置き換わったことです。
現在は高等生物の神経系を模したニューラルネットワークが人工知能の中枢を占めています。しかし今後、人工知能研究は生物の神経系だけではなく、神経系を作ったゲノムシステムの取り込みに向かっていくであろうというのが私の考えです。即ち、遺伝学の時代から、統計学の時代、情報学の時代を経て、人工知能の時代はループを作って、遺伝学の時代へと回帰していくであろうというのが私の予測です。人工知能を作ったのは明らかに人間の神経系です。しかし、人間の神経系を作ったのは明らかにゲノムシステムです。
先進国の産業の移り変わりを見れば、「モノ」から「データと情報」への移行が進んできています(例えば、世界時価総額ランキング:http://www.180.co.jp/world_etf_adr/adr/ranking.htm)。そのような移行の中で、日本企業の存在感が縮小していっているように見えるのは残念なことです。「モノ」を作るにしても「データと情報」を活かす必要があります。「モノ」の存在は誰でも理解できますが「データと情報」を理解するには高度な教育が必要であり、先進国の産業には必須の分野です。日本だけ手をこまねいていては、先進国から脱落する可能性も否定しきれません。人口減少の今、できるだけ早い時期に教育の改革を行ってほしいものです。そのためには、最先端の分野をただ輸入し、howを理解するだけではなく、その歴史を知り、whyを理解する必要があります。
» » 第117号 データサイエンスの歴史