本連載のテキストは,実験医学編集部が著者(谷内江)へのインタビューを元に構成したものを,著者が加筆・編集して確定する形式を採用している.編集部ではインタビューでの雰囲気や感じたニュアンスを優先してテキストを作成しており,その結果,傲慢と思われたり誤解を招きかねない表現で著者も看過している部分があるかもしれないため,ご了承いただきたい.
科学の美しさは合理的な仮説の設定と実験,結果から得られる新しい知識,そこから生まれる新しい仮説のサイクルの中に存在する.決して素早いプロセスではなく,まどろっこく感じるかもしれない.それでも現代までの自然科学はこの方法で知識を発見し,積み上げることに成功してきた.これはAIの時代になって変わるかもしれない.もしかすると仮説の生成はAIが担い,その検証は人間やロボットが担うというようになるのかもしれない.科学者としてはそのような未来に若干の恐怖も覚えつつ期待もする.
AIは人間がやってきたことと似た様なことをもっと高度にやれるようになる(やっている).人間ならではと思われてきた方法として,科学において直感やセレンディピティ(Serendipity)に頼るやり方がある.これは当てずっぽうでラッキーヒットをめざすというわけではない.人間はさまざまなことを体験する中で,広範に渡る粗い解像度のさまざまな情報を脳の中で高次に処理し,筋の良い発想を生み出すことができる.アートや音楽において,その素晴らしさを合理的に説明せずとも,共に体験することで共有できるのもそういう高次の情報処理であろう.(一見合理性があるように見える説明が,その体験を共有する者達のコミュニケーションを促進することはあるが,合理的な説明によってそれがそこになくても人々を感動させるというようなことは出来ない.人間はそのような高度の認知を使う).ヒトの体の中も世界も,多階層の事象が独立に起こるのではなく,高次かつゆるやかに連関しているとすれば,広大な世界を大量に学べるAIが,現在科学者がやっている愚鈍な知識発見プロセスをもっと上手くやれるようになっても不思議ではない.
そうではあっても,まだあとほんの僅かの間,自然科学は人間が一歩ずつ理解できるような,合理的とされるアプローチを研究のデザインと実施,そしてコミュニケーションに必要とする.科学者は他人が歩んだ研究と考察のステップを理解し,それらに頼って歩かなくてはならないし,自分もまた他人が理解できる様に自分の成果を伝える必要がある.人間が理解できる程度のロジックに自然言語は適している.しかしながら,自然言語は線条性をもってしか物事を説明できない.数式は高次のロジックも表現できるので,これを操ることができれば表現,思考,コミュニケーションの幅も広がる.また(アートは合理的に説明できないとしても),図に高次のロジックと情報を効率的に埋め込むことができる.自然科学における私たちの思考は言語,数学,映像,その他の感性に制約を受ける.裏を返すと,これらのことを意識してトレーニングすると自然科学研究でより高い思考が生み出せたり,より良い仕事ができる.
読み手のために作る図とその完全性
認知に訴える手段として図は有効だが,効果的な図を作るのもまた難しい.しかしながら,達成すべきことはグラントの書き方のところで説明したこととほとんど変わらない.図も文章と同様にプレゼンテーションツールの1つであり,他人に情報を伝える手段である.決して,自分のためのものではない(結局,科学には実験ノートを含めて自分のためにまとめる情報などない).
図は文章よりも「芸術性」を生み出しても良いと感じがちのためか,こだわりが生まれてしまう傾向があるように思う.一生懸命時間をかけて作った愛着のある図がエディター,レビュアー,読者に響くということの十分条件ではないので,そんなことを第一に考えない方がいい.正直,念のこもった図は少々気持ち悪く感じることの方が多い.自然科学では,もっとドライに,ルールに従って,第三者がストレスを感じずに研究の本質的な部分を正当に評価できるように作られているかが重要である.
今回まず,次のことを考えてみたい.論文や研究計画書では,自分達の研究の興味,研究の背景,仮説,結果,議論などは文章だけのことが多い.研究結果には図が多く用いられる.この他,研究の流れやコンセプト,実験手法を伝えたり〔ほとんどの場合,メインの実験を除きSupplemantary Figures(付録図)になる〕,議論をする際に実験結果から得られたモデルやその研究から広がる研究のビジョンを示すのにも図を効果的に使うと良い場面が多い.なぜだろうか? 究極的にはどんな研究手法やデータも文章のみで伝えられると思う.しかし,図は効率よく,情報をパッケージして示す方法である.図が持つ二次元の広がりは直感的であり,うまく使えば小さな図で大量のテキストに相当する情報量を一瞬で伝えることができる.一方で,研究の背景や議論では,自然言語のまどろっこしい線条性ゆえの行間に,科学の歴史を垣間見せたり,他の研究者の過去の研究を思い出してもらったり,読者の知性や好奇心に研究の深さや広がりの表現を委ねることもできる(もちろん,知性やインスピレーションの広がりを読者が持てるように仕掛ける責任は著者にある).
とはいえ,図は諸刃の剣である.表現能力が高く,自由度が高いために,自然言語の文法ほど図の作り方というものが定義されていないので,下手をすると,何も伝わらない図になっていたり,意図することと違うように読み手に捉えられてしまう.こういうことが絶対にあってはいけない.図はそれ単体で他の文章を読まなくても完結していることが望ましい.図の中に効果的にインフォグラフィックを埋め込むことによって,文章も図のレジェンド文も読み飛ばしても分野の研究者であれば何が示されているのか理解できるのが良い.文章はあくまで補完的にする.研究者であれば,知った分野の良い論文で,図をざっと順番に流して見ただけで大体どんなことをやって,何を発見した論文なのか理解できたという経験をしたことがある人は多いと思う.そういう論文は,単純な研究だったからそのように理解できたというよりは,図が効果的に示されていたからということの方が多い.
またスラスラと理解できる図で構成された論文は,往々にして科学者が一般的な共通感覚(コモン・センス,common sense)としてもっている「図とは何か」に沿っている.読み手が気になったり引っかかる要素を極限まで削ぎ落としてくれている.さらに,連載のどこかで説明したように,京都にある基本に忠実だが研ぎ澄まされた仕事をする割烹が,基本の型にないわずかな工夫で客を感動させる,そのようなものを図に加えて読み手を楽しませられるような工夫もしたい.
私は研究の図を作るのが上手い方だと思う.そして良い図を作れるのは良い研究者の条件だと思う.一方で,私を含めて研究室全体で毎年圧倒的に進化し続けている自信もある.興味があったら私の研究室の過去と現在の論文をぱらぱらめくってみて頂けると良いと思う.最近では,自分で研究計画書や論文のための図を準備しながら,読者やレビュアーが自分達の提示した一連の図を目で追いながら惹かれている様子を想像しつつ(本当にそうなっているかは知らないが),楽しんで図を作ったり,ラボメンバーの図を編集したりできるようになってきた.常に冷たい目を自分の図に向けながらとても時間をかけて図を作る.文章を書く場合の軽く5倍くらいの時間を作図に費やしている気がする.
これだけ書くと,図を作ることというのは本当に曖昧で,要求項目が多く,トリッキーでハードルの高い作業のように聞こえると思う.私自身,良い図の作り方を効果的に伝えることには楽観的にはなれない.無数のアドバイスがある.それでも,研究計画書や論文の執筆と同様に,図にも絶対に外してはいけない基本的な型があり,それらについて2回に分けて説明したい.今回と次回で説明することは,どんな研究の図を作るときにも当てはまるはずであるし,これらの基本によってある程度高いレベルの図を作れるようになるはずである.まずは読んでみて頂いてから,上に書いてあるようなことを達成するにはどういう工夫ができるかそれぞれ考えて精進して欲しい.
レベル1:図において必ず守られるべきルール
まず図は他人が見るのだということを強く意識して作る.さらに,見る人が特にそれを綺麗な図だなと意識せずとも不思議にストレスを感じずに視線が流れ,図の中でどういう情報があるのか素早く捉えられることが理想である.その第一歩は,他人が歩く道を整備して,ゴミや,躓きそうな小石を徹底的に取り除くことである.人間には無意識に認知してしまい,ストレスを感じるが何が原因なのか分からないことが沢山ある.また,分かりやすく派手に飾られたものを「素晴らしい」と感じやすい一方で,初見で質素だなと思っても背景の研ぎ澄まされた哲学に気付いて,なぜか分からないけど「素晴らしい」と感じることもできる.研究では,図においても他の何においても必要なのは後者だと思う.
今でも頻繁に一人で通う駒場(東京都目黒区)の一角にあるお店がある.バンクーバーに住む様になってからは,羽田に夕方到着したら,スーツケースを持ったまま直行することもある.日本酒と小料理の後にラーメンまで出してくれる.店主はぶっきらぼうな大柄の金髪で,店は古いビルの中にある.中にはダンボールとかが積み上がっていて,一見すると場末感の漂うお店である.でも出してくれる料理とお酒が本当に素晴らしい.それが好きで通っているんだと思っていた.数年通い続けてある日,床や,壁,カウンターがいつもピカピカに磨かれているのに気付いた.ホコリ一つない.もちろんお手洗いも.店主に伝えると「ああ,仕事なんで」と返事が返ってきた.本当にいい店である.
さて,図では,例えば同じ種類のグラフデータのパネルを複数縦や横に並べることがある.こういうときにパネル自体はもちろん,パネル間に渡って同じ種類の軸のラベルなどの位置は1ピクセルたりともズレていてはいけない.「誰がそんなこと気にするんだ」と思うかもしれない.でも読者に無意識の違和感を与えているかもしれない.与えていないことに越したことはない.研究室のある学生で修士論文を書いてラボを出ていくときに,“I also thank Nozomu for teaching me the importance of aligning every single pixel in figures.(ノゾムには図中の全てを1ピクセル単位で揃えることの大切さを教えてくれたことにも感謝します)”というようなことを謝辞に書いてくれた(元の厳密な文章は忘れたがそんな感じだった).もちろん私がこれにいつもうるさいことに対する揶揄混じりになっていて,ラボの皆は笑ったわけだが,私は本当に大切なことだと信じている.同時期に私は,以下の彼女がNature Biotechnologyに発表したときの論文1)の図を使って,図を作る際の最低限のルールをマニュアル化した.これをラボで共有したり,授業で使ったりしていて,以下にそれについて説明しようと思う.次ページの図を見ながら読み進めて欲しい.
文献1より引用(補助線は筆者による)
ルール1:図やパネルは論文に登場する順に並べる
論文は通常複数の図と付録図で構成され,それぞれの図は複数のパネルで構成される.これらは全て文章内で説明されなくてはいけないし,文章で説明される順で示されなくてはいけない.文章中で,図2aに関する説明をした後に,2bを飛ばして2cを説明してはいけない.そうであるはずなのに,こういうことはよくあるし,一部の付録図が文章中で参照されていない論文というのもよく見る.もちろん,すでに説明した図について再度参照することはできるので,そういった場合は図2cの説明の後に,図1aの説明が来るということはある.
ルール2:パネルを最適に割り付ける(薄いマゼンタ枠部分)
1つの図は複数のパネル(小図)に分けられる.これらのパネルはそれぞれのアスペクト比(縦横比)を調整して,パネル群が図全体の四角いスペースを埋めるようにする.これは一種のパズルのようなもので,いったん図をレイアウトしてみてから,特定のパネルを縦や横に伸縮させる.余白スペースのある図は全く美しくない.また雑誌のページ数の経済性の観点からも余白が内容に,最適に敷き詰められた図が良い.
ルール3:フォントを統一する(オレンジ枠部分)
欧文フォントはHelveticaかArialしか使ってはいけない.和文フォントもゴシック体で誰もが見慣れたものにする.Timesなどのセリフ体や明朝体は使ってはいけない.ユニークさを出す必要なんて全くないので,フォントは皆が図の中に見慣れたものを使う.さらに,1枚の図の中で,あるいはできれば論文を通じて,フォントサイズは統一する(プロットの目盛りの数字などは例外).同じ図の違うパネルの間でフォントサイズが違うことがある.別の実験から得られたデータを並べるのでそうなることがあるのは十分に分かるが,騙されたと思って少し手間をかけて全部統一させて見て欲しい.図の見栄えが随分変わるはずである.
ルール4:あらゆるものを整列させる(青い補助線部分)
図の中の要素は全て,執拗に揃える.パネルの端やテキストを垂直・水平に揃え,要素間のスペースは均等に空ける.これも図の審美性を格段に変える要素なので徹底してほしい.パネル内で並列関係にあるラベル群を均等かつ一方に寄せて整列させるのは基本だが,複数のパネル間でも揃えられる部分は揃える.慣れてくれば自然とできるようになるし,ちゃんとやらないと気持ち悪くなってくる.
ルール5:凡例などの情報は図内へ投入しておく
凡例はレジェンド文に書かずに必ず図中で説明する.例えば,黒と白の棒グラフがあるときに,図のレジェンド文で「黒はデータAで,白はデータB」というような説明がしてある場合がある.下手をすると,横軸は〜で縦軸は〜とレジェンド文に書いてあり,図中の横軸と縦軸に何もラベルがついていないこともある.もちろん,そうやってもデータを提示するうえでの完全性は満たせるのだが,こういうプレゼンをされると視線を図とレジェンド文の間で交互に動かして頭の中で色とデータを一致させたりするコストが読み手側に生まれる.これはトップジャーナルに採択されるような論文では見かけることはない.きちんと図の中に凡例を作り,「■データA,□︎データB」というように埋め込んでおく.もちろん,統計解析の手法の細かい部分など,レジェンド文の中で補った方が良い情報については図中に書く必要はない.
ルール6:統計解析を徹底する
テータの中で対象群の差について議論する場合は全て統計解析が必要である.少なくとも議論したいデータについては統計解析を徹底し,P値やFDR値などを示しておく.図を作ったときの視覚的で個人によって捉え方の変わりうる差について議論してはいけない.必ず統計的な検定の上,有意差があった,なかったというように議論する.有意差がないということは真に差がないということとは異なるのに,差がないという議論や,母集団に正規分布が仮定できるかわからないのに安易にt検定をもちいる例も多く見る(計測値数が少ないときは必ずしも取ってはいけない方法ではないが,「正規分布があるとしたら有意である」というような議論が必要である).自分がもちいている統計検定が何を前提にしていて,どこまでものを言えるのか知ったうえでの丁寧な議論が必要である.また,似たような理由から,計測値数の大小に関わらず,可能な限り平均値だけを棒グラフや折れ線グラフで示すようなことは避ける.できるだけデータの性質についても読み手が即座に捉えられるようにする.古くは箱ヒゲ図がもちいられて来たが,最近では分布をそのまま示せるバイオリンプロットやジッタープロット(図のパネルd)の上に平均値や中央値などを重ねるのが良いとされるようになってきた.
ルール7:マイクロソフトのExcelのデフォルトで図を作らない
マイクロソフトExcelのチャートの初期設定スタイルはとてもダサく,お世辞にも審美的に優れているとは言い難い.不要な影,過剰な罫線,寒々しい青…など.絶対にそのまま使ってはいけない.少しコードを書ける方ならRのggplot2,Pythonのmatplotlibなどが良いし,GUIベースならPrismなどが良いと思う.
いろんな論文を読んでいて,スラスラ気持ちよく読める図を分析すると,図全体の複数のパネル間を通じて幾何学的なパターンを背景にもっていて,上記のようなルールを守って丁寧に図が作られている.そういった図を作るために,私が良いと思う方法は以下の手順である.
- その図に載せたいパネル図を手持ちのデータから選び出す
- そのパネルのアスペクト比を強引に歪めてもいいので,とにかく配置してみる(ルール1).この時に図内のデータの凡例など必要な情報が埋め込まれて配置できているかも予め確認しておく
- それぞれのパネルを決めたアスペクト比で作りなおす.できれば図として貼り付けたときに統一されるようにフォントサイズを計算して作る(ルール2).貼り付けた後に,フォントに相当する部分だけ全部消してラベルし直しても良い
- 徹底的にあらゆるものを整列させていく(ルール3).もし不自然な余白などが見つかればBに戻る
後編につづく
今回は論文などで図を作るうえで必ず守って欲しいレベル1の項目群について説明した.これらのことは必ず満たして欲しいと思う.次回は「レベル2:図の中でもう少し頑張って達成して欲しいこと」,「レベル3:そっと添えるとよい工夫(玄人技)」について説明したいと思う.
文献
1) Sakata RC, et al:Nat Biotechnol, 38:865-869, doi:10.1038/s41587-020-0509-0(2020)
2) Konno N, et al:Nat Biotechnol, 40:566-575, doi:10.1038/s41587-021-01111-2(2022)
谷内江 望:ブリティッシュコロンビア大学Biomedical Engineering教授,大阪大学WPIヒューマン・メタバース疾患研究拠点(PRIMe)特任教授,東京大学先端科学技術研究センター客員教授,慶應義塾大学政策・メディア研究科特別招聘教授.2009年に慶應大学において生命情報科学の分野で学位取得後,ハーバード大学とトロント大学のFrederick Roth博士の下で研究員として合成生物学の研究に従事.2014年より東京大学准教授,2020年よりブリティッシュコロンビア大学准教授,2023年より現職.