東京新聞の報道である。《筑波大(つくば市)は六日、数理物質科学研究科の長照二教授らが二〇〇六年八月発行の米国物理学会レター誌に発表したプラズマ研究に関する論文で、都合の良いデータを使い作図する改ざんがあったと発表した。外部の専門家を含む調査委員会が「不適切なデータ解析の程度が著しい」との調査結果をまとめた。》(2008年3月7日)
この問題に関して筑波大学は「本学教員が発表した論文における不適切なデータ解析について」で、資料1 本事案の詳細について、資料2 説明資料、資料3 本事案発覚後の経過、資料4 研究公正委員会調査委員会調査結果を公表している。この資料4は45ページものPDFファイルで、「データ改ざん」の内容を詳しく伝えている。この分野の専門家には十分理解できる内容なのだろうが、分野外の、しかしデータ解析を仕事の一部としてきた私には少々違和感の残る内容であった。どこに違和感があるのか、二点ほど述べることにする。
まずは事の発端である。資料1の調査経緯はこのように伝えている。《平成18年11月から12月にかけて、本学プラズマ研究センターで研究を行っていた複数の大学院生から、数理物質科学研究科長および物理学専攻の教員に対し、同センターの一部の教員が行ったデータ解析に不適切な点があるとの訴えがありました。同研究科長は、研究科内で調査を行い、その結果を平成19年4月に研究公正管理者(研究担当副学長)に報告しました。》
これ以上の詳細は分からないが、既に論文に発表したデータを使ってその解析方法を教員が大学院生に指導したところ、そのやり方がおかしいと大学院生からクレームが出たというように私は受け取った。
件の論文には筆頭著者の教授以下全員27名の著者が名前を連ねているが、データ改ざんに関与しているとされたのは筆頭著者の教授と共同研究者のうちの大学講師3人の計4人である。一応専門家集団と呼ぶことにするが、この4人の間ではルーチン化していたデータ解析の手法が大学院生にはどうも異様に映ったようである。すなわち専門家集団では日常化していて当たり前のやり方が大学院生に「ノー」と言われたのである。ここで注目すべきなのは、もしこの専門家集団に不正を働いているとの意識があれば、その手口をわざわざ大学院生に指導と称して教え込むだろうか、ということである。その後の研究公正委員会調査委員会の調査で「改ざん」と断定されたデータ解析手法が、専門家集団の常識であったのだとすると、同じく東京新聞の記事《一方、教授らは改ざんの事実を認めていないという。》こととは矛盾しない。これがまず気になったことである。
プラズマ研究の世界ではこのような「データ改ざん」が日常のことなんだろうか。とするとこれは大事である、とばかりに、いったいどのようなデータ解析をやっているのかちょっと覗いてみることにした。実験の中身は分からないが、どのようなデータなら解析に値するかぐらいかの判断なら私にも出来そうだ、と示された生データを見て、「これ、何?」と言うのが私の反応であった。
下は資料2のディスプレイ画面を写真に撮り再生した生データ(資料2、図4)である。点の広がりは私の目には節分の豆まきのように見えるが、資料2では《信号には意味のない乱雑な成分(ノイズ)が大きく含まれていることがわかる》と評されているのである。
それが専門家集団の手にかかると下の図のように整理されてバラバラの点が緑四角の様になり、空色の線のような解析曲線を与えるのである(資料2、図5)。
なぜバラバラの点が緑四角のようにまとめられるのかと言うと、そのヒントが資料4の資料3(下の図)にある。
最初の実験と同じような測定であるが、何故か測定電流値がきわめて小さい(1/100)。それにもかかわらず数少ない点ではあるがなにかある傾向を示唆しているように見える。そして「11点平均」という手法で水色点の得られたことがわかる。したがって上の(資料2、図5)の緑四角も何点平均かは明示されていないが、似たような手法で導かれたものなのだろう。
しかし、である。
いくらデータ整理にそれなりの手法があるにせよ、上の「豆まき」データを下の「曲線」に仕上げるとはこの専門家集団はよほど楽天的なんであろう。「豆まき」データを前にして私ならどうするか。もしこれが意味のある実験結果であるとそれなりの確信と期待があれば、さらに解析に値するデータの収集に取り組むであろう。同じ測定を繰り返してデータを積算するのである。たとえば酸素化ミオグロビンの光解離と再結合の時間経過を観測するには、レーザーパルス照射で酸素分子とミオグロビンの結合を切断することで反応を開始するが、光解離の量子収率が低いのでシグナルの変化量がきわめて小さく、デジタルオッシロで記録したデータはまさに「豆まき」状態である。しかしレーザーパルス照射を繰り返して反応を反復開始させて、その度ごとにシグナルの時間変化を記録、積算していくと次第にどのような変化が起こっているのかが判断できるトレースが出来上がってくる。生体試料であるが100回ぐらいの積算ではびくともしない。そこで初めて統計的手法を取り入れてデーター解析を進めることになる。
一番上の図を見ると時刻:85.0-98.48msと記されている。想像するにプラズマが発生している間に横軸となっている電圧を掃引して縦軸の電流値を測定していくのだろうか、それが20msもかかっていないとすると、測定回数を増やしても苦にはならないのではないか。その昔、タンパク分子のNMRデータ一を得るのに徹夜が当たり前だったことがあるが、それもデータ積算のためだったのである。測定を繰り返してデータの質を高めると言う発想がプラズマ研究の世界にはないのだろうか。それとも同じ条件で測定を繰り返すことが不可能な、何か原理的な制約があるのだろうか。
総勢27名の研究者もいるのに測定を繰り返してデータ精度を上げる手間を惜しみ、一発データを「カレイダ」なる市販のソフトに丸投げして処理をさせる。プラズマ研究の世界がそれほど安直なものだとは思えないだけに、この調査報告書では不適切なデータ解析は指摘されているが、そもそもデータ収集の妥当性について何一つ触れられていないのが不可解である。そのあたりの事情の説明があった上でデータ解析手法の是非が論じられていると、このよくまとめられた調査報告の客観的具体性がより高まったのではなかろうかと思った。
それにしても「不適切な解析をするよう指導された」と訴えた大学院生が複数存在したというのが嬉しい。科学者の根底にあるべきなのはなにごとであれ素朴な疑問であることに尽きるからだ。それを失った4人の専門家集団が科学の世界に居残る理由はないと思う。
追記(2008年12月17日) 二カ所を強調表記にした。
この問題に関して筑波大学は「本学教員が発表した論文における不適切なデータ解析について」で、資料1 本事案の詳細について、資料2 説明資料、資料3 本事案発覚後の経過、資料4 研究公正委員会調査委員会調査結果を公表している。この資料4は45ページものPDFファイルで、「データ改ざん」の内容を詳しく伝えている。この分野の専門家には十分理解できる内容なのだろうが、分野外の、しかしデータ解析を仕事の一部としてきた私には少々違和感の残る内容であった。どこに違和感があるのか、二点ほど述べることにする。
まずは事の発端である。資料1の調査経緯はこのように伝えている。《平成18年11月から12月にかけて、本学プラズマ研究センターで研究を行っていた複数の大学院生から、数理物質科学研究科長および物理学専攻の教員に対し、同センターの一部の教員が行ったデータ解析に不適切な点があるとの訴えがありました。同研究科長は、研究科内で調査を行い、その結果を平成19年4月に研究公正管理者(研究担当副学長)に報告しました。》
これ以上の詳細は分からないが、既に論文に発表したデータを使ってその解析方法を教員が大学院生に指導したところ、そのやり方がおかしいと大学院生からクレームが出たというように私は受け取った。
件の論文には筆頭著者の教授以下全員27名の著者が名前を連ねているが、データ改ざんに関与しているとされたのは筆頭著者の教授と共同研究者のうちの大学講師3人の計4人である。一応専門家集団と呼ぶことにするが、この4人の間ではルーチン化していたデータ解析の手法が大学院生にはどうも異様に映ったようである。すなわち専門家集団では日常化していて当たり前のやり方が大学院生に「ノー」と言われたのである。ここで注目すべきなのは、もしこの専門家集団に不正を働いているとの意識があれば、その手口をわざわざ大学院生に指導と称して教え込むだろうか、ということである。その後の研究公正委員会調査委員会の調査で「改ざん」と断定されたデータ解析手法が、専門家集団の常識であったのだとすると、同じく東京新聞の記事《一方、教授らは改ざんの事実を認めていないという。》こととは矛盾しない。これがまず気になったことである。
プラズマ研究の世界ではこのような「データ改ざん」が日常のことなんだろうか。とするとこれは大事である、とばかりに、いったいどのようなデータ解析をやっているのかちょっと覗いてみることにした。実験の中身は分からないが、どのようなデータなら解析に値するかぐらいかの判断なら私にも出来そうだ、と示された生データを見て、「これ、何?」と言うのが私の反応であった。
下は資料2のディスプレイ画面を写真に撮り再生した生データ(資料2、図4)である。点の広がりは私の目には節分の豆まきのように見えるが、資料2では《信号には意味のない乱雑な成分(ノイズ)が大きく含まれていることがわかる》と評されているのである。
それが専門家集団の手にかかると下の図のように整理されてバラバラの点が緑四角の様になり、空色の線のような解析曲線を与えるのである(資料2、図5)。
なぜバラバラの点が緑四角のようにまとめられるのかと言うと、そのヒントが資料4の資料3(下の図)にある。
最初の実験と同じような測定であるが、何故か測定電流値がきわめて小さい(1/100)。それにもかかわらず数少ない点ではあるがなにかある傾向を示唆しているように見える。そして「11点平均」という手法で水色点の得られたことがわかる。したがって上の(資料2、図5)の緑四角も何点平均かは明示されていないが、似たような手法で導かれたものなのだろう。
しかし、である。
いくらデータ整理にそれなりの手法があるにせよ、上の「豆まき」データを下の「曲線」に仕上げるとはこの専門家集団はよほど楽天的なんであろう。「豆まき」データを前にして私ならどうするか。もしこれが意味のある実験結果であるとそれなりの確信と期待があれば、さらに解析に値するデータの収集に取り組むであろう。同じ測定を繰り返してデータを積算するのである。たとえば酸素化ミオグロビンの光解離と再結合の時間経過を観測するには、レーザーパルス照射で酸素分子とミオグロビンの結合を切断することで反応を開始するが、光解離の量子収率が低いのでシグナルの変化量がきわめて小さく、デジタルオッシロで記録したデータはまさに「豆まき」状態である。しかしレーザーパルス照射を繰り返して反応を反復開始させて、その度ごとにシグナルの時間変化を記録、積算していくと次第にどのような変化が起こっているのかが判断できるトレースが出来上がってくる。生体試料であるが100回ぐらいの積算ではびくともしない。そこで初めて統計的手法を取り入れてデーター解析を進めることになる。
一番上の図を見ると時刻:85.0-98.48msと記されている。想像するにプラズマが発生している間に横軸となっている電圧を掃引して縦軸の電流値を測定していくのだろうか、それが20msもかかっていないとすると、測定回数を増やしても苦にはならないのではないか。その昔、タンパク分子のNMRデータ一を得るのに徹夜が当たり前だったことがあるが、それもデータ積算のためだったのである。測定を繰り返してデータの質を高めると言う発想がプラズマ研究の世界にはないのだろうか。それとも同じ条件で測定を繰り返すことが不可能な、何か原理的な制約があるのだろうか。
総勢27名の研究者もいるのに測定を繰り返してデータ精度を上げる手間を惜しみ、一発データを「カレイダ」なる市販のソフトに丸投げして処理をさせる。プラズマ研究の世界がそれほど安直なものだとは思えないだけに、この調査報告書では不適切なデータ解析は指摘されているが、そもそもデータ収集の妥当性について何一つ触れられていないのが不可解である。そのあたりの事情の説明があった上でデータ解析手法の是非が論じられていると、このよくまとめられた調査報告の客観的具体性がより高まったのではなかろうかと思った。
それにしても「不適切な解析をするよう指導された」と訴えた大学院生が複数存在したというのが嬉しい。科学者の根底にあるべきなのはなにごとであれ素朴な疑問であることに尽きるからだ。それを失った4人の専門家集団が科学の世界に居残る理由はないと思う。
追記(2008年12月17日) 二カ所を強調表記にした。
PRLへの論文Figure 1については、下記に抜粋で反論を述べます。
Figure 1(a) のデータの平均をとる個数が恣意的に決定された事実はない
データ点の取り方は、統計学において確立された知見を用い、本論文や筑波大学へ提出した異議申立書に明記したとおり、電位の高い側から順にデータ点を数え、可能な限り相関係数Rが1に近く〔R=1はデータをフィットさせる「フィッティング曲線」とデータ点が一番相関のある最適条件〕、さらに「無相関有意水準」の検定条件を満たすか否かによって、平均を採るデータ点の個数を決定する。また、横軸Eiに対して生データを最も良い相関係数を持つまで平滑化させることは、結局、一定間隔で適切に平均する手法とも差異のない結果を与えることは以下に具体的に示すとおりである。
さらに、この相関係数Rを用いてデータを最適化し、また「無相関有意水準」の検定条件を満たしつつ、かつ筑波大学の主張に沿った一定間隔で平均点を取る別解もFigure 1(a)の全半径位置のデータ点について、本論文や筑波大学へ提出した異議申立書に明記した上記の手法により、容易に示すことができる。
解法や別解は多様であっても、そこに恣意性なるものは一切ない。
さらに、本論文に示したとおり、この統計解析に基づく、平均点の取り方の個数により、最終的に導かれる電位の値は、あらゆる実験データが常に持っている解析誤差内で若干変わりうる程度であり、なんら論文の結論に影響を与えない、極めて小さな誤差の範囲内に収まることが本論文においても示されているし、このことは世界の専門家も広く認めているところである。
同様に、一定間隔で平均点を取る筑波大学の主張に沿った別解も、本論文や異議申立書に明記した上記の手法によって、明確に示すことができる〔20頁参考図〕。
筑波大学は、一貫して、自らの認める解法以外は、一切受け入れないという極めて非科学的かつ非常識なものであり、本論文も異議申立書による長教授の説明も無視したものであり、かつ筑波大学自身が主張する解析方法は統計学において確立した準則を無視するものである。
この平均化の作業は、導出される曲線について折れ曲がりの「開始位置」が特定できれば足りるのであるから、この位置に対して、科学的に意味のある影響を与えない周辺部分(番号1〜34、番号100〜)につき、平均化作業を行なう必要はない。この科学的な理由についても、長教授は本論文や筑波大学へ提出した異議申立書に明記している。
このようなことを世界の専門家の前で主張するならば、もはや世界の学会は、このような筑波大学の主張に驚愕することは疑いない。
筑波大学の主張する手法は、統計学において確立した準則に反した、科学的に全く意味のない「平均化」なのである。
要するに、債務者は、「データ点の平均化は画一的・形式的に行なわなければならない」というルールが存在するという科学的に誤った単なる主観的な意見に基づき、債権者による平均化の手法を非科学的に論難するに過ぎないのである。