心理研究部会主催パネルディスカッション
「アニメーションと仮現運動〜この似て非なるもの?〜」
●日時:2013年8月25日 15〜19時
●会場:法政大学大学院
●パネリスト
片渕須直(アニメーション監督)
叶精二(アニメーション映像研究家)
岡部望(アニメーション制作者)
吹抜敬彦(画像信号処理工学イノベータ)
鷲見成正(運動知覚研究者)
中村浩(運動知覚研究者)
司会進行:吉村浩一
1)イントロダクション
冒頭、今回のパネルディスカッションを企画した法政大学の吉村先生が挨拶。出来るだけ活発な議論が起こるよう、厳密なタイムテーブルに沿って進めるような通常の発表形式をあえてとらないとの説明があった。
その上で、1998年にアニメーション学会が生まれるよりさらに30年も前、NHKで放映されたとある番組の一部が上映された。今日のパネリストでもある鷲見先生が手塚治虫らとともに出演している貴重な番組映像である。
■NHK文化シリーズ現代の科学「心で見る世界」第3回
動画の秘密
(1)ゾーアトロープ、プラクシノスコープなどの視覚玩具の紹介
(2)鉄腕アトムの紹介
手塚治虫が登場して語る。聞き手からの「何枚くらい描いているのですか?」という質問に対し、
1秒間に10〜12枚くらいだが、最高に減らして3〜4枚くらいでも動かないというわけではないと
答えている。
(3)人体の運動点による認知(ヨハンソンの実験)の紹介
〜「止まっている形」だけでなく「動いている形」を我々は認知している
・手塚:人間の動きに対する常識・概念が我々の頭の中にはあり、アニメーションというのはそれを活か
したごまかしである。
(4)『ある街角の物語』を例として、一枚の「絵」を、マルチプレーン(密着マルチ)で動かすことで
奥行きや空間が生れるということの説明。
・手塚:理論はない。経験でやっている。
・手塚:今の世の中は合理的すぎる。一方、アニメーションは不合理。デタラメなもの。それこそ若い人
が求めているもの。
・鷲見:我々が「ものの変化」を見て、それが「状態の変化」なのか「位置の変化」か、これは運動がな
ければ絶対にわからない。それとアニメーションを結びつけると面白い展開があるのではないか。
吉村:学会設立の20年も前に、科学的研究と現場の人との意見交換の期間があったのだという事例。そういうところから始まって今日まで、同じ問題が続いているということだと思う。
今日の研究会は、大きく二つの視点から掘り下げる予定である。一つは「原理的になぜ動くのか」という視点、もう一つは「効果的に動かすにはどうすればいいのか」という視点。それぞれ前半と後半という形で進めていく
2)叶精二さんの発表
まず一人目の発表者として、叶精二さんから現在執筆中という子どものためのアニメーションの入門書のために色々と調べていくうちに、アニメーションの原理的なことに関する様々な疑問が生じてきた、という内容で発表があった。
■はじめに
アニメーションの入門書を絵本で出版しようと考えている。アニメーターになるための本ではなく、アニメーションの原理的なことを解説するものを目指している。本の構成としては、子どもたちが自分でも制作できる視覚玩具の型紙のようなものと、原理の解説とを含むようなもの。しかし、原理的なことを考えていくとあまりにもわからないことが多いことに驚く。
そもそもアニメーションの起源とはなにかということを調べてみると、ジョン・ハラスの教科書などで言及されているラスコーやアルタミラの壁画があるが、調べてみたら、実は八本足のイノシシはないのだということがわかった。1994年に、フランスのショーヴェ洞窟が発見されたが、そこにサイの角が多重的に描かれている事例があり、それが運動を表現したものだと(洞窟壁画関係の)学会ではじめて承認された事例だという。
■動画が動いて見える仕組みについて
さらに、なぜ動くのかという原理についても調べてみてもよくわからない。本によって、それぞれ言っていることが全然違う。今まで様々な本で記述されてきた内容は大きく分類すると大きく3つくらいあると考えられる。
A:網膜の残像効果
B:間欠運動 〜スリットごしの運動知覚。間が欠けていることによって運動がつながる。
C:体験学習による脳内の補間 〜「こういうものはこういう動きになるだろう」という学習
しかしさらに調べると「仮現運動」というものが出てくる。これがわからない。
認知心理学や知覚心理学などでは、「残像は間違いである」とはっきり述べられるようだが「仮現運動」とは何なのか。例えば単純なライトの明滅を例として説明されても、あまりにも味気なくそっけなさすぎる説明で、普段見ているアニメにどうも結びつかない。
また、「仮現運動」も結局は上述のA,B,Cの組み合わせで説明できてしまうのではないか?という素朴な疑問もある。それらと仮現運動との違いがどうもわからない。
■残像を動きのメカニズムから排除する理由について
鈴木光太郎著「脳のワナ」という本がある。そこに記述されていることに基づき話が進められた。
まずソーマトロープ。大きく4つくらいのタイプがある。右と左に別々の絵を描いて合成するもの、上下別々の絵、背景と対象を別々に描くもの、全く違う絵を合成するもの、等。その中には「動画」になっているソーマトロープも存在する。たとえば、なわとびをしている2枚の絵の合成。それは「動き」といえなくもない。しかし「脳のワナ」を読むと、全て「合成」と切って捨てられてしまう。それに対して叶氏はやはり「残像」に対する思い入れがあり違和感を感じるという。
では残像とはどのように説明されるか。強い刺激を受けたときに反転した画像が見えてしまうという、キャパシティオーバーによるエラーのようなもの。高速に提示されると1枚に知覚されてしまうということ。
しかし、例えば「歩き」を2枚の絵で表現したものをソーマトロープにしたら、それは合成なんだけど動画としても知覚可能なのではないだろうか。そうすると仮現運動と残像との境界線がよくわからない。
続いてフェナキスティスコープ。それは「脳のワナ」では仮現運動だと書いてある。しかしそれは2枚のソーマトロープとどのように線引きされるのか。枚数の問題なのか。あるいは子どもの城には3面ソーマトロープとか4面ソーマトロープという複雑なものもある。それは仮現運動と呼ばないのか。どこにどういう境界線があるのか、ということがよくわからない。
さらに、アニメーション玩具は手で回すから、必然的に手ぶれや残像みたいなものが生まれてしまう。それが味わいだったりするが、そうした残像を全くぬきにして動きはつながるのか。あるいは多少は残像が少しは役にたっているのか。そのあたりもよくわからない。
■配付資料裏面に示したいくつかの事例
・ジブリ美術館
残像と間欠運動の2点。仮現運動については語られていない。
・子どもの城
やはり残像が動きを説明するものとして採用されている。
来場者および登壇者のコメント
■桑山さん(来場者)
こういう話をするときに重要なのは、定量性。フリッカ限界値は、例えばスクリーンの明るさに大きく左右される。また明所視と暗所視と薄明視とで全然違う。つまり、どういう明るさで見せているか。実験条件によって全部違ってしまう。
さらに「何が見えているか」についても、刺激図形が幾何学図形なのかテクスチャなのか、全部違ってくる。さらに実物を見ている場合でも、輪郭の認識で何をやっているか、テクスチャで何をやっているかなど全部違う。それらが矛盾しながら全部入っている。
2枚の絵であっても、ちょうど仮現運動があらわれる適切な明るさとタイミングの条件にすれば、どんな2枚絵でもそれは仮現運動だといえる。
また、間欠運動におけるスリットというのは、あくまでも道具の側の要請で、暗くなるかどうかは本質な問題ではない。
■岡部さん
たしかに残像とか間欠運動というのはあくまでもフィルムだけの話である。今はテレビでその話をしてもしょうがないと思う。メカがあったから結果としてこういう話になっているのであって、例えば1秒間を1000コマで撮影して提示したものと30コマで撮影して提示したものとは違うはず。そのあたり(叶さんからの)「わからない」というのは、メカの問題としてわからないということ。それで定義づけてしまうのではなく、間欠運動や残像がこれからどうなっていくのかも含めて考えるべきではないか。
■吉村さん
(桑山さんのコメントを受けて)なわとびの例は、背景白で図形が黒だが、あの場合はむしろコントラストの弱い灰色の人物像のほうがいいのかもしれない。コントラストをコントロールすることで(残像を消したい場合に)うまくつながるようになるのではないか。
■中村さん
認知心理学で画像処理をしたときに、その画像処理の記憶の時間がどれくらいかを調べた研究がある。それによると、画像を取り込んでからおよそ最大0.5秒くらいは残っているとされる。ということは、残像がないわけはないのである。常に残像はある。それを人間の眼がどういうふうに処理しているのかという問題。そこで2つの画像を足して一つになるような場合は一つのものになっているし、連続性のあるものは運動が知覚される。それは瞬間的にぱっと見て処理しているわけではなく、それを何回も見ることによって、かなり高次なレベルで処理しているのではないか。
3)吉村浩一さんの発表
「実運動の動画表現」
※吉村先生のWebページにPowerPoint資料がアップされているとのこと
■残像と仮現運動
残像というのは動かない、そこに留まるものとされる。つまり本来それはつなぐ機能はもっていない。
仮現運動説は、二つの図形のあいだに生じるとされるので、本来、残像説と仮現運動説は相容れない。
この問題を考える上で、歴史的に重要なキーワードとして「persistence of vision(見えの持続)」がある。それが都合よく使われてきたきらいがある。
ところで私達が高速な運動を知覚するときでも、その運動は線として知覚する。しかし撮影映像においては、画像サンプリングされるために高速運動が切れ切れになる。
■仮現運動による説明の難点
(1)映画にせよアニメーションにせよ、AABBCCといった具合に同じ絵が繰り返し提示されている。つまりアニメーションなり映画というのは留まるということが平気で行われており、仮現運動のモデルとそぐわない。さらにはホールド型液晶テレビにおいては途切れ(ISI)が全くない。間欠がなくても動いてみえる。
(2)画面の中で、ある部分はちょっとしか動かないがある部分はもっと動く…という(複合的な)状況が起こりうる。そこでは「最適なISIが必要だ」という最適時相という仮現運動の原理が通用しない。
(3)Wertheimerの3つの時相では、以下のように言われるが、秒30コマや60コマとなると30msecより短い間しかない。同時時相以下ということになってしまう。画面の切り替えにおいて、最適時相などというものはありえないのではないか?
30msec 同時時相 同時に見える
60msec 最適時相 ちょうど動いてみえる。
200msec 継時時相 とぎれた事象にみえる
■Anderson&Andersonによる1993年の論文
J.Anderson &
B.Anderson (1993) The myth of
persistence of vision revisited. Journal of Film and
Video , 45, 3-12
・問題を2つに分けるべきである。
(1)映像はなぜ連続して見えるのか
(2)映像はなぜ動いて見えるのか
これらを混同してしまったがゆえにpersistence of visionという概念がもっともらしく受け入れられた。
・Persistance
of Vision批判
Persistence
of Visionとは、「ヒトの眼はわずかずつ異なる画像を急速に連続的に提示されたとき、画像と画像の間にほんの短い遮蔽があると、画像が消えた後も次の画像を見るまで網膜に残り続け、次の画像と滑らかに混ざり合う」とされる。「しかし、これは映画に動きを見ることに対する誤った説明である。提案されたような像の融合や混ざり合いがあったとしても、それは、デュシャンの「階段を下りる裸体」のように、重なり合った多重露光のようにしかならない」
・映画の動きを説明する初期の試み
<初期>
persistence
of visionの発見者について、1926年のTerry
RamsayeはPeter Mark Rogetだとしている(1824年のRogetの論文)。一方、フランスではJoseph
Plateauだとされる。
さらに心理学の世界では、1894年、William Sternが、網膜上での融像に基礎をおく考えを示した。
その4年後、Karl Marbeは、残像の融像に基づく説明を行った。
1900年、Ernst Durrは、仮現運動を末梢(網膜)過程として説明した。
<20世紀>
1912年、Max Wertheimerが、φ現象を発見。痕跡説や残像説(末梢説)では説明できないことを確信した。「φ現象は、単に目において生じるのではなく、網膜の背後にある処理による」とした。これにより中枢説を決定づけた。しかし中枢での処理がどのようなものかの解明は進まずブラックボックスのまま。
Frederick
Talbotは、目という優れた器官にも欠陥があり、それがVisual Persistanceを生じるとした。
1915年、Hugo Munsterbergは、そうした考えは単純に過ぎるとし、中枢充填説を提案。2つの刺激は異なる時刻に異なる位置に知覚され、観察者はそのギャップを埋める。すなわち、動きは見られるのではなく心の働きにより付け加わる
<近年の発見>
Kolers,
P.A. & Pomerantz, J.R.が、1971年に、2つの対象物同士の切り替えなら運動が知覚されるが、それを4,8,16と増やしていくと滑らかな運動感は感じなくなる(切り替わったように見えてしまう)しかしさらに32,64と増やしていくと、滑らかで連続的な動きが再び知覚される。すなわちU型カーブがある。多要素すなわち距離的に密着した表示の場合には、実運動の場合と同じメカニズムが生じ、空間的に離れているもの同士の場合は、それとは異なる処理がなされるとされ、以下の2つに分けられることになった。
Short-range apparent motion 短い距離の仮現運動
Long-range apparent motion 長い距離の仮現運動
しかし、この二分法についてPomerantzは論じておらず、おそらくAndersonらの引用間違いではないか。この二分法はBraddick(1974)による。Braddickはランダムドットパタンを用いた研究で、視角1/4度以下の動きをfine grain illusionとして、それ以上の大きい動きと分けた。
Short-range
AMでは運動残効が生じるが、Long-range AMでは生じない。
Petersikは神経生理レベルの研究で、Shor-range AMとReal motionに対しては低次の運動検出器が活性化するが、Long-range AMでは弱くしか反応しないことを明らかにした。
・Anderson&Andersonによる結論
Short-range
AM(SRAM)とLong-range AMは異なる処理過程(SRAMの方が低次の処理過程)→SRAMは機械的に処理される
□映画で動きを知覚するのはShort-range AM
□したがって、映画での動き知覚は、φ運動ともpersistence of visionとも異なる
□視覚系にとって、映画での動きは実運動と同じ
・実写映画とアニメーションの違い
実写映画:
ほとんどの場合、short-range apparent motionのみが原則。(時々、例外もある。刀鍛冶の叩いたときの火の粉など)。せいぜい速い動きには静止映像にブラーなどが加わるくらい。
アニメーション映画:
基本はShort-range
apparent motionだが、一部Long-range apparent motionも加わる。
Long-range apparent motionにおいては、オバケやブラーの人工的な書き込みが役立つ。Long-range
apparent motionの破綻を解消するための一手法が、オバケなのではないかということ。オバケの挿入は、仮現運動よりも強力。
・結論
Short-range
AMとLong-range AMは異なる処理過程(SRAMのほうが低次の処理過程)→SRAMは機械的に処理される
映画やテレビの動きが実運動と変わらず知覚できるのは、SRAMは、機械的に処理される低次な処理過程であるため。
■吹抜さんへの質問
・残像の切り替え時には、画面の点滅が必要か?
・液晶モニターの場合、3コマ撮りでは毎秒8回の映像切り替えしか生じていないのにもかかわらず、なぜスムーズが動きが知覚できるのか?
休憩
来場者からの質問
■高桑さん(来場者)
映画の視野は20度くらい。4Kだとすると1度200ピクセル。視角の1/4度としても数十ピクセルになる。その差は観客にもフリッカーとして認識されてしまうのではないか。
■中村さん
1/4度といったり、専門用語でいうとdmaxというのだが、それはあくまでもSRAMの起きる「最大」の距離である。それ以下で0以外であればSRAMは生じる。
のちほどサンプルをお見せするが、この研究はランダムドットキネマとグラフィーという特殊な刺激を使って出てきたデータなので、それを見て頂いたほうがわかりやすいと思われる。
4)吹抜敬彦さんの発表
配付資料※に従って説明する. ※「TVや映画における動画像の見え方〜視知覚信号処理工学の礎〜」
これまでの議論について,結論としては、定量性や条件をしっかりすれば、今日出てきたご意見は概ね正しいのではと思っている。
これから話す内容の条件は、主に自然画像(自然コントラストの自然画像。コントラストの強いアニメではない)である。
画像には通信理論で説明できない不思議があると考えてきた。それを解き明かすのは心理学だと考えてきた。一番身近で「不思議」の最たるものは、TVや映画におけるコマ表現である。
TVや映画などが始まった時に、標本化定理(1940年代〜)はまだなかった。心理学者は仮現運動ということで説明してきた。1940年代に標本化定理が出たが、一次元信号処理なので、十分に説明できない。
その後の1980〜90年代がひとつのターニングポイント。そこで次世代TVの開発過程において、[水平-垂直-時間] という時空間の3次元信号処理が発展した。これによって世の中は変わった。
吹抜氏は、「動き錯視」と一括されてきた視知覚現象を、全く異質な現象として以下の3つに分けることを主張している。
(1)視覚も脳機能も関係しない純物理現象 〜錯視でもなんでもない。床屋のバーバーポールなど.
(2)視覚の物理的機能(時空間低域濾波)による視域運動(可視周波帯域運動)〜映画やテレビが見える原理もこれの一例.
(3)恐らく心理・脳機能による仮現運動 〜よくわからない。これは通信理論的には解けない。
■2種の動画像の見え方
動画像の見え方に二種類あることには賛同。一つは自然動画像などのコマ表現における視域運動。もう一つは、アニメ画像?などにおける仮現運動(特にβ(φ)運動).
前者で「なぜ動きが滑らかに見えるのか」という問に対する答え。残像や仮現運動ではない。
もとの画像(TVカメラの前の景色など)をカメラで時間標本化する.光電変換した結果を毎秒60回取出すことが,毎秒60コマの時間標本化になる.そのSampled Motionから、視覚系がもとの画像をそっくりそのまま取出して(再現して)、脳に伝えている。標本値系列からの復調という点で、CDなどの音声と同様。
アニメ画像(特に多コマ撮り)では、少ない枚数/秒のコントラストの強い画像から生成される。(ただし,よく判っていない)。
■自然画像のコマ表現に関する考え方
・新しい考え方の芽生えと発展
蘆田宏氏は「映画やテレビの動画は仮現運動の範疇に入らない。時空間フィルタをかければ(濾波すれば)動き信号が取り出せる」と解説している。同意見である.ただ,蘆田氏はそれを脳内の処理としているが、その点は賛同しかねる。目の特性で理解できる。
また,Watson(米NASA)は数式的に解いた。画期的である.ただ,この解明では,視覚空間解像度が時間周波数によって変化することや追従視の影響を考慮していないので、実態(実測値)に合わない(この理論のままでは,直ぐにエイリアシング#が起きる)。このためか,画期的な割にあまり広まっていないようである。 #(後述参照)標本化で派生した成分が後置濾波の帯域内に入り,分離出来ないこと.
・標本化定理との関わり
標本化定理は1940年代後半に、日米それぞれ独立して見出された。ただし,一次元の標本化。それを基にPCMやCDなどの音響・音声システムが厳密に設計された。
一方,TVや映画はそれ以前から実用化されており,全く逆.冒頭に述べたように,時空間3次元信号としての解明が始まったのは1980年代以後のことである。
・音声などの一次元標本化の場合
音・声 → [Mic 前置濾波器]→【標本化】→[後置濾波器 SP]→
耳 資料の図1(a)
音の波を標本化(=時間的にブツブツの値にする)。電話だと1秒間に8KHz.
周波数スペクトル(横軸:周波数)による理解。電話だと0〜4KHz近くまで信号がある。
標本化後,周波数スペクトルの状態がどうなるか。標本化の結果,資料の図2(右下)のように,もとの音声信号(基底帯域成分)のスペクトル成分が周波数をシフトして無限に並ぶ(パラメーターを選んで重ならないようにする)。後置フィルターで、その中からもとの成分(基底帯域成分)だけを取出すことができるので、図2右上のように,標本化した元の音声そのものを取出すことになる。
・動画像信号の場合
画像(景色など)→[標本化(カメラ),表示]→ [視覚系(目):時空間低域濾波]
→ 脳
動画像では音声にあった濾波器は通常ない.後置濾波器は視覚系が代行する. 資料の図1(b)
音で行ったように、一秒間に60枚のコマにブツブツに分ける(標本化する.資料の図3参照)。
周波数はどうなるか。静止領域の場合を、横軸:水平周波数、縦軸:時間周波数で示した(ここでは,空間を水平で代表させて,水平と時間だけで考えた)。標本化の結果,音声の場合と同じように,もとの信号が(ただし60Hz間隔で)無限に並ぶ(資料の図4(a)参照).
目の特性は、静止している対象に対しては解像度が高い。時間周波数が高くなり臨界フリッカー周波数を超えるとフリッカーさえ見えなくなる。→図4(a)の◇部分が可視周波数帯域になる。見えている部分は何か?というと、サンプルする前の元の動画そのものである。つまりその過程で脳は関係ない。
動いている領域については,例えば水平動きの場合を考えて[水平周波数-時間周波数]で示す(一般には,動きの方向と時間で考えればよい).さらに,剛体仮定,即ち,「ある領域が固まりとして動く」と考える.目はある程度までの速さの動きに追従する(追従視)ので,その範囲では動対象は網膜上で静止している.このため視覚の空間解像度は保持され,図4(b)に示すような「変形◇特性」になる.この中にある成分が画像として知覚できる.この結果,もとの動画像(基底帯域成分)は,もとの画像として正しく知覚できる.標本化によって派生した成分は見えない.
■コマ数/secの変換を伴う場合
・2コマ繰り返し表示(資料の図5と図6)
映画では24(30)コマ/秒なので,フリッカーを軽減するために同じコマを2回表示する。繰返すことによるフィルター機能によってスペクトル上の24(30)Hzのところでは利得はゼロになり,その成分は消える。
■吉村さんからの質問
2コマ撮り、3コマ撮りなどのアニメの場合はどうなるのか?
→吹抜さんの回答
2コマ撮りだと、ゼロになる部分が4箇所になる。動きのある画像ではギザギザになる。従って、ここで言えるのは、このような場合は、やはり視域運動ではなく仮現運動かもしれないということ(資料4-2)。
■吉村さんからの先ほどの2つの質問に対する答え
質問:(@)残像の切替え時には,画面の点滅は必要か?
(A)液晶モニターの場合、3コマ撮りでは毎秒8回の映像切り替えしか生じていないのにもかかわらず、なぜスムーズな動きが知覚できるのか?
→(@)について:理論的には幅ゼロで標本化(サンプル)すると考える。その幅が広がると,アパーチャ効果が発生し、像がぼける(資料5).CMでビデオカメラではなくフィルムでやるのは、フィルムであれば開口時間短く撮影(標本化)できるが、ビデオカメラではどうしても時間幅を持つのでボヤケてしまうから。ただし、ボヤケの発生が避けられる代わりにエリアシングが生じるという問題もある(車のCMでタイヤの回転が逆方向に見えるなど).
このことから判るように,一番画質が鮮鋭なのは幅ゼロの時,次が点滅する時(ただし何れの場合も点滅は目に見えない),点滅なし(開口率100%)の場合が最悪.ただし,多くの液晶テレビ受像機では,コマ内挿によってコマ数を2倍に増やし,一つ一つに対する実効的な開口時間を半分以下にしている.
(A)あまり詳しくないが,仮現運動が効いているのではないか.この当りの研究はあまり進んでいない.
■アニメにおける見え方
アニメの場合はコントラストが重要。実写でも夜空の花火の映像のようなコントラストの強い画像であればコマ抜きしても仮現運動が成立するが、通常の自然画像では成り立たずボコボコになってしまう。
仮現運動と視域運動との境界は、どこかでピシッと完全に切れているわけではない。例えば一コマ作画(24コマ/秒)では、コントラストの強弱などによって、二つが混在しているのではないか。
■吉村さんからのコメント
仮現運動は必ずしもコントラストの強い映像でなくても起こりうるという指摘。それに対し、吹抜氏は仮現運動については十分な考察が出来ていない点は認めている。
■中村さんからのコメント
Long-range
AMはコントラストが高いほうが動きとしては見えやすい。
■桑山さん(来場者)
仮現運動の議論においては、後でランダムドットパタンの話も出てくるようだが、どういうオブジェクトを対象とするかをもう少し丁寧に見ていかなくてはいけないのではないか。
「カメラ屋」の立場から言うと、シャッターの時間開口率(開角度?)の問題がある。シャッターの時間開口率は、一般的に子どもが走ってるなどのごく普通の映像を対象とした時に、一番、主観評価が上がるところで決められている。180度より少し下の150〜160度くらい。映画の1/24秒の映像で、だいたいその半分の1/48秒くらい開いている。それより開くと、子どもが運動会で走っている映像などでボケが目立ちすぎるとか、逆に狭くしていくと、ブツブツ切れすぎてしまう。
→先ほどの吉村さんへのお答え(@)と全く同様のことが成立つ.これまでTV関係の学会や産業界では,専ら液晶TVなどの表示系の開口率(ホールド率)にばかり関心が払われてきた.しかし,撮像系でも全く同様にアパーチャ効果を起こしボヤケが問題になる(このことは私は度々主張してきたが,浸透していない).
コマ時間間隔の長い映画カメラでは,さらに顕著に成立つ.ご指摘のように,時間開口率が大きいと,アパーチャ効果が顕著になってボヤける.逆にこれを小さくすると,前述のように,エイリアシングが起きて,ブツブツしたような不自然な画像になる.
このように,過去には経験的に導かれてきたことが,「時間領域の標本化」で統一的に説明出来る.
■高桑さん(来場者)
根本的なところを確認したい。今の話は時間軸方向の話だが、映像は空間軸方向のサンプリングになるのではないか。
→吹抜さんの回答
それは別の問題として考えてよいことと思う(因みに,走査線は垂直方向の標本化.また,狭義の通信工学で「標本化」といえば,映像ビデオ信号の標本化,即ち,水平方向の標本化.しかし,何れも,ここで議論している「コマ表現と画質」とは別の分野の話)。
■ATR宮坂さん(来場者)
音声の場合は、人間の耳が20KHzくらいでローパスのフィルタリングされてそれ以上の高周波を認知しないということを根拠としたサンプリング定義というのは良くわかる。しかし映像において60Hz以上だとハイカットされるということはあるのか。
→吹抜さんの回答
周知のフリッカー現象というのがある。60Hz近く(50Hz強)の臨界フリッカ周波数になると,ある画面領域がチカチカと光っているということしか判らなくなる。空間的な平均値だけが見えるという状態。
さらに,この周波数を超えると,変化も見えなくなる。即ち,この時間周波数成分は見えず(可視周波数帯域外),時間的にも空間的にも直流成分だけが見える状態。
かつ,資料の図4(a)の◇特性に注目して欲しい.静止対象には視覚の空間解像度が高く(細かいものもよく見える),臨界フリッカ周波数では,これが低くなる(細かな絵柄は見えない).さらに,動く対象には,追従視の結果,図4(b)の変形◇特性になる.
なお,「耳は20KHz以上をカット」と標本化定理とは無関係.どんな信号でも一般に成立つ.音でもどんな周波数範囲でも成立つ.例えば電話の場合,3.4KHzで帯域制限して8KHzで標本化している.
5)中村浩さんの発表
SRAMとLRAMについて発表したときのBraddickが使用したランダムドットパターン。ランダムドットパターンの画像データは立命館大学の北岡さんのホームページから。
<デモンストレーション>画面内15′くらい動かしている。dmax(仮現運動が知覚される最大の視角Visual
Angle)は、15′=1/4度とされる。それ以上動かすと動かないように見える。
どうしてこうなるのか?→「フィルタリングモデル」と「マッチングモデル」。どちらかというと前者のほうが優勢だが、中村氏はアニメーションとの関係では「マッチングモデル」のほうがわかりやすいのではないかと考えている。
「マッチングモデル」例えば正方形が左右に動いている場合、その正方形は右にある時と左にいる時、それぞれ対応関係がしっかりマッチングされている。しかしその移動が大きくなってくると、対応関係がうまくできなくなってくるために、動きが見えなくなってしまうのではないか。長方形が現れたり消えたりするように見えてしまう。ランダムドットキネマトグラフは、輪郭を知覚的に作り上げさせないところがポイント。輪郭がないために対応関係が見えにくくなる。
SRAMのdmaxは15′となっているが、それはランダムドットキネマトグラフの点のサイズや密度によって変化するといわれている。つまり大脳の側にある検出機構によって成り立っているというよりは、刺激の側に依存しているといえるのではないか。つまりSRAMを検出している機構と、LRAMを検出している機構とは、基本的には同じだと考えられるのではないか。こうした根拠により、SRAMとLRAMの二つに分けるのはおかしいという批判もなされている。
最近の研究では、SRAMとLRAMを分けたほうが理解しやすいという主張もある。(脳科学的には)SRAMはMT野、LRAMは側頭葉にいっているのではないか?ということも言われている。
6)片渕須直さんの発表
もともとアニメーションの現場的な作画のやり方と、大学で実技を教えるところに、何かポイントのずれがあるという意識があった。
「原画」と「動画」の違いとは?
→「原画」は、表現の意味合いをつくる。
→「動画」は、動きの軌道を整列させる。
学生たちは、こうした区分けなどを意識せずに、極端にLRAMに頼ったような、極端にぶっ飛んだ表現に最初からいってしまう。それに対して、「動くものを整列させる」ということをちゃんと基本としてわきまえておいてほしい。それを理解してもらうためには、それがどういう効果があるのかについて、きちんとした裏付けが必要だと考えた。
知識の部分に話をもっていくために、まずは我々が何をやっているかの映像を見ていただきたい。映像提供は、ブレインズベースで新人アニメーター養成に関わっている深井俊幸さん
今日の冒頭のビデオで、手塚治虫が3~4枚でも動いて見えるといっていたが、それはありえない。秒8コマ=3コマが限界。実際は3コマは、認識の限界を少し下まわっているんじゃないかなと思っている。それを補っているのがテクニックなんじゃないか。それを定式化したい。
◎●例:スタジオ4°「鉄コン筋クリート」〜内ポケットから煙草を出す動き
3コマ打ちの作画。動き幅が小さいものなら、滑らかに見える。しかしアニメーターの側の意識としては、それでは満足がないのだと思う。3コマでありながら早い動きを目指している例を見せたい。
間の動きを飛ばして表現することによって、動きがシャープになる。しかし、ただ飛ばすだけではなく、そこで「先詰め」や「後詰め」を使い、真ん中が飛んでいることを意識させないようにしている。
こうした日本のアニメーションの動きを見慣れてきた学生たちに作画させると、こうしたアニメの動きを多用してくる。学生たちは、中割をせず、送り描きをしてくる。真ん中が飛ぶような動きが理想的な動きである、という認識がある。
実は今のシーンを担当したアニメーターは片渕さんの奥さん(笑)。片渕さんがもし演出なら、そうした動きに対して「あなたの動きはぴょこぴょこしている」と指摘するだろう。だが、そうした「ぴょこぴょこした動き・ぴょこたん」を受け入れる、それを快楽として受け止めるのは「文化」であり「地域性」である。片渕さんの主張としては「中割りが入っているもののほうが普遍的だ」という意識があっても良いでしょ?ということ。
◎例:マイマイ新子 〜縁側のシーン、田んぼのあぜ道を歩くシーン
3コマ打ちか、2コマ打ちか、1コマ打ちか、という判断は、第一に経済的な問題。「ぴょこたん」を避けるには2コマ打ちにすれば良いわけだが、1枚いくらという単価が1.5倍になるということ。
「マイマイ新子」は「鉄コン」と比べて、トーンはゆるやかであり、なごやかであるという印象を出すために、どうしても2コマ打ちを混ぜなければいけなかった(が、現実的には3コマにせざるをえなかった)
(田んぼのあぜ道を歩くシーンを見せながら)3コマでなんとかギリギリまでやってこれくらいである。
■来場者からの質問
「詰める」と「中割り」の違いは?
→「詰める」というのは、加速していくようにしていくとか、減速していくとかいったこと。加速するほうが動きはなじむ。詰めることによって中の部分は飛んでも大丈夫になる。「詰める」のは、「中割り」の特殊なものといえる。「均等割り」ではないもの。
◎例:シルヴァン・ショメ「イリュージョニスト」
自分は使わないが、世間的には「フルアニメーション」といった時に想像されるのはこういうものであろう。これが2コマ作画である。
部分的に動きの速いところは1コマつかっているかもしれない。動き幅が広いところを逆に狭くしようとする時に1コマを使うということ。「動画の密度を上げる」。
2コマで、ギクシャク感はほぼない。2コマでほとんど達成できてしまうということ。1コマ打ちにすつ必要がほとんどない。
◎例:金田伊功「銀河疾風ブライガー」〜オープニング
少ない枚数で大きな刺激を持ち込もうとしている例。つながりがあまり見えないにもかかわらず動きを感じてしまう。本来なら動いて見えるかよくわからないものが、ギリギリのところでちゃんと一つのアクションになっている。
LRAMを感じられるのはこうした表現。逆にイリュージョニストなどはSRAMに近いように思われる。
なぜ学生が、コマを動きを飛ばすのが好きなのか?その回答はこの事例にあるんじゃないか。ああいう風に動かすと、画面を見た時にある種の「快感」がある。「イリュージョニスト」のような実写に近い動きは、若者たちにとって違和感を感じてしまうのではないか。それらに対して「ぬるぬる動く」という不思議な「否定」の仕方がある。シャープにパキパキ動くのが日本のお家芸で、それに対して学生たちは一つの理想を見いだして、あこがれているのではないか。
極端に言うと、「溜めといて、途中を飛ばして、最後収める」というやり方。スタジオジブリのアニメーターの稲村さんは、(若い子たちの表現を見て)『「溜めといて」→「解放」』そればっかりだね、といっていたという。これはようするに、そこに開放感があるから。そこには普段見慣れない心地よさを感じてしまうことになる。
■森田宏幸さん(来場者):まず、ブライガーのオープニングは先ほど皆さん普通に動いてるなと感じられたと思うが、コマ送りしていかに間がいい加減かというのをお見せする必要があるんじゃないか、というのが一つ。また、ツメの話については、学生たちに教える時には「重さのあるものがいきなりポンと動いたりしないだろう」と教えている。
問題提起したいのだが、2コマでも果たして「綺麗に動いて見える」と言えるのか?学生たちに自由落下のボールを描かせたとき、やっぱり2コマでも止まっているボールが見えてしまう。だから、先ほどの話にあったように、実は60ヘルツ必要なんだと。60ヘルツないと動いて見えないんだ、といってしまったほうが、研究者的には話はわかりやすいんじゃないか?
■深井さん:実写映像だと画はぶれる。一方、アニメはアウトラインがはっきりした画になる。それは実写映像でいうなら、シャッタースピードの早い超高速度撮影の状態である。
■片渕さん:ハワイのものすごく明るい光の下で撮影した実写は、実写なのにパカパカして見える。アニメーションは本来ならばそれに近いはず。
■森田さん:アニメーションは動きを表現している・感じさせているだけ。じっくり見れば止まって見えてしまう。
■片渕さん:今日、音をしぼっているのはそういう理由もある。音がついているともっと動いて見える。
◎例:アラビアンナイト 〜おっかけっこのシーン
1コマ撮りのフルアニメーションの例。
床の格子を流しきれてない(タイヤやプロペラが止まって見えるのと近い)。
アニメーションを見てる側からすると、これは過剰な動きなのではないかと思われる。自分たちが判断できないくらいの情報量となってしまう。疲労してしまう。2コマのほうが見やすい。
■深井さん:1コマで動かすときの出来不出来がある。これはメリハリのない動きに見える。それは技術的な問題。
◎例:眠れる森の美女(ディズニー)〜フクロウとのダンス
1コマでの作画部分。ダンスのシーン。実写のダンス映像をロトスコープしている。しかしディズニーはおそらく実写から再サンプリングはしたくないと考えているようである。
ロトスコープは、「アニメの作画が実写を越えられない」という意識がある。だから相手方をこんなふうに不思議な存在にして描いたのではないだろうか。
日本のアニメーションも、それが「ピョコタン」した動きを指向するのは、『「動きの表現」をするのであれば、刺激的な動きをしたい』という考えの表れなのだと捉えることができる。
◎例:眠れる森の美女(ディズニー)〜ロトスコープのメイキング
実写をただトレースするだけではない、ということが良くわかる。実写をただそのままなぞると、ランダムになってしまう動きを綺麗に整列させるために修整が必要になってくる。逆に言うと「より刺激的ではない動き」になってしまっているのかなという気もする。
◎例:女子高生 Girl’s High ED〜音楽に合わせて女子高生がダンスする
おそらく実写は取っているが、ディズニーとは違うやり方でポーズを描き直していると思われる。逆に言うと、そうしないとこんなふうに綺麗に動かない。
実写からサンプリングしても、そのままでは動かない。「整列した動き」にならない。
それではどうあるべきなのか?どうやったら動いて見えるのか、動いて見えないのか?そうした知見を得られると、我々の理解も深まるんじゃないのかなと思っている。
■吉村さん:先ほどの鷲見先生のポイント・ウォーキングは実写だが、例えばあれをトレーニングとして人工的に探していくのはどうか。
■片渕さん:おそらく、あれを2コマ打ち、3コマ打ちにしたら、より人間らしく見えなくなっていくのではないかと思う。だが、あれを3コマ打ちでも認識できるようにすることは可能で、そのためには各点をどういうふうに並べてあげるべきなんだろうか、というところで中割という話が出てくるのではないかと。
今日の一番の収穫としては、LRAMとSRAMがあって、SRAMはおそらく無意識的に見えるが、LRAMは違うということ。日本のアニメのほうは、より「刺激の強いもの」を提示しており、側頭葉なのかどこなのかわからないけれど、それを「刺激/快感」として認識している。だから学生たちもそれを指向してしまうんだ、という理解が得られた。
ひょっとしたら、普通に見ているものとは違う「興奮」のようなものがLRAMから得られるのではないか、ということが、今後もっと知りたい部分である。
■深井さん:経験的に言うと、位置を真ん中ではなく少し先にズラすことで、強制的に動いているように錯覚させるというようなテクニックがある。そっちのほうが滑らかに動いているように見えたりする。
◎例:イリュージョニスト 〜車の往来シーン、列車の車窓のシーン
■片渕さん:キャラクターは2コマが一番見やすいようだ、という気はする。ただしカメラワークがある場合は、2コマでもパカパカして見えてしまう。こればかりは1コマ打ちにせざるをえない。この差については、SRAMとLRAMの違い、という説明では理解しきれないように思う。
(オープニングの車の往来シーンについて)車の動きが間欠的に動いているように見えてしまう。
(列車のシーン)車窓の風景は1コマ打ち。
画面フレームとの関係かとも思われるが、それだけの要因でもなさそう。背景とキャラクターとの間で動きに対する意識の違いが生まれる理由はよくわからない。
■吉村さん:岡部さんは、背景と人物という分け方ではなく、「直線的な動き」と「曲線的な動き」という分類をしている。人物の動きは曲線的な動きなのに対し、カメラワークは直線的な動きだから1コマでなければいけないということではないか。
■片渕さん:確かに車の動きは横方向の直線的な動きの時には1コマじゃないとおかしいが、正面に向かってくる動きの時には1コマだとおかしく見える。岡部さんのおっしゃっている通りだと思う。
■吉村さん:3DCGは30コマで作られていると思うのだが、今日出たようなマイナス面は、全部起こるということなのか。
■片渕さん:起こらないかもしれない。どうもCGは(手描きアニメとは)「違うもの」として見てしまうのではないか。ただし、CGでも黒い輪郭線をつけられるものがあるが、そうしてしまうと恐らく気持ち悪くなる。おそらくそのあたりの差もあるのかなという気はする。
■深井さん:先ほど、アラビアンナイトとディズニーの作品のロトスコープの違いをお見せしたが、そこで指摘したのはアニメーターの力量の問題。それと同じことが3DCGにもあてはまる。アニメーターのテクニカルな問題が同時に内在しているということを常に考えないといけない。1コマだからどう2コマだからどう、という単純な話ではない。
■片渕さん:アニメーションは実写からそのままなぞっても成立しない。それは輪郭のせいなのかどうなのかも含め、一つ一つ検証していく必要があるのだろうと考えている。
■中村さん:1コマから次のコマへの対応関係という問題が大きいのではないか。実写は輪郭が不明瞭なので対応づけるのが難しい。だからフルアニメーションでも変な動きというのは感じられない。ところがアニメーションの場合は、輪郭を明確に描いてしまうので、輪郭の部分だけで、対応関係を作ってしまおうとする。そこから違和感を感じてしまうのではないか。
■片渕さん:そうかもしれない。そういう感じは我々も受けている。もともと言いたかったのは、1コマと2コマの違いではなく、3コマになったときに「より動きが成立しにくい」という条件になるはずだが、そこで何をすれば3コマがなめらかに動いて見えるのか、あるいはなめらかにしない場合にどんな快楽が与えられるのか、そういった部分を明らかにしていきたいということだった。
■中村さん:2つのコマの間の「必然性」というものが大きな要因になってくるだろう。
■片渕さん:ブライガーでも、むちゃくちゃに動いているように見えて、やはり描いている本人(金田さん)にはおそらく運動の軌道が把握できていたんだろうと思う。そこまでいくとアニメーターの資質の問題になってきてしまうが。
7)佐藤壮平さんのデモ
■吉村さん:ここまで議論されている「動いていない」という話は、プロの見方だと思う。我々普通のオーディエンスはその違いがわかりにくい。そこで最後に助手の佐藤君がこれから見せるのは、よりわかりやすくするために、同じCG映像を24コマ、12コマ、8コマと並べた映像。
〜ゼルダの伝説のトレーラー映像(CG)から2つのシーンを並べて見せる〜
■森田さん:フレーム数が多いほうが、動きに重みが出るような感じはする。
■吉村さん:むしろ逆なのかと思っていた。フレーム数が多いほうが「ぬめる」と表現されていたが、重量感が出にくいのかなと。
■森田さん:こうなるとむしろ表現の問題になってくる。例えば「動きがカタくなる」という。
■片渕さん:「カタくなる」とか「目に残る」とか。
■吉村さん:目に残るのも、絵が目に残るのか、動きが目に残るのか。
■片渕さん:総じていうと、3コマのほうは、一枚一枚の絵が目に残りやすい。認識しやすくなる。だから動画で割るときも、3コマだと一枚一枚ちゃんと割った方が良いのだが、2コマだといいかげんに割っても見えないからいいよと言われてしまう。
■片渕さん:3コマのほうが「パキパキした気持ちのいい動き」にみえる。
■深井さん:日本でよくおこりがちなのは、3コマのスタイルの作画で1コマの作画をしようとする失敗。そういう失敗例がほとんど。本当は原画のポージングから変えなおして作らなければならない。全く同じ絵で枚数を増やせばいいというものではない。
■片渕さん:さらに言うと「何コマだったら(止めの表現が)止まって見えるか」という問題もある。6コマがあぶない。ギリギリ動いて見えたり止まって見えたりする。8コマや12コマだと、止めの間を作ればちゃんと止まって見える。
■森田さん:絵がどうして動いて見えるのかという問題について、前半の説明の中で蛍光灯の明滅の話はわかりやすかった。「止まっている絵が見えなくなったときに動いて見えるんだ」と我々は理解している。それが輪郭がはっきりしてたりコマ間の間隔が広いと止まっている絵がばれちゃうから、それはマズイと判断して絵を足したり、輪郭をボカしたりするんだと。今日の冒頭の叶さんがおっしゃっていた「なぜ動いて見えるのか」の答えの概念は見つからないような気もする(笑)。ただはっきりしているのは、「止まっている絵が見えなくなったとき動いてみえる」ということ。
■深井さん:ポーズの作り方でも、動きの方向性が明確になっているポーズとそうじゃないものがある。
■片渕さん:バレないようにするテクニックの一つは、ポーズを自然なポーズじゃなくするということはある。動いている方向の反対側を膨らませたりして、ポーズを曲線に沿わせるというのはある。もう一つは、どっちかに寄せてしまうということもある。オバケの問題もある。(深井さんがオバケの事例をAnimator’s Survival Kitから見せる)
■森田さん:例えば点を描く(といいながらホワイトボードに点を描いていく)。これは線に見えるか?点だろう。どこから線に見えるのだろうか?学問的には線なのか?点なのか?僕は頑固にこれは線ではなく点だと言っている。「動いてみえる」というのは「これは線だ」ということなんじゃないか?
*
■会場からの質問:音がつくとなんで動きがなめらかに見えるのか?
→片渕さん:音楽とかセリフがつくっている「ムード」とかが影響しているのではないか。プロは、音がつく前の映像を見ているからシビアになってしまう、というところもある。音がない状態だと「演技」としてみるより「動き」として見るようになってくる。
■会場からの質問:情報量の問題があるのではないか?脳が処理できる情報量というものがあって、音声の情報が増えると情報量が増え、それによって「ぼやける」のではないか?そうした考え方についてはどうか。
→吉村さん:視覚情報や聴覚情報がそれぞれリアリティを提供してくれているから、両方足しあわせることで、よりリアルな状況への説得力を増すのではないか。
→片渕さん:音楽がつくことで、より情動的になるように思う。感情に流されてしまう。「ここはこういう風に動いているんじゃないか」と認識してしまう。音がつくことにより説得力が増す。もしおっしゃる通りだとしたら、別の音をつけても成立することになってしまうが、そうではない。
-------------------------------------------------------------------------------------------------------------------------------------------------
<報告作成:布山タルト>