スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書く事で広告が消せます。

SSIMとはなんぞや


最終更新 2005/07/12 -- TheSSIM Index for Image Quality Assessment

TheStructural SIMilarity (SSIM)index is a novel method for measuring the similarity between twoimages. TheSSIM index can be viewed as a quality measure of one of the imagesbeing compared, providedthe other image isregarded as of perfectquality. It is an improved version of the universalimage quality index proposed before. A brief description ofthemethod canbe found here.More details are given in the following paper:
 試訳:
 構造的類似性(Structural SIMilarity)指数は二つのイメージの類似性を計測する新しい指標です(*原文初出は2003/02*)。SSIMは片方の画像が完璧な画質と考えた場合、比較対象となる画像の品質を測るモノサシと言う事が出来ます。SSIMは以前に案出された汎用画像品質指標の改善版です。SSIMの簡単な説明はここにあります。ここでは、より詳細な説明をします。

◆◇◆

 で、もちろん簡単な説明すらわかりゃしない。PSNRとは別の指標という事だろう。一応PSNRとは、ピークシグナル toノイズレシオ。高いほど画質が良いとされるが、人間の印象とは必ずしも一致しない。
 x264cliではデフォでSSIMを計測する。
 --no-psnr Disable PSNR computation
--no-ssim Disable SSIM computation
 MEncoder -x264encoptsではなにもしなくてもログに出る(PSNRは明示的に指定しないと出ない)。
 PSNR・SSIM・VQMによる全CODEC客観的比較(BAL BAL NET - 2004/01/12更新)を見ると、これも高いほど画質が良いっぽい。
 MasaHaseさんのうぇブログのこの記事では、アニメ素材なら、ソースの解像度が720x480のときSSIMにして99〜98%が狙える。主観でいえばオリジナルとの差が見分けられない。と表現している。
 手許のログを漁るとほとんどが99%以上だった。設定は1024kbps,2pass,横幅640固定。MasaHaseさんの2000kbps,3pass, 720x480と大差ないワケがないので、SSIMで気にすべきなのは小数点以下3桁目以降かも知れない。
 一応、060915-結果篇に追記したものは以下(その他の設定はおおむね060831-設定篇に同じ)。

VGA(640x480)

タイトル I枚数 I比率 Avg QP (P) PSNR (Grobal) SSIM
- 平均 526 0.89% 19.97 45.74 0.9903196
A 無敵看板娘_FW_07 463 0.99% 19.77 45.36 0.9901443
A 無敵看板娘_FW_08 439 0.98% 20.36 45.26 0.9892927
A 無敵看板娘_FW_09 464 1.03% 19.15 46.26 0.9909509
A 無敵看板娘_FW_10 455 1.02% 20.04 45.36 0.9899225
R BSアニメ夜話_23_鋼の錬金術師 783 0.79% 20.48 45.97 0.9903982
R BSアニメ夜話番外編「アニメの時間よ永遠に」 553 0.51% 20.02 46.24 0.9912088

VISTA(640x352)

タイトル I枚数 I比率 Avg QP (P) PSNR (Grobal) SSIM
- 平均 386 0.87% 14.21 49.47 0.9936473
A コヨーテラグタイムショー_FW_07 432 0.98% 15.14 48.71 0.9924971
A コヨーテラグタイムショー_FW_08 347 0.79% 14.33 49.13 0.9929892
A コヨーテラグタイムショー_FW_09 380 0.86% 14.32 49.37 0.9933534
A コヨーテラグタイムショー_FW_10 403 0.91% 15.10 48.96 0.9926276
A コヨーテラグタイムショー_FW_11 427 0.97% 14.12 49.75 0.9934556
A ゼロの使い魔_FW_07 383 0.90% 15.62 48.28 0.9926050
A ゼロの使い魔_FW_09 367 0.85% 14.63 48.86 0.9932632
A ゼロの使い魔_FW_10 384 0.89% 14.65 49.08 0.9936109
A 僕等がいた_FW_07 416 0.89% 13.01 50.40 0.9952227
A 僕等がいた_FW_09 343 0.73% 12.11 51.29 0.9954948
A 僕等がいた_FW_10 362 0.77% 13.24 50.31 0.9950015

疑問

  1. 小数点以下7桁も出るので、重要なのは小数点以下3桁目以降と思われる。たぶん99%切ったら論外くらいのイキオイ。私大文系としてはそこを強調する表記方法が欲しいところではある。小数点計算で7桁目の精度は一応用心して切り捨て、VISTA平均99.3647%、VGA平均99.0319%。とか。
  2. 手許ではインタレ解除もデノイズもかけてる。MEncoderとx264の関係上、SSIMの比較対象は元画像ではなく、-vfチェインが吐き出した後のデータではないか。winは持ってないが、たぶんAviSynthの出力だろう。
  3. MEncoderのログはY(輝度信号)の平均SSIMを出しているように見える。UVは出ないっぽい。
    x264 [info]: SSIM Mean Y:0.9880310
    x264 [info]: PSNR Mean Y:44.499 U:48.195 V:49.478 Avg:45.514 Global:45.450 kb/s:1024.56

 主観的な画質はあまりにもいろいろな要素に左右されるので下手に書くのは躊躇われるのだけれど。自分としてはAvg QP(p)が最も肚に落ちる。
 アニメで20以下はbitの無駄。実写の20はもうちょいなんとかなんないかな、といったところ。噺家さんの着物の質感とか、きっといーもの着てるんだろうに潰れちゃってるなって感じ。まぁ言い出すとキリないし、bitrate上げる気もないんだけど。さらにさらに主観的には-x264encoptsより-vf チェインのほうが影響デカイ。

コメント

     修正用パスワード :

管理人にのみ公開 :

トラックバック


<<前の記事へ ▲  次の記事へ>>