(cache)OpenCVとVisual C++による画像処理と認識（１５）----- サポートベクターマシンを使ってみる -----

2015. 3.24.
石立喬

OpenCVとVisual C++による画像処理と認識（１５）

----- サポートベクターマシンを使ってみる -----
　精度が高い実用的な画像認識や識別を行うには、やはり、サポートベクターマシが有用になる。入力として、HOGなどの特徴量を用いるのが一般的である。本格的には、多数の真サンプルと偽サンプルで訓練する必要があるので、サンプルの収集と訓練に多大の労力と時間が必要になる。
　ここでは、OpenCVが提供するサポートベクターマシンのクラスやメソッドを理解するために、簡単な実証を行った。

サポートベクターマシン（Support Vector Machine、SVMと略す）
　サポートベクターマシンは、基本的には、データの集合を、二つのクラスに分類する処理で、個々のデータが多次元のベクトルから成る場合（一つのデータは多くのデータの集まりである）、分類には超平面（hyperplane）が必要になる。超平面とは、多次元の空間を二つに分割する仕切りのようなもので、空想的な存在である。この超平面を算出するのに寄与したデータをサポートベクトルと呼び（得られた超平面から離れた訓練データと区別して・・・）、これがサポートベクターマシンと呼ばれる理由である。
　上述のように、SVMの原理は、本来、「顔であるか無いか」などの２クラスに分けるバイナリ型である。しかし、実用的には、文字認識などのように、「どの文字であるか」のマルチクラス型が必要で、バイナリ型を組み合わせて対応している。OpenCVの場合、二つの型を区別する必要はなく、訓練の際のラベルに、+1と-1や、0と1のみの二値でなく、0～25などの多数のラベルを与えると。マルチクラス型になる。
　入力データとして、読み取った画像やパターンのピクセル値をそのまま用いるのではなく、実際には、すでに述べた特徴量を抽出して入力データとすることにより、精度を向上させる。ただし、ここでは、SVMを理解し、実証するために、生のままのデータを使用した。

非線形SVMとカーネル関数
　基本的なSVMは、入力データをそのまま用いる線形SVMであるが、これでは、二つのクラスへの分類が不可能な場合が多く生じる。そこで、カーネル関数（kernel function）を用いて高次元の別の座標空間に写像し、線形空間では複数の場所に分散していた領域でも、一体化することを可能にした。これを非線形SVMと呼び、代表的な非線形カーネルに、多項式カーネル（POLY）、ガウス放射基底関数カーネル（RBF）、シグモイド関数カーネル（SIGMOID）がある。カーネルを用いない線形SVMの場合は、線形カーネル（LINEAR）として明示的に設定する。速度的には線形SVMが優れているが、非線形SVMで、カーネルにRBFを用いるのが最も良いとされる。

特にRBF（radial basis function）カーネルについて
　RBFは、直訳すれば「放射状の（または半径の）基底関数」となり、ある中心から周辺に向かった距離とともに変化する関数である。「放射基底関数」または、「動径基底関数」と呼ばれる。しかし、これには特定の関数の意味がなく、SVMで使われるRBFは、正確にはガウシアンRBFであり、下記で表される。xおよびx'は写像前の多次元ベクトルである。

　　　

　RBF関数で調節可能なパラメータはgammaで、デフォルト値は1.0である。上式で分かるように、訓練用データの値が大きく、分散sigmaが大きいと、gammaを小さくする必要がある。ここでは、最大値が200程度になる座標値を、そのまま訓練用データとして用いたので、gamma = 0.0005のような小さな値を選ぶ必要があった。
ハードマージンSVMとソフトマージンSVM
　分類誤りを全く許容しないと、超平面が得られない場合が多い。そこで、一定量以下の誤りを容認するのがソフトマージンSVMである。これに対して、誤りを許容しない基本形のSVMをハードマージンSVMと呼ぶ。ソフトマージン化のためにペナルティ係数Cを導入し、誤判定量にCをかけて最適化を行う。Cが無限大の場合は、誤判定量が0となるハードマージンSVMになる。Cのデフォルト値は1.0である。OpenCVの資料によると、パラメータ名がCvalueとなっているが、これは使用できず、単にCとする必要がある。他に、Mat型のパラメータclass_weightsがあるが、これは、分類するラベルごとにCを変えるための重みである。

簡単な２クラス分類で、各種カーネルを比較する
　訓練用データとして、XY座標を表す二次元ベクトルを用意し、これに０か１かの分類ラベルを与えてSVMを訓練する。その後、すべてのXY座標を入力データとして順次SVMに与え、分類結果を調べる。この際、使用するカーネルによる違いを比較する。
　プログラムは、下記から成っている。
　１）個々の訓練用データに対して設定する分類ラベルパターンを作成する（図１）。
　　　　斜め方向の分類、水平方向の分類、三角形での分類、飛び地のある分類の４種類
　２）上記の種類から一つを選択して、SVMに訓練用分類ラベルとして与えるMat型labelsを設定する（図１）。
　３）訓練用データとなるXY座標を２５個作成し、SVM入力用のMat型training_dataを設定する（図２）。
　４）SVMパラメータを設定し、trainメソッドで訓練する（図２）。
　　　　カーネルの種類、パラメータの設定は、ここで行う。
　５）SVMに、あらゆる組み合わせのXY座標を入力し、predictメソッドで得た結果を画像out_imageに書き込む（図３）。
　６）訓練用データを画像out_image上に書き込み、out_imageを表示する（図３）。

使用したOpenCVクラス、構造体の説明
　以下は、頭のCvを付けなくても使用できる（typedef設定あり）。
◎CvSVMクラス
　SVMの基本クラスで、次の二つのメソッドを使用する。コンストラクタを使用しなくでも、trainメソッドで、詳細の設定ができる。
　trainメソッド ------ 訓練を実行する。

　　　　　train(訓練データ、訓練用分類ラベル、Mat(), Mat(), パラメータ);

　訓練用データは、CV_32FC1のMat型で、一つのrowに一つのデータベクトルを入れておく。rowの数がデータの数である。訓練用分類ラベルは、CV_32FC1のMat型で、labelsやresponsesと呼ばれる。訓練用のデータのそれぞれが、どのクラス（ラベル）に属すべきかを教えるもので、一つのrowのみに、直列的に順次入れておく。
　パラメータには、後述するCvSVMParams構造体のオブジェクトを入れる。Mat()は、デフォルトのままとする。
　predictメソッド ---- 入力データを与えて、分類結果responseを返す。

　　　　　response = predict(入力データ);

　戻り値は、Mat(1,分類ラベル値, CV_32F)の形式で得られる。
◎CvTermCriteria構造体
　繰り返し処理を終了させる条件を設定する構造体で、パラメータには次のものがある。
　type ---------- 最大繰り返し回数のみは、CV_TERMCRIT_ITERとする。精度のみは、CV_TERMCRIT_EPSとする。
　　　　　　　　　　　　両方を使う場合には、「｜」（論理和記号）または「+」を使って併記する。
　max_iter ------- 最大繰り返し回数を設定する。
　epsilon -------- 繰り返しごとにこれ以上変化がなければ終了する値を設定する。
　
　　　　TermCriteria(CV_TERMCRIT_ITER + CV_TERMCRIT_EPS, 100, FLT_EPSILON);

のように、コンストラクタを使って設定しても良い。
◎CvSVMParams構造体
　SVMの各種パラメータを設定する構造体で、下記のパラメータを設定できる。
　svm_type ------ SVMのタイプで、CvSVM::C_SVC他がある。
　kernel_type ---- CvSVM::LINEAR、CvSVM::POLY、CvSVM::RBF、CvSVM::SIGMOIDがある。
　degree ------- POLY用の係数
　gamma ------- POLY、RBF、SIGMOID用の係数svm_typeに応じて個別に設定し、共用できない。
　coef0 -------- POLY、SIGMOIDで使う。これも共用できない。
　C ----------- C_SVC他のタイプで使う。これも共用できない（説明書にはCvalueとなっているが、使えない）。
　nu、p -------- 省略
　class_weights -- C_SVCで使用し、分類クラスに応じてCを変えたいときの係数ベクトルである。
　term_crit ------ CvTermCriteria構造体を指定する。
　これらは、個別に設定しても良いし、コンストラクタで一度に設定しても良い。

図１　訓練用ラベルを用意する

図２　訓練用データを準備し、SVMを訓練する

図３　分類結果と、元になった訓練用データを表示する

２クラス分類での各種カーネル比較の結果
　図４に、容易に分離できる場合の結果を示す。いずれのカーネルでも、gamma = 0.0005、C = 1.0の設定で十分に分離できている。図５は、三角形状と飛び地のある、やや複雑な場合で、LINEARは全く無能力、POLYは誤差が多いものの、使える可能性があり（後に詳述するパラメータCとgammaを調整すると、やや改善が見られた）、RBFは優秀であった。

図４　単純な分類は、どのカーネルも良好である

図５　難しい分類は、RBFカーネルしかできない

簡単なマルチクラス分類で、LINEARカーネルとRBFカーネルを比較する
　２クラス分類と同じ条件（gamma = 0.0005、C = 1.0）でマルチクラス分類を試みた。カーネルは、基本的なLINEARと、最も推奨されるRFBのみに絞った。
　入力を０～３のラベルに分類するパターンを図６で設定し、４種類の結果を図示するために、図７のプログラムを用いた。
　得られた結果を図８と図９に示す。一本の直線で分割できる場合には、LINEARカーネルでも十分な成果が得られているが、同心円状のような場合では、LINEARでは意味不明の分割直線ができてしまう。RBFの場合には、同心円状にはなっているものの、０ラベルがなく、２ラベルが広すぎるなど、正しくない。これは、後述のように、パラメータの詳細設定により改善できる。

図６　マルチクラス分類のためのラベルパターン

図７　マルチクラスのために出力種類を増やした

図８　比較的単純な分類はどちらのカーネルでもできる

図９　同心円状の難しい分離は、RBFが可能性あり

RBFカーネルで、パラメータCとパラメータgammaを変えてみる
　すでに説明した通り、SVMのタイプにC_SVCを使い、カーネルにRBFを使った場合（いずれもデフォルトの推奨条件）、パラメータとして調節できるのは、誤分類の許容度を表すCパラメータと、写像時にガウス分布の広がりを表すパラメータgammaのみである。したがって、最も難しい同心円上の訓練データパターンについて、この二つを変化させて、分類能力を調べた。
　図１０～１２は、gammaを変えながら、Cを次第に大きくして誤分類を厳しく制限したもので、これらの結果で見る限り、C = 2.0、gamma = 0.0005当たりが良いかと思われる。

図１０　gamma = 0.0002の場合、同一ラベルの範囲が広すぎる

図１１　gamma = 0.0005の場合、これが最も良い

図１２　gamma = 0.001の場合、同一ラベルの範囲が狭過ぎるものもある

数字パターンでの訓練とテスト
　前項の「・・・による画像処理と認識（１４）」で、ニューラルネットワークに用いたのと同じ数字パターンを用いて、SVMを訓練し、結果を確認した。カーネルLINEARでも、RBFでも、デフォルト設定で十分の性能が得られた。プログラムの一部と結果を、図１３と図１４に示す。

図１３　SVMを文字パターンで訓練し、テストする

図１４　文字認識で得られた結果

結　論
　サポートベクターマシン（SVM）には、線形と非線形がある。線形SVMは高速であるが、分類不可能なケースが発生する。一方、非線形SVMは、カーネルとしてガウシアンRBFを用いると、非常に優れた分類能力を示す。したがって、実用的には、ほとんどが非線形SVMであり、訓練に時間がかかる欠点があるが、一度訓練しておけば良いので、あまり問題にならない。
　ここでは、線形SVMと非線形SVMについて、簡単な例で比較したが、上述の説明を裏付ける結果になった。RBFの唯一の設定パラメータであるgammaの選択は難しい。分類するデータの値により、また、訓練に使用するデータの多寡により最適化する必要がある。誤分類を許容するパラメータCは、デフォルト値の1.0よりも大きくして厳しくする方が良かった。
　前項のニューラルネットワークで使用した数字パターンを用いて認識の確認をしたところ、訓練パターンと同様のテストパターンと言う好条件ではあったが、デフォルト設定で、十分な結果が得られた。

参考文献
　C.Cortes and V.Vapnik, "Support-Vector Networks"(1995)
　http://csee.wvu.edu/~xinl/library/papers/comp/ML/svm.pdf

「Visual C++の勉強部屋」（目次）へ