クレジットカード不正利用予測モデルを作成・評価してみた



表題の通り、Kaggleデータセットに、クレジットカードの利用履歴データを主成分化したカラムが複数と、それが不正利用であったかどうかラベル付けされているデータがあります。

https://www.kaggle.com/mlg-ulb/creditcardfraud

今回は普通に、このデータを用いてクレジットカードの不正利用予測モデルを構築して評価するまでを実装してみます。

ソースはすべて以下のGitHubにノートブックのまま上げました。

GitHub: https://github.com/Gin04gh/datascience/blob/master/kaggle_dataset_credit_card_fraud_detection/notebook.ipynb

データの確認

上記で述べたように、元々特徴量はほとんどが主成分化されているため、どのカラムがどういった内容を表すのかは不明です。

また、欠損値もありません。

クラスについて集計をしてみますと、

データ件数 不正利用フラグ=1の件数 不正利用データ確率
284,807件 492件 0.00173

と、かなり不均衡なデータになっています。

相関行列のヒートマップを可視化してみると、

といった感じ。(不正利用クラスのカラムは最下段の Class の項目)

データサンプリング

上記の通り、データがかなり偏っていますので、ちゃんとモデルを学習させられるように、データをサンプリングして偏りを揃えます。

アンダーサンプリングやオーバーサンプリングなどが揃っている imblearn を使います。

不正取引 Class = 1 が圧倒的に少ないので、これに合わせるように、不正取引でないデータをアンダーサンプリングしました。

特徴量選択

分類モデルの学習に効く特徴量を探すため、scikit-learnに実装されている RFECV を使います。

再帰的特徴除去(Recursive Feature Elimination; RFE)は、変数減少法と同じく、最初に全ての特徴量を使ってモデルを学習し、最も重要度の低いを特徴量を除去して、性能を再計算するという処理を繰り返していきます。

重要度の指標には feature_importancescoef が使われるようです。

これを交差検証の中で行うのが RFECV になります。

どの変数がどのくらい選ばれたかが分かります。

上記6つのモデル中4つ以上のモデルから選択された特徴量を使うことにしました。

モデル学習

ハイパーパラメータをグリッドサーチさせた複数のモデルに関する投票モデルを作ってみます。

最初に、複数のモデルについて学習させてみます。

後で精度を見ながらモデルを選びますので、ひとまず思いついたものをぶっ込んでみる。

安定のXGBoostに続いて、AdaBoost、バギング、勾配Boosting辺りが良いようです。

valid_accuracy で平均してソートすると、

な感じです。

さらにこの中から精度の良いモデルを複数選んで、ひとまずハイパーパラメータをデフォルトのままで投票モデルを学習させてみます。

後にスコアリングしたいので predict_proba が使える soft しか使いませんが、一応 hard も出しています。

hard は単純に利用した複数のモデルによる多数決でクラスを予測、 soft は利用したモデルのそれぞれの predict_proba による予測確率の平均値からクラスを予測しています。

さて、さらにグリッドサーチを行って、各モデルで最適なハイパーパラメータを選択してみます。

上記、実行後、再び投票モデルを学習させます。

これはあまり効果はなさそうですね。

hard については上がっているものの、 soft に関しては下がってしまいました。

この辺りは割と、最後にわずかの数パーセントが上がってくれればといったくらいの気持ちだったりします。

モデル評価

改めて精度を確認してみます。

混合行列とROC曲線を可視化しました。

検証データに対する精度は 0.949 となりました。

ただし、上記の検証データは、実際には、Ground Truthが 0 のデータの方がたくさん存在する不均衡データですので、サンプリングで調整した分を戻して混合行列を出してみます。

実際の運用時には、このくらいのFalse Positive, False Negativeが発生するという感じですね。

今回はさらに、いろいろと設定を仮定した上で、それぞれの場合の損益の効果まで考えてみます。

クレジットカードといえば、盗難保険がついていますよね。

不正利用により顧客が失った金額は、こういった盗難保険などといった形で、クレジットカード会社が負担するようになっているそうです。

https://news.cardmics.com/entry/tonan-hoken-detail/

ということは、不正利用がないと予測したけども、実際に不正利用があった時には、不正利用を見逃したことになり、結果負担コストが発生すると考えられます。=cost_{fn}(account)

なので、保険会社的には、不正利用を予測することで、被害を抑えたいというモチベーションがあるわけですね。

では仮に、不正利用があると予測し、実際に不正利用されていた場合には、失うはずであった金額を抑えることが出来たと考えてみます。 =benefit_{tp}(account)

逆に、不正利用があると予測したけども、実際に不正利用はなかった時には、そのアカウントに迷惑をかけることになり、利用停止を解除するコストも発生すると考えてみます。 =cost_{fp}(account)

https://kurumicat.com/zakki015

また、不正利用がないと予測して、実際に不正利用はない時の1アカウント当たりの平均利益も考えてみます。=benefit_{tn}(account)

このようにして考えた場合に、損益行列は

benefit_{tn}(True Negative) cost_fp(False Positive)
cost_{fn}(False Negative) benefit_{tp}(True Positive)

と表せます。

ではさらに仮にですが、

  • 利用停止を解除するコストとして1アカウント当たり平均コスト額が1万円
  • 不正利用を検知できず悪用されてしまった場合の1アカウント当たりの平均負担額が100万円

かかるとしてみます。

そうすると、

benefit_{tn}(account) = 0
cost_{fp}(account) = −1{\times}account
cost_{fn}(account) = −100{\times}account
benefit_{tp}(account) = 0

と置けそうです。

benefit_{tp} は不正利用を未然に防ぐことができた金額が100万円と考えられますが、プラスで計算してしまうと cost_{fn} と二重で計算してしまうことになるので、片方だけ計算するとして、こちらは0としておきます。

実際にはこういったそれぞれの場合の利益や損失の規模感をクライアントや担当者にアリングできるかが重要になると思いますが、ひとまず上記の仮定のまま進めてみると、実際の不均衡データに対して、モデルが予測した時の最終的な損益行列は

となりそうなことが分かりました。

predict では予測確率が0.5以上でクラス判定としているので、この予測確率をどのくらいの閾値に設定しておけば、利益が最大となるかを可視化してみます。

学習データと検証データのセットを何パターンか試してみるため、何回かの検証データを使って信頼区間を出してみて、その上で、最大利益となる閾値を求めました。

不正利用である確率が、上記閾値を超えているものに不正利用予測をすれば、利益が最大になるとのことなので、この閾値で再度損益行列を出してみます。

この仮定の場合においては、False Positiveを抑える(Precisionを高めにしておく)方が、コストがかからないということになりました。

あとは既存で使われている予測モデルに対しても同様の分析を行って比較ができれば、どのくらいの費用対効果があるのかが分かりやすく示せるのではないかと思います。

データの傾向についての分析

ついでに、主成分の中身はわからないんですが、以下、決定木モデルによる主成分の傾向を分析してみました。

何か、1つ目の切り分けルールでかなり分けられていることが、ジニ係数などを確認してみても分かります。

そこで、データから1つ目ルールで切り分けられた集団ごとの不正予測の比率を確認してみます。

黒の点線が、もともとの不正利用の確率 0.00173 を指しています。

それよりもルールで切り分けられた集団ごとに確率を出してみると、かなり異なることが分かりました。

というか、片方はもはや潰れてるし。

ちゃんと値を出してみたものが以下。

冒頭の相関行列でも他の成分に比べて絶対値が大きめですし、意外と生データにおいて、不正利用かどうかを判断しやすいような項目があり、それが自然とこの主成分にまとめられたのかもしれません。

まとめ

ただのデータセットでしたが、今回は、意思決定者に対して、どこまでのモデル評価を実施できれば良いだろうかといったところを念頭に取り組んでみました。

損益行列あたりの話は下記書籍が参考になりました。

評価はがちゃがちゃしましたが、モデルの学習自体は、結構いつも通りのやり方でいっています。

投票モデルで soft で学習させる場合って、決定木系のモデルは、あまり predict_proba に傾向的な要素が入らないため、実は使わない方がいいのかな?とか個人的に気になったりしているのですが、どうなんでしょう。



 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

:)