orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

かんぽ生命問題全3千万件調査は機械学習を使うべきだ

f:id:orangeitems:20190801123911j:plain

 

かんぽ生命はいかに3000万件をレビューするのか

かんぽ生命問題は、結局現在の契約全てを見直し問題がないかどうかを確認することになったそうです。

3000万件あるそうです。

 

www.nikkei.com

日本郵政グループは31日、かんぽ生命保険の不適切販売を巡り、過去5年間分の全約3千万件の契約について不利益が生じたものがないか調査すると発表した。全ての顧客に契約の意向を確認する書面を送り、9月末時点で調査の進捗状況などの中間報告をまとめる。日本郵政の長門正貢社長は記者会見で「職責をしっかり果たすことが経営責任の取り方だ」と述べ、辞任は否定した。

 

今後、どう会社全体を立て直していくかが社会の関心となっていると思いますが、システムエンジニアとして最も興味があるのが、

---3000万件を、どのように問題がある/ないと判別していくか

です。問題のある契約とは以下の報道がされています。

 

biz-journal.jp

・保険料の二重徴収があった事例

・旧契約後の病気等で新たな契約が締結できず無保険となった事例

・契約乗換によって保険料負担が増加した事例

・病気が見つかり契約解除。保険金が受け取れなかった事例

・特約の切替で対応できるものを不利な契約乗換をさせられた事例

・郵便局員が販売実績をあげるために、契約者に対して保険の対象となる人(被保険者)を短期間に変える「ヒホガエ」と呼ばれる手法

 

3000万件から、この事例・手法に当てはまるかどうかを、一つ一つ抽出していく。この話を聞いて最近、機械学習やディープラーニングの情報に親しんでいたのでピンときました。これこそ機械学習案件です。

テレビ朝日のグッド!モーニングを今日見ていたら、「もし3000万件を一日1万件調べても、3000日かかる」と言うようなご意見をアナウンサーがおっしゃられていて。そりゃそうだなと思う一方で、これは昨今のAIが得意とするところだなと思ったところでした。

 

具体的にどのように機械学習にフィットさせるか

WEBには良資料がまだまだ隠れています。

機械学習の流れを超わかりやすく説明してくれるサイトを見つけました。

 

deepinsider.jp

機械学習/ディープラーニングの作業フローの基礎を学び、実践へ踏み出す準備をしよう。機械学習モデルは、どのようなステップで作成していくのか? データ収集~学習~運用の一連の流れをできるだけシンプルに紹介する。

 

かんぽ問題はともかく、上記のサイトは一見・百見の価値ありです。

具体的な機械学習のフローを教えてくれています。

まずは上記に目を通していただいたことを前提として次に進めます。

 

①データの準備

データそのものは既にかんぽ生命のデータベースにあるはずです。

どのように成形するかはともかくRDBからエクスポートすればよいので話が早いフェーズですね。

もちろんモデルを作成するために3000万件のフルデータは不要だと思います。サンプルとして、例えば都道府県単位で顧客契約を絞れば良さそうです。

 

②手法の選択

ここは専門家にお任せします。ディープラーニングを選択したとします。

 

③前処理

1レコードで詐欺的手口かどうかを判断する必要があるので、単なる契約レコードを羅列しただけではデータとして使えないと思います。

一契約者をキーとして、どんな契約をいつからいつまで行っていたか、をレコードとして持てばいいのではないか・・と。

データサイエンティストの現場においては、このデータを整える作業が非常に大変だと言われています。データサイエンティストになれると言われて転職してみたら、結局ずっとデータとにらめっこして前処理を手動でやっているだけ・・と揶揄された記事を思い出しました。

 

www.itmedia.co.jp

 

さて、今回の学習については、「詐欺的手口を集めたデータ=(教師ありデータ)」が用意できるわけですので、この前処理こそさえ乗り切ってしまえばいいのではと思います。

 

④モデルのトレーニング/⑤モデルの評価/⑥本番運用

あとは通常の機械学習と同様の流れです。

詐欺的な契約を見破るモデルを作成したら、本番データに再適用して3000万件に対してモデルが結果を出してくれます。

 

世の中はまだAIが何をできるかわかっていない

今日のアナウンサーのコメントでも同様ですが、まだAIが実際にどんなロジックで何をしてくれるかについては世間的にまだ理解が進んでいないことを実感しました。

少なくとも、今大量のデータがあれば、それを加工し機械が学習すれば、適切に答えを導いてくれるようなことが本当にできるようになっています。

まだそれを実装できる人が少ないだけであり、おそらくここ数年でいろんな人がピンと来るようになるのではないかと思います。また機械学習をするための機材も、20万くらいのパソコンでできるようになっています。ドスパラでGPU(Nvidiaなど)付きのパソコンを買えば実はできます。

3000万件のテキストデータぐらいであれば、個人のパソコンをまわして機械学習させることも非現実的ではないと思います。

とりあえず、かんぽ生命やITベンダーには、世間が調査に何年もかかると思っている悪い期待を裏切って、来月には調査結果公表、のようなサプライズ的な情報処理能力を見せつけてほしいな、と思っています。

個人のパソコンで機械学習を試せるような無料記事がないかは、今後も引き続き調べてみます。