物体認識 IoT サービスを支える技術〜クラウドアーキテクチャから組込み深層学習まで〜

1. Chief Analytics Officer ⾦⽥卓⼠物体認識 IoT サービスを支える技術〜クラウドアーキテクチャから組込み深層学習まで〜 #TokyoWebmining 55th

2. ⾃⼰紹介慶應義塾⼤学⼤学院で計量経済学を専攻後、⼀休.com、ソフトバンク・テクノロジー、 VASILYにおいて分析からアルゴリズムの実装までデータ関連業務全般に従事。2016 年6⽉よりフューチャースンダードへ参画。金田卓士 @kndt84 2

4. 1. 事業概要 2. サービスアーキテクチャの解説 Ø システム概要とアーキテクチャの設計方針 Ø デバイス構成 Ø サーバー構成 3. 深層学習を利用した組込み物体検出の取り組み⽬次 4

5. 事業概要

6. 世界の「見える化」を加速させるどれくらい混んでるのだろう？どれくらい、見られているのかな？上手い人との差ってどこだろう？⾒えているようで⾒えていない世界をリアルタイムに認知し、理解する 6

7. リアルタイム画像解析でできること: 店舗の場合来店分析行列人数顧客・店員動線 7

8. リアルタイム画像解析でできること: 街の場合通行人数通行車両数移動方向 8

9. 早く・簡単に集めた画像を解析できる画像解析プラットフォーム 9

10. ビジネスモデル 10 インフラ設置済みカメラ既存監視カメラスマートフォン解析データ飲⾷店待ち時間データ映像データ（1）カメラ網（2）画像解析（3）新しいソリューション交通量・流動データ店舗1 56⼈ 50台現在8人待ち

11. 届けたい体験・・・ 11 お店の前って、どれくらい⼈が通っているのかしら？クライアントの屋外広告測定をしてみたいな。 l 簡単な機能追加 l インフラ設計不要 l 欲しいアプリ、解析サービスを探せるアプリマーケット

12. サービスアーキテクチャの解説

13. システム概要 P全時間帯の映像を、リアルタイムでタグ付けして保存 Pタグ付けの画像処理は、ニーズにより柔軟な構成が可能 IPカメラオンプレミス中間サーバクラウド画像処理 S3 バケットタグ映像映像映像映像保存エッジでタグ付け中間でタグ付けクラウドでタグ付けニーズで選択 Dynamo DB NoSQL DB 保存 13

14. アーキテクチャの設計方針下記の⽅針に基づいて動画解析プラットフォームの設計を⾏っています。 n 主に安価な画像センサと⼩型コンピュータ（Raspberry Pi2 等）を組み合わせ “スマートカメラネットワーク”を簡単・迅速・安価に構築 n OS / HWを問わないマルチプラットフォーム環境で、カメラ数台〜数百万台までカバーするスケーラブルかつ柔軟なシステム n 撮影画像のタイムリーな蓄積・検索・分析に必要なミドルウェア群を完備し、独⾃ビジネスロジックの構築や、先端研究を簡単に組み込める導⼊が楽学習が楽運⽤が楽 14

15. 簡単・安価なネットワーク構築を実現するデバイス • 汎⽤品である Raspberry Pi と市販のUSBカメラを繋げることで安価にスマートカメラネットワークシステムを構築可能 • 独⾃イメージを書き込むだけで、ドライバ導⼊やネットワーク設定は全て⾏われる • 機能のオンオフを設定ファイルで簡単に変更可能 • エッジで解析を⾏う場合は、OpenCV の動体検知とHOG特徴量フィルターを組み合わせて、顔検出や通⾏⼈検知が可能 15

16. マルチプラットフォームかつスケーラブルな設計コンポーネント間のインタフェースとなるプロトコルを規定し、サービスを疎結合とすることで、異種HW・異種OS・異Version混在しても、全体の整合性を保てる構造にする。この⽅針により、様々な形態での運⽤が可能となる • リアルタイムのカメラ映像の代わりに、録画済みのビデオ映像をPC上に送り、 PC上で動作させた画像解析サービスで処理 • IaaS クラウド上に、個別ニーズに最適化した、画像解析サービスを構築 • クラウド上の画像解析サービスを、⼀般向けに PaaS 提供 • 典型的な画像処理プラグインとパッケージング化して、⼀般向けに SaaS 提供 • ユーザのハードウェア上に、オンプレミスでシステム構築 16

17. ミドルウェア群（1/2） HPCクラスタミドルウェア l クラスタメンバー管理（加⼊・切離し・交換・命名等） l クラスタメンバー制御（各種 ON/OFF 他） l ジョブ制御、モニタリング、リトライ l 構成調査／デプロイ à Ansible や Cheff 画像処理ミドルウェア l OpenCV, VLFeat l C++, Python, MATLAB l PCL, CUDA など⾼レベルミドルウェア l クエリライブラリ ‒ 特定カメラ＆特定時刻の画像取得、バッチ処理起動など l 定形処理ライブラリ ‒ ⼈物検出、カリブレーション、各種データの集計など使いやすさと性能に直結コアコンピテンス HW性能を引き出すカスタムビルド利⽤者による最適化を不要にプロトコルによりヘテロ構成に対応 17

18. ミドルウェア群（1/2）ネットワークミドルウェア • 設定ツール、調査ツール（主にトラブルシューティング） • Layer 7 プロトコル ‒ RTP, RTCP など（画像処理系） • セキュリティー関連 ‒ IPフィルターなど • ルーティングライブラリ ‒ スマートカメラネットワークの階層構造を透過にアクセス OS調査ツール • プロファイラ（perf, oprofile）、トレーサ（ltrace、strace） • 障害ログ分析ツール、通報ツールユーザインタフェース • 初期設定／保守ツール ‒ 保守プロンプト、QRコードを読み取って設定など • スマートデバイス連携ライブラリ ‒ 例えば、REST I/F を提供するWebサーバなどトラブル対応を迅速化システム性能のチューニングにも活⽤ 18

19. デバイスのソフトウェア構成ログと動画はストリーミングとバッチを併用することで冗長性を確保 FluentdのプラグインがMQTT3.1に対応していないためMosquittoを利用 19

20. アドバタイズ／プロパティ提供サーバーのコンポーネント構成カメラ管理サブシステム (CMS) カメラネットワーク (CN) 画像処理サブシステム (IPS) UI サブシステム (UIS) 画像／メタ情報処理デリゲート処理指示操作サーチ／カメラ制御情報提供ユーザ管理サブシステム (UMS) 認証 Token ログイン DB ユーザID 認証Token 登録 20

21. 《MQTT》アドバタイズ／プロパティ提供 AWSマネージドサービスの活用カメラネットワーク (CN) 《MQTT》画像／メタ情報処理デリゲート操作《MQTT》サーチ／カメラ制御情報提供認証 Token ログイン DB ユーザID 認証Token 登録 API Gateway Cognito AWS IoT AWS IoT S3 Dynamo DB タグ映像 Lambda Lambda Elastic Beanstalk 21

22. クラウドアーキテクチャの解説深層学習を利用した組込み一般物体認識の取り組み

23. 現状の問題点とエッジ側での物体認識のニーズ • OpenCV を使って動体検知+HOG特徴量では認識精度が低い • 個⼈情報保護の観点からクラウドへ映像や画像を出したくないエッジ側でディープラーニングを使った精度の⾼い⼀般物体認識ができないか検証を実施 23

24. ⼀般物体認識 4 car : 1.000 dog : 0.997 person : 0.992 person : 0.979 horse : 0.993 conv feature map intermediate layer 256-d k scores 4k coordinates sliding window reg layerr k anchor boxes bus : 0.996 person : 0.736 boat : 0.970 person : 0.989 person : 0.983 person : 0.983 person : 0.925 cat : 0.982 dog : 0.994 3: Left: Region Proposal Network (RPN). Right: Example detections using RPN proposals on PASCAL 007 test. Our method detects objects in a wide range of scales and aspect ratios. • 制約のない実世界シーンの画像に対して計算機がその中に含まれる物体を一般的な名称で認識すること • 画像のどこに何が写っているかを知りたい • 一般物体認識ができれば個別の認識タスクは識別層を変更したりファインチューニングすることであらかた実現可能？ Faster R-CNN の論文より引用 24

25. • クレジットサイズの組込み用コンピューター • 64bit の 4コアCPUを搭載 • 256 CUDA コアを搭載（GTX 1080 は 2560コア） • メモリは4GBでGPUと共有（TK1は2GB） • OSはUbuntu 14.04 LTS をベース • 実際の開発は、開発キットを使って行う NVIDIA Jetson TX1 開発キット 25

26. • 高速でほぼリアルタイムに近い物体認識が可能なアルゴリズム • 物体候補領域の検出と、物体の判定を一つのネットワークで行うため計算が速い • 詳しくは、スライドと元論文読んでください！ Faster R-CNN image conv layers feature maps Region Proposal Network proposals classifier RoI pooling Figure 2: Faster R-CNN is a single, unified network for object detection. The RPN module serves as the ‘attention’ of this unified network. single, unified Using the re networks wit module tells In Section 3.1 of the networ develop algor features share 3.1 Region A Region Pro (of any size) a object propos model this pro [7], which we mate goal is t object detectio share a comm periments, we [32] (ZF), whi and the Simon which has 13 To generat network over by the last s Faster R-CNN の論文より引用 26

27. PVCR2015 Tutorial: Convolutional Feature Maps論文紹介 Fast R-CNN & Faster R-CNN 27

28. R-CNN（参考） • Selective Search で領域の候補を検出 • それぞれの画像を規定のサイズに変換 • 特徴量から分類を行う • 矩形の座標を回帰 28

29. • 本家のMatlab実装でなくGitHubで公開されているPython実装を利⽤ • 使⽤したモデル Ø VGG16: 13層の畳み込み層 Ø ZF: 5層の畳み込み層 • 学習は⾏わず、Forward propagation のみ実施 • 候補領域数は最⼤300 に設定 • Jetsonの設定に関しては、別途 Qiita の記事にまとめておきました Jetson TX1 で Faster R-CNN を動かす検証について 29

30. 検証結果 30 モデル平均処理時間（秒）平均領域候補数 VGG 16 3.01 230 ZF 0.91 233

31. 今後の課題 • ZFでは約0.9秒で処理できたが、更に高速化が求められるタスクに対応するのにはどうしたらよいか • 特定の物体認識タスクへ応用するのにどうするのがよいか判別層の置き換え、ファインチューニング • 時系列フィルタリングをどうしたらよいか 31

物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜

Takashi Kaneda