Cloud Vsion APIによるGUIの検証自動化

106 views

Published on

GCPUG Sapporo Vol.2 ML Night
http://gcpug-sapporo.connpass.com/event/37403/

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
106
On SlideShare
0
From Embeds
0
Number of Embeds
10
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Cloud Vsion APIによるGUIの検証自動化

  1. 1. Masashi Terui @ marcy_terui I’m a Developer and Cloud Architect. I’m a Remote-Multi-Worker at Serverworks Co., Ltd. / Section-9 / Freelance I’m a member of GCPUG, JAWS-UG and MyNA. I’m around 30 years old. I’m a father of my son and my daughter. https://willy.works/ 2
  2. 2. 3
  3. 3. 4
  4. 4. Vision API is 何 5 画像検索やGoogle Photos等で培われたGoogleの画像認識技術を
 Web APIから呼び出して利用できるサービス 強化学習はGoogleによって随時行われ、勝手に精度が上がる 安い・1000検知/月まで無料
  5. 5. Vision API 主な機能 6 物体のカテゴライズ 有害コンテンツ判定 著名なロゴやランドマークの検知 顔検知(感情や装飾品など) OCR ← 今回使うのはコレ
  6. 6. 7
  7. 7. 目的 8 Web(HTML)ではないGUIを自動操作して定型的な作業を省略したい Web(HTML)ならSeleniumでおk 確認作業も省略したいから自動操作の結果を検証したい 「○○にxxxxというメッセージ・表示が出ること」的な確認 OCR機能が必要
  8. 8. 理由 9 OpenCV(後述)でもOCRはできるが、デフォルトだと精度が悪く
 チューニングの情報も少なくて苦労しそうだった TensorFlowは情報も多くなってきたが、学習素材を用意したり
 細かいチューニングも踏まえると費用対効果的に厳しい 時間削減が目的のアプリケーションで製造に時間を取られたくない
  9. 9. 10
  10. 10. Sikuli 11 OpenCVと各種ドライバをゴニョゴニョしてGUI操作を行う JVM上で動き、マルチプラットフォーム対応 Python(Jython), Ruby(JRuby)で自動化スクリプトが書ける ドライバの依存とかでクラウドで動かせないのが難点。。。
  11. 11. 12
  12. 12. 13
  13. 13. 14
  14. 14. 15
  15. 15. 精度 16 英語の精度は相当高い(今回は英語なのでバッチリだった) 記号が上手く認識できなかったり前後が抜けたりはあった 日本語もちょっと試した感じかなりいけそう システム画面だったので手書きだとどうなるかは未検証
  16. 16. 使いやすさ 17 APIは非常に平易で扱いやすい google-api-clientがJythonで動くか不安だったけど、
 普通にurllib2(Python標準ライブラリ)で簡単に実装できた APIキーを含めたリクエストにBase64化した画像を添えて投げつける
 またはGCSのパスを指定するだけ
  17. 17. 18
  18. 18. まとめ 19 機械学習自体を自分でやらなくても、用途が合えば応用はできる 開発速度を上げるためにまずは巨人の肩に乗るのもアリ 身近な所に使える場所はいっぱいあるかも? 他にも色々あるよ Cloud Speech API(音声認識) Natural Language API(テキスト分析) Cloud Translate API(翻訳)

×