Shoeisha Technology Media

CodeZine(コードジン)

特集ページ一覧

Sansan CTO 藤倉氏が導き出した、データ分析に必要な3つの要素とは?【デブサミ2018 夏】

【C-5】人脈の情報はどうやって蓄積されるのか?Sansan/Eight のデータエンジニアリング

2018/09/05 14:00

 クラウド名刺管理サービス「Sansan」や名刺アプリ「Eight」を提供するSansan株式会社。同社は、優れたデータエンジニアリング基盤を構築し、長きにわたって名刺の解析技術を向上させ続けてきた。いまや、日本でも有数の「データ分析が強い企業」であることは間違いないだろう。紙というアナログな物質を高精度でデジタルデータに変換するために、いかなる手法を用いているのか。蓄積されたデータを活用するにあたり重視すべきポイントとは何なのか。セッション「人脈の情報はどうやって蓄積されるのか? Sansan/Eight のデータエンジニアリング」では、同社のCTOである藤倉成太氏がそのポイントを語った。

目次
Sansan株式会社 最高技術責任者(CTO) 藤倉成太氏
Sansan株式会社 最高技術責任者(CTO) 藤倉成太氏

Sansan/Eightの屋台骨を支えるデータ化のプロセス

 紙の名刺を画像データとして取り込み、デジタルデータに変える。多くの人が知るように、Sansan社は創業から現在に至るまでこの技術を洗練させてきた企業だ。では、Sansan/Eightによる名刺のデータ化はいったいどのようなステップを経て行われるのだろうか。

Sansan/Eightにおけるデータ化の流れ
Sansan/Eightにおけるデータ化の流れ

 Sansan/Eightではまず専用のスキャナやスマホアプリから名刺を読み込む。スキャナは精度の高いものを使用しているため、画質に課題が生じることはほぼないものの、問題はスマホアプリにあるという。

 「手でスマホを持ってスキャンすると手ブレが発生します。また、画像から矩形を認識しなければならないということもあり、撮影機能では画像は静止画ではなく動画のストリームを扱わなくてはなりません。そして、動画ストリームの各フレームをリアルタイムで計算する必要があります。スマホアプリで名刺を撮影するという機能だけでも、研究開発が必要なくらいに難易度が高い領域なのです」

 取り込まれた画像データは、スマホアプリ経由の場合は矩形を切り取ったり補正したりといった画像加工処理をクライアントサイドで施したうえでサーバーサイドに送られる。

 だが、スマホのコンピューティングリソースは限られているため、できることは限定的だ。そのため、サーバーサイドで改めてホワイトニングやエッジング、拡大縮小といった画像の前処理が行われるのだという。

 次にあるのが、「マイクロタスク化」や「マイクロソーシング」といった工程だ。これは、名刺という機微な情報を、高い機密性を確保しながら処理するために施されるプロセスである。

 同社が処理している名刺の数は、年間で数億枚にも及ぶ。名刺情報の入力には多くの人の力が必要であり、社内のメンバーだけでは到底全ての作業を賄うことはできない。外部のビジネスパートナーとも連携しながらデータ処理を進めていくことになる。その際に、情報漏洩のリスクを最小限に抑えるための仕組みとして同工程は存在するのだという。

 「『マイクロタスク化』の工程では、名刺全体の画像データを会社名や氏名、Eメールアドレス、住所などのパーツ単位に切り分けます。この処理には画像解析や機械学習の技術が導入されており、『画像内の各要素がどんな種類の情報を指し示しているか』が自動判別されるようになっているのです。さらに、名前やメールアドレス、電話番号など個人を一意に特定しうるものに関しては、より詳細にパーツを細分化し、誰の情報なのかわからないような状態にします。この処理を行うことで、個人情報を安全に扱うことができるようになっています」

 パーツ単位まで細分化された名刺の情報は、入力作業が完了したものから順にSansanのサーバーサイドへとデータが戻り、「マージ(結合)」に至る。その後、最終チェックや補正のプロセスを経たうえで完成版のデータになるという。


著者プロフィール

バックナンバー

連載:【デブサミ2018 夏】セッションレポート

もっと読む

All contents copyright © 2005-2018 Shoeisha Co., Ltd. All rights reserved. ver.1.5