どうも、@hikauya です。
最近、IT×洋服(EC)で話題の会社といえばZOZO TOWNを運営するスタートトゥデイですよね。
スタートトゥデイが開発したZOZOスーツを着て、実際にTシャツなどを注文したことのある方も多いのではないでしょうか。ZOZOスーツで測定してみた方は共感していただけると思うのですが、ZOZOスーツにはスタートトゥデイの持つ技術の粋が結集されていることが分かります。
また最近では靴と下着(ブラジャー)をZOZOスーツのように採寸・注文のできる開発部門を立ち上げ、募集をしていました。(募集は2018/08/13時点で終了しているようです。)
今回はそんなスタートトゥデイの研究機関であるZOZO Research (スタートトゥデイ研究所)によってarXivにて公開された論文 [1]*を紹介しようと思います。
目次
様々な服装コーディネートの提案
論文名: Outfit Generation and Style Extraction via Bidirectional LSTM and Autoencoder
(google翻訳: 双方向LSTMとオートエンコーダーによる衣装の生成とスタイル抽出 )
この論文はarXivTimesによると
一言でいうと
似合う服装スタイルの提案。人の服装やスタイルを、カジュアル、フォーマルの割合でラベリングすることを提案しており、そのラベルから服装コーディネートを生成した。これにより様々な好みに応じることができる。(ZOZOの研究)(KDD2018採択)
論文の簡単な要約
※ここからは @hikaruya が個人的に行なった簡単な要約です。Computer Visionの専門家ではありませんので、誤った認識/誤訳をしている可能性があります。お気づきの際はTwitterなどでDMをいただければ大変助かります。
また記事全体を読む時間がない方はこちらから論文の結論の要約にジャンプして頂ければと思います。
研究の背景
- システムを用いて適切に服を選んだり、購入するには以下の2つが必要であると考える
- ファッションの両立性
- ファッションスタイルの識別
- 衣装の相性を学習し、服装のスタイルを同時に抽出するモデルを提案する
使用したモデル、アーキテクチャ
- 服装表現
- 服装はファッションアイテムの連続性(配列)とみなす
- 使用したモデル: CNN (畳み込みニューラルネットワーク)
- Bidirectional LSTM (双方向LSTM)
- Bidirectional LSTMとはLSTMを拡張したもので、このモデルでは入力シーケンスは順方向と逆方向の両方から同時に処理される
- Visual-Semantic Embedding
- Visual-Semantic Embedding (VSE)とはマルチモーダルデータ(複数の情報を連携させたデータ)を処理するための方法のこと。自然言語処理で広く使われている
- オートエンコーダによるスタイル埋め込み
- オートエンコーダとは機械学習におけるニューラルネットワークを使用した次元圧縮のためのアルゴリズムのこと
- “カジュアル” や “フォーマル”というような「スタイル」情報を追加することで、服装全体の関係をモデル化できる
実験結果
データセット
- テストとしてPolyvoreの15万以上の衣装データを使用
- IQONでデータを作成。訓練データとして約7万の衣装データ、検証用データとして約8,000、テストデータとして約8,000を作成した。
(Polyvore、IQONはともにオリジナルの服装画像を作成できるサービスを提供するサイト)
実装
- ファッション画像を2048次元(2048D)の特徴ベクトルに写像するためにInception-V3 を使用した
※Inception-V3のわかりやすい記事:https://book.mynavi.jp/manatee/detail/id=77514 - 提案モデルは、PolyvoreとIQONの両方のデータセットの実験で以前のモデルより優れていた。
スタイルの抽出
- 服装はスタイルベースの要素の混合物として表現できると仮定
- 提案されたモデルによって抽出されたスタイルやスタイルを混ぜたもの(例えばスタイルA + スタイルCなど)はそれぞれの特徴を持つ
例: スタイルA
春または初夏を思わせる薄い色調に基づいた穏やかな配色をもつ。このスタイルの主なアイテムは、スカートか簡単にデザインされたアイテムを指す
引用: 論文 [1]* Figure3,Figure4
服装画像生成方法
下記画像のような手順でコーディネートを生成する
引用: 論文 [1]* Figure5
– Query item image: 入力イメージ
– Query style: スタイルA、スタイルBなどそれぞれのスタイルで生成を試みる
– mixture ratio: 混合比
– Generated outfit: 実際に生成されたコーディネートの画像
結論
- この論文では衣装認識タスクに「スタイル」のコンセプトを導入し、新規性のある方法で服装の連続性とスタイルを同時に学習できるモデルを提案した
- 予測タスクでは、提案モデルは以前のモデルより優れていた。また服装の画像生成では、本論文のモデルは典型的なスタイルの衣装を生成することに成功した
- これらの結果は提案されたモデルがファッションアイテムへの両立性と服装のスタイルを評価できることを示している
- 今後の課題は個人が持っている服データからレコメンドシステムを開発すること
Findyの紹介
いかがでしたでしょうか。今後の課題として書いてあるようにこの研究が更に進めば、革新的なファッション レコメンドシステムが日本の企業から生み出されるかもしれません。当然その場合、ZOZO SUITは関わってくることだと思います。
筆者個人としては最新のテクノロジーは見ているだけでワクワクしますし、研究/開発に関わりたいと感じるエンジニアの方も多いのではないでしょうか。
Findyではそんなエンジニアの方のために
中途転職向け ハイスキルなエンジニアのプレミアム転職サービス Findy や
フリーランス副業エンジニアの紹介サービス「フリーランス・副業エンジニア向け単価保証型の案件紹介サービス
を運営しています。まずはリンク先より登録していただけたら幸いです。
引用文献
[1]Takuma Nakamura and Ryosuke Goto. 2018. Outfit Generation and Style Extraction via Bidirectional LSTM and Autoencoder. arXiv preprint arXiv:1807.03133
論文リンク: https://arxiv.org/abs/1807.03133
参考: arXivTimes: https://github.com/arXivTimes/arXivTimes/issues/840