最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。今回は医療品設計やセキュリティなど、自分があまり知らなかった分野での機械学習適用事例が多く、勉強になるものが多かったです。前回はこちら。
このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。
論文
- [1612.03242] StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
- テキスト(キャプション)からの画像生成系のタスクでGAN(Generative Adversarial Networks)がよく使われているが、GANを多段にする(最初は荒い画像を作って、積んだやつで精密にする)ことでかなり精密な生成ができるようになったという論文。GANをあまり追っていないけれど、出てきている画像がぼやっとしていないのでかなりびびる
- 統計的自然言語処理と情報理論
ブログ/勉強会資料
- 機械学習モデルの実装における、テストについて - Qiita
- tensolflowでの実例があってよかった、はてな社内でもこの辺話題になることが多い
- AWS Lambdaによるサーバーレスな機械学習APIの作り方 - Qiita
- 結論としてはモデルファイルが大きいものは起動が遅すぎて厳しい、ということだった。NLPだとfeature hashing等のテクニックを使ってモデルサイズを小さくしておくとどうにかなる...のかな
- DeepPredNetで地震の予想が出来るのか検証してみた - Qiita
- 後半の地震はまぁきつそうだろうなという感じでしたが、前半の古地図の自動分類は面白かったです
- 機械学習とデータ分析を支えるマルチクラウドなアーキテクチャの紹介/Multi Cloud Architecture Supporting Machine Learning and Data Analysis // Speaker Deck
- 最近、類似ファッションアイテム検索で話題になっていたVASILYさんのプレゼン資料。AWSとGCPを使っている様子
- 特徴量抽出ステップ(オンプレ)、類似度計算ステップ(GCP)、アイテム表示ステップ(AWS)とかでそれぞれ使っているアーキテクチャが載っていて参考になる
- 医薬品設計とニューラルネットワーク - Qiita
- 医療品設計(ケモインフォ)に機械学習がどう生かされているかの話。構造の類似度を見るためにカーネル法の独壇場だと思っていましたが、最近はここにもDNNが...
- Variational Auto Encoderを元に新しい化学構造を生成する生成モデルの話が紹介されています
- 少し違うけど、こういう話題もあった
- 機械学習と情報セキュリティ2016 - ももいろテクノロジー
- マルウェア検知などでも積極的に最近は機械学習が使われている様子。いくつか紹介されているが、個人的には第三者にモデルパラメータがコピーされるModel-Extraction Attacksと呼ばれる種類の攻撃(?)が面白かった
- あとは分類器を騙す事例をいかに作るかという研究がいくつも紹介されていて、セキュリティ系の研究は機械学習本流の研究と違っていて面白い
- リスティングの運用に必要なのは機械学習による異常検知の発想かもしれない | マーケティングメトリックス研究所/MARKETING METRICS Lab.
- リスティング広告での異常検知の話。入門 機械学習による異常検知―Rによる実践ガイドを元にそれぞれのコードと適用結果が載っていて参考になる
- これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (P…
- これはかなり面白い資料でした。画像の分野はDNNの登場で研究レイヤーでは次はどういうことが残っているんだろうと思っていたところだったので、NLPでもこういう未来の話が色々聞きたいし、したい!
ビジネス
- Googleの自動運転車ユニット、Waymoとして独立―クライスラーと提携して事業展開も | TechCrunch Japan
- 自動運転車の開発を断念という話が一瞬出ていたけど、飛ばし記事だった様子
- 言葉に表れない相手の本音が分かる! 会話中の満足感を定量化するAI(人工知能)技術 : FUJITSU JOURNAL(富士通ジャーナル)
- アクセントやイントネーションによってコールセンターでの会話の満足度を機械学習を使って特定
- How we learn how you learn | Making Duolingo Blog
- 語学学習アプリを作っているduolingo社が機械学習を使ってどのようにユーザーが学習すべき単語を出しているかという話(論文)
- 単純に精度が上がったという話だけでなく、サービスにどのような影響があったか(学習が効率的になってユーザーがonline fome等を使ってくれるようになったなど)も書かれているので参考になる
- 社内で元になった論文をすごく簡単に紹介したときの資料があったので貼っておきます
Duolingo.pptx from syou6162
学会/勉強会
NIPS2016
- NIPS 2016参加報告 - Qiita
- www.reddit.com/r/MachineLearning/comments/5hwqeb/project_all_code_implementations_for_nips_2016
- NIPS2016で発表された論文の中でgithub等で実装が公開されているもの一覧。すでに20個以上ある様子
- 実装やデータセットが公開されるとレビューに加点があったり、ということで公開される流れができつつある。再現性の観点からも望ましい
その他
データセット
- GitHub - yahoojapan/YJCaptions
- Yahooが画像の日本語のキャプションデータを公開(約12万件)。元になっている画像データはMS COCOはマイクロソフトが出しているもの
- FMA: A Dataset For Music Analysis
- これもMS COCOに対してアノテーションしているデータセットの1つだった