研究室における研究・実装ノウハウの共有

1,101
-1

Published on

言語処理学会第22回年次大会ワークショップ「論文に書かない(書けない)自然言語処理」

Published in: Engineering

研究室における研究・実装ノウハウの共有

  1. 1. 研究室における研究・ 実装ノウハウの共有 東北大学大学院情報科学研究科 岡崎 直観(okazaki@ecei.tohoku.ac.jp) http://www.chokkan.org/ @chokkanorg Special thanks: 横井くん,小林くん,折田さん,山口さん NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 1 ※複数のスライドを統合したためスライド番号はバラバラです
  2. 2. 研究Tips @ 乾・岡崎研 総合研究会 NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 http://www.cl.ecei.tohoku.ac.jp/index.php?Research%20Seminar 2
  3. 3. 横井 祥 研究Tips @総合研究会 2015/10/21 総合研究会
  4. 4. 2 梅棹忠夫『知的生産の技術』1969 > 知的生産というのは、頭をはたらかせて、なにかあたらしいことが ら−−情報−−を、ひとにわかるかたちで提出すること > 技術というものは、原則として没個性的である。だれでもが、順序 をふんで練習してゆけばかならず一定の水準に到達できる、という 性質をもっている。それは、客観的かつ普遍的で、公開可能なもの である > 研究とか勉強とかの精神活動は、しばしばもっとも個性的・個人的 ないとなみであって、普遍性がなく、公開不可能なものである、と いうかんがえかたがある > しかし、いろいろしらべてみると、みんなひじょうに個性的とおもっ ているけれど、精神の奥の院でおこなわれている儀式は、あんがい おなじようなものがおおいのである > この本で、わたしがかこうとしていることは、要するに、いかによ み、いかにかき、いかにかんがえるか、というようなことである
  5. 5. 3 研究Tips @総合研究会 ✦ 各人にとってすでに「常識」や「いつもの手順」となっている、 ごく小さな Tips が、誰か他の人の研究の質や研究のスピードを 跳ね上げるかもしれない ✦ ひとり5分程度(スライド3枚程度で十分) ✦ 手元の Tips を総合研究会でどんどんシェアしましょう!! • Qiita や Blog に小さなエントリを投稿するついでに… • Twitter に小さなノウハウを投稿するついでに… ✦ 学生も発表しましょう!! • 実際、この研究室で周りの学生から教えてもらった便利 Tips たくさんある
  6. 6. 今日の発表では,他人 のスライドを借り,研 究室で学生・スタッフ が発表した研究Tipsの ハイライトを短く紹介 NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 3 (それぞれ一部だけしかご紹介出来ないのが残念です…)
  7. 7. 読むことと 記録すること 小林颯介 1
  8. 8. • 論文を書くことは 論文を読むことから. • 「よくある」を掴む 問題点に気づく 持論を補強する 新たに理解の壁を越える • 研究の方向決定がスムーズになる • 自然な拡張、自然な仮説、自然な検証 • パレートの法則を意識 時間の8割で 2割の論文を (精読) 時間の2割で 8割の論文を (乱読/速読) 1 論文を読む 2
  9. 9. • 論文の まとめ メモはなくてもいい派 • ワンポイントのひらめきメモで良い • 雑読は「引き出しを作る」よりも 「見たことある・当たり前 の感覚を 身につける」イメージ • けど論文のまとめは対外アピールにも? • かつてブログにまとめていたので PFIのインターン応募時にURL提出した (影響は不明) http://hytae.hatenablog.com/ • Deep Learningの教材まとめ も はてブ300越え 1 論文を記録する 3
  10. 10. 研究の進め方 2015 東北大学大学院情報科学研究科 岡崎 直観(okazaki@ecei.tohoku.ac.jp) http://www.chokkan.org/ @chokkanorg 2015-04-02 2015研究の進め方 1
  11. 11. 研究の基本形 • 以下全てに端的・明白に答える • ③目的: 研究を一言で説明すると? • ②新規性: なぜその研究が必要なのか? • ①背景: 実社会・NLP研究の中での位置付け • ④挑戦: 研究におけるチャレンジは何か? • ⑤鍵: 研究が上手くいく仕掛けは何か? • ⑥実証: ④と⑤の仮説を検証できたか? • ⑦知見: 研究で分かったことは何か? • ①~⑦の答えを並べるとイントロが完成 2015-04-02 2015研究の進め方 14
  12. 12. 実践例 (1/2) • ③目的: 研究を一言で説明すると? • 関係パタンの意味ベクトルを構成的に計算 • ②新規性: なぜその研究が必要なのか? • 関係パタンを「単語」とみなす従来手法では,統計量が不足 • 関係パタンもZipf則に従っているから • 関係パタンは単語の組み合わせなので,意味をなす関係パタンがロング テールに含まれるから • 学習データに現れない関係パタンの意味を計算できない • 語構成が似ている関係パタン同士であっても,意味ベクトルの学 習を独立にやるのは効率が悪そう • ①背景: 実社会・NLP研究の中での位置付け • 関係知識は推論などの知的な意味処理を行うために不可欠 • 関係の意味は関係パタンのベクトルでモデル化できる • Open IEでは関係パタンの意味ベクトルから同じ関係を表すパタン を集約したい • 弱教師あり学習(bootstrap)でも,シードの関係事例を結ぶ関係 パタンの意味を表す高品質なベクトルがほしい 2015-04-02 2015研究の進め方 15
  13. 13. 実践例 (2/2) • ④挑戦: 研究におけるチャレンジは何か? • 関係パタンの内容語が似ていても,意味が遠くなるこ とがあるため,ベクトルの平均では失敗する • ⑤鍵: 研究が上手くいく仕掛けは何か? • 関係パタンの意味の構成的な計算 • RNNに基づく動詞の意味のモデル化 • 教師なしの意味ベクトル学習(Skip-gramの拡張) • ⑥実証: ④と⑤の仮説を検証できたか? • 関係パタンの意味ベクトルを応用する3つのタスクで 提案手法の優位性を示した • ⑦知見: 研究で分かったことは何か? • 動詞のベクトルを闇雲に加算するのはダメ • RNNの行列により意味の変換がモデル化できた 2015-04-02 2015研究の進め方 16
  14. 14. 研究の構築プロセスは様々 • 実用志向型 • とりあえず: ③目的→⑥実証 • 後付けする: ②新規性→①背景→④挑戦→⑤鍵 • 先行研究追試型 • 流れ: ②新規性→④挑戦→⑤鍵→⑥実証→⑦知見 • ①背景はすでに先行研究が開拓済み • 仮説検証型 • 把握: ①背景, ②新規性, ③目的, ④挑戦, ⑤鍵 • ⑥実証の後,⑦知見をまとめる • 陥りやすい失敗 • 苦し紛れの言い訳になる(←日頃の議論が大切) • ④挑戦: トリビアルな問題・手法になってしまう • ⑥実証: 先行研究がタスクの鬼すぎて強い • ⑦知見: 結局何が分かったことになるのか不明 2015-04-02 2015研究の進め方 17
  15. 15. 研究プロセス再考 東北大学大学院情報科学研究科 岡崎 直観(okazaki@ecei.tohoku.ac.jp) http://www.chokkan.org/ @chokkanorg 2015-11-06 研究プロセス再考 1
  16. 16. 旧態依然の研究プロセス • 電子メールの乱用による情報共有 • プライベートなやり取りで有用な知識が死蔵 • 最近はSlackでマシになったが • Wikiを書いてくれない(確かに面倒くさい) • 盲目的なスライド愛 • 発表準備=スライド作成 • 綺麗なプレゼンでないとダメですか? 2015-11-06 研究プロセス再考 8
  17. 17. Bitbucket (& Issue Tracker) の活用 • バージョン管理 • 修正前のコード・論文を失わないために • 多人数での共同編集 • 締切直前に手分けして論文を書けるように • 情報交換・情報共有 • Qiita Teamの代替(無料)として • https://bitbucket.org/cl-tohoku/internal/wiki/ka/Home • 論文の修正 • GitとIssue Trackerの連携技 • 係・委員のお仕事の管理にも? 2015-11-06 研究プロセス再考 10
  18. 18. NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 4
  19. 19. 留学漫談 総合研究会 Tips 2/18/16 折田 奈甫
  20. 20. 雑感 • アメリカの教員は⼀一⼈人につき5-‐‑‒6⼈人の⼤大学院⽣生を指導 する.10⼈人とか異異常.   • どうやったら教員の指導を最⼤大に受けられるか,⼯工夫 が必要.他の教員や研究者も使うとよいと思う.   • ラボ内の研究会的なもの:すり鉢でゴリゴリ   • アメリカでは教員間で研究に関する議論論が盛ん.私の いたラボではランチルームで教員が議論論しまくる.
  21. 21. 名言集
  22. 22. –Advisor 2 大学院(研究)は君の知らないゲームだ. 誰も君に本当のルールを教えない. でも君はこのゲームをどうにかやってくんだよ.
  23. 23. その他のTips • 田: 戦うためのプログラミング • 佐々木: pandas, Seaborn, Bokehの紹介 • 高橋: Jupyter Notebook で生産性を加速させる Tips • 鈴木: 辞書の話 • 横井: 英語論文を書くときに便利なコロケーション 確認ツール • 松林: 研究の管理 • 水本: 初めてのNLP年次大会 • 水野: チャンスをつかむ方法 • 乾: 君たちは何のために研究するのか • 佐藤: 生きて行く上で悩んだら • 井之上: 学習者の質問で楽しく研究する NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 7
  24. 24. NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 http://www.cl.ecei.tohoku.ac.jp/nlp100/ 5
  25. 25. 言語処理100本ノックとは • 研究において普遍性の高い作法 • 研究テーマに依らず知っておくべきこと • 個別のアルゴリズム(DPやSGDなど)は除外 • 岡崎直観: 研究者流コーディングの極意 (NLP2013チュートリアル) • その作法を面白そうな題材(演習)で学ぶ • 「言葉遊び」等でひたすらググる(第1章) • 再配布できるデータ(2015年版より) NLP2016 WS 岡崎直観 「研究室における研究・実装ノウハウの共有」 6
  26. 26. ルーチン ⼭⼝健史 2016-02-24
  27. 27. 何かを実⾏する時の 意味のある⼀連のよい⾏動 というイメージが出てきた
  28. 28. ルーチンの定義 p ルーチンとは、⼀度だけ考え、 何度も実⾏するための⼿段である p  プログラマはとうの昔にこのことを理解しています p38で紹介されているこの定義がよい(と思う) n  エンジニアのための時間管理術 n  Thomas A. Limoncelli n  オライリー・ジャパン n  訳本初版 2006年10⽉
  29. 29. どれも⼩さなこと p それも当然 p ルーチンとは⼤げさな⼿順じゃない p 何度も何度も実⾏する必要があるので ひとつひとつが「⼩さなこと」になる
  30. 30. 研究Tipsのこと p 今までの研究Tipsにも⾊々なルーチンが登場 p 他の⼈が考えて何度も実⾏しているルーチンを知る p 研究Tipsを発表しあうことの価値はそこにある p ⼩さなこと、些細なことでも価値がある p  というかむしろ⾯⽩い
  31. 31. 研究Tips もっと続けましょう
  32. 32. 論文に書かない (書けない) 自然言語処理 もっと続けましょう

×