Edited at 2018-01-02

Coursera 機械学習コースの全用語を3行でまとめてみた

概要

年末休暇を利用して、Courseraの機械学習コースを修了しました。

機械学習は興味だけはあって、なかなか後回しにしていたのですが、Life 3.0という本を読んで、これはやらないとだめだ、と思い、どうやって学習を始めたら良いかを探していたところ、Courseraの機械学習コースが見つかりました。

コース概要については以下が詳しいのでご覧ください。

まだまだ遠い道のりですが、機械学習に関しての基礎理論は学べたかなと考えています。個人的には、物理が好きなので、界隈に物理学の人がちらほらいるのは嬉しいです。

コースの内容については他の方も述べているので、今回は、コースで学んだ重要な用語や概念、アルゴリズムなどを、復習も兼ねて、1-3行でまとめてみます(タイトル釣りスミマセン)。コースの内容を一通り網羅しているので、具体的にどのようなことを学ぶことができるかもわかるかなと思います。

機械学習全般

用語	日本語	内容
Machine Learning	機械学習	明示的なプログラミングをせず、コンピューターに学習能力を持たせる学問。
Cost Function	目的関数	仮定関数がどの程度誤差なくデータにフィットしているかを計算する。
Training Set	訓練データ	機械学習モデルを生成するための入力データ。一般的には全体の60%程度。
Test Set	評価データ	機械学習モデルを評価するためのデータ。一般的には全体の20%程度。
Cross Validation Set	交差検証データ	Training Set、Test Setとは別に、機械学習モデルの精度を検証するためのデータ。一般的には全体の20%程度。
Overfitting(= High variance)	過学習	手持ちのデータセットを100%近い精度で予測しているが、そのモデルがあまりにも手持ちのデータセットの予測に特化しているため、新しいデータセットの予測が困難になっていること。
Underfitting(= High bias)	未学習	機械学習モデルの誤差が高く、正しく予測ができていないこと。
Regularization	正則化	オーバーフィットを防ぐために、パラメーターの値を十分小さくして計算する手法。
Generalization Error	一般化エラー	入力データにないようなデータで予測を行う場合の誤差。Test Setにおいて精度が良くても、Generalization Errorが大きければ、モデルの一般化ができていない、のような評価ができる。
Sigmoid Function	シグモイド関数	^1
Machine Learning Pipelines	機械学習パイプライン	機械学習をいくつかの工程に分けて行うこと、または、その工程をまとめたもの。
Ceiling Analysis	天井分析	機械学習パイプラインで、どの要素が最も改善できるポテンシャルがあるのか調べる手法。
Artificial Data Synthesis	人工データ合成	データの量を増やすために、元のデータを変換・合成すること。
Feature Scaling	スケーリング	それぞれ比較できないような説明変数の範囲を、一つの範囲に規格化する。
Mean Normalization	平均正則化	平均値をつかって説明変数を正規化する手法の一つ。
Decision Boundary	決定境界	データを分類する境界。
Content-based Filtering	内容ベースフィルタリング	ユーザのプロファイルや過去の嗜好情報を利用して予測を行う手法。協調フィルタリングに比べて、システムを使い始めたばかりのユーザーに対しても予測が可能であるというメリットがある。
Collaborative Filtering	協調フィルタリング	複数のユーザの嗜好情報を蓄積し、あるユーザと嗜好の類似した他のユーザの情報を利用して予測を行う手法。

教師あり学習

用語	日本語	内容
Supervised Learning	教師あり学習	事前に与えられたデータをいわば例題とみなして、それに正解を与えるような機械学習の手法の一つ。
Regression	回帰	具体的な数値を予測する。
Classification	分類	0/1の判定や、カテゴライズを行う。
Linear Regression	線形回帰	統計学における回帰モデルの一つ。複数のインプットから、一つのアウトプットを予測する。
Polynomial Regression	多項回帰	異なる説明変数を組み合わせて新たなインプットとする回帰分析。
Logistic Regression	ロジスティック回帰	統計学における回帰モデルの一つ。アウトプットが1であるか否かの確率を予測する。
Support Vector Machine	サポートベクターマシン	現在知られている手法の中でも認識性能が優れた機械学習モデルの一つ。各データとのマージンが最大となるような決定境界を求めることで分類や回帰へ適用できる。
Kernel Method	カーネル法	元データを新しい高次元の特徴空間へ写し、非線形な分類を線形な関係式で計算する手法。カーネルとは、元データと特徴空間の内積に対応する関数のことで、特徴空間の座標を明示的に求めることなく内積を知ることができる。よくSVMと組み合わせて用いられる。
Gradient Descent(= Batch Gradient Descent)	最急降下法	関数の最小値を探索するアルゴリズムの一つ。
Normal Equation	正規方程式	最急降下法を使わずに、関数の最小値を求められる方程式。ダイレクトに解を求めることができる一方で、説明変数のサイズが大きい場合、計算に時間がかかるなどのデメリットも有る。
Conjugate Gradient/BFGS/L-BFGS	共役勾配法/BFGS法/L-BFGS法	最急降下法と比較して、より洗練されたアルゴリズムとして紹介されていた。
One-vs-all Classification	一対他分類	対象のクラスかそれ以外かというニ値分類で複数クラスへの分類を行う手法。
Precision	適合率	^2
Recall	再現率	^3
Accuracy	正答率	^4
F Score	F値	適合率と再現率の調和平均。 ^5

教師なし学習

用語	日本語	内容
Unsupervised Learning	教師なし学習	データの背後に存在する本質的な構造を抽出するために用いられる機械学習の手法の一つ。
Clustering	クラスタリング	データからパターンを抽出し、複数のグループに分類する。
K-Means	K平均法	非階層型クラスタリングのアルゴリズムの一つ。K個の中心点を基準に、データとの距離が最適になるよう計算を繰り返す。
Principal Component Analysis	主成分分析	多数の変数を、全体のばらつきを最もよくあらわす変数(主成分)に合成する多変量解析の一手法。PCAを使うことで、データの特徴抽出、次元削減、多次元変数の可視化、などを行うことができる。
Anomaly Detection	異常検知	データの外れ値を検知すること、またはその手法。

ニューラルネットワーク

用語	日本語	内容
Neural Network	ニューラルネットワーク	脳機能のいくつかの特徴を真似たアルゴリズム。
layers	層/レイヤー	Neural Networkにおける処理を行う層のこと。
input layer	入力層	層のうち、最初のインプットを行うもの。
hidden layer	隠れ層	層のうち、input layerとoutput layersの間にあるもの。
output layers	出力層	層のうち、最後のアウトプットを行うもの。
units	ユニット	層を構成するノード。
activation units	活性ユニット	hidden layerにおけるノード。一つ前のレイヤーによって値が算出される。
Backpropagation	バックプロパゲーション	Neural Networkにおけるアルゴリズムの一つ。個々のニューロンの出力誤差を、出力層から前段の層へ向かって、小さくなるように計算してゆき、勾配を使用して最適な重みを求める。
Gradient Checking	Gradient Checking	Backpropagationが正しく動作しているか確かめる手法

大量のデータを扱う

用語	日本語	内容
Stochastic Gradient Descent	確率的勾配降下法	最急降下法を大量のデータを扱う場合に改良したアルゴリズム。一度のイテレーションで、すべてのデータを使用せずに、一つのデータのみを使用することで計算量を抑えている。
Mini-Batch Gradient Descent	ミニバッチ勾配降下法	最急降下法を大量のデータを扱う場合に改良したアルゴリズム。確率的最急降下法とは違い、一度のイテレーションで、b個のデータのみを使用する。
Online Learning	オンライン学習	これまでの学習では、手持ちの訓練データをモデルに入力することを前提としていたが、オンライン学習では、データを一つづつ読み込んで、それまでの学習モデルを逐次更新してゆく。
Map-Reduce	マップリデュース	大量のデータを分割し、別のコンピュータやCPUなどのノードに振り分けて処理を並列に行う手法。

まとめ

上記は用語のまとめとなりますが、この他にも、機械学習のプロジェクトを行う上で、次にどのような分析をすればよいか、勘や気合ではなくロジカルにアプローチする手法なども学ぶことができました。実践が考慮されていて良かったです。また、プログラミングの課題も毎週課されます。

感想としては、本当にやってよかったなという気持ちです。また、他の方も書かれていますが、実は初心者向け 高校数学+ググれば十分 世界最高峰の前提知識がなくても頑張れば理解できる Octaveにハードルはないなどは同意できました。

ただ、それでもスタートラインに立ったレベルなので、引き続きやっていきたいなと思います。間違いがあれば編リクお願いいたします。

参考

^1

g (z) = \frac{1}{1 + e^{- z}}

^2

P r e c i s i o n = \frac{T r u e P o s i t i v e}{T r u e P o s i t i v e + F a l s e P o s i t i v e}

^3

R e c a l l = \frac{T r u e P o s i t i v e}{T r u e P o s i t i v e + F a l s e N e g a t i v e}

^4

A c c u r a c y = \frac{T r u e P o s i t i v e + T r u e N e g a t i v e}{T r u e P o s i t i v e + F a l s e P o s i t i v e + T r u e N e g a t i v e + F a l s e N e g a t i v e}

^5

F = 2 \frac{P r e c i s i o n * R e c a l l}{P r e c i s i o n + R e c a l l}

Linked from these articles
Linked from 【毎日自動更新】Qiitaのデイリーストックランキング！ウィークリーもあるよabout 8 hours ago

概要
機械学習全般
教師あり学習
教師なし学習
ニューラルネットワーク
大量のデータを扱う
まとめ
参考

@okmttdhr

Toot