はじめに
文系の皆さんがAI人材になるためのノウハウを投稿していきます。今回は文系AI人材になるための必要なAIの基礎用語も丸暗記していきましょう。少し馴染みのない言葉も出ていますが、AIのプロジェクト内でよく出てくる順で用語を絞っていますので、しっかり学習していきましょう。
単語欄
- 学習と予測
- 教師あり学習と教師なし学習
- 目的変数と説明変数
- アルゴリズム
- 過学習
- アノテーション
- 時系列モデル
- データ前処理
- PoC
- ニューラルネットワーク
- 正解率と再現率·適合率
- AUC
用語6 アノテーション
アノテーションは直訳すると「注釈」となりますが、AIに学習させるための答えつきのデータを作成する作業のことをいいます。画像や映像、テキスト、音声について、用途に合わせて正解データを用意します。
画像の場合、「何が写っているのか」や、複数種類が写っている場合「どこに何が写っているのか」のデータを用意します。映像はシーンごとに行ないます。テキストの場合は、文章全体、段落、文、単語のそれぞれについて、どんな内容なのかをタグづけします。音声は、その音声が特定の同一人物の声なのか、もしくは特定の音なのかなどを記録します。
用語7 時系列モデル
時系列モデルとは、AIモデルの中でも「時間の流れの概念をもって学習し、未来の予測をするモデル」のことです。過去に連続して起こっている実績やその他の事象の変化から、未来の予測を行ないます。具体的には「1カ月後に何がどれくらい売れるか?」などを予想します。
用語8 データ前処理
データ前処理とは、「データのクリーニング」や「各種データ操作」を行なうことをいいます。データのクリーニングには
- 欠損値の対応(データの一部が欠けている状態)
- 外れ値の対応(極端に値が高すぎたり、低すぎたりする状態)
などがあります。データのクリーニングにょって、AIが間違って学習しないようにします。また、「各種データ操作」では、AIがデータの特徴をとらえやすくなるためのさまざまな処理を行ないます。たとえば、説明変数Aと説明変数Bの値のスケール(桁)があまりにも異なる場合、いずれかの桁を片方に合わせるような処理を行ないます。AIの精度を上げるための工夫として繰り返し試行錯誤を行なう作業になります。
用語9 PoC
PoCとはProof of Concept の略で、本格開発を行なう前の事前の実証実験のことを指します。
企画されたAIが、本当にワークするものなのかを本格投資する前に確かめます。まず、用意できる学習データによって、「期待される精度が達成できるのか」を実証します。また、一定精度が出たAIを仮に利用先に試用してみて、満足のいく運用結果が出るのかについても実証することがあります。「精度がしっかり出るのか」また、「現場導入してみて成果があがるのか」が読みきれないことがAI企画には多くあるので、このPoCの工程を踏むことでリスクを低減させるのです。