AIにおける基盤モデルとは何か

Kazuki Kyakuno
axinc
Published in
10 min readOct 30, 2022

近年、注目を集めている基盤モデルとは何かを解説します。基盤モデルを使用することで、今までできなかったような高精度な認識が可能になってきています。

基盤モデルの概要

基盤モデル(Foundation Model)とは、大量のデータから学習することで、高い汎化性能を獲得したAIのことです。Stanford Institute for Human-Centered Artificial Intelligenceによって提唱された概念です。

基盤モデルの例

論文中、基盤モデルの例として、BERT、GPT-3、CLIPなどが挙げられています。例えば、GPT-3では、1750億個のパラメータを持ち、プロンプトを使用することで、さまざまなタスクの問題を解くことができます。基盤モデルのアーキテクチャ自体は、ディープニューラルネットワークと、自己教師あり学習による一般的なものです。しかし、モデルのパラメータの規模と、学習に使用するデータセットの規模が増大したことで、高い汎化性能を獲得し、基盤モデルとなっています。

基盤モデルの効果

基盤モデルの効果を説明するには、COCO2017の11.8万枚で学習されたYOLOXと、ImageNet21Kの1400万枚で自己教師あり学習で学習されたDeticを比較するのがわかりやすいです。

YOLOXはCOCOの80カテゴリの物体を検出します。カテゴリに含まれない物体を検出するには、独自のデータセットを準備して再学習を行う必要がありました。

YOLOXの検出例(画像の出典:Pixabay)

しかし、Deticは21000カテゴリを検出できるため、再学習不要で、大抵のものが学習可能です。

Deticの検出例(画像の出典:Pixabay)

Deticは単一のモデルで分野を問わない多様な認識が可能です。YOLOでは難しかった建設機械の認識や、魚の認識も可能です。また、車のダッシュボードのメータの場所や、牛などの動物、さらには牛の耳のタグも認識可能です。

Deticの検出例(画像の出典:Pixabay)

基盤モデルのモデルアーキテクチャ

従来のConvolutionは画像の2次元構造を人の手によってアーキテクチャとして与えていました。しかし、データセットが十分に大きければ、Convolutionを含む構造自体をAIが獲得可能です。

特に、基盤モデルはデータセットが巨大であるため、ConvolutionよりもVision Transformerを使用する方が性能が高くなっています。そのため、基盤モデルが広がるにつれて、ConvolutionよりもVision Transformerの方が主流になってきています。

多様な基盤モデル

大量のデータから学習され、汎化性能を獲得したAIの例となります。

Whisper

OpenAIの開発した99言語を認識できる音声認識モデルです。従来、存在すると言われていた日本語の参入障壁を680000時間というデータ量で超えて見せました。日本語に対しても高精度に文字起こしが可能です。

出典:https://github.com/openai/whisper

DALLE2, Stable Diffusion

ノイズに対してデノイズを繰り返す拡散モデルで、画像生成・画像補完などの分野でGANを超える性能を発揮しています。StableDiffusionでは、LAION-5Bの1億7000枚の画像を使用して学習されています。

出典:https://cdn.openai.com/papers/dall-e-2.pdf

CLIP

任意のテキストを使用して物体識別が行えるモデルです。従来のImage Classificationは、例えば1000カテゴリの認識しか行えませんでしたが、CLIPではZero Shot Classificationが可能であり、任意の単語(例えば”dog”, “cat”)を使用して物体識別が可能です。CLIPはWEB上の4億枚という画像と対応するテキストで学習されています。

DeticもDALLE2もStable Diffusionも、CLIPの特徴ベクトルを使用しており、近年の基盤モデルの基礎となっています。

出典:https://arxiv.org/abs/2103.00020

CLIP特徴は画像検索にも使用可能です。

基盤モデルのコスト

基盤モデルは膨大なデータセットを使用した学習を行う必要があるため、学習には高額の費用が必要です。例えば、Stable Diffusionは学習に60万ドルを必要としており、学習用マシンのGPUメモリは6.9GB必要と言われています。

基盤モデルの影響

基盤モデルはスーパーコンピュータを使用して高額の費用をかけて学習されています。そのため、小規模なデータセットで学習を行っても、基盤モデルの性能には及ばない可能性があります。

そのため、長期的には学習は行わず、基盤モデルを使用して推論だけを行う、というような利用方法が拡大していくと思われます。基盤モデルに与えるプロンプトを工夫したり、PaDiMのように特徴抽出だけ基盤モデルを使用して後段に従来アルゴリズムを入れるなど、推論における工夫は増加すると考えられます。

ただし、基盤モデルを推論するには高い演算性能が必要です。そのため、AIのハードウェアへの要求性能は今後も増大していくものと考えられます。

NVIDIAのエッジ端末の処理性能

基盤モデルの今後

AI分野の論文数は、23ヶ月ごとに倍になっています。また、2021年のCLIPの登場から、2022年のDETIC、Stable Diffusionなど、一つの基盤モデルから別の基盤モデルが継承的に生み出されていく傾向もあります。

AIの論文数(出典:https://arxiv.org/pdf/2210.00881.pdf

特に、2020年以降、Vision Transformer、Diffusion、NeRFなど、新しいアーキテクチャが続々と登場してきており、AlexNetが登場した2014年のようだという声も聞かれます。さらに、Whisperが登場したことで、従来、難しいと言われていた日本語の壁を、データ量で超えてしまったことも驚きを与えました。

そのため、今後も、コンピューティング資源の増加に伴い、革新的なAIモデルが開発され、その革新的なAIモデルを基礎とする新たなAIモデルが開発されるという連鎖で、かなりのアルゴリズムがAIをベースとしたものに置き換わっていくものと考えられます。

当面、エッジでの計算リソースの関係で、基盤モデルの活用は限定的になる可能性もありますが、計算リソースはハードウェアの進化と共に、増加していくため、どこかのタイミングで基盤モデルが席巻するものと考えられます。

NVIDIAの次世代車載半導体のDRIVE Atlanは1000TOPSと言われていますし、その時は意外と早いのかもしれません。

ax株式会社はAIを実用化する会社として、クロスプラットフォームでGPUを使用した高速な推論を行うことができるailia SDKを開発しています。ax株式会社ではコンサルティングからモデル作成、SDKの提供、AIを利用したアプリ・システム開発、サポートまで、 AIに関するトータルソリューションを提供していますのでお気軽にお問い合わせください。

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

Kazuki Kyakuno
axinc
Editor for

CTO — ax Inc. , Managing Director — AXELL