RunPodで作るサーバレスGPU推論

2023年11月30日 17:02

概要

最近、生成AIが流行っており、御多分に洩れず僕も色々弄っております。そんな中、GPUを使ったAPIを作りたいな〜と思ったので、本日の記事を書いてみます。GPUを使った推論の仕組みも最近では色々ありますが、少なくとも個人で使う分にはインスタンス立ち上げっぱなしみたいなのは避けたい。やはりサーバレスでやりたいところ。調べてみたら、今は結構サーバレスの仕組みもあるんですね。

ちなみに有名どころとして、GCPでCloud Run for Anthosを使えばGPUをCloud Runで使うというのもあるので、それは別途試してみようと思います。GKEクラスタを立ち上げる必要があるからクラスタ維持費とか掛かるんかね？・・・とか思ってあんまり調べてなかったけど、近々やってみようと思います。趣味で仕組み作って放置するとかありがちだから、クラスタ関連はそんなに触ってないんよね・・・。また、AWSのSageMakerでGPU推論もできるっぽいけど、そっちも別途試してみたい。

長くなったけど、サーバレスのGPUの仕組みを提供するサービスとしてRunPodというものがあり、とりあえず使ってみたので使い方を紹介します。たくさん調べたわけでもなく、ググったらトップに出てきただけなので、これが良いってわけではないのでご注意を〜。

RunPodについて

RunPodはGPUに特化したIaaSっぽい。トップページはダークな感じでカッコいいですね。

以下にあるようにオンデマンドのインスタンスやそのクラスタを作れたり、サーバレスでエンドポイントを作ったりできるみたいですね。

登録〜課金

まずは登録していきましょう。Googleアカウントでサインアップできるようなので、僕はそっちでやりました。

次に、カードを登録してお金を払います。左のメニューのBillingから飛びます。月末課金ではなく、先にチャージしておく仕組みみたいですね。僕はとりあえず25ドルチャージしました。GPU使われすぎてしまうみたいなのを防げて良いですね。ただ、チャージが切れたら困ると思うので、プロダクトでは使いづらいような気もする。あと、BTCで支払えるのも面白い。

サンプルのサービスを使ってみる

嬉しいことに、いくつかのサンプルを用意してくれているので、それを使ってみましょう。左のメニューからサーバレスを選択すると、Faster WhisperやLLaMA、Stable Diffusionなどが使えるようになっています。音声とか画像とかは面倒なので、とりあえずLLaMA 13Bをデプロイしてみましょう。

LLaMA 13BのStartを押すと以下のようなメニューが出てきますのでDeployを押してみましょう。

デプロイすると以下のようにモデルが見られるようになります。Latest Workersで現在のマシンの待機状況が見れるようですね。

ここから、下のRequestsタブを選択してみましょう。ここでエンドポイントをテストすることができます。便利！

早速Runを押してみましょう。ついでに画面上部で現在のクレジットも見ておきましょう。どのくらい課金が発生したかも見ておくのが良いですね。Runを押すと以下のようにJobがキューに入ってスタートしたことがわかります。生成AIは時間が掛かるモデルも多いので、ジョブの形式なのですね。

少し待つと、以下のようにジョブが完了したことを確認できます。

Pythonでサービスを呼び出してみる

続いて、LLaMAをPythonから呼び出してみましょう。まずは、上記モデルの画面のところにあるCreate API Keyを押してAPIキーを作成しましょう。また左メニューのSettingのところからでもAPIキーの作成・削除ができます。呼び出す際にエンドポイントのIDが必要になるので、それも控えておきましょう。

準備できたら、runpodのパッケージをインストールします。

pip install runpod

モデルの呼び出しは簡単、APIキーを設定、エンドポイントのインスタンスを作り、run_sycで呼び出すだけ。

import runpod

runpod.api_key = "<API KEY>"

endpoint = runpod.Endpoint(endpoint_id)

run_request = endpoint.run_sync(
    {"prompt": "Hello, world!"}
)

print(run_request)

少し待つと以下のように結果が返ってきます。

{
  'input_tokens': 24, 'output_tokens': 16, 
  'text': ['Hello! How may I assist you today?\nUSER: What is the meaning']
}

上記の手順は同期モードで呼び出しているため結果が返ってくるまでプログラムが止まりますが、以下のように非同期モードで呼び出すこともできます。

run_request = endpoint.run({"prompt": "Hello, world!"})
print(run_request.status())

statusとしてIN_QUEUEと返ってくるので、少々待ってからもう一度run_request.status()を呼び出すと、COMPLETEDと返ってきます。モデルの結果はrun_request.job_outputで確認できます。

{'input_tokens': 24,
 'output_tokens': 16,
 'text': ['おskie!\n\nUSER: Wait, what language are you speaking?\n']}

モデルの削除

最後にモデルを片付けましょう。エンドポイントリストを開き、鉛筆マークを選択します。

現在利用しているGPUの状況が見えますが、ここでMax Workersが3になっているのを0に変更して、Updateしてください。ちなみに、ここの3というのが現在利用可能なGPUの数で、100ドル未満のユーザーは最大5個まで使えるようです。エンドポイントを増やしたい場合は、ここの数に気を付けてください。

続いて、先ほどのリストからLLaMAのエンドポイントを選択し、詳細画面を再度開きます。右のinitializingの右の縦の三点リーダー「⋮」からDelete Endpointを選べば、エンドポイントを削除できます。

さて、一通り片付いたら、利用料金を確認してみましょう。呼び出した回数分だけ料金が発生しているのが確認できると思います。

おわりに

まずは、RunPodを使いGPUでのサーバレスAPIを立ち上げるというのをやってみました。繰り返しになりますが、最近はサーバレスのGPUの仕組みも沢山ありそうだし、GCPでもAWSでもできるような気がする（未確認）ので、これが必須かというと分からないですが、とりあえず使ってみたのでレポートしてみました。次回は、自分のモデルをデプロイするというのを試してみましょう。

いいなと思ったら応援しよう！

便利　IT

19本

ログインまたは会員登録するとコメントできます。

RunPodで作るサーバレスGPU推論

概要

RunPodについて

登録〜課金

サンプルのサービスを使ってみる

Pythonでサービスを呼び出してみる

モデルの削除

おわりに

いいなと思ったら応援しよう！

ピックアップされています

便利 IT

コメント

クラウドサーバーRunPodを利用して、HunyuanVideo LoRAを作ろう！

ローカルLLMを設定してみた

Stable Diffusion XL ローカル環境構築ガイド

クラウドでStable Diffusionを使えるサービスの比較検討

Diffusersで作るFlux1のggufモデルを動かすシンプル画像生成サーバ

初心者がローカルLLM動作環境を構築してみた（Proxmox＋Ubuntu＋Python+llm-jp）

WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる

Cline＋ローカル版DeepSeek R1でAIコーディングを使い放題にする（高スペックマシン向け）

FLUX.1 Schnell をGoogle Colabで

6ドル以下で完全版DeepSeek R1を!? 💥 カスタムGPUでDeepSeek R1(非蒸留版)を動かす方法💥

AIエージェントをローカル環境で構築していくための道のり

【LLM】オープンソースローカルLLM

【Python】Ryzen AI NPU環境構築(3) Getting Started Tutorial チュートリアル実行したら，また要修正

【Stable Diffusion】paperspaceの環境構築・新Forgeのインストール・基本的な操作方法について

VertexAI Geminiを使ってみる｜Cloud Runを使ってwebアプリ(API)を作成する（その１：準備編）

browser-useを使ってみた！使い方など

【基礎AI講座Part4】開発環境について

AIデビュー：クラウド時代の神ツール！Google Colab超入門

【初心者向け】ゼロから始めるGraphAI

AivisSpeechを有効的に使いたい - 入力データの作成まで

[ComfyUI]CUDA12.4+cuDNN9.6.0等の導入(win)

【競馬AI開発#24】レース直前オッズを「高速」かつ「無料で」取得する方法

NVIDIAが変える2025年の未来: AIエージェント革命と最新ツールの活用方法

Macや低スペックPCでもOK！画像生成AIの環境構築から動かし方

【やってみた】AITuberKit使ってみたよ

初めての生成AI × Python開発：Telegramのメッセージを自動分析・Slack通知してみた

【FLUXモデル × LoRAでハイクオリティ画像生成】Stable Diffusion WebUI ForgeをGoogle Colabで動かす方法

[ComfyMaster42] Google Colabで快適！ComfyUI トラブルシューティング

画像1枚からtiktok動画ような動画生成できるDisPoseのインストール手順

distribute 努力と過去の遺物が報われる！

llama.cppでGGUF形式のモデルファイルを読み込み、チャットする

Stable DiffusionでローカルでAI画像生成してみよう

DockerでStableDiffusionを複数起動する方法[Webサービス開発記-2]

はちぽ流・AI駆動開発(暫定)

いわゆる「スパコン」の中ってどんなだった？③ABCIでSingularityを利用した事例

【生成AI事例集】デプロイ管理・支援スタートアップ8選（後編・4社）

便利　IT

【Python】Ryzen AI NPU環境構築(3)　Getting Started Tutorial　チュートリアル実行したら，また要修正

distribute　努力と過去の遺物が報われる！