【ローカルLLM】Windows10でllama-cpp-pythonを動かす

2024年4月24日 22:21

はじめに

ローカルLLMを動かすためにWindowsにllama.cppを導入しましたが、普段の開発に使っているPython環境で扱えるよう、llama.cppのPythonバインドであるllama-cpp-pythonを導入して動かしてみようと思います。

公式Githubはこちらです。
https://github.com/abetlen/llama-cpp-python

以下、私の環境になります。

OS：Windows10 64bit
CPU：AMD Ryzen 5 3600
GPU：GeForce RTX 3060
CUDA Toolkit : 12.4.99
Visual Studio Build Tools 2022 : 17.9.6
Python : 3.11.0b4

GPUもしっかり活用していきたいので、対応させておきます。llama.cpp同様、GPUを有効化するためには別途の手順が必要なようです。

では、はじめていきます！

CPU版のインストール

llama-cpp-python自体はお馴染みpipでインストールできるようです。

コマンドプロンプトで下記を実行するだけです。便利！

pip install llama-cpp-python \
  --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu

以前は自分の環境でビルドされるため、環境を整えておく必要があったのですが、最近、事前にビルドされたものを直接インストールすることもできるようになったみたいです。

自分でビルドする場合は以下のコマンドを実行します。

pip install llama-cpp-python

こちらの方法では、インストール時にC言語のコンパイルが行われるので、WindowsではVisual StudioかMinGWが必要とのこと。私の環境ではVisual Studioを導入していて、特に問題なくインストールできました。

Visual Studioは下記からダウンロード・インストールすればOKです。Communityバージョンで良いと思います。
https://visualstudio.microsoft.com/ja/downloads/

Visual Studioは、Visual Studio Build Toolsを入れています。おそらく私のやり方が悪かったのだと思いますが、(普通の？)Visual StudioではCmakeが上手く動きませんでした。

まぁ、そもそも何が違うのかもよくわかってないのですが…

GPU対応(CUDA)でインストール

CUDA対応版も、ビルド済みのものを配布してくれていますので、それをpipでインストールすればOKです。

下記コマンドを実行します。

pip install llama-cpp-python   --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/<cuda-version>

cuda-versionは自分の環境に合わせて以下のように入力します。

cu121: CUDA 12.1
cu122: CUDA 12.2
cu123: CUDA 12.3

例えば、CUDA 12.1 のwheelをインストールするなら、

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121

です。

非常に便利でありがたいのですが、私の環境のCUDA12.4はまだ対応されていないようです…悲しい。

ということで、自分でビルドします。と言ってもそこまで大変な作業ではなく、下記コマンドで環境変数を設定して、

set FORCE_CMAKE = 1
set CMAKE_ARGS = -DLLAMA_CUDA=ON

下記でビルドとインストールします。

pip install llama-cpp-python --upgrade --force-reinstall --no-cache-dir

CPUだけのバージョンをすでにインストールしている場合は、`force-reinstall`で完全にインストールしなおします。

動作確認

ではPython上でllama.cppを動かします。今回は、SakanaAIのEvoLLM-JP-v1-7Bを使ってみます。

このモデルは、日本のAIスタートアップのSakanaAIにより、遺伝的アルゴリズムによるモデルマージという斬新な手法によって構築されたモデルで、7Bモデルでありながら70Bモデル相当の能力があるとか。

例によって、量子化モデルを使います。Hugging Faceから4bit量子化モデルのSakanaAI-EvoLLM-JP-v1-7B-q4_K_M.ggufをダウンロードして、適当なディレクトリに配置します。

そして、下記のPythonコードを実行します。

from llama_cpp import Llama
llm = Llama(model_path=".models/SakanaAI-EvoLLM-JP-v1-7B-q4_K_M.gguf", n_gpu_layers=-1, n_ctx=512)

prompt="日本で一番高い山は？"
prompt="Q: "+prompt+" A: "

output = llm(prompt,max_tokens=256, stop=["Q:", "\n"], echo=True)

print(output["choices"][0]["text"])

実行結果がコチラ。

：
llama_print_timings:        load time =     133.65 ms
llama_print_timings:      sample time =       0.78 ms /     7 runs   (    0.11 ms per token,  8962.87 tokens per second)
llama_print_timings: prompt eval time =     133.61 ms /    17 tokens (    7.86 ms per token,   127.24 tokens per second)
llama_print_timings:        eval time =     110.54 ms /     6 runs   (   18.42 ms per token,    54.28 tokens per second)
llama_print_timings:       total time =     261.16 ms /    23 tokens

Q: 日本で一番高い山は？ A: 富士山です。

動きました！なかなか早いです。EvoLLMくんはなかなか端的な回答を繰り出してきました。いい感じ。

最後に

これで、PythonからローカルLLMを実行できるようになりました！ローカルLLMベースで作成したエージェントに仕事をさせる、みたいなことがやりたいので、ここから色々試していこうと思います！

この記事が気に入ったらサポートをしてみませんか？

コメントを投稿するには、ログインまたは会員登録をする必要があります。

【ローカルLLM】Windows10でllama-cpp-pythonを動かす

はじめに

CPU版のインストール

GPU対応(CUDA)でインストール

動作確認

最後に

コメント

CogVideoXで遊ぶメモ

Asepriteをビルドして日本語対応もさせる！

ComfyUIでカスタムノードをインストールした後に起動できなくなる問題

ついに来た！ローカルPC でLeonardo.Ai レベルの Image2Motion 環境が！

VScodeでLaTeX 備忘録 (１)

Pythonで作られたアプリを起動したいんだけどどうすればいい? 普通のアプリと何が違うの?

Faster-Whisper-Pyannote-ChatGPTで議事録を作成する

C環境構築（MinGWとVSCode）

Pythonすらよく分かっていない人間が pip install jupyterlab とコマンドプロンプトに打ち込んだ結果

Llama 3.2 を試す

Open3D windows 環境構築 bat

Google colabでComfy UIの環境構築、起動しよう！

PythonでAIと連携した多方面な開発をする方法

ローカルLLMをWindowsで動かしてみた話

【ComfyUI】ComfyUI-FluxTrainerを使ったLoRA学習方法

LangChain v0.3 クイックスタートガイド - Python版

【簡単】顔の入れ替えが簡単なRope Pearlのインストール方法

ComfyUIをインストールしてみたら爆速だった

ザコPCでもPonyやりたいんや！ 低スペックPCでAI美女生成を始める方法【設定ファイル付き】

[UI]Kotaemon:Open-SourceなRAG UI

How to install fluxgym for building Flux LoRA (on Windows＆Google Colab)

ラズベリーパイの使い道を考える4 お試しでChatGPTを使う

Python学習の第一歩：Jupyter Notebookの使い方

今さらにPython言語の概要について

プログラミングを始めたい初心者へ！！何から始めればいいの？

CARLA（Car Learning to Act）とは、オープンソースの自動運転シミュレーターです。CARLAを使用することで、複雑な都市環境での自動運転車両の開発とテストが可能

AzureからGPTを使ってみる | LangSmith編（ログの収集：その１）

卒業後の進路

【初心者向け】画像生成AIのインストールと基本操作ガイド

ローカルマシンで動いている言語モデルをWebサーバーで一般公開するメモ

たった1日で手元のゲーミングPCをつかってAI画像生成を導入してみた

#4 座学メモ：Python環境構築(Anaconda)【Crypt】【bot】

PythonでSymbolを使ったアプリを生成する際の注意点

【誰か】faiss-gpuをWin用にビルドできない【助けて】

個人サイトをつくろう！〜準備編〜

ControlNetに手を出しました！

ザコPCでもPonyやりたいんや！低スペックPCでAI美女生成を始める方法【設定ファイル付き】

ラズベリーパイの使い道を考える4　お試しでChatGPTを使う