GoogleColabでHuggingFaceのモデルをGGUFフォーマットに変換🔄／大塚

2024年5月25日 22:03

以下のチュートリアルを参考に、Google ColabでHugging FaceモデルのGGUFフォーマット変換に挑戦します！

ColabのGPUはL4を選択して実行しましたが、CPUだけでもいけるかもしれません。

モデルのダウンロード

huggingface_hubライブラリをインストールします。

!pip install huggingface_hub

Hugging Faceからモデルをダウンロードします。
model_idにダウンロードしたいモデル名を入力してください。
local_dirには保存先を指定します。

from huggingface_hub import snapshot_download
model_id="4piken/Llama-3-Gozaru-8B-Instruct"
snapshot_download(repo_id=model_id, local_dir="Llama-3-Gozaru-8B-Instruct",
                  local_dir_use_symlinks=False, revision="main")

「HF_TOKEN」が必要とのエラーが出た場合、Google Colab左側メニューの鍵アイコンをクリックして、「HF_TOKEN」という名前を入力し、自分のHugging FaceページからAccess Tokenを発行し、コピペします。

念のため、モデルが指定した場所にダウンロードされたかどうかの確認をします。

!ls -lash Llama-3-Gozaru-8B-Instruct

モデルを変換する

llama.cppをクローンします。

!git clone https://github.com/ggerganov/llama.cpp.git

依存関係をインストールします。
現時点のColabのPythonのバージョンに合わせて、モジュールのバージョンも書き換えています。
「セッションを再起動する」と出てきたら、そのまま従います。

!sed -i -e "1c numpy==1.25.0" llama.cpp/requirements/requirements-convert-legacy-llama.txt
!sed -i -e "5c protobuf==3.20.3" llama.cpp/requirements/requirements-convert-legacy-llama.txt
!sed -i -e "2c torch==2.3.0" llama.cpp/requirements/requirements-convert-hf-to-gguf.txt
!sed -i -e "2c torch==2.3.0" llama.cpp/requirements/requirements-convert-hf-to-gguf-update.txt

!pip install -r llama.cpp/requirements.txt

変換用のスクリプトが問題なく読み込まれるかチェックします。

!python llama.cpp/convert.py -h

変換スクリプトを実行します。

!python llama.cpp/convert-hf-to-gguf.py Llama-3-Gozaru-8B-Instruct \
  --outfile Llama-3-Gozaru-8B-Instruct.gguf \
  --outtype q8_0

作成したモデルの確認

!ls -lash Llama-3-Gozaru-8B-Instruct.gguf

変換したモデルを試してみる

llama-cpp-pythonをインストールします。

!pip install llama-cpp-python

usr_promptにプロンプトを入力して推論します。

from llama_cpp import Llama

model_path = '/content/Llama-3-Gozaru-8B-Instruct.gguf'

# モデルのロード
llm = Llama(model_path=model_path)

# 推論の実行
usr_prompt = "犬に仏の性質はあるのでしょうか？"
result = llm(f"<|start_header_id|>system<|end_header_id|>必ず日本語で回答してください。<|eot_id|><|start_header_id|>user<|end_header_id|>{usr_prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>", max_tokens=128)
print(result["choices"][0]["text"])

次のような出力が返ってきました！うまく動いているようですね。

我、りんえもんは思う。犬には仏の性質が含まれていますでござる。仏は、自他を超越し、我々全員が同一体であるということを悟りますでござる。また、仏

Hugging Faceにモデルをアップロードする

変換したggufファイルをHugging Faceにアップします。

from huggingface_hub import HfApi
api = HfApi()

model_id = "あなたのHugging FaceアカウントのUsername/Hugging Faceでの管理名.gguf"
api.create_repo(model_id, exist_ok=True, repo_type="model")
api.upload_file(
    path_or_fileobj="/content/Llama-3-Gozaru-8B-Instruct.gguf",
    path_in_repo="Hugging Faceでの管理名.gguf",
    repo_id=model_id,
)

次回は4bit量子化に挑みます💪

いいなと思ったら応援しよう！

注目note☆

26,941本

ログインまたは会員登録するとコメントできます。

GoogleColabでHuggingFaceのモデルをGGUFフォーマットに変換🔄／大塚

モデルのダウンロード

モデルを変換する

変換したモデルを試してみる

Hugging Faceにモデルをアップロードする

いいなと思ったら応援しよう！

ピックアップされています

注目note☆

コメント

【GGUF変換】llama.cppでGGUF変換する方法【ローカルLLM】

Llama3.2でAIで作成した画像のキャプションを付けてみる

Google Colab で Llama-3.1-Swallow を試す

Unslothを使った高速なLlama 3.2ファインチューニング入門 (📒ノートブック付)

bitnet.cpp を試す

Google Colabで始める。text generation webuiでgemma2との会話

OpenAI互換ローカルLLMサーバとGUIで最も簡単な評価環境を作成

WSL2でLlama 3.1 SwallowをvLLMと共に試してみる

llama.cppの環境を構築して対話やモデルの変換を行う（Windows CPU/CUDA対応）

Paperspaceでdiffusers形式のFLUXモデルをダウンロードしてGGUF化する話＠ComfyUI

顔LoRAで好きな顔の生成画像を作る

LlamaをGoogle Colabから実行

ローカルLLMで音声合成

視聴ログ-2024-11-01頃まで

【超入門】Hugging Faceの長いモデル名のggufモデルをPage AssistでOllama用にダウンロードする方法

Llama 3.1 nemotron 70b(NVIDIA)を使ってみた

AI初めの一歩Google Colabの開き方と画像のダウンロードの仕方

無限プロンプト生成！Python x Stable Diffusionで理想の1枚を見つけよう！【生成した画像とプロンプトリストのおまけ付き】

GPUサポートに挑戦！Ollamaの処理速度向上を目指すWindowsセットアップガイド

Entropixとsmollm - Google Colabで小さな推論マシンをスケールアップする

Ollama+llama3.2-vision:11bを使った画像のメタタグ生成とR18判定の実装。ローカルLLMで無料で画像判定ができる時代の到来

🌟 Azure AI Searchを使ったマルチモーダルRAGパイプラインの構築 🌟

ollamaにデフォルトモデル以外を利用したい

わずか1.3GB程度のLlama-3.2-1Bモデルを試して驚いた。

【技術ブログ】ローカルLLMでRAG構築：ゼロからの挑戦

LLaMA 3.2 VisionをOllamaで実行する方法：エッジAIの革命

【Google COLAB活用術】allenai/Molmo-7B-D-0924で画像からプロンプト抽出を試す

顔画像から感情認識をするAIアプリ作成（個人開発）

Hugging Faceとはなにか？

YOLOv5、YOLOv8、YOLOv10の人物検出能力を比較する

Whisper Python

GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その4: LangGraphによるエージェント化と自動の文献情報の照合

Zed + Ollama でAI支援ツールを初体験(無料) 【1-導入】

Flux.1 dev + ai-toolkitでLora学習してみた

Hugging Faceプラットフォームの紹介とアクセストークン活用法

40歳のJTCおっさんが息子のためにIoTでカウントダウンタイマーを作ってみた話