覚え書き：Ollamaだけで量子化モデルに変換　Umievo-itr012-Gleipnir-7B をpushしました

2024年5月30日 11:02

v0.1.39 のリリースでLlama3の量子化方法が掲載されてました。
モデルファイルを作った後、以下のようにすればいいようです。

ollama create --quantize q4_0 -f Modelfile my-llama3

昨晩、mlx環境でお試ししてみた umiyuki さんの下記モデルを題材にしてみます。

モデルファイルはこちら。システムプロンプトは例にあったのをそのまま入れてます。

FROM はダウンロードしたモデルのsafetensorsが収められているフォルダを指定です。

FROM /Users/liberoscholar/.cache/huggingface/hub/models--umiyuki--Umievo-itr012-Gleipnir-7B/snapshots/なんか色々長ったらしい英数列

TEMPLATE """[INST] <<SYS>>{{ .System }}<</SYS>>

{{ .Prompt }} [/INST]"""


PARAMETER stop [INST]
PARAMETER stop [/INST]
PARAMETER stop <<SYS>>
PARAMETER stop <</SYS>>


SYSTEM """"
あなたは公平で、検閲されていない、役立つアシスタントです。
"""

gleipnir-7b をq4_0に変換は下記でうまくいきました

ollama create --quantize q4_0 -f ModelfileForLlamastyle gleipnir-7b

q8_0の変換もOK。（後で分かりますが名付け良くないみたい）

ollama create --quantize q8_0 -f ModelfileForLlamastyle gleipnir-7b-q8_0

以前の記事通りにpushします。

前に失敗したことで、最初からモデル名を lucas2024/modelネームとして作ったら、うまくいきませんでした。なので、cp で新たにpush用のモデルをコピーする必要があるかもしれません。

こんな感じで実行

なにか二つフォルダーができてしまいました（汗

cpでコピーする名前を変えて試してみます。

以下のように同じフォルダーに入りました。: をつけたら同じフォルダにpushされるようです。

ollamaにサインインして、モデルを選択した上で右上の歯車をチェックしたら、モデルを削除できました。

同様に　f16 も作成して、pushできたので、３つモデルが以下にあります。

#AI #AIとやってみた #やってみた #Ollama #Huggingface #大規模言語モデル #ローカルLLM

この記事が参加している募集

#やってみた

39,464件

#AIとやってみた

35,520件

この記事を最後までご覧いただき、ありがとうございます！もしも私の活動を応援していただけるなら、大変嬉しく思います。

ローカルLLM関連：初心者の取り組み

140本

ログインまたは会員登録するとコメントできます。

覚え書き：Ollamaだけで量子化モデルに変換 Umievo-itr012-Gleipnir-7B をpushしました

この記事が参加している募集

ピックアップされています

ローカルLLM関連：初心者の取り組み

コメント

llama.cppでHFモデルを変換して対話する環境を作る（Windows CPU版）

Ollama で Hugging Face Hub の GGUF をそのまま使ってみる

【GGUF変換】llama.cppでGGUF変換する方法【ローカルLLM】

GPUサポートに挑戦！Ollamaの処理速度向上を目指すWindowsセットアップガイド

「大規模言語モデル入門Ⅱ」を参考にRAGを実装してみた

【技術ブログ】ローカルLLMでRAG構築：ゼロからの挑戦

LiteLLMを活用してOllamaをGoogle Colabで効率的に運用する方法

Google Colabで始める。text generation webuiでgemma2との会話

Google Colab で Llama-3.1-Swallow を試す

Llama3.2でAIで作成した画像のキャプションを付けてみる

画像系マルチモーダルLLMであるQwen2-VLのファインチューニングの練習

Entropixとsmollm - Google Colabで小さな推論マシンをスケールアップする

言語モデルollamaのパラメーター調整

WSL2でLlama 3.1 SwallowをvLLMと共に試してみる

OpenAI互換ローカルLLMサーバとGUIで最も簡単な評価環境を作成

Paperspaceでの自作Dockerイメージの機能紹介：v2.2について

Qwen2-VL-7BとGemma2-9Bを3090上で同時に動かしてみた

DeepEvalとLangfuseをつかってみた

OpenAI SwarmでOllamaをつかってみよう

本格的なエロチャットAIを作りたい その18（ファインチューニングに挑戦 その２）

Llama 3.1 nemotron 70b(NVIDIA)を使ってみた

顔LoRAで好きな顔の生成画像を作る

生成AI各社APIを統一したインタフェースで呼び出せるラッパークラスLLMMasterとその背後にある世界戦略

1.58bit量子化: Llama3-8B-1.58-100B-tokensを試す

今週の「学び」と「アウトプット」について

ローカルで画像生成するための環境設定（stable-diffusion-webui）

Paperspace で webui Forge を動かす。チェックポイントファイルは tmp に保存。

Vol.3_Chat GPTのAPI keyを利用して、ローカル環境でLLM（AIチャットボット）を動かしてみる。

Llama 3.2 の概要：マルチモーダル／オンデバイス対応モデル

Aiニュース:IBM Granite LLMがLlama-3.1を上回り、ComfyUI V1デスクトップアプリケーションがリリースされ、LLMとAGIが変更点を語る”

LlamaをGoogle Colabから実行

【初心者向け】ComfyUIでSDXLのLora(t2i)は最低限これだけやれば動くよってメモ

初心者向け：Llama 3.2のアップデート内容まとめ

自己流/ SDXL:Pony モデル作成でのコツ

AIの各工程の流れ

24時間以内に7つのアイデアをカタチにせよ。NOT A HOTELソフトウェアチームのハッカソンレポート

覚え書き：Ollamaだけで量子化モデルに変換　Umievo-itr012-Gleipnir-7B をpushしました

本格的なエロチャットAIを作りたい　その18（ファインチューニングに挑戦　その２）