テキスト埋め込みモデルはローカルで動かせるのか？サーベイ

Aya*

2024年3月20日 14:56

こんにちは．

今回は，テキスト埋め込みモデルはローカルで動かせるもので十分な性能が出るのか調査してみました．

このテキスト埋め込みモデルは，RAGやLLMの性能の根本を決めるコンポーネントの一つであります．

Sentence Transformers

前提知識として，テキストを埋め込みと呼ばれるベクトル表現に変換するためのライブラリとしてSentence Transformersがあります．

この埋め込みに変換する利点は次の通り．

テキストの類似度算出ができる
分類やクラスタリングができる
セマンティック検索ができる

Multilingual-E5

こちらのサイトから，上記のモデルについて考察します．

このモデルは，Leaderboardでも好成績を収めており，`multilingual-e5-large-instruct`は分類，クラスタリング，検索などのデータセットによるタスクの平均で64.41であり，12位となっています．`multilingual-e5-base`は1.11GBのモデルサイズで59.45のスコアで51位，`multilingual-e5-small`は0.47GBで57.87のスコア，64位です．

$$
\begin{array}{|r|l|r|r} \hline
rank & Model & Model Size(GB) & Average(56 datasets) \\ \hline
1 & SFR-Embedding-Mistral & 14.22 & 67.56 \\ \hline
12 & multilingual-e5-large-instruct & 1.12 & 64.41 \\ \hline
36 & multilingual-e5-large & 2.24 & 61.50 \\ \hline
41 & text-embedding-ada-002 & - & 60.99 \\ \hline
51 & multilingual-e5-base & 1.11 & 59.45 \\ \hline
64 & multilingual-e5-small & 0.47 & 57.87 \\ \hline
\end{array}
$$

Maxトークン数について，adaは8192ですが，e5系は512です．

Multilingal-e5-largeでクルマのパンフレットを外部データとして動かした実装はこちらです．

デフォルトのチャンクサイズが1024になっているため，そのままだとインデックスを作成する際にout of rangeになる可能性があります．設定を変更しましょう．

実行した結果，いつものデータだとRAMを消費しきって実行できませんでした．

そこで，カローラスポーツ前期の簡易的な諸元表のみをドキュメントにして実行しましたが，それでもメモリサイズをオーバーしてしまいました．

そこで，次のような簡易ドキュメントで試しました．

from llama_index.core import SimpleDirectoryReader
from llama_index.core import Document

texts = ["私の名前は木村です．", "私の口癖は「ちょ，待てよ！」です．", "私は歌とダンスが得意です．"]
documents = [Document(text=t) for t in texts]
print("documents :", documents)

きちんと読み込めたようです．

DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 私の名前は木村です．
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 私の口癖は「ちょ，待てよ！」です．
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 私は歌とダンスが得意です．

クエリ応答の速度自体は良好です．

貴方の特技は何？と聞いてみました．

私の名前は木村です．という文とかなり僅差で私は歌とダンスが得意です．が勝っています．もう少し類似度が離れてほしいですね．

ドキュメントが読み込めなかった原因をもう少し探る必要がありますが，ここでいったん切ります．

Sentence Transformersライブラリによる実装

このライブラリはテキストを埋め込むライブラリです．

簡単に実装できるので，お試しください．

マルチリンガルE5の日本語での評価

続いてはこちらのサイトより．

E5とは

E5はEmbEddings from bidirEctional Encoder rEpresentationsから来ているそうです．無理やりすぎるし，なんならrepresentationsに「e」もう一個ありますけど，，，笑

Web上から収集した大規模なテキストペアのデータセットからcontrastive learningしたのち，NLIやMS Marcoなどの高品質なデータセットで学習をしているようです．

性能としてはadaを上回る性能が報告されています．

ただし，シーケンス長は短いです．

完全にローカルでRAG

こちらの記事を参考にすると，APIにたよらずRAGシステムが実装できます．

モジュールのimportのみ抜粋します

import logging
import os
import sys

from llama_index import (
    LLMPredictor,
    PromptTemplate,
    ServiceContext,
    SimpleDirectoryReader,
    VectorStoreIndex,
)
from llama_index.callbacks import CallbackManager, LlamaDebugHandler
from llama_index.embeddings import HuggingFaceEmbedding
from llama_index.llms import LlamaCPP

# ログレベルの設定
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

これだけで実装できるのはLlamaIndexのアブストラクトの恩恵が大きいですね．しっかりtext embeddingモデルと，LLMをローカルモデルにすることができます．

# LLMのセットアップ
model_path = f"models/ELYZA-japanese-Llama-2-7b-fast-instruct-gguf/ELYZA-japanese-Llama-2-7b-fast-instruct-q8_0.gguf"
llm = LlamaCPP(
    model_path=model_path,
    temperature=0.1,
    model_kwargs={"n_ctx": 4096, "n_gpu_layers": 32},
)
llm_predictor = LLMPredictor(llm=llm)

# 実行するモデルの指定とキャッシュフォルダの指定
embed_model_name = ("intfloat/multilingual-e5-large",)
cache_folder = "./sentence_transformers"

# 埋め込みモデルの作成
embed_model = HuggingFaceEmbedding(
    model_name="intfloat/multilingual-e5-large",
    cache_folder=cache_folder,
    device=EMBEDDING_DEVICE,
)

それぞれこちらの部分です．

ただし，元記事ではllama-indexのバージョンが0.9.13であり，現在の0.10世代では使用できない部分もあるので，ご注意ください．

番外編: text-embedding-3

ここまでは主にmultilingual-e5とadaを比較していましたが，OpenAIから新しい埋め込みモデルもリリースされています．

詳しくはまだ調べていないので，より詳しいサイトの参照をお勧めします．

いいなと思ったら応援しよう！

コメントするには、ログインまたは会員登録をお願いします。

テキスト埋め込みモデルはローカルで動かせるのか？サーベイ

Sentence Transformers

Multilingual-E5

Sentence Transformersライブラリによる実装

マルチリンガルE5の日本語での評価

E5とは

完全にローカルでRAG

番外編: text-embedding-3

いいなと思ったら応援しよう！

コメント

EmbeddingGemma-300について実際に使って勉強

EmbeddingGemma の概要

完全無料のRAGは実用レベルなのか!?

EmbeddingGemma: オンデバイスAIの新時代を切り開く

VoyageAIのEmbeddingモデルを使ってみた

EmbeddingGemmaをOllamaで試す

🧭続、ローカルLLMに手出してみた

M1 MacBook Air で gpt-oss を動かす

LLM Engineering: Master AI, Large Language Models & Agents: RAGはここから始めよう：おもちゃの「ナレッジワーカー」と“ベクトル思考”の入り口 (第5/8週・1/5日目)

RouWei-Gemmaが進化している話＠ComfyUI

OpenAIがついに出したオープンモデル、gpt-ossを試してみる

ThinkPad X220でローカルLLM

ローカルLLMでRAGは成立するのか：FAQシステムを事例に検討

忘備録・ローカルLLMの性能について

無料・無制限のオープンソースGPT評価 生成AI ChatGPT ITトレンド

【ローカルLLM】gpt-oss-20bは使えるのか？【初心者】

自分のPCにChatGPT相当の生成AIをインストール（2025年8月最新状況）

「最新のOllama（GUI対応版）」と「gpt-oss:20b（ローカルLLM）」を試してみました。

忘備録 ノートPCだけで“自前専用”のRAG（検索拡張生成）環境を作る手順を、完全ローカル動作を前提にまとめます。Windows/Mac/LinuxいずれもOK。

【gpt-oss】ローカルLLMでDeep Researchっぽいことをする

古いIntel Macで実現するローカルLLM：RAGシステム実践編

「Gemma 3 270M」がなんとも微妙な結果だった話し

朝活421日目 開発続き:gpt-ossに乗り換え

GPUメモリ不足に泣くLLMユーザに朗報：Force MoE expert weights onto CPU

[Obsidian] Smart Connectionsで日本語モデル「ruri」を認識させる方法（Ollama連携）

言語モデルを知るには小規模モデルを動かしてみるといい

OpenAIから新型生成AI 「GPT-5」 登場。画像分析をやってみたら、意外な弱点がわかった!

PostgreSQLをローカルLLMで自然言語分析してみた（OpenWebUI + mcpo + Ollama -gpt-oss-20b- + PostgreSQL)

2025年最新：Kimi K2-0905 完全レビューガイド - 1兆パラメータオープンソースモデルの重大な突破

実践が先行してしまったので一旦まとめ

【2025年8月最新版】LM Studioで動かせる注目モデル完全ガイド - ローカルAIの革命がついに始まった！

Llama/llm+RAG わかりやすく解説

スマホでローカルAI。Google AI Edge Galleryを試してみる

ChatGPT‑4を超えた？InternVL3.5─ローカルLLM

GPT-4級「第3の巨人」降臨―3550億パラメータ『GLM-4.5』が無料で変えるAI勢力図

GPT-4とGPT-5を徹底比較【オリジナルRAGシステムの実践レポート】

無料・無制限のオープンソースGPT評価生成AI ChatGPT ITトレンド

忘備録　ノートPCだけで“自前専用”のRAG（検索拡張生成）環境を作る手順を、完全ローカル動作を前提にまとめます。Windows/Mac/LinuxいずれもOK。

朝活421日目開発続き:gpt-ossに乗り換え

OpenAIから新型生成AI 「GPT-5」登場。画像分析をやってみたら、意外な弱点がわかった!

Llama/llm+RAG 　わかりやすく解説