はじめに
今回は、iPad Air / iPhoneで動作するローカルLLM(大規模言語モデル)を試してみた事例をご紹介します。
具体的には、「TinySwallow-1.5B」というモデルと「LLM Farm」アプリを組み合わせ、インターネット接続なしで動作させる実験を行いました。
1. 背景と目的
近年、チャットボットや自然言語処理技術の需要が高まるにつれ、LLM(Large Language Model)の活用が注目を浴びています。しかし、従来はLLMを動かすために高性能GPUを搭載したサーバーやクラウド環境が必須とされてきました。
そこで今回は、あえてiPad Air / iPhoneのようなエッジデバイス上で、生成AIを動かし、利用すると、どの程度実用的なパフォーマンスが得られるのかを検証します。外部ネットワークやPCを介さずに動作できるため、オフライン環境下での利便性も期待できます。
2. 使用モデルとアプリ
2.1 TinySwallow-1.5B
TinySwallow-1.5Bは、sakana AIと東京科学大学(旧:東京工業大学)の共同研究で作成された言語モデルです。
チームが新しく開発した「TAID」という手法によって、大規模なモデルの知識を小さなモデルに転移させる「知識蒸留」が行われています。
最近話題となっているDeepSeek社も、自社のフラグシップモデルであるdeepseek R1を用いて蒸留した小型モデルを公開しています。(deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5Bなど)
2.2 LLM Farmアプリ
LLM Farm は、iPad / iPhone上で言語モデルを動かすことができるアプリです。App Storeからダウンロード可能で、モデルの導入から実行まで一連の操作を行うことができます。
3. 実験環境と準備
3.1 デバイス
iPad Air 第五世代
M1チップが搭載されたiPad Airです。8GBのユニファイドメモリに加えて、M1チップが持つGPUとニューラルエンジンが利用できるので処理性能が高く、ローカル環境での推論を高速に実行できると考えられます。
iPhone 12 mini
自身がプライベートでメイン端末として利用しています。システムメモリが4GBですが、今回のモデルなら1.5GBほどのメモリがあれば十分乗り切りそうなので、それなりの速度でテキスト生成をしてくれるのではないでしょうか。
3.2 手順の参照元
公式ガイドTinySwallow-ChatUI/docs/iphone.md at main · SakanaAI/TinySwallow-ChatUI external_link
こちらの手順に沿って進めました。必要なアプリのダウンロードからモデルのインストールまで、基本的にはガイドの通りです。
3.3 セットアップ概要
App Storeから「LLM Farm」をダウンロード

ブラウザアプリにて以下のページにアクセス
https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct-GGUF/tree/main
モデル(TinySwallow-1.5B、q5k_m版 1.13GB)をダウンロード

ダウンロードしたファイルが保存されている場所をファイルアプリから確認しておく

アプリを起動して、ガイドに沿いながら設定を進行
ダウンロードしたLLMFarmアプリを開きます
画面左下の+ボタン(Start new chat)をタップします
「Basic」タブの「Model」セクションで「Select model」をタップします
「import from file」から、先ほどダウンロードしたファイルを選択します
「Settings template」をタップし、「ChatML」を選択します(オプション)Prediction settingsの4つのボタンをOnにします

(機内モードに切り替え、オフライン状態にして)テキストを入力して動作確認
4. 実行時の様子
4.1 モデルダウンロード
モデルサイズは約1.13GB。Wi-Fi環境であれば比較的スムーズにダウンロードできます。
ファイルが保存されている場所をファイルアプリで確認しておきましょう。
4.2 推論動作
ダウンロード完了後、アプリ内の設定でテンプレートを「ChatML」に変更。
オフライン(機内モード)でもモデルが正常に動作し、ネットワーク接続なしでチャット可能であることを確認しました。
実際のチャット画面では、通常のテキスト入力インターフェースとほぼ同様に操作できます。
iPad Airではテキスト生成速度がおよそ35トークン/secほど出ており、待ち時間に伴うストレスは全く感じません。

iPhone 12 miniでは、iPhoneで実行しているにもかかわらず、生成速度はおよそ15トークン/secと予想以上に速く、十分に実用的な速度が出ていると思います。

5. まとめ
今回の検証では、iPad Air/iPhoneだけでローカルLLMを動作させる手順を紹介し、実際に「tinyswallow-1.5b-instruct-q5km.gguf」を用いてオフライン環境下でチャット推論を行いました。主なポイントは以下の通りです。
単体のiPad Air/iPhoneで完結
PCを使わずにセットアップから推論まで実施。オフラインで利用可能
機内モード条件下など、クラウド型生成AIサービスが利用できない状況でも使える。
今後も、端末の性能向上や圧縮技術の発展により、ローカルLLMはさらに普及していくと考えられます。機密性が高い情報を扱う場合や、社内プロトタイプ、PoCなどにおいて、セキュアかつオフラインでの動作が必要なケースでは大変有用です。
弊社ではこれまでGPUを搭載したラップトップPCからブレードサーバーまで、ローカル・オンプレ環境でLLMを利用するソリューションを展開してきましたが、スマートフォンなどのモバイル端末での日本語対応言語モデルの利用が実用的な段階になりつつあることを実感しました。
もし興味がある方は、ぜひ上記手順を参考に試してみてください。今後も当社技術ブログでは、LLMをはじめとする最新技術動向や活用事例をお届けしてまいります。