Ollama入門2026|ローカルPCでLLMを動かす全手順
目次
ChatGPTやClaudeのAPIは便利だが、使うたびに課金が発生する。社外にデータを送れない案件もある。「自分のPCだけで完結するLLM環境が欲しい」――そう考えたことがある人は多いだろう。
Ollamaはまさにそれを実現するツールだ。コマンド1つでLlama 3やGemma 2などのオープンソースLLMをローカルPCにダウンロード・実行できる。この記事ではインストールからモデル選定、API活用、WebUI構築までを一通り試した手順を残しておく。
1. Ollamaとは|ローカルLLMが必要な3つの場面
Ollamaは、オープンソースのLLMをローカル環境で動かすためのランタイムだ。Docker的な発想で、ollama run llama3 と打つだけでモデルのダウンロードと実行が始まる。
ローカルLLMが必要になる場面は主に3つある。
1. データを社外に出せないケース
医療データ、顧客個人情報、社内機密文書の分析。クラウドAPIに投げた時点でセキュリティポリシー違反になる企業は多い。
2. API課金を抑えたいケース
大量のテキスト処理や繰り返しの実験。GPT-4oで100万トークン処理すると約2,500円。Ollamaなら電気代だけ。
3. オフライン環境で使いたいケース
飛行機の中、回線が不安定な出張先、ネット接続不可の工場内。一度ダウンロードしたモデルはオフラインで動く。
2. 必要スペックとメモリの目安
ローカルLLMを試す前に確認したいのがPCスペック。特にメモリ(RAM)がボトルネックになりやすい。
| モデルサイズ | 必要RAM | GPU推奨 | 用途の目安 |
|---|---|---|---|
| 3B(30億パラメータ) | 4GB | 不要 | 簡単な要約・翻訳 |
| 7-8B | 8GB | あれば快適 | 日常的なチャット・コード補完 |
| 13-14B | 16GB | 推奨 | 高品質な文章生成・分析 |
| 70B | 48GB+ | 必須 | GPT-4に近い性能 |
メモリ16GBのMacBook Proで8Bモデルを動かすと、応答速度は毎秒20〜30トークン。13Bだと10トークン前後に落ちる。会話の流れは維持できる速度だ。
3. インストール手順
Mac
# Homebrewでインストール
brew install ollama
# または公式サイトからダウンロード
# https://ollama.com/download
# モデルを実行(初回はダウンロードが走る)
ollama run llama3.1
Windows
# 公式サイトからインストーラーをダウンロード
# https://ollama.com/download/windows
# インストール後、PowerShellで実行
ollama run llama3.1
Linux
curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.1
初回の ollama run でモデルのダウンロードが始まる。Llama 3.1 8Bの場合は約4.7GB。光回線なら5分ほどで完了する。
4. おすすめモデル5選|日本語対応を含む
| モデル | サイズ | 日本語 | 強み |
|---|---|---|---|
| llama3.1:8b | 4.7GB | 可 | バランス型、汎用性が高い |
| gemma2:9b | 5.4GB | 可 | Google製、日本語がやや自然 |
| codellama:7b | 3.8GB | 限定的 | コード生成に特化 |
| qwen2.5:7b | 4.4GB | 良好 | Alibaba製、CJK言語に強い |
| phi3:medium | 7.9GB | 可 | Microsoft製、推論が高速 |
日本語で使うなら qwen2.5:7b を最初に試してほしい。同じプロンプトをLlama 3.1と打ち比べると、qwen2.5のほうが助詞の使い方が自然で、敬体と常体の混在が少ない。Alibaba CloudのCJK特化という設計が効いている。
# モデルのインストール
ollama pull qwen2.5:7b
# 実行
ollama run qwen2.5:7b
# インストール済みモデルの一覧
ollama list
5. Ollama APIをPythonから叩く
OllamaはデフォルトでREST APIをhttp://localhost:11434に公開する。Pythonから呼び出せば、自作アプリにローカルLLMを組み込める。
import requests
import json
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "qwen2.5:7b",
"prompt": "Pythonのリスト内包表記を初心者向けに説明して",
"stream": False
}
)
print(response.json()["response"])
既存のOpenAI SDKコードのbase_urlをhttp://localhost:11434/v1に差し替えるだけで動く。APIキーの設定も不要だ。
Claude CodeやCursorなどのAI開発ツールとの連携については「AIネイティブ開発完全ガイド」も参考になるだろう。
6. Open WebUIで対話インターフェースを追加する
コマンドラインだけでは使いにくいという人には、Open WebUIがおすすめだ。ChatGPTライクなWeb画面をローカルに立ち上げられる。
# Docker(推奨)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
http://localhost:3000 にアクセスすると、モデル選択・会話履歴・ファイルアップロード機能を備えたUIが立ち上がる。家族や同僚にもLAN経由で共有できるため、社内のちょっとしたAI検証環境として重宝する。
7. よくある質問
Q. OllamaとLM Studioの違いは?
LM StudioはGUI主体でモデルをブラウズ・実行できるデスクトップアプリ。OllamaはCLI主体で、API統合やスクリプト自動化に向く。開発者ならOllama、非エンジニアならLM Studioが取っつきやすい。
Q. GPUなしでも動く?
動く。CPUのみでも8B以下のモデルは実用的な速度で応答する。ただしGPU(特にNVIDIA)があると応答速度が5〜10倍になる。Apple SiliconのMacはGPUを自動活用するため、M1以降のMacなら快適だ。
Q. 商用利用は可能?
Ollama自体はMITライセンス。ただしモデルごとにライセンスが異なる。Llama 3はMeta独自の商用ライセンス(月間7億ユーザー未満なら無料)、Gemma 2はApache 2.0。利用前にモデルのライセンスを確認すること。
ローカルAI関連の書籍
※ 上記はAmazonアソシエイトリンクです