プログラミング・スキルアップ

Ollama入門2026|ローカルPCでLLMを動かす全手順

読了時間: 約6分

ChatGPTやClaudeのAPIは便利だが、使うたびに課金が発生する。社外にデータを送れない案件もある。「自分のPCだけで完結するLLM環境が欲しい」――そう考えたことがある人は多いだろう。

Ollamaはまさにそれを実現するツールだ。コマンド1つでLlama 3やGemma 2などのオープンソースLLMをローカルPCにダウンロード・実行できる。この記事ではインストールからモデル選定、API活用、WebUI構築までを一通り試した手順を残しておく。

1. Ollamaとは|ローカルLLMが必要な3つの場面

Ollamaは、オープンソースのLLMをローカル環境で動かすためのランタイムだ。Docker的な発想で、ollama run llama3 と打つだけでモデルのダウンロードと実行が始まる。

ローカルLLMが必要になる場面は主に3つある。

1. データを社外に出せないケース

医療データ、顧客個人情報、社内機密文書の分析。クラウドAPIに投げた時点でセキュリティポリシー違反になる企業は多い。

2. API課金を抑えたいケース

大量のテキスト処理や繰り返しの実験。GPT-4oで100万トークン処理すると約2,500円。Ollamaなら電気代だけ。

3. オフライン環境で使いたいケース

飛行機の中、回線が不安定な出張先、ネット接続不可の工場内。一度ダウンロードしたモデルはオフラインで動く。

2. 必要スペックとメモリの目安

ローカルLLMを試す前に確認したいのがPCスペック。特にメモリ(RAM)がボトルネックになりやすい。

モデルサイズ必要RAMGPU推奨用途の目安
3B(30億パラメータ)4GB不要簡単な要約・翻訳
7-8B8GBあれば快適日常的なチャット・コード補完
13-14B16GB推奨高品質な文章生成・分析
70B48GB+必須GPT-4に近い性能

メモリ16GBのMacBook Proで8Bモデルを動かすと、応答速度は毎秒20〜30トークン。13Bだと10トークン前後に落ちる。会話の流れは維持できる速度だ。

3. インストール手順

Mac

# Homebrewでインストール
brew install ollama

# または公式サイトからダウンロード
# https://ollama.com/download

# モデルを実行(初回はダウンロードが走る)
ollama run llama3.1

Windows

# 公式サイトからインストーラーをダウンロード
# https://ollama.com/download/windows

# インストール後、PowerShellで実行
ollama run llama3.1

Linux

curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.1

初回の ollama run でモデルのダウンロードが始まる。Llama 3.1 8Bの場合は約4.7GB。光回線なら5分ほどで完了する。

4. おすすめモデル5選|日本語対応を含む

モデルサイズ日本語強み
llama3.1:8b4.7GBバランス型、汎用性が高い
gemma2:9b5.4GBGoogle製、日本語がやや自然
codellama:7b3.8GB限定的コード生成に特化
qwen2.5:7b4.4GB良好Alibaba製、CJK言語に強い
phi3:medium7.9GBMicrosoft製、推論が高速

日本語で使うなら qwen2.5:7b を最初に試してほしい。同じプロンプトをLlama 3.1と打ち比べると、qwen2.5のほうが助詞の使い方が自然で、敬体と常体の混在が少ない。Alibaba CloudのCJK特化という設計が効いている。

# モデルのインストール
ollama pull qwen2.5:7b

# 実行
ollama run qwen2.5:7b

# インストール済みモデルの一覧
ollama list

5. Ollama APIをPythonから叩く

OllamaはデフォルトでREST APIをhttp://localhost:11434に公開する。Pythonから呼び出せば、自作アプリにローカルLLMを組み込める。

import requests
import json

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "qwen2.5:7b",
        "prompt": "Pythonのリスト内包表記を初心者向けに説明して",
        "stream": False
    }
)
print(response.json()["response"])

既存のOpenAI SDKコードのbase_urlhttp://localhost:11434/v1に差し替えるだけで動く。APIキーの設定も不要だ。

Claude CodeやCursorなどのAI開発ツールとの連携については「AIネイティブ開発完全ガイド」も参考になるだろう。

6. Open WebUIで対話インターフェースを追加する

コマンドラインだけでは使いにくいという人には、Open WebUIがおすすめだ。ChatGPTライクなWeb画面をローカルに立ち上げられる。

# Docker(推奨)
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

http://localhost:3000 にアクセスすると、モデル選択・会話履歴・ファイルアップロード機能を備えたUIが立ち上がる。家族や同僚にもLAN経由で共有できるため、社内のちょっとしたAI検証環境として重宝する。

7. よくある質問

Q. OllamaとLM Studioの違いは?

LM StudioはGUI主体でモデルをブラウズ・実行できるデスクトップアプリ。OllamaはCLI主体で、API統合やスクリプト自動化に向く。開発者ならOllama、非エンジニアならLM Studioが取っつきやすい。

Q. GPUなしでも動く?

動く。CPUのみでも8B以下のモデルは実用的な速度で応答する。ただしGPU(特にNVIDIA)があると応答速度が5〜10倍になる。Apple SiliconのMacはGPUを自動活用するため、M1以降のMacなら快適だ。

Q. 商用利用は可能?

Ollama自体はMITライセンス。ただしモデルごとにライセンスが異なる。Llama 3はMeta独自の商用ライセンス(月間7億ユーザー未満なら無料)、Gemma 2はApache 2.0。利用前にモデルのライセンスを確認すること。

ローカルAI関連の書籍

つくりながら学ぶ!生成AIアプリ開発入門

LLMを使ったアプリ開発の基本を手を動かしながら学べる入門書。ローカル環境での実行方法も解説。

Amazonで詳細を見る

※ 上記はAmazonアソシエイトリンクです