GPUなしでも動きますか？

動きます。CPU環境でも8B以下のモデルは実用的な速度で動作します。Apple SiliconのMacはGPUを自動活用するため特に快適です。

Ollamaで動かすモデルの商用利用は可能ですか？

Ollama自体はMITライセンスで商用利用可能です。ただしモデルごとにライセンスが異なるため、Llama 3のMeta商用ライセンスやGemma 2のApache 2.0など、各モデルの利用条件を確認してください。

プログラミング・スキルアップ

Ollama入門2026｜ローカルPCでLLMを動かす全手順

Q: OllamaとLM Studioの違いは？

LM StudioはGUI主体のデスクトップアプリ、OllamaはCLI主体でAPI統合やスクリプト自動化に向きます。開発者ならOllama、非エンジニアならLM Studioが使いやすいです。

2026年4月6日読了時間: 約6分

1. Ollamaとは｜ローカルLLMが必要な3つの場面
2. 必要スペックとメモリの目安
3. インストール手順（Mac / Windows / Linux）
4. おすすめモデル5選｜日本語対応を含む
5. Ollama APIをPythonから叩く
6. Open WebUIで対話インターフェースを追加する
7. よくある質問

ChatGPTやClaudeのAPIは便利だが、使うたびに課金が発生する。社外にデータを送れない案件もある。「自分のPCだけで完結するLLM環境が欲しい」――そう考えたことがある人は多いだろう。

Ollamaはまさにそれを実現するツールだ。コマンド1つでLlama 3やGemma 2などのオープンソースLLMをローカルPCにダウンロード・実行できる。この記事ではインストールからモデル選定、API活用、WebUI構築までを一通り試した手順を残しておく。

1. Ollamaとは｜ローカルLLMが必要な3つの場面

Ollamaは、オープンソースのLLMをローカル環境で動かすためのランタイムだ。Docker的な発想で、ollama run llama3 と打つだけでモデルのダウンロードと実行が始まる。

ローカルLLMが必要になる場面は主に3つある。

1. データを社外に出せないケース

医療データ、顧客個人情報、社内機密文書の分析。クラウドAPIに投げた時点でセキュリティポリシー違反になる企業は多い。

2. API課金を抑えたいケース

大量のテキスト処理や繰り返しの実験。GPT-4oで100万トークン処理すると約2,500円。Ollamaなら電気代だけ。

3. オフライン環境で使いたいケース

飛行機の中、回線が不安定な出張先、ネット接続不可の工場内。一度ダウンロードしたモデルはオフラインで動く。

2. 必要スペックとメモリの目安

ローカルLLMを試す前に確認したいのがPCスペック。特にメモリ（RAM）がボトルネックになりやすい。

モデルサイズ	必要RAM	GPU推奨	用途の目安
3B（30億パラメータ）	4GB	不要	簡単な要約・翻訳
7-8B	8GB	あれば快適	日常的なチャット・コード補完
13-14B	16GB	推奨	高品質な文章生成・分析
70B	48GB+	必須	GPT-4に近い性能

メモリ16GBのMacBook Proで8Bモデルを動かすと、応答速度は毎秒20〜30トークン。13Bだと10トークン前後に落ちる。会話の流れは維持できる速度だ。

3. インストール手順

Mac

# Homebrewでインストール
brew install ollama

# または公式サイトからダウンロード
# https://ollama.com/download

# モデルを実行（初回はダウンロードが走る）
ollama run llama3.1

Windows

# 公式サイトからインストーラーをダウンロード
# https://ollama.com/download/windows

# インストール後、PowerShellで実行
ollama run llama3.1

Linux

curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.1

初回の ollama run でモデルのダウンロードが始まる。Llama 3.1 8Bの場合は約4.7GB。光回線なら5分ほどで完了する。

4. おすすめモデル5選｜日本語対応を含む

モデル	サイズ	日本語	強み
llama3.1:8b	4.7GB	可	バランス型、汎用性が高い
gemma2:9b	5.4GB	可	Google製、日本語がやや自然
codellama:7b	3.8GB	限定的	コード生成に特化
qwen2.5:7b	4.4GB	良好	Alibaba製、CJK言語に強い
phi3:medium	7.9GB	可	Microsoft製、推論が高速

日本語で使うなら qwen2.5:7b を最初に試してほしい。同じプロンプトをLlama 3.1と打ち比べると、qwen2.5のほうが助詞の使い方が自然で、敬体と常体の混在が少ない。Alibaba CloudのCJK特化という設計が効いている。

# モデルのインストール
ollama pull qwen2.5:7b

# 実行
ollama run qwen2.5:7b

# インストール済みモデルの一覧
ollama list

5. Ollama APIをPythonから叩く

OllamaはデフォルトでREST APIをhttp://localhost:11434に公開する。Pythonから呼び出せば、自作アプリにローカルLLMを組み込める。

import requests
import json

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "qwen2.5:7b",
        "prompt": "Pythonのリスト内包表記を初心者向けに説明して",
        "stream": False
    }
)
print(response.json()["response"])

既存のOpenAI SDKコードのbase_urlをhttp://localhost:11434/v1に差し替えるだけで動く。APIキーの設定も不要だ。

Claude CodeやCursorなどのAI開発ツールとの連携については「AIネイティブ開発完全ガイド」も参考になるだろう。

6. Open WebUIで対話インターフェースを追加する

コマンドラインだけでは使いにくいという人には、Open WebUIがおすすめだ。ChatGPTライクなWeb画面をローカルに立ち上げられる。

# Docker（推奨）
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

http://localhost:3000 にアクセスすると、モデル選択・会話履歴・ファイルアップロード機能を備えたUIが立ち上がる。家族や同僚にもLAN経由で共有できるため、社内のちょっとしたAI検証環境として重宝する。

7. よくある質問

Q. OllamaとLM Studioの違いは？

LM StudioはGUI主体でモデルをブラウズ・実行できるデスクトップアプリ。OllamaはCLI主体で、API統合やスクリプト自動化に向く。開発者ならOllama、非エンジニアならLM Studioが取っつきやすい。

Q. GPUなしでも動く？

動く。CPUのみでも8B以下のモデルは実用的な速度で応答する。ただしGPU（特にNVIDIA）があると応答速度が5〜10倍になる。Apple SiliconのMacはGPUを自動活用するため、M1以降のMacなら快適だ。

Q. 商用利用は可能？

Ollama自体はMITライセンス。ただしモデルごとにライセンスが異なる。Llama 3はMeta独自の商用ライセンス（月間7億ユーザー未満なら無料）、Gemma 2はApache 2.0。利用前にモデルのライセンスを確認すること。

ローカルAI関連の書籍

つくりながら学ぶ！生成AIアプリ開発入門

LLMを使ったアプリ開発の基本を手を動かしながら学べる入門書。ローカル環境での実行方法も解説。

Amazonで詳細を見る

※ 上記はAmazonアソシエイトリンクです