AI活用ツール・副業

GLM-5.1入門2026|無料MIT・744Bモデルの使い方

読了時間: 約18分

SWE-bench Proのスコア58.4で、GPT-5.4(57.7)とClaude Opus 4.6(57.3)を抜いてオープンソースモデルとして初めて世界1位を記録した。2026年4月7日にZ.AI(旧Zhipu AI)がリリースしたGLM-5.1の話だ。

744Bパラメータ、MoEアーキテクチャで実際にアクティブなのは40B。MITライセンスだから商用利用も改変も自由。しかもNVIDIA GPUを1枚も使わず、Huawei Ascend 910Bチップ10万枚で訓練されている。米中AI競争の文脈でも無視できないモデルだ。

GLM-5.1とは何か — Z.AIが仕掛けるオープンソース戦略

GLM-5.1はZ.AI(旧Zhipu AI / 智譜AI)が2026年4月7日にリリースした大規模言語モデルだ。GLMシリーズの最新版。清華大学からスピンアウトしたZ.AIは、中国のAI企業としてはBaidu、Alibabaに次ぐ規模のLLM開発を続けてきた。

GLM-5.1の最大の特徴は、MITライセンスでの完全公開という点にある。重みファイルはHugging Face(zai-org/GLM-5.1)に置かれ、商用利用・改変・再配布に制限がない。Meta LlamaのコミュニティライセンスやGoogleのGemma利用規約と比べても、MITは最も制約が緩い。

GLM-5からGLM-5.1への進化

GLM-5は2026年2月に登場し、SWE-bench Verifiedで77.8%を記録した。GLM-5.1は約2ヶ月後のリリースだ。コーディング、エージェントタスク、推論、チャット品質 — 全方位で手が入った。SWE-bench Proでは58.4%。オープンソースモデル初の首位獲得。

Huaweiチップ100%で訓練

GLM-5/5.1はHuawei Ascend 910Bチップ10万枚で訓練された。NVIDIA GPUを一切使っていない。米国の半導体輸出規制下で、中国がフロンティアモデルを自前のハードウェアだけで構築できることを証明した最初の事例だ。

なぜMITライセンスなのか

Z.AIがMITを選んだ背景には、エコシステムの拡大戦略がある。DeepSeekがMITで公開したV3モデルが爆発的にフォークされた成功例を見ている。重みを自由に使わせることでAPIプラットフォームのBigModelへの流入を増やし、エンタープライズ向けのカスタマイズ案件で収益化する狙いだ。

スペック詳細 — 744B MoEの中身を分解する

744Bパラメータ。数字だけ見ると途方もない。だがMoE(Mixture of Experts)アーキテクチャが入っており、推論時に動くのは約40Bパラメータだけだ。残りは待機。

項目 GLM-5.1
総パラメータ数 744B(754Bとする情報源もあり)
アクティブパラメータ 約40B
アーキテクチャ Mixture of Experts(MoE)
コンテキスト長 200,000トークン(入力)
最大出力トークン 65,535トークン
ライセンス MIT
訓練チップ Huawei Ascend 910B × 100,000枚
重みサイズ(FP8) 約860GB
重みサイズ(BF16) 約1.5TB
リリース日 2026年4月7日

MoEアーキテクチャの利点

MoEの仕組みは「専門家チーム」に例えるとわかりやすい。入力トークンごとに、744Bのうち最適な40B分だけが起動する。残りの700B以上は休んでいる。知識量は744B分。計算コストは40Bクラス。この非対称さがMoEの強みだ。

Meta Llama 4 Scoutも同じMoEアプローチを採用している(17Bアクティブ/109B総パラメータ)。MoEはいまフロンティアモデルの標準設計になりつつある。MoEの詳細はLlama 4入門記事でも解説している。

料金体系 — 商用APIとセルフホスティングのコスト

料金を考えるとき、2つのルートがある。Z.AIのBigModel APIを叩くか、MITの重みを落としてセルフホスティングするかだ。どちらが得かは使い方次第。

BigModel API(公式)の料金

BigModel APIはクォータ制だ。時間帯で消費量が変わる。ピーク(UTC+8 14:00〜18:00)は通常の3倍。2026年4月末まではプロモーションでオフピーク1倍。この価格設定を最初に見たとき、正直クセが強いと思った。

サードパーティAPI経由の料金

プロバイダ 入力($/1Mトークン) 出力($/1Mトークン)
BigModel(公式) クォータ制(時間帯変動) クォータ制
OpenRouter $0.95 $3.15
Atlas Cloud $1.05 $3.50
プロバイダ中央値 $1.40 $4.40

比較対象としてClaude Sonnet 4.6は$3/$15、GPT-5.4は同等レベル。GLM-5.1はOpenRouter経由で使えば入力コストがSonnet 4.6の約3分の1になる。性能差を考慮しても、コスト効率は明らかに高い。AI API料金比較の記事で他モデルの料金を詳しくまとめている。

GLM Coding Plan — 月額$3からの定額プラン

Z.AIはClaude Code等のAIコーディングツール向けに「GLM Coding Plan」を提供している。プロモーション価格で月額$3から、通常価格でも月額$10から利用可能。Anthropic API互換のエンドポイントが用意されており、Claude CodeのモデルスロットにGLM-5.1を差し込める。

# Claude Code の settings.json に追加する設定例
{
  "ANTHROPIC_BASE_URL": "https://api.z.ai/api/anthropic",
  "ANTHROPIC_API_KEY": "your-zai-api-key",
  "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.1",
  "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5-turbo",
  "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air"
}

Claude Opus 4.7のAPI料金(入力$15/1Mトークン)と比べると桁が違う。ただし後述する「Verbose output問題」によって、想定以上にトークンを消費する場合がある点に注意が必要だ。

セルフホスティングのコスト試算

FP8で約860GB、BF16で約1.5TB。H100(80GB VRAM)で動かすならFP8でも最低11枚。クラウドGPUの時間単価を考えると、月10万リクエスト超の規模でないとセルフホスティングのメリットは出ない。コスト試算をしてみたが、個人でやる選択肢ではなかった。

個人開発者ならAPI一択

セルフホスティングは月額数千ドルのGPU費用がかかる。個人やスタートアップはOpenRouterやBigModel APIを使うのが現実的だ。MITライセンスの恩恵はファインチューニングやリサーチ用途で活きる。

ベンチマーク比較 — GPT-5.4・Claude Opus 4.7との実力差

4月7日のリリース直後、SWE-bench Proでオープンソースモデル初の首位 — これはインパクトがあった。ただし9日後のClaude Opus 4.7リリースで64.3%に抜き返されている。首位在位は約1週間。短命だった。

ベンチマーク GLM-5.1 GPT-5.4 Claude Opus 4.7
SWE-bench Pro 58.4% 57.7% 64.3%
SWE-bench Verified 77.8% 87.6%
コーディング(Claude Code基準) 45.3 47.9
ライセンス MIT(無料) プロプラ プロプラ
API入力コスト $0.95〜 $5〜 $15

数字の読み方に注意

GLM-5.1のコーディングベンチマーク45.3点(Claude Opus 4.6の94.6%相当)はZ.AIの自己報告だ。2026年4月時点で、独立した第三者評価機関がGLM-5.1のスコアを追試した結果は公表されていない。SWE-bench Proのスコアも同様に自己報告ベース。

自分で検証したければ、OpenRouterのAPI経由でGLM-5.1を呼び出し、手元のコーディングタスクで試すのが手っ取り早い。筆者が簡単なPythonスクリプト生成を10パターン試した限りでは、Claude Sonnet 4.6と同等かやや下回る印象だった。複雑なマルチファイル編集ではOpusに明確に劣る。

ベンチマークと実務の乖離

SWE-bench Proで首位を取ったからといって、実務のコーディングエージェントとして最強とは限らない。複雑なツール連携やマルチステップのワークフローでは、ClaudeやGPTが依然として強い。ベンチマークは「短距離走のタイム」であり、「フルマラソンの完走力」とは違う。

Verbose output問題 — 隠れたコストリスク

競合記事がほぼ触れていない問題がある。GLM-5.1は標準的な評価タスクで約110Mトークンを出力するという報告がある。競合モデルの中央値は約15Mトークン。つまり同じタスクで7倍以上のトークンを吐く。API従量課金で使う場合、見かけの単価が安くても実際の請求額が膨らむリスクがある。

対策としてはmax_tokensパラメータを明示的に絞る、または出力の冗長さをシステムプロンプトで制御することが有効だ。

生成速度の弱点

GLM-5.1の生成速度は44.3 tokens/sec。同クラスのモデル群と比較すると最低速の部類に入る。リアルタイムのチャットUIで使うと体感できる遅さだ。バッチ処理なら問題にならないが、対話型のアプリケーションに組み込むなら遅延を許容できるか検討する必要がある。

Claude Opus 4.7の入門記事GPT-6完全ガイドで各モデルの最新情報を確認できる。

API導入ガイド — 5分で動かす最短手順

GLM-5.1のAPIはOpenAI互換だ。リクエスト形式、レスポンス構造、ストリーミング、ツール呼び出し — すべてOpenAI Chat Completions APIと同じ。既存のGPTやClaude向けコードがあれば、ベースURLとモデル名を変えるだけで動く。

Step 1: APIキーの取得

BigModel公式(open.bigmodel.cn)でアカウントを作成し、APIキーを発行する。メールアドレスと電話番号(中国の番号が推奨だが、一部の国際番号も対応)が必要。サードパーティのOpenRouterを使う場合は、OpenRouterのアカウントだけで済む。

Step 2: 基本リクエスト(Python)

from openai import OpenAI

# BigModel公式APIの場合
client = OpenAI(
    api_key="your-bigmodel-api-key",
    base_url="https://open.bigmodel.cn/api/paas/v4"
)

# OpenRouter経由の場合
# client = OpenAI(
#     api_key="your-openrouter-key",
#     base_url="https://openrouter.ai/api/v1"
# )

response = client.chat.completions.create(
    model="glm-5.1",   # OpenRouterなら "z-ai/glm-5.1"
    messages=[
        {"role": "system", "content": "あなたは優秀なプログラマーです。"},
        {"role": "user", "content": "Pythonでフィボナッチ数列を生成する関数を書いてください。"}
    ],
    temperature=0.7,
    max_tokens=2048
)

print(response.choices[0].message.content)

既存のLangChainパイプラインも、ChatOpenAIbase_urlを書き換えるだけでGLM-5.1に接続できる。

Step 3: ツール呼び出し(Function Calling)

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "指定した都市の天気情報を取得する",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "都市名"}
                },
                "required": ["city"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="glm-5.1",
    messages=[{"role": "user", "content": "東京の天気を教えて"}],
    tools=tools,
    tool_choice="auto"
)

ツール呼び出しの形式もOpenAIと完全互換。AIエージェント完全ガイドで解説しているような自律型エージェントの構築にも使える。

Step 4: ストリーミング

stream = client.chat.completions.create(
    model="glm-5.1",
    messages=[{"role": "user", "content": "MoEアーキテクチャを200字で説明して"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

OpenAI SDK互換の恩恵

LangChainやLlamaIndexなどのフレームワークからも、OpenAI互換エンドポイントとして接続できる。既存のRAGパイプラインにGLM-5.1を差し込むのにコード変更はほぼ不要だ。

ローカル実行 — 必要GPUとセットアップ

APIで動くのは確認した。では手元のGPUで動かすとどうなるか。MITだから自由に使える。が、現実は厳しい。

必要スペック

FP8量子化(推奨)

  • ・重みサイズ: 約860GB
  • ・必要VRAM: 約900GB以上
  • ・H100 80GB × 12枚〜
  • ・A100 80GB × 12枚〜

BF16(フル精度)

  • ・重みサイズ: 約1.5TB
  • ・必要VRAM: 約1.6TB以上
  • ・H100 80GB × 20枚〜
  • ・推奨はFP8で十分

vLLMでのセットアップ

# vLLMでGLM-5.1を起動する
pip install vllm --upgrade

python -m vllm.entrypoints.openai.api_server \
    --model zai-org/GLM-5.1 \
    --tensor-parallel-size 8 \
    --dtype float8 \
    --max-model-len 200000 \
    --port 8000

起動すればOpenAI互換のAPIサーバーが立ち上がる。先ほどのPythonコードのbase_urlhttp://localhost:8000/v1に変えるだけでローカルのGLM-5.1を呼び出せる。

個人のGPU環境で動かしたい場合は、Ollama入門記事で紹介しているような量子化モデル対応ツールの動向を追うといい。ただし744Bクラスのモデルは現時点でOllamaの実用範囲を超えている。

日本語性能の実力 — 実際に試した結果

中国発のモデルに日本語を投げて、まともに返ってくるのか。率直に半信半疑だった。が、結果は予想を裏切った。GLM-5.1は中国語・英語に次ぐ第三言語として日本語をかなり高い精度で処理する。

検証した3つのタスク

OpenRouter経由でGLM-5.1に日本語タスクを投げ、Claude Sonnet 4.6の出力と比較した。

ビジネスメール作成

取引先への値上げ通知メールを依頼

◎ ほぼ同等

敬語の使い分けは正確。やや硬すぎる文体になる傾向があったが、実用上は問題ない

技術文書の要約

5000字の日本語技術記事を300字に要約

○ 良好

要点の抽出精度はClaude Sonnetと同等。ただし固有名詞の表記ゆれが2箇所あった

Pythonコード生成(日本語指示)

日本語でスクレイピングスクリプトを依頼

○ 良好

コードの品質は高い。コメントも日本語で出力された。エラーハンドリングがやや甘い

カジュアルな文体は苦手だ。「フランクに書いて」とプロンプトを3回変えたが、どの出力も文末が「〜です。〜ます。」調に戻った。ブログ記事や商品説明の生成には向かない。ビジネス文書なら問題ない。

日本語トークン効率

GLM-5.1のトークナイザーは中国語に最適化されている。漢字の共通部分が多い日本語はその恩恵を受ける。GPT-5.4との比較で同一テキストのトークン消費が10-15%少なかった。つまりOpenRouter単価$0.95は、実効コストではさらに低くなる。

実務ユースケース4選

GLM-5.1が実務で活きるシーンを4つ挙げる。「コスト」か「ライセンスの自由度」が決め手になる場面だ。

1. 大量バッチ処理のコスト削減

数万件のテキスト分類、要約、データ抽出を定期的に回すパイプラインがある場合、GLM-5.1のAPI単価の安さがそのまま月額コストに効いてくる。Claude Sonnet 4.6の入力コスト$3に対してGLM-5.1は$0.95。月間100万トークン規模で使えば、年間で数十万円の差になる。

2. エンタープライズ向けファインチューニング

MITライセンスだから、自社データで重みを調整して社内専用モデルを作れる。GPTやClaudeは外部APIを叩くしかない。GLM-5.1の重みをダウンロードして自社サーバーに載せれば、通信は社内で完結する。金融・医療・法務でこの差は決定的に大きい。

3. AIエージェントのバックエンド

エージェントタスク向けの強化が入っている。ツール呼び出し、200Kの長いコンテキスト、65Kトークンの出力。自律的に複数ツールを使い分けるエージェントのバックエンドとして筋がいい。エージェント開発フレームワーク比較で紹介しているPydantic AIやLangGraphに組み込んでテストしたところ、ツール選択の精度はClaude Sonnetと遜色なかった。

4. 研究・教育用途

重みが完全公開されているから、モデルの内部構造を直接分析する研究に使える。大学の研究室やAIコースの教材に最適だ。フロンティアモデルの実物を分解できる。DeepSeek完全ガイドで紹介したDeepSeek V3もMITだが、GLM-5.1のほうがコーディング特化で分析対象として面白い。

補足: 無料で試すスモールスタート

Z.AIは無料モデルとしてGLM-4.7-FlashとGLM-4.5-Flashを全登録ユーザーに開放している。GLM-5.1の試食コーナーだと思えばいい。味はわかるが、品質はそのまま持ち帰れない。まず無料枠でAPIの感触を掴んでから、GLM-5.1に切り替えるのがリスクの少ない入口だ。プロンプトエンジニアリング入門の技法はGLM-5.1でもそのまま通用する。

よくある質問

GLM-5.1は本当に無料で使えるのか?

重みのダウンロードと商用利用はMITライセンスで完全無料。ただしAPI経由で使う場合はトークンあたりの課金が発生する。OpenRouter経由で入力$0.95/1Mトークン、出力$3.15/1Mトークンが目安。

GLM-5とGLM-5.1の違いは?

GLM-5は2026年2月リリース。GLM-5.1は4月リリースの改良版で、コーディング、エージェントタスク、推論、チャット品質が全方位で向上している。SWE-bench Proで58.4%(GLM-5は未公表)。実務で使うならGLM-5.1一択。

個人のPCで動かせるか?

FP8量子化でも約860GBのVRAMが必要。一般的なゲーミングPC(RTX 4090 24GB)では到底足りない。クラウドGPU(H100 × 12枚以上)を借りるか、APIを使うのが現実的。

中国製のモデルにデータを送って大丈夫か?

BigModel APIを使う場合、データはZ.AIのサーバーを経由する。機密データならOpenRouterなどのプロキシ経由か、重みをダウンロードして社内サーバーに閉じるかの二択になる。

ClaudeやGPTの代わりになるか?

用途による。バッチ処理やコスト重視の定型タスクならGLM-5.1のコスパは優秀。一方、複雑なマルチステップ推論やニュアンスのある日本語生成ではClaude Opus 4.7やGPT-5.4に一日の長がある。自分ならメインはClaude、コスト最適化したいサブタスクにGLM-5.1を回す。

まとめ — 誰がGLM-5.1を選ぶべきか

新しい基準線だ。SWE-bench Proで商用モデルを上回り、MITで重みを完全公開し、APIコストはClaude Sonnetの3分の1。NVIDIA GPUなしで訓練されたという事実も、業界の力学を変えつつある。

自分ならこう使い分ける。メインの開発支援にはClaude Opus 4.7。大量バッチ処理のコスト圧縮にはGLM-5.1のAPI。規制業界でのオンプレ運用には重みをダウンロード。3つのモデルをレイヤーで使い分けるのが、いまのところ最もコスパが良い。

まずはOpenRouterでAPIキーを取得し、手元のタスクで10回ほど試してみるのが最短の評価方法だ。主要AIサービス比較15選で他のモデルとの位置づけも確認しておくと判断しやすい。