【2026年最新】国産LLM完全ガイド|政府選定7モデルの性能・特徴を徹底比較
目次
国産LLMとは?なぜ今注目されているのか
2026年、日本のAI業界で最もホットなキーワードが「国産LLM」です。国産LLMとは、日本企業が独自に開発した大規模言語モデル(Large Language Model)のこと。ChatGPTやClaudeなど海外製AIが市場を席巻する中、なぜ日本独自のモデルが求められているのでしょうか。
背景には3つの大きな要因があります。まずデータ主権の問題。行政文書や機密情報を海外サーバーに送信するリスクは、政府機関にとって無視できません。次に日本語処理の精度。英語圏で開発されたモデルは、敬語・方言・ビジネス特有の言い回しで精度が落ちる場面があります。そして経済安全保障。AI基盤技術を海外に依存し続ける状態は、国家戦略として望ましくないという判断です。
なぜ2026年が転機なのか
2026年3月6日、デジタル庁が政府共通AIプラットフォーム「源内」で使用する国産LLMを正式に7モデル選定しました。国が国産AIを本格採用する初めての動きとして、業界に大きなインパクトを与えています。
経産省の試算では、2030年までにAI人材が国内で約12万人不足する見込みです。国産LLMの台頭は、日本のAIエンジニアやデータサイエンティストにとって巨大なキャリアチャンスでもあります。海外モデルのラッパー開発ではなく、モデル自体の開発・運用に携わるポジションが急増していくでしょう。
デジタル庁「ガバメントAI源内」とは
「ガバメントAI 源内」は、デジタル庁が構築を進める政府共通のAIプラットフォームです。名称の由来は江戸時代の発明家・平賀源内。日本独自の技術力でAI活用を推進するという意思が込められています。デジタル庁AI「源内」の全体像については別記事で詳しく解説しています。
源内の目的は、中央省庁の業務効率化です。議事録作成、法令文書の要約、国民からの問い合わせ対応など、大量のテキスト処理が発生する行政業務をAIで効率化します。これまで各省庁がバラバラに導入していたAIツールを統一基盤に集約することで、コスト削減とセキュリティ強化を同時に実現する狙いがあります。
源内プロジェクトのスケジュール
注目すべきは、1社独占ではなく7社のモデルを並行して評価する方式を採った点です。用途や要件に応じて最適なモデルを選べる「マルチモデル戦略」は、特定ベンダーへのロックインを避ける狙いもあるでしょう。
政府選定7モデルの詳細比較
ここからは、デジタル庁が選定した7つの国産LLMを一つずつ掘り下げていきます。各モデルには明確な特徴と得意分野があり、単純な優劣では語れません。
NTTデータ「tsuzumi 2」
tsuzumi 2の強み
- 1GPU動作 - 商用GPU1台で推論可能な軽量アーキテクチャ
- GPT-5級性能 - MT-benchで海外最上位モデルに匹敵するスコア
- 低コスト運用 - 大規模GPUクラスタ不要で中小企業にも導入しやすい
NTTグループの研究力を結集したtsuzumi 2は、「軽さ」と「賢さ」の両立が最大の魅力です。通常、高性能なLLMは数十〜数百のGPUを必要としますが、tsuzumi 2は1台のGPUで動作します。これにより運用コストが劇的に下がり、自治体や中小企業でもオンプレミス導入が現実的になりました。
MT-bench(LLMの総合力を測る代表的なベンチマーク)ではGPT-5クラスのスコアを記録。日本語の文書要約や質疑応答で特に高い精度を発揮しています。NTTの通信インフラとの連携も見据えた設計になっており、エッジAI活用の可能性も広がります。
KDDI・ELYZA「Llama-3.1-ELYZA-JP-70B」
ELYZA-JP-70Bの強み
- Meta Llamaベース - 世界最大級のオープンモデルを日本語特化でファインチューニング
- GPT-4超の日本語力 - GPT-4やClaude 3 Sonnetを超える日本語ベンチマークスコア
- 700億パラメータ - 大規模モデルならではの高い汎用性
ELYZAは東京大学発のAIスタートアップで、KDDIグループとして国産LLM開発を加速させています。MetaのLlama 3.1をベースに、大量の日本語データで追加学習(ファインチューニング)を施したモデルです。
オープンソースモデルをベースにしている点は、カスタマイズ性の高さに直結します。企業が自社データで追加学習を行いやすく、業界特化型AIを構築するベースとして有力な選択肢です。海外大手AIとの性能比較も参考にしてみてください。
ソフトバンク「Sarashina2 mini」
Sarashina2 miniの強み
- 巨大モデルからの蒸留 - 4,600億パラメータMoEモデルの知識を凝縮
- H100約6,000台 - 国内最大規模の計算資源で開発
- 効率的な推論 - 蒸留技術により小型でも高い性能を維持
ソフトバンクは通信大手の資金力を活かし、NVIDIA H100を約6,000台投入した国内最大級の計算環境でSarashina2を開発しました。MoE(Mixture of Experts)アーキテクチャの4,600億パラメータモデルから知識蒸留によって生まれた「mini」版が今回の選定対象です。
知識蒸留とは、巨大な「教師モデル」の知識を小さな「生徒モデル」に移す技術です。フルサイズモデルの知識を維持しつつ、実用的なサイズに収めることで、導入コストと性能のバランスを取っています。ソフトバンクの通信網と組み合わせたAIaaS展開も視野に入っています。
富士通「Takane 32B」
Takane 32Bの強み
- JGLUEで世界1位 - 日本語理解ベンチマークで世界最高スコア
- Cohereベース - エンタープライズ向けに定評のあるCohere技術を活用
- 320億パラメータ - 精度とコストの最適バランス
富士通のTakane 32Bは、日本語理解の精度に徹底的にこだわったモデルです。JGLUE(日本語の自然言語理解を評価するベンチマーク)で世界1位を獲得した実力は折り紙付き。カナダのCohere社との提携で培ったエンタープライズ向けの安定性も兼ね備えています。
320億パラメータという規模は、性能とコストの「スイートスポット」といえます。大規模すぎず、かつ十分な表現力を持つサイズ感は、企業のオンプレミス環境にもフィットしやすい設計です。富士通の官公庁との強い関係性も、政府採用に向けた信頼性を後押ししています。
Preferred Networks「PLaMo 2.0 Prime」
PLaMo 2.0 Primeの強み
- 世界最高クラスの日本語性能 - 複数のベンチマークでトップレベル
- 独自開発のアーキテクチャ - PFN独自の技術で海外モデルに依存しない
- 深層学習のパイオニア - Chainerで知られるPFNの最新成果
Preferred Networks(PFN)は、深層学習フレームワーク「Chainer」の開発で世界的に知られるAI企業です。PLaMo 2.0 Primeは、海外モデルのファインチューニングではなく、ゼロからの独自開発にこだわった点が際立ちます。
複数の日本語ベンチマークで世界最高クラスのスコアを記録しており、日本語の微妙なニュアンスや文脈理解において卓越した能力を持ちます。PFNは自動運転や創薬などの分野でもAI活用を進めており、LLM技術と専門領域の融合が今後の大きな強みになるでしょう。
日本電気「cotomi v3」
cotomi v3の強み
- 30万字の長文処理 - 業界トップクラスのコンテキスト長
- 高速処理 - 大量のテキストを短時間で処理
- NECの実績 - 官公庁・金融機関への豊富な導入実績
NECのcotomi v3は、30万字という驚異的な長文処理能力が最大の武器です。行政文書、法律文書、技術レポートなど、日本の業務で扱う文書は長文が多い傾向があります。この長文対応力は、他モデルにはない明確な差別化ポイントです。
NECは顔認証技術で世界をリードするなど、AI分野で長年の蓄積があります。官公庁や金融機関へのシステム納入実績も豊富で、セキュリティ要件の厳しい環境でのAI導入ノウハウを持っている点は、他社にない強みです。RAG(検索拡張生成)との組み合わせでは、長文処理能力が特に効果を発揮します。
カスタマークラウド「CC Gov-LLM」
CC Gov-LLMの強み
- 行政特化型 - 政府・自治体業務に最適化された設計
- セキュリティ重視 - 政府基準に準拠したデータ管理
- カスタマイズ性 - 省庁ごとの要件に柔軟に対応
CC Gov-LLMは、名前の通り「Government(政府)」向けに特化して開発されたモデルです。行政文書の処理、住民対応の自動化、政策立案支援など、公共セクター特有のユースケースを想定した設計が特徴です。
汎用的な高性能よりも、行政業務での実用性とセキュリティを重視している点が他モデルとの大きな違いです。地方自治体への展開も視野に入れており、DX推進の切り札として注目されています。
国産LLM vs 海外LLM|性能比較表
7つの国産モデルと主要な海外モデルを一覧で比較してみましょう。
| モデル名 | 開発元 | パラメータ | 日本語性能 | 特徴 |
|---|---|---|---|---|
| tsuzumi 2 | NTTデータ | 非公開(軽量) | S | 1GPU動作・低コスト |
| ELYZA-JP-70B | KDDI・ELYZA | 700億 | S | Llamaベース・高汎用性 |
| Sarashina2 mini | ソフトバンク | 蒸留モデル | A+ | 4,600億MoEからの蒸留 |
| Takane 32B | 富士通 | 320億 | S | JGLUE世界1位 |
| PLaMo 2.0 Prime | PFN | 非公開 | S | 独自開発・最高クラス |
| cotomi v3 | NEC | 非公開 | A+ | 30万字長文対応 |
| CC Gov-LLM | カスタマークラウド | 非公開 | A | 行政特化型 |
| GPT-5(参考) | OpenAI | 非公開 | A+ | 汎用・多言語対応 |
| Claude 3.5(参考) | Anthropic | 非公開 | A | 安全性重視・長文処理 |
※日本語性能はS/A+/A/Bの4段階評価(複数ベンチマークの総合判定)。海外モデルは参考値。
比較のポイント
国産モデルは日本語性能で海外勢と同等以上の実力を持ちつつ、データ主権やセキュリティの面で明確なアドバンテージがあります。一方、英語や多言語対応では海外モデルが優位な場面も。用途に応じた使い分けが最善の戦略です。
国産LLMの活用シーンと導入事例
国産LLMの活用は、政府機関だけにとどまりません。様々な業界で導入が始まっています。
行政・官公庁
議事録の自動作成、行政文書の要約、住民からの問い合わせ対応(チャットボット)。源内プロジェクトを通じて、中央省庁での活用が2026年後半から本格化する見込みです。
金融・保険
契約書のレビュー、コンプライアンスチェック、顧客向けレポートの生成。データを国内に保管できる国産LLMは、金融規制との相性が良く、メガバンクを中心に導入検討が進んでいます。
製造業
技術マニュアルの多言語変換、品質管理レポートの分析、社内ナレッジベースの構築。日本語の専門用語を正確に扱える国産LLMは、製造現場の文書処理で威力を発揮します。
医療・ヘルスケア
カルテの要約、医療論文の検索・要約、患者向けの説明文生成。医療情報の機密性が高いため、データの海外送信を避けられる国産モデルのニーズが急速に高まっています。
AIエージェントと組み合わせることで、単なるテキスト生成から業務の自動化へと活用範囲は大きく広がります。国産LLMをバックエンドに据えたAIエージェントは、セキュリティと実用性を両立する次世代の業務ツールになるでしょう。
国産LLMの今後のロードマップ
2026年は国産LLM元年ともいえる年ですが、これはあくまでスタート地点。今後の展開を時間軸で整理します。
政府実証結果を踏まえたモデル改良
8月の試用開始後、実際の行政業務でのフィードバックを反映。各社がモデルのアップデートを競い合う「品質競争フェーズ」に突入します。
地方自治体・民間企業への展開
政府実証で得たノウハウを活かし、地方自治体のDX推進、民間企業への本格提供が始まる見込みです。
マルチモーダル化・業界特化モデルの登場
テキストだけでなく、画像・音声・動画を扱えるマルチモーダル版の国産モデルが登場。医療、法務、製造など業界特化型LLMの開発も本格化するでしょう。
注目すべきリスク
海外モデルの進化スピードは極めて速く、国産モデルが追いつけないリスクも存在します。開発資金の継続的な確保や、人材の海外流出を防ぐ施策が成功の鍵を握ります。
よくある質問(FAQ)
Q. 国産LLMと海外LLM(ChatGPTなど)の違いは何ですか?
国産LLMは日本語処理に特化した設計が最大の強みです。敬語・方言・ビジネス文書など日本語特有の表現を正確に理解できます。データの国内保管が可能なため、政府機関や金融機関などセキュリティ要件の厳しい組織でも導入しやすい点が大きな違いです。
Q. ガバメントAI「源内」はいつから使えますか?
2026年3月に契約締結、5月に大規模実証実験、8月から試用開始の予定です。まずは中央省庁の職員が業務で利用し、2027年1月に評価結果が公表される見込みです。
Q. 国産LLMを企業で導入するにはどうすればいいですか?
各開発企業がAPI提供やクラウドサービスとして展開しています。NTTデータのtsuzumi、NECのcotomi、富士通のTakaneなどはエンタープライズ向けプランを用意しており、問い合わせベースで導入可能です。まずは小規模なPoC(概念実証)から始めるのがおすすめです。
Q. 国産LLM関連の仕事に就くにはどんなスキルが必要ですか?
Python・PyTorchなどの機械学習フレームワークの知識に加え、自然言語処理(NLP)の基礎が求められます。日本語の形態素解析やトークナイザーの理解も差別化ポイントになります。経産省の試算では2030年までにAI人材が約12万人不足する見込みで、今から準備を始めれば大きなチャンスがあります。
Q. 7モデルの中でどれが一番性能が高いですか?
用途によって最適なモデルは異なります。総合的な日本語性能ではPLaMo 2.0 PrimeとTakane 32Bが世界トップクラスです。軽量・コスト重視ならtsuzumi 2、長文処理ならcotomi v3(30万字対応)が強みを持ちます。2026年8月の政府実証結果で客観的な比較データが公表される予定です。
まとめ
2026年3月、デジタル庁による国産LLM 7モデルの選定は、日本のAI産業にとって歴史的な転換点です。tsuzumi 2の軽量設計、PLaMo 2.0 Primeの独自開発力、cotomi v3の長文処理能力など、各モデルが異なる強みを持ち、用途に応じた使い分けが可能になりました。
この記事のポイント
- デジタル庁が「ガバメントAI源内」用に国産LLM 7モデルを正式選定
- 日本語性能・データ主権・セキュリティで海外モデルに対する明確な優位性がある
- 2026年8月の試用開始を皮切りに、官民問わずAI導入が加速する見込み
- AI人材は2030年までに約12万人不足 -- 今がキャリアチャンスの最大の窓
国産LLMの発展は、日本のAIエンジニアやデータサイエンティストにとって、かつてない規模のキャリア機会を生み出しています。海外モデルのAPIを呼ぶだけのスキルではなく、モデルの仕組みを理解し、ファインチューニングや評価ができる人材が求められる時代に突入しました。
2026年後半に公表される政府の実証評価結果は、各モデルの実力を客観的に測る貴重なデータになります。当サイトでも最新情報を追い続けていきますので、ぜひブックマークしてチェックしてください。