バックオフィスで「ローカルLLM」は何ができるか ― 主要モデル比較と導入手順

クラウドAIの普及が進む一方で、機密情報の取り扱いや、突然のサービス停止リスクに悩む企業が増えています。

その解決策として注目されているのが「ローカルLLM」です。自社のパソコンやサーバー内だけで完結するこの技術は、機密を扱うバックオフィス業務と非常に相性が良いと言えます。

本記事では、機密を外に出さず、ネットや規制で止まっても動く“自社に住み込みのAI”であるローカルLLMについて、実務でできることから主要モデルの比較、導入手順までを詳しく解説します。

ローカルLLMとは何か？クラウドAIとの違い

普段多くの人が利用しているChatGPTなどのクラウドAIは、外部の巨大なデータセンターにあるAIに質問を送る仕組みです。非常に便利ですが、入力したデータはいったん社外に出ていきます。例えるなら「外部の天才に毎回電話して相談している」状態です。

一方、ローカルLLM（大規模言語モデル：文章を読んで書くAIの頭脳）は、AIの本体そのものを自社のパソコンや社内サーバーにダウンロードし、その中だけで動かします。こちらは「自社に住み込みの担当者を雇う」状態に近く、質問も答えも一切外に出ません。

ローカルLLMを手元に置くことで、主に3つのメリットが生まれます。1つ目は、機密や個人情報を外に出さないこと。2つ目は、インターネットが止まったり、規制で急にAIが使えなくなったりしても動き続けること。そして3つ目は、どれだけ使っても追加料金がかからず、電気代だけで使い倒せることです。

ローカルLLMが実務で「できること」と「苦手なこと」

バックオフィスで「ローカルLLM」は何ができるか ― 主要モデル比較と導入手順の解説スライド

バックオフィスで使える4つの業務

現在のローカルLLMが、実務で十分に使える業務は大きく4つあります。

要約と議事録：会議の文字起こしデータを要約する。
文書のドラフトとチェック：メールや報告書の下書き、社内規程との突き合わせ。
社内ナレッジ検索（RAG）：社内マニュアルや過去の議事録を検索し、根拠つきで答えさせる。
個人情報のマスキング前処理：氏名や住所を自動で見つけて黒塗りする。

特に効果的なのが「RAG（ラグ）」です。RAGとは、先に社内文書を検索して、その中身をAIに読ませてから答えさせる仕組みです。AIに自社の本棚を丸ごと持たせ、開きながら答えさせるようなもので、社外秘の情報でも安全に、出典つきで扱うことができます。また、マスキング処理も、塗る前の生データを外に出せないため、ローカル環境に向いています。

ローカルLLMがまだ苦手な領域

一方で、課題もあります。手元で動く比較的小さなモデルは、最上位のクラウドAIほどの複雑な推論や、長い文章の一貫性を保つ賢さはまだ出にくい傾向があります。また、世界的なモデルでも日本語の精度に差があるため、モデルの選び方が重要になります。

主要モデルの横並び比較と選び方のコツ

2026年6月現在、代表的なローカルLLMには以下のようなものがあります。

注目すべき4つの主要モデル

Gemma 4（Google）：2026年4月に公開された最新モデル。商用利用が自由なApache 2.0ライセンスで、世界3位クラスの性能を持ち、日本語にも配慮されています。
Phi（Microsoft）：最新のPhi-4系は、小さくても賢いのが特徴です。ただし、Microsoft自身が「英語中心で、日本語は弱め」と明記しているため、日本語メインの業務には注意が必要です。
国産モデル：NTTの「tsuzumi 2」は政府の全省庁向けAI「源内」にも採用され、高性能GPU1枚で動く軽さが特徴です。Stockmarkの100Bモデルは業務の質問応答でGPT-4o級の性能が報告されています。また、軽量なSB Intuitionsの「Sarashina」などもあります。
Qwen 3（Alibaba）：Apache 2.0ライセンスでサイズが豊富。日本語も実用十分であり、汎用モデルの本命とされています。

自社に合ったモデルの選び方

汎用性で迷ったら「Qwen 3」、機密性が高く政府実績を重視するなら「tsuzumi 2」、業務文書に特化するなら「Stockmark」、とにかく軽く端末で動かしたいなら「Gemma 4」の小型モデルや「Sarashina」が有力な選択肢となります。

選定時は、名前やうたい文句だけでなく「ライセンス」と「手元で動くサイズか」を確認することがコツです。例えば、楽天の「Rakuten AI 3.0」は高性能ですが、7,000億パラメータ級と非常に大きく、社内の1台で動かすのは現実的ではありません。

ローカルLLMの実行環境と必要なハードウェア

実際にローカルLLMを動かすための実行環境（道具）は、用途に合わせて選びます。社内検証の定番である「Ollama」はコマンド一行で手軽に動かせます。現場向けには画面操作ができる「LM Studio」があり、2025年から商用利用も無料になりました。本番で多人数に配る用途には、同時アクセス処理に優れた「vLLM」が適しています。

これらの土台には、GPUがなくても動く「llama.cpp」というエンジンがあります。前面に「Open WebUI」を置くことで、社員がログインして使える社内版ChatGPTのような画面を作り、権限管理やRAGを組み込むことができます。

「量子化」で手元のパソコンから小さく始める

ハードウェアの要件を下げる鍵となるのが「量子化」です。量子化とは、モデルの賢さをほぼ保ったまま、データを軽くする圧縮技術のことです。高画質の写真を、見た目を変えずにファイルサイズだけ小さくするようなイメージです。

量子化により、必要なメモリは約4分の1になり、賢さは9割以上キープできます。70億パラメータ（7B）級のモデルなら、8GBのGPUや一般的なパソコンでも動作します。30B級でメモリ16〜20GB、70Bの大型で40GB強が目安となります。いきなり高額なサーバーを購入しなくても、手元の1台から小さく始めることが可能です。

導入の5ステップと実際の活用事例

ローカルLLMを導入する手順は、以下の5ステップで進めます。

1. 業務の棚卸しをして、どこにAIを効かせるか決める。
2. 学習されず、外に出さないローカル構成を選ぶ。
3. 社内文書をRAGで読ませる土台を作る。
4. 誰が何を見られるか、権限を設計する。
5. 小さく試して、効果が出たところから広げる。

バックオフィスでの活用事例

実際に「外に出せないからローカル」という必然性を持って導入された事例が多数あります。

那須赤十字病院×リコー：電子カルテから退院時サマリを院内AIで自動作成し、年2,000万円のコスト削減相当を報告。
NTTデータ先端技術：金融システムの設計書の整合性チェックを、機密を出さずに自動化。
じもとフィナンシャルグループ：オフライン完結のツールで議事録作成時間を約4割削減。
グラファー：書類の個人情報を社外に出さず自動で黒塗り処理。
NTTテクノクロス：AIを併用したマスキングツールで、個人情報の抽出精度を最大25ポイント向上。

費用感として、インテックが提供するオンプレミス環境のローカルLLM導入支援は、最短1か月、参考価格500万円から提供されています。まずは一つの業務で効果を確かめてから広げるのが、失敗しないやり方です。

導入時の落とし穴：「オンプレミス＝安全」ではない

ローカルLLMの導入には、注意すべき落とし穴が4つあります。1つ目は、モデルを軽くしすぎると精度や日本語能力が落ちることです。2つ目は、AIがもっともらしい嘘を作る癖（ハルシネーション）はローカルでも消えないため、RAGで根拠づけを行う必要があります。3つ目は、サーバー費用やメンテナンスなどの初期コストと運用の手間がかかる点です。

そして4つ目が最も重要で、「社内に置いた＝安全」ではないということです。権限設計を怠ると、本来見えてはいけない給与や人事情報までAIが答えてしまう危険性があります。総務省・経済産業省の「AI事業者ガイドライン（第1.2版・2026年3月）」や金融庁の「AIディスカッションペーパー（第1.1版・2026年3月）」でも、オンプレミスであれば免責されるとは言っておらず、ガバナンスの整備が前提とされています。

まとめ

バックオフィスにおけるローカルLLMの活用について解説しました。本記事のポイントは以下の通りです。

ローカルLLMは“自社に住み込みのAI”。機密を出さず、止まらず、定額で使える。
モデルは目的とライセンス、手元で動くサイズで選ぶ。汎用ならQwen 3、機密や政府実績ならtsuzumi 2、業務文書ならStockmark。
権限設計と運用まで含めて、初めて安全なバックオフィスになる。「社内に置いた＝安全」ではない。

バックオフィスのBPO・AI内製化のご相談

「どのツールを入れるべきか」の棚卸し・診断から、現場で本当に使われる運用設計まで。経理・労務・採用・営業事務のBPO、AIガバナンス整備までご支援します。

資料を見る