プログラミング言語「Zig」の学習教材を、いくつかのAIモデルに解説させてみました。
同じファイル、同じ質問。返ってきた答えの質がここまで違うとは思いませんでした。
■ 今回試したモデルについて
今回はすべてOllamaというツールを使って動かしています。
Ollamaには「ローカル実行」と「クラウド実行」の2種類があります。
・ローカル: 自分のPCのGPUで動かす。データが外に出ない。GPUの性能に依存
・クラウド(-cloudタグ): Ollamaのサーバーで動かす。大きいモデルも使える。無料枠がある。
今回の4モデルの動作環境はこうなります。(括弧内の数値はパラメータ数)
・GLM-5.1-cloud (754B) … クラウド実行のみ(ローカル非対応)
・Gemma4:31b-cloud (31B)… クラウド実行
・Gemma4:e4b (4B) … ローカル実行
・Qwen3.5:9b (9B) … ローカル実行
GLM-5.1は中国のZhipu AI社が開発した最新モデルで、MITライセンスで公開されています。
ソフトウェアエンジニアリングのベンチマーク(SWE-Bench Pro)では、Claude Opus 4.6やGPT-5.4を上回り世界1位のスコアを記録しています。
最大の特徴は「長時間タスクで性能が落ちない」こと。
他のモデルが数十回のやり取りで頭打ちになるところ、GLM-5.1は数百回の反復でも改善を続けられるとされています。
■ やったこと
Zigの公式学習教材「Ziglings」の問題を、エディタ上でAIに詳しく解説するように指示。
お題は「コンパイル時にジェネリック関数を作る」という中級テーマです。
■ 結果
■ 1位: GLM-5.1 — 先生レベル
・8ステップの段階的な解説
・比較表で他の言語との違いを整理
・コードの1行ごとに「なぜこう書くのか」を説明
・コンパイラが裏で何をしているかを、具体的なコード例で図示
「教科書を書ける人が教えてくれた」という感覚でした。
■ 2位: Gemma4(31B) — 優秀な講師
・無駄のない3ステップ構成
・要点を正確に押さえている
・初学者がつまずくポイント(型変換など)もカバー
GLM-5.1ほどの深さはないものの、十分実用的。
■ 3位: Gemma4(4B) — 要約上手
・大枠の説明は正確
・ただし詳細をスキップしがち
・「わかっている人向けの要約」という印象
間違いはないけれど、これだけで理解するのは難しい。
■ 4位: Qwen3.5(9B) — 惜しい
・構成は悪くない
・ただし実行結果の予測を間違えた
・重要な概念(単相化)の用語が出てこない
表面的には整っているが、中身の正確性に不安が残りました。
■ わかったこと3つ
【1】モデルの大きさは正義
パラメータ数が大きいほど、説明の「深さ」と「具体性」が違いました。
GLM-5.1(754B)が圧勝するのも納得です。
Gemma4同士でも4B vs 31Bで明確な差が出ます。
【2】しかしパラメータ数だけじゃない
Qwen3.5は9Bあるのに、4BのGemma4に負けました。
モデルの設計や学習データの質も大きく影響します。
【3】クラウド vs ローカルの差も大きい
上位2モデルはどちらもクラウド実行です。
ローカルで動かせるサイズには限界があり、品質に直結します。
ただしローカルにはデータが外に出ないという大きなメリットがあります。
■ まとめ
AIにプログラミングを教えてもらうのは十分実用的です。
ただし、モデル選びで学習効率が大きく変わります。
「AIを使いたいけど、どのモデルを選べばいいかわからない」
「自分の業務に合ったAIの使い方を知りたい」
そんな方は、お気軽にご相談ください。
目的に合ったAI選びと活用方法をご提案します。