GLM-5.1 vs Gemma 4 — AIにプログラミングを教えてもらったら実力差がエグかった

記事
IT・テクノロジー
プログラミング言語「Zig」の学習教材を、いくつかのAIモデルに解説させてみました。
同じファイル、同じ質問。返ってきた答えの質がここまで違うとは思いませんでした。

■ 今回試したモデルについて


今回はすべてOllamaというツールを使って動かしています。
Ollamaには「ローカル実行」と「クラウド実行」の2種類があります。

・ローカル: 自分のPCのGPUで動かす。データが外に出ない。GPUの性能に依存
・クラウド(-cloudタグ): Ollamaのサーバーで動かす。大きいモデルも使える。無料枠がある。

今回の4モデルの動作環境はこうなります。(括弧内の数値はパラメータ数)

・GLM-5.1-cloud (754B) … クラウド実行のみ(ローカル非対応)
・Gemma4:31b-cloud (31B)… クラウド実行
・Gemma4:e4b (4B) … ローカル実行
・Qwen3.5:9b (9B) … ローカル実行

GLM-5.1は中国のZhipu AI社が開発した最新モデルで、MITライセンスで公開されています。
ソフトウェアエンジニアリングのベンチマーク(SWE-Bench Pro)では、Claude Opus 4.6やGPT-5.4を上回り世界1位のスコアを記録しています。
最大の特徴は「長時間タスクで性能が落ちない」こと。
他のモデルが数十回のやり取りで頭打ちになるところ、GLM-5.1は数百回の反復でも改善を続けられるとされています。


■ やったこと


Zigの公式学習教材「Ziglings」の問題を、エディタ上でAIに詳しく解説するように指示。
お題は「コンパイル時にジェネリック関数を作る」という中級テーマです。


■ 結果


■ 1位: GLM-5.1 — 先生レベル

・8ステップの段階的な解説
・比較表で他の言語との違いを整理
・コードの1行ごとに「なぜこう書くのか」を説明
・コンパイラが裏で何をしているかを、具体的なコード例で図示

「教科書を書ける人が教えてくれた」という感覚でした。


■ 2位: Gemma4(31B) — 優秀な講師

・無駄のない3ステップ構成
・要点を正確に押さえている
・初学者がつまずくポイント(型変換など)もカバー

GLM-5.1ほどの深さはないものの、十分実用的。


■ 3位: Gemma4(4B) — 要約上手

・大枠の説明は正確
・ただし詳細をスキップしがち
・「わかっている人向けの要約」という印象

間違いはないけれど、これだけで理解するのは難しい。


■ 4位: Qwen3.5(9B) — 惜しい

・構成は悪くない
・ただし実行結果の予測を間違えた
・重要な概念(単相化)の用語が出てこない

表面的には整っているが、中身の正確性に不安が残りました。


■ わかったこと3つ


【1】モデルの大きさは正義

パラメータ数が大きいほど、説明の「深さ」と「具体性」が違いました。
GLM-5.1(754B)が圧勝するのも納得です。
Gemma4同士でも4B vs 31Bで明確な差が出ます。

【2】しかしパラメータ数だけじゃない

Qwen3.5は9Bあるのに、4BのGemma4に負けました。
モデルの設計や学習データの質も大きく影響します。

【3】クラウド vs ローカルの差も大きい

上位2モデルはどちらもクラウド実行です。
ローカルで動かせるサイズには限界があり、品質に直結します。
ただしローカルにはデータが外に出ないという大きなメリットがあります。


■ まとめ


AIにプログラミングを教えてもらうのは十分実用的です。
ただし、モデル選びで学習効率が大きく変わります。

「AIを使いたいけど、どのモデルを選べばいいかわからない」
「自分の業務に合ったAIの使い方を知りたい」

そんな方は、お気軽にご相談ください。
目的に合ったAI選びと活用方法をご提案します。



サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す ココナラコンテンツマーケット ノウハウ記事・テンプレート・デザイン素材はこちら