【Google Gemma 4 をローカルで動かしてみた — 翻訳・構造化出力・Function Callingで使ってみた】
Google DeepMindがオープンモデル「Gemma 4」をリリースしました。前世代のGemma 3から大幅に進化し、ライセンスもApache 2.0に変更。商用利用の制限が完全に撤廃されました。今回、ローカル環境(VRAM 12GBのGPU)で実際に動かし、業務で使えるかテストした結果をまとめます。【モデルラインナップ】Gemma 4は4つのバリエーションがあります。・E2B(7.2GB):軽量・高速。テキスト+画像+音声対応・E4B(9.6GB):バランス型。テキスト+画像+音声対応・26B MoE(18GB):128専門家中8つを選択して推論。動画対応・31B Dense(20GB):最高性能。「E」は「effective」の略で、総パラメータ数より少ないパラメータで効率的に推論します。VRAM 12GBの環境ではE2BとE4Bが動作可能です。26B以上はVRAM 12GBでは厳しく、クラウド推論か大容量VRAM向けです。【テスト環境】・OS: NixOS unstable・GPU: RTX 4070 VRAM 12GB・ローカルLLM 実行環境: Ollama 0.20.0(Gemma 4対応版)・比較対象: translategemma:12b(Google翻訳特化モデル)【テスト1: 英語記事の日本語要約】英語ニュース記事を「2〜3文で日本語に要約して」と指示した結果です。・E4B:正確で自然な日本語。情報の取捨選択も適切・E2B:正確で簡潔。E4Bよりやや情報量が少ない・translategemma:12b(比較用):正確で簡潔。翻訳特化モデルとしての安定感
0