2023年12月、Googleは革新的な大規模言語モデル「Gemini」を発表しました。Geminiは、従来のAIモデルとは一線を画す高度な能力で、検索、要約、翻訳、画像生成など、様々なタスクをこなすことができます。
さらに、2024年2月には、Geminiの技術を活用した軽量版LLM「Gemma」が公開されました。Gemmaは、商用利用も可能なオープンなAIモデルとして注目を集めています。
本記事では、Google GeminiとGemmaについて詳しく解説し、特にGemmaの商用利用について詳細な情報を提供します。
Google Geminiとは?

Geminiの概要
Google Geminiは、Google AIが開発した最先端のLLMです。膨大なデータセットで訓練されており、以下のような様々なタスクをこなすことができます。
- 自然言語処理(NLP):文章生成、要約、翻訳、質問応答など
- 画像生成:テキストや簡単な絵からリアルな画像を生成
- コード生成:簡単な指示からコードを自動生成
- マルチモーダル:画像や音声の入力から物体識別やテキスト化など
Geminiには多様なニーズに対応するための複数モデルが用意されています。Ultra, Pro, Nanoの3サイズのモデルです。
また、先ごろ発表されたGemini 1.5は次世代版モデルで、コンシューマ向けチャットボットサービスにも「Gemini」という名称が使用されています。それぞれが何を意味するのか正しく理解するために、以下で説明します。
Gemini Ultra
非常に複雑なタスクに対応する、最も有能かつ最大のモデルです。規模の大きなモデルであるが故に動作環境に制約が多く、豊富なコンピューティング資源を有するクラウド環境での利用が想定されています。
チャットボットサービスGemini Advanced用のLLMとして使用されています。
Gemini Pro
中規模の企業やプロフェッショナル向けに設計されたモデルで、コストパフォーマンスに優れています。幅広いタスクへの適用が可能で、幅広いビジネスシーンでの利用が想定されています。
チャットボットサービスGemini(旧Bard)用のLLMとして使用されています。
Gemini Nano
オンデバイスタスク向けの最も軽量で効率的なモデルです。コンピューティング資源が乏しい環境での利用が想定されています。
2023年12月発表のPixel 8 Proに搭載され、レコーダーの要約やGboard のスマートリプライ機能で使用されています。
Gemini 1.5
2024年2月に発表されたGeminiの次世代モデルです。 前述のUltra, Pro, Nanoはいずれもバージョン1.0であり、次世代のGemini1.5においてもサイズが異なる複数モデルが登場する可能性があります。
Gemini 1.5は、最大100万トークン(10万文字の書籍約80冊分)まで読み取れる能力を持ち、動画なら3時間、音声なら22時間の読み取りが可能という、既存のLLMを凌駕する驚異的スペックを備えることで注目されています。
サービス名称としてのGemini
また、「Gemini」はコンシューマ向けチャットボットサービスの名称としても使用されています。以前のBardという名称からGeminiに改称されました。サービスとしては2つのGeminiが提供されています。
サービス名 | 使用LLM |
---|---|
Gemini(旧 Bard) | Gemini Pro |
Gemini Advanced | Gemini Ultra |
Geminiの料金プラン
サービスとして提供されるGeminiの料金プランは以下の通りです。Gemini Advancedは、「Goole One AIプレミアム」というサブスクリプションプランに加入することで利用可能になります。
サービス名 | 料金 | 内容 |
---|---|---|
Gemini(旧 Bard) | 無料 | Gemini Pro LLMを使用したチャットボットサービス |
Google One AIプレミアム | 2,900円/月 | Gemini Advanced 2TBの保存容量 Gmail, GoogleドキュメントなどのGemini 他 |
Geminiでできること
Geminiは様々なタスクの実行が可能で、以下のような主要な機能を備えています。
- 自然言語処理(NLP):
- 文章生成:ブログ記事、広告文、商品説明文など、様々な文章を自動生成できます。
- 要約:長い文章を短くまとめて重要なポイントを抽出できます。
- 翻訳:複数の言語間で高精度な翻訳ができます。
- 質問応答:質問に対して正確な回答を導き出すことができます。
- ネット検索:必要な情報の取得や、生成した文章の再認識(ダブルチェック)ができます。
- 画像生成:
- テキストや簡単な絵からリアルな画像を生成できます。
- 画像編集:既存の画像を編集したり、新しい要素を追加したりできます。
- コード生成:
- 簡単な指示からコードを自動生成できます。
- プログラミング初心者でも簡単にコードを書くことができます。
- マルチモーダル:
- 画像入力:画像分類、物体検出、画像キャプション生成などができます。
- 音声入力:音声のテキスト変換、テキストの音声変換、翻訳などができます。
Google Geminiで生成した画像の商用利用・ビジネス利用について
Geminiで生成した画像の商用利用・ビジネス利用は原則的には可能です。ただし、Geminiの画像生成には高い自由度があるため、生成物の使用にあたっては個別の判断が必要になります。具体的には著作権の侵害にあたる画像や、倫理上の問題を含む画像が生成され得ます。
先日も、Gemini Proが生成した画像に問題があったとして、人物の生成機能の停止措置が取られたばかりです。
参考:Geminiの画像生成機能が停止中 ダイバーシティ過剰適応問題対策で – ITmedia NEWS
これに対して、ChatGPTの画像生成モデル(DALL-E 3)は問題が生じ得る画像の生成は制限されています。自由度の高さを選ぶか、安全性を選ぶかに応じて、使用するサービスを使い分けることを推奨します。
【Gemma】商用利用可能な生成AI?

Gemmaとは?
GemmaはGeminiと同じ技術を活用した軽量版LLMです。Geminiよりも軽量で扱いやすく、商用利用可能なオープンモデルとして公開されました。軽量さを活かしてノートPCやワークステーション、Google Cloud上で実行することができます。
Geminiと同じ技術を使用しているGemmaは、Geminiと同様のタスクをこなす能力を備えています。例えば、文章生成、要約、翻訳、画像生成などです。
Googleは2つのモデルウェイト「Gemma 2B」「Gemma 7B」を公開しており、それぞれに対して「事前学習済みモデル」「インストラクション・チューニング済みモデル」のバリアントがリリースされています。
「事前学習済みモデル」は個人情報などを除外した学習データを使用した安全性の高いモデル、「インストラクション・チューニング済みモデル」は特定のタスクに絞ったモデルです。
Gemmaでは商用利用が可能?
Gemmaはオープンモデルとして公開されており、商用利用が可能です。ライセンス料や使用料は不要です。規模に関わらず、全ての組織に対して責任ある商用利用と配布が許可されています。
また、開発者や研究者向けツールキット「Responsible Generative AI Toolkit」、主要フレームワーク用のチュンツール「Keras 3.0」もあわせて発表しており、Gemmaを使用してアプリケーション構築をする際のサポートにも力を注いでいます。
すぐに使えるColab、Kaggleノートブックに加えて、Hugging Face、MaxText、NVIDIA NeMo、TensorRT-LLMにも統合されており、簡単に使い始める環境も整っています。
Gemmaの使い方を解説!
このセクションではGemmaの使い方を解説します。様々な使用方法のうち、ここではGemmaで作られたチャットボットのデモを例に解説します。実際に使ってみることで、Gemmaの性能や機能性を確認することができます。
HuggingChat
HuggngChatはHuggng Face上に作られたチャットボットのデモです。サイトにアクセスすれば、WebインタフェースからGemmaを使用することができます。
このチャットボットで使用しているモデルは「Gemma-7b-it」、つまりサイズ7Bのインストラクション・チューニング済みモデルです。
アカウント登録
HuggingChatでは、チャットを数回行うとHugging Faceへのアカウント登録が求められます。最初にアカウント登録しておくのが良いでしょう。メールアドレスで登録できます。

HuggingChat

モデル名が「Gemma-7b-it」と表示されています。インタフェースはChatGPTなどのチャットボットと同様です。
日本語能力の確認
まずは手始めに、日本語をどの程度理解できるのか確認してみます。次の日本語プロンプトを入力してみました。
私:
HuggingChat:
いっけん正しそうな日本語の回答を得られましたが、よく見るとあやしい言い回しや英語のままの単語が散見されます。そして「varje人」という意味不明な言葉も含まれています。
日本語への最適化はなされていないことが予想されるため、以下の会話ではすべて英語で行うことにします。
文章生成
私:(顧客から弊社のサービスに対するクレームがありました。返信メールを生成してください。)
HuggingChat:
DeepL翻訳:
こちらの文書生成の例では、必要十分な回答を得ることができました。
数学の問題
私:(1から100までの素数を列挙してください。)
HuggingChat:
残念ながら、素数ではない数値が大量に含まれています。数学に関する質問が不得手なモデルかのかもしれません。
プログラミング
私:(1から100までの数を出力するPythonコードを書いてください。ただし、3の倍数の時は “Fizz”、5の倍数の時は “Buzz”、両方の倍数の時は “FizzBuzz” を出力してください。)
HuggingChat:
簡単な問題ですが、プログラミングにおいては正答が得られました。
ここに挙げた例すべての会話において、応答の速さを実感することができました。ChatGPT (GPT-4)に比べても非常に高速です。プロンプトがシンプルなことだけでなく、Gemmaのモデルが軽量であることも高速である理由と考えられます。
一方で、誤った回答をすることがあり、それが分野の得意・不得意に関わるものなのか、あるいは学習データの偏りによるものなのかまでの判断まではできませんでした。発表されたばかりということもあり、今後評価が進むものと思われます。
【Google Gemini】「Gemma」の商用利用のまとめ
いかがでしたでしょうか?この事では、Google GeminiとGemmaについて紹介し、特にGemmaの商用利用に焦点を当てて解説しました。
今回のポイントをまとめると、以下のようになります。
- GemmaはGeminiと同じ技術で開発された軽量版LLM
- 商用利用可能なオープンモデルを採用
- すべての組織が無償で利用することができる
- デモで試用した限り多くの場合に正答が得られたが誤回答することもあった
Googleをはじめ各社のAI関連リリースが相次ぐなか、大量の情報を正しく理解することがAI活用においては必須といえます。この記事がその一助になれば幸いです。