イーロン・マスクが設立したAI企業xAIは、大規模言語モデル(LLM)の最新バージョン「Grok-2」および軽量版「Grok-2 mini」を2024年8月14日に発表しました。
この新モデルは、チャット、コーディング、推論能力が大幅に向上し、さらに画像生成機能も搭載しています。
該当のリリースはこちら:Grok-2 Beta Release -xAI Blog
Grok-2の主な特徴
Grok-2の概要や特徴を簡単にまとめるとこちらです。
- 性能向上:xAIによると、Grok-2は一部のベンチマークでGPT-4 TurboやClaude 3.5 Sonnetを上回る性能を示しています。
- 画像生成機能:ドイツのスタートアップBlack Forest Labsと提携し、FLUX.1モデルを使用して高品質な画像生成が可能になりました。
- リアルタイム情報: Xプラットフォーム(旧Twitter)からのリアルタイム情報を統合しています。
- 2つのバージョン
- Grok-2: フル機能版(リアルタイムデータの統合能力と、テキストおよび画像の両方に対する高度な理解力を持つ)
- Grok-2 mini: 速度と回答品質のバランスを重視した軽量版
Grok-2及びGrok-2 miniは現在、Xのプレミアムおよびプレミアムプラスユーザーがベータ版を利用できます。
2024年8月後半には、エンタープライズAPIを通じて開発者向けに提供される予定です。
Grok-2の性能評価
Grok-2は特に性能向上が目立っており、数学、読解、チャット、プログラミング、論理的思考の分野でGrok-1.5から大幅に強化されています。
特筆すべきは、視覚情報処理能力の飛躍的な進歩です。例えば、画像を用いた数学的推論タスク(MathVista)や、文書内の視覚情報を基にした質問応答(DocVQA)において、優れた結果を示しています。
また、Grok-2の初期バージョンは、LLM評価プロジェクト「Chatbot Arena」で匿名テストを受け、以下の結果を示しました。
総合評価 | 3位【GPT-4oと同等】 |
数学 | 2位 |
コーディング | 2位 |
難しいプロンプト | 4位 |
xAIは、MMLU(Massive Multitask Language Understanding)やMATHなどのベンチマークでも評価を行い、前身のGrok-1.5を上回る性能を示したとしています。
Grok-2の画像生成機能の特徴
Black Forest Labs開発の画像生成AI「FLUX.1」モデルが試験的に導入されました。この機能は、他の主要なAIツールと異なり、公人や政治家の画像生成に関する厳しい制限がないことが特徴です。
下記ポストのように、早速ドナルド・トランプ元大統領のAI画像が生成されたりしているようです。
これにより、ユーザーは様々な種類の画像を生成できますが、同時に誤情報の拡散リスクも高まる可能性があります。イーロン・マスク氏の主張によると、「チャットボット自体は、ポルノや過度に暴力的、著作権で保護されたコンテンツは生成しない」と言います。
このようにイーロン・マスク氏は、AIに対する過度の制限は逆効果だと主張していますが、この姿勢は規制当局や他のテクノロジー企業との摩擦を生む可能性があります。
規制上の課題
Grok-2の安全対策の欠如は、xAIとXプラットフォーム(旧Twitter)に規制上の問題をもたらす可能性があります。そのため、以下のような措置が考えられています。
- 米国では、AIによる偽造や偽情報を規制する法案が検討されています。
- 欧州委員会は、デジタルサービス法違反の疑いでXを調査中です。
- 英国のOfcomも、オンライン安全法の施行を準備しており、AI生成コンテンツに影響を与える可能性があります。
今後の展開
xAIは近日中に、マルチモーダル理解機能のプレビューをXプラットフォームとAPI上でリリースする予定です。これにより、テキスト、画像、その他のデータ形式を統合的に理解・処理する能力が強化されると期待されています。
Grok-2は高度な言語処理能力と画像生成機能の統合は、AIアシスタントの新たな可能性を切り開く一方で、コンテンツの真正性や情報の信頼性に関する課題も提起しています。今後のAI技術の発展と、その社会的影響について注目が集まりそうです。