人工知能(AI)の発展に欠かせない大規模言語モデル(LLM)のトレーニングに、質の高い大量のデータが必要不可欠であることは周知の事実です。
しかし、現実世界のデータには偏りや不正確な情報が含まれていることが多く、また量的な限界もあるため、LLMの性能向上には課題が残されていました。
そんな中、アメリカの半導体大手NVIDIAが、この問題を解決する画期的な合成データ生成モデルシリーズ「Nemotron-4 340B」を発表し、業界に大きな衝撃が走っています。
合成データ生成モデル「Nemotron-4 340B」の発表
アメリカの半導体大手NVIDIAは、大規模言語モデル(LLM)のトレーニングに活用できる革新的な合成データ生成モデルシリーズ「Nemotron-4 340B」を公開しました。
このモデルは、独自のオープンモデルライセンスに基づいており、あらゆる業界の商用アプリケーション向けLLMの開発に必要なデータセットを効率的に生成することが可能です。
LLMの性能を向上させるには、質の高い多様なデータでのトレーニングが重要ですが、インターネット上から収集したデータには偏りや不正確な情報が含まれている可能性があり、量的な限界もあります。そこで、合成データの生成技術が注目を集めています。
「Nemotron-4 340B」は、base、instruct、rewardの3つのモデルで構成されています。
- baseモデルは9兆個のトークンでトレーニングされた基盤モデルで、ユーザー独自のデータを組み込んでカスタマイズできます。
- instructモデルは現実世界のデータの特性を模倣した多様な合成データを生成します。
- rewardモデルは生成された出力の品質を評価して、高品質な応答を促進します。
NVIDIAによると、このモデルは8つのGPUを搭載した単一のDGX H100に収まるサイズに最適化されており、オープンソースフレームワークのNvidia NeMoとNvidia TensorRT-LLMライブラリを使用した推論に適しています。すべてのデータはHuggingfaceから入手可能とのことです。
この画期的な合成データ生成モデルの登場により、LLMの開発におけるデータ不足の問題が解消され、より高性能なAIシステムの構築が加速されることが期待されています。