Weights & Biases Japan株式会社は、日本語の言語理解と生成能力を評価する新バージョンのLLMリーダーボード「Nejumi LLMリーダーボードNeo」を公開しました。
このAIニュースのポイント
- Nejumi LLMリーダーボードNeoは、日本語の言語理解と生成能力を多角的に評価することを可能にします。
- 35以上の大規模言語モデル(LLM)の評価結果が閲覧可能で、GPT-4やGemini Proなどの商用モデルや、Llama2に基づくオープンモデルが含まれています。
- リーダーボードの詳細と使い方は、2024年1月24日に開催されるウェビナーで解説されます。
Weights & Biases Japan株式会社(以下、W&B Japan)は、2023年7月より日本最大級のLLM日本語能力ランキング、Nejumi LLMリーダーボードの運営を行っており、その新バージョンとして「Nejumi LLMリーダーボードNeo」を公開しました。このアップデートでは、日本語の理解能力と生成能力の双方を多角的に評価する新たなフレームワークが開発されました。現在、GPT-4やGemini Proなどの商用モデルや、Llama2に基づくオープンモデルなど、35を超える大規模言語モデル(LLM)の評価結果を閲覧できます。
現在、世界中で多くのLLMが公開され、その勢いは2024年にも続いています。国内では日本語性能の向上を目的とした開発が行われており、LLMのユースケースは幅広いと言えます。
そのLLMの評価には、これまで以上に幅広い評価項目が必要であり、特定のタスクにチューニングされたモデルが他のタスクでは性能を発揮できないことがあるため、一面的な性能評価では不十分と言われていました。しかし「Nejumi LLMリーダーボードNeo」では、JGLUEの拡張版と言えるJasterデータセットやJapanese MT-Benchなどを使用して、より包括的なモデル評価を行うことができます。
このリーダーボードでの評価フレームワークは、GitHub上に公開されており、結果を非公開に設定しながら自社のモデルを評価することも可能です。
出典: PRTimes