初のLlama 3.1 405B微調整モデル「Hermes3」が登場 | romptn Magazine

初のLlama 3.1 405B微調整モデル「Hermes3」が登場

AIニュース

Nous Researchは8月15日、Meta社のオープンソース大規模言語モデルLlama 3.1 405Bを微調整した新モデル「Hermes 3」をリリースしました。Hermes 3は、長期的なコンテキスト保持、マルチターンの会話、複雑なロールプレイング、エージェント機能などの高度な機能を備えた初めての微調整(ファインチューニング)モデルとなります。

スポンサーリンク

Hermes 3の主な特徴

Hermes3の主な特徴は、以下の通りです。

  • Llama 3.1の8B、70B、405Bの各サイズで微調整
  • 高度な長期コンテキスト保持とマルチターン会話機能
  • 複雑なロールプレイングと内なる独白機能
  • 強化されたエージェント機能呼び出し
  • システムプロンプトへの正確な追従

Nous Researchによると、Hermes 3は主に合成生成されたデータセットでトレーニングされ、Llama 3.1と同等またはそれ以上のパフォーマンスを発揮するとしています。

Hermes 3の開発経緯

Hermes 3の開発は、Nous Researchの設立背景と密接に関連しています。Nous Researchは2023年に、カトリック教徒のコンピューター科学者ジェフリー・ケスネル氏、匿名の開発者Teknium1氏、投資家兼研究者のシヴァニ・ミトラ氏によって共同設立されました。

公式HP

2024年1月、Nous Researchは Distributed GlobalとOSS Capitalの共同主導により、520万ドルのシード資金を調達しました。この資金調達により、より大規模かつ高度なモデル開発が可能となり、Hermes 3の開発につながりました。

Hermes 3の開発では、「パーソナライズされた制限のないAI」の作成に重点が置かれました。これは、既存の大手企業が提供するAIモデルとは異なるアプローチです。Nous Researchは、安全性のために追加された制限を取り除き、より自由度の高いモデルを目指しました。

また、AIインフラ企業のLambdaとの提携も、Hermes 3の開発に重要な役割を果たしたといいます。Lambdaは1クリッククラスターアクセスを提供し、大規模なモデルトレーニングを可能にしました。

Hermes 3の評価結果に関する議論も

Hermes 3の評価結果については、一部の専門家から疑問の声が上がっています。AI研究者のネイサン・ランバート氏は、Hermes 3とLlama 3.1の公式ベンチマーク結果に大きな差があることを指摘し、評価方法の標準化の必要性を訴えています。

ランバート氏は、「フロンティアモデルの評価は芸術であり科学でもあります」と述べ、評価方法の透明性と再現性の重要性を強調しています。

Hermes 3のトレーニングの詳細

Hermes 3のトレーニングには、約10億トークンの大規模なデータセットが使用されました。このうち69%が出力トークンで、モデルの勾配ステップに使用されています。Nous Researchは、データフィルタリングと準備に特に注力したとしています。

また、GPUメモリ節約のため、DPO (Direct Preference Optimization) トレーニングにはLoRAアダプターが使用されました。

今後の展望

Hermes 3の登場は、オープンソースAIモデルの進化を示すとともに、大規模言語モデルの評価方法や、モデルの規模拡大に伴う予期せぬ挙動など、新たな議論を呼び起こしています。

今後、こうした課題への取り組みがAI研究の重要なテーマになると考えられます。