【DeepSeek超え?】中国アリババ、Qwen2.5-Maxを発表 | romptn Magazine

【DeepSeek超え?】中国アリババ、Qwen2.5-Maxを発表

AIニュース

中国のテクノロジー大手アリババが最新のAIモデル Qwen2.5-Max を発表しました。このモデルは、20兆以上のトークン で事前学習された大規模なMixture of Experts(MoE)モデル であり、現在の業界トップクラスのモデルと比較しても高い性能を誇ります。

特に、最近話題になっている DeepSeek V3(DeepSeek R1)との比較が注目されています。

本記事では、Qwen2.5-Maxの特徴、ベンチマーク結果を見つつ、実際に使用して試して見た結果をレポートします。

スポンサーリンク

ベンチマークテストでDeepSeek V3を超えた?

Qwen2.5-Maxは、以下の主要なベンチマークテストで DeepSeek V3を上回るパフォーマンス を記録したといいます。

モデルのベンチマーク結果

アリババのリリースより

以下のベンチマークテストでは、Qwen2.5-MaxがDeepSeek V3を超えるスコアを示しました。

  • Arena-Hard
  • LiveBench
  • LiveCodeBench
  • GPQA-Diamond

さらに、一般知識の理解力を測る MMLU-Pro でも競争力のあるスコアを記録しています。

基盤モデルの比較

アリババのリリースより

基盤モデルの性能では、Qwen2.5-Maxは以下のモデルよりも高いスコアを達成 しています。

  • DeepSeek V3
  • Llama-3.1-405B(Metaが提供する最大のオープンソース稠密モデル)
  • Qwen2.5-72B(Qwenシリーズの従来モデル)

これにより、Qwen2.5-Maxは現時点でオープンソースの中でもトップクラスのAIモデルであることが証明されたとアリババは主張しています。

Qwen2.5-Maxの利用方法

Qwen2.5-Maxは、 APIを通じてアクセス可能であり、Qwen Chatを利用することで直接対話を行うこともできます。

特筆すべきは、APIがOpenAI APIと互換性がある という点です。つまり、OpenAIのAPIを使用している開発者は、ほぼそのままのコードでQwen2.5-Maxを利用できる という利便性があります。

これにより、多くの開発者が手軽にQwen2.5-Maxを試すことが可能です。

実際にQwen2.5-Maxを試してみた

利用は簡単で、アリババが提供する「Qwen Chat」でアカウントを作成するだけです。

Qwenの画面

早速、いくつか試してみましょう。

今回は、数学的な思考力と、日本語の言語力についてテストしてみます。

東大数学は解ける?

まずは、2024年の東大理系数学の第一問について聞いてみました。

ちなみに、ChatGPT-4oも解くことができますが、途中式を省略していたり、(1)をすっとばして最後の問題のみ答えを出してしまうことがあります。(ChatGPT-o1は完璧に回答できます。)

ちなみに、最新モデルはo1同様、画像の読み込みが制限されていたので、軽量モデルで問題文のスクリーンショットを読み取りさせてから、それをコピペして聞いています。

すると、以下のように回答してくれました。

途中式が丁寧だったので省略していますが、完璧な形で回答してくれました。採点したらこれは満点だと思います。

数学力と、論理的な説明力はかなり高そうです。

謎掛けをさせてみた

では、「言葉のあや」を利用した謎掛けはどうでしょうか?

実は、謎掛けはかなりレベルが高く、推論のレベルが高くないとなかなかAIにはできないです。

どうでしょうか?ちょっとできてないですね。もちろん、こちらの方で教え込めばできるかもしれないですが、「謎掛け」という文化から実際にうまい謎掛けをするところまではなかなか難しいようです。

ちなみに、ChatGPTの最新モデル「o1」にさせてみると以下のようになります。

いかがでしょうか?ちょっと微妙なものもありますが、(2)のカレンダーなどは上手ですよね。

言語能力の観点だと、o1のほうが優れていると言えそうです。

※本調査は、あくまで一つの尺度に過ぎませんのでご注意ください。

今後の展望:AIは人間の知能を超える?

アリババの Qwenチームは今後、事前学習のスケーリングに加え、強化学習のスケーリングにも注力する と発表しています。

この取り組みにより、AIが より高度な判断を下せるようになり、最終的には人間の知能を超えるレベルに達する可能性もあるとのことです。

Qwen2.5-Maxは、DeepSeek V3やLlama-3.1-405Bと並ぶ新たなオープンソースAIモデルの中でも、最も先進的なものの一つとなっていくかもしれません。

ただ、DeepSeek同様、中国にデータが保存されてしまう問題や、中国当局の検閲の問題もあるため、なかなかビジネスの情報が入った利用は難しいかもしれません。

まとめ

本記事をまとめると、

  • Qwen2.5-Max20兆トークン以上 で事前学習された 大規模MoEモデル
  • DeepSeek V3を超えるパフォーマンス を主要なベンチマークで記録
  • Llama-3.1-405BやQwen2.5-72Bよりも優れた結果
  • OpenAI API互換のAPIで利用可能
  • 今後は強化学習のスケーリングにも注力し、AIの知能をさらに向上させる計画

romptnは参考になるAIのニュースを発信していますので、ぜひ他の記事もご覧ください。