DeepSeek、OpenAIのデータを利用して学習か | romptn Magazine

DeepSeek、OpenAIのデータを利用して学習か

AIニュース

中国のAIスタートアップであるDeepSeekが、OpenAIの技術から不正にデータを取得した疑いが浮上しています。これに対し、MicrosoftとOpenAIが共同で調査を進めていることが明らかになりました。

本記事では、この問題の詳細や影響について解説します。

DeepSeekのモデルについて知りたい方は以下の記事をご覧ください。

スポンサーリンク

DeepSeekによるデータ流出の疑い

Microsoftのセキュリティ研究者は、DeepSeekに関連すると思われる人物が、OpenAIのAPIを利用して大量のデータを流出させていることを観測しました。

OpenAIのAPIは、開発者がAIモデルを統合するためにライセンス契約のもと利用するものですが、今回の件は利用規約に違反する可能性が指摘されています。

この活動に関し、DeepSeekがデータ取得制限を回避するために何らかの方法を用いた可能性もあり、調査が進められています。

DeepSeekのAIモデル「R1」とアメリカ市場への影響

DeepSeekは最近、オープンソースAIモデル「R1」を発表しました。このモデルは、数学的タスクや一般知識において、OpenAIやGoogle、Metaといったアメリカの主要AI企業の製品と同等か、それ以上の性能を発揮するとされています。

この発表が市場に与えた影響は大きく、Microsoft、Nvidia、Oracle、GoogleなどのAI関連株が下落し、その時価総額は約1兆ドル減少しました。

ディスティレーション技術による疑惑

トランプ大統領のAI担当顧問であるDavid Sacks氏は、DeepSeekがOpenAIのモデル出力を利用して自社のAIを開発した「実質的な証拠」があると述べています。

ディスティレーションとは、あるAIモデルの出力を別のモデルのトレーニングデータとして活用し、類似の能力を持つAIを開発する技術です。OpenAIも、中国のグループがこの技術を用いてアメリカの先進的なAIモデルを複製しようとしていると警戒を強めています。

DeepSeek側は、R1の開発において他のオープンソースモデルを基にディスティレーションを行ったと主張しており、OpenAIのクローズドシステムとは異なる手法を採用したと説明しています。しかし、具体的な証拠やデータの流出経路については依然として不明です。

ディストーションは、OpenAIの規約に違反する可能性があるとはいえ、AIビジネスではかなり一般的なコスト削減手法です。 (OpenAIとその同業他社は、ほぼ間違いなく、許可なく他人のオンラインデータを大量に使ってモデルを訓練している)

規制強化の可能性と今後の展開

この問題を受け、トランプ米大統領に次期商務長官候補に指名されたハワード・ラトニック氏は「DeepSeekは正当な手段を用いていない」として、AI技術の開発・利用に関する規制を強化するべきだと提唱しています。

OpenAIは現在、DeepSeekのデータ取得方法を精査し、違反があった場合には法的措置を含めた対応を検討するとしています。今後の調査結果次第では、AI技術の国際的なルールや倫理規定に関する議論が加速する可能性があります。

まとめ

本ニュースをまとめると、以下のようになります。

  • DeepSeekがOpenAIのデータを不正取得した疑いでMicrosoftとOpenAIが調査を進めている。
  • DeepSeekのAIモデル「R1」はアメリカの大手企業の製品と同等以上の性能を発揮し、市場に影響を与えた。
  • ディスティレーション技術を利用したAI開発の疑惑があり、AI技術の倫理的な利用が問われている。
  • AI技術の不正利用に対する規制強化が求められており、今後の動向が注目される。

この問題はAI業界全体に影響を及ぼす可能性があり、引き続き注意深く見守る必要があります。