DeepSeek、OpenAIのデータを利用して学習か

中国のAIスタートアップであるDeepSeekが、OpenAIの技術から不正にデータを取得した疑いが浮上しています。これに対し、MicrosoftとOpenAIが共同で調査を進めていることが明らかになりました。

本記事では、この問題の詳細や影響について解説します。

DeepSeekのモデルについて知りたい方は以下の記事をご覧ください。

DeepSeekによるデータ流出の疑い

Microsoftのセキュリティ研究者は、DeepSeekに関連すると思われる人物が、OpenAIのAPIを利用して大量のデータを流出させていることを観測しました。

OpenAIのAPIは、開発者がAIモデルを統合するためにライセンス契約のもと利用するものですが、今回の件は利用規約に違反する可能性が指摘されています。

この活動に関し、DeepSeekがデータ取得制限を回避するために何らかの方法を用いた可能性もあり、調査が進められています。

たった2時間の無料セミナーで
会社に依存しない働き方＆AIスキル
を身につけられる！

今すぐ申し込めば、すぐに
月収10万円UPを目指すための
超有料級の12大特典も無料！

DeepSeekは最近、オープンソースAIモデル「R1」を発表しました。このモデルは、数学的タスクや一般知識において、OpenAIやGoogle、Metaといったアメリカの主要AI企業の製品と同等か、それ以上の性能を発揮するとされています。

この発表が市場に与えた影響は大きく、Microsoft、Nvidia、Oracle、GoogleなどのAI関連株が下落し、その時価総額は約1兆ドル減少しました。

たった2時間のChatGPT完全入門無料セミナーで ChatGPTをフル活用するためのAIスキルを身につけられる！

今すぐ申し込めば、すぐに
ChatGPTをマスターするための
超有料級の12大特典も無料！

トランプ大統領のAI担当顧問であるDavid Sacks氏は、DeepSeekがOpenAIのモデル出力を利用して自社のAIを開発した「実質的な証拠」があると述べています。

ディスティレーションとは、あるAIモデルの出力を別のモデルのトレーニングデータとして活用し、類似の能力を持つAIを開発する技術です。OpenAIも、中国のグループがこの技術を用いてアメリカの先進的なAIモデルを複製しようとしていると警戒を強めています。

DeepSeek側は、R1の開発において他のオープンソースモデルを基にディスティレーションを行ったと主張しており、OpenAIのクローズドシステムとは異なる手法を採用したと説明しています。しかし、具体的な証拠やデータの流出経路については依然として不明です。

ディストーションは、OpenAIの規約に違反する可能性があるとはいえ、AIビジネスではかなり一般的なコスト削減手法です。（OpenAIとその同業他社は、ほぼ間違いなく、許可なく他人のオンラインデータを大量に使ってモデルを訓練している）

この問題を受け、トランプ米大統領に次期商務長官候補に指名されたハワード・ラトニック氏は「DeepSeekは正当な手段を用いていない」として、AI技術の開発・利用に関する規制を強化するべきだと提唱しています。

OpenAIは現在、DeepSeekのデータ取得方法を精査し、違反があった場合には法的措置を含めた対応を検討するとしています。今後の調査結果次第では、AI技術の国際的なルールや倫理規定に関する議論が加速する可能性があります。

本ニュースをまとめると、以下のようになります。

この問題はAI業界全体に影響を及ぼす可能性があり、引き続き注意深く見守る必要があります。

romptn ai厳選のおすすめ無料AIセミナーでは、AIの勉強法に不安を感じている方に向けた内容でオンラインセミナーを開催しています。

AIを使った副業の始め方や、収入を得るまでのロードマップについて解説しているほか、受講者の方には、ここでしか手に入らないおすすめのプロンプト集などの特典もプレゼント中です。

AIについて効率的に学ぶ方法や、業務での活用に関心がある方は、ぜひご参加ください。

\累計受講者10万人突破/