Anthropic(アンソロピック)が開発したClaudeの新機能「Computer Use」において、早稲田大学の朴善優(Sunwoo Christian Park)氏、九州大学の濱﨑皓王(Koki Hamasaki)氏らによる研究チームは、AIモデルの安全性を評価するプロジェクトの一環としてこの重大な脆弱性を発見しました。
この発見は、AIシステムの安全性に関する重要な懸念を提起しています。
Claudeの「Computer Use」とは
2024年10月、Anthropicは開発者向けにClaudeのデモ版をデスクトップにダウンロードできるようにしました。このデモ版は、基本的なコンピュータナビゲーションスキル(コンピュータの制御)の学習とインターネット検索に限定された機能を持つといいます。
詳しい機能はこちらの記事をご覧ください。
予想外の結果
研究チームは、デモ版をダウンロードしてからわずか2時間で、ClaudeにAmazon.co.jpでの購入を完了させることに成功したといいいます。
彼らの動画を見ると、確かにAmazon上で購入が完了していることがわかります。
興味深いことに、同じことをAmazon.com上で行うと、それは拒否されるようです。
脆弱性の原因
研究チームの分析によると、この問題の根本的な原因は、Claudeのセキュリティ実装における地域差にあるとされています。
グローバルドメインである.comに対しては、その世界的な重要性から厳密な制限が設けられている一方で、.jpのような地域特有のドメインに対しては、同様の厳密なテストが実施されていなかった可能性が指摘されています。
ChatGPTなどでも昔から同様の「ジェイルプロンプト」「脱獄」などということが話題になっており、今回の発見もその一種と言えるでしょう。
Anthropicの対応
Anthropicによると、Claudeは実は購入を完全に制限するよう訓練されているわけではなく、他の地域では正常に購入を完了させた実例もあるとのことです。
さらに、Amazon.comでの購入拒否については、システムの単なるバグである可能性を指摘しています。
参考:Claude AI Demo Makes E-Commerce Buy — Violating Its Training Or Not?
今後の課題と展望
研究チームは現在、同様の脆弱性が他のeコマースサイトにも存在するかどうかを調査中です。
朴氏は「AIテクノロジーの進化は急速に進んでおり、イノベーションだけでなく、ユーザーの安全とセキュリティを優先することが重要」と強調しています。
まとめ
この発見は、AIエージェントの安全性と倫理的な実装の重要性を改めて浮き彫りにしました。
2025年以降、AIエージェントはより多くのタスクを実行するようになると予想される中、このような脆弱性の発見と対策は極めて重要となっています。
研究チームは「AIが幸福をもたらし、生活を向上させ、害や破壊を引き起こさないようにするために、AI企業、研究者、そしてコミュニティ全体が協力して取り組む必要がある」と結論付けています。