Googleは、AIチャットボットGeminiの人物画像生成機能を改善し、再び利用可能にすると発表しました。この機能は、歴史的に不正確な画像が生成されたことを受けて2月に一時停止されていましたが、新たな安全策を実装した上で再開されます。
主なポイント
- Googleの新しい画像生成モデル「Imagen 3」を採用
- 英語版の Gemini Advanced、Business、Enterprise ユーザーを対象に数日以内に提供開始
- 写実的な個人の識別、未成年者の描写、過度に暴力的・性的なシーンの生成は不可
背景
2024年2月、Geminiの画像生成機能が歴史的に不正確な画像を生成したことが問題となりました。例えば、1943年のドイツ兵の画像生成で人種的に多様な兵士が表示されたり、中世の英国王の描写に女性統治者が含まれるなどの事例が報告されました。これを受けて Googleは機能を一時停止し、改善に取り組んできました。
改善点
上記を受け、Googleは以下の点を改善しました。
- 技術的な改善
- 評価セットの見直し
- レッドチーム演習(脆弱性テスト)の実施
- 明確な製品原則の策定
GoogleのGemini製品管理担当シニアディレクター、Dave Citron氏は、「他の画像生成モデルと比較して優れたパフォーマンスを発揮する」と述べています。
新機能:Gemsについて
Gemini Advanced、Business、Enterprise ユーザーを対象に、カスタマイズ可能な AI アシスタント「Gems」も導入されます。
Gems は特定のトピックの「専門家」として機能し、以下のような用途に活用できます。
- 専門家チームによる難しいプロジェクトの検討
- イベントのアイデアブレインストーミング
- ソーシャルメディア投稿のキャプション作成
- 詳細な手順の記憶による反復タスクの効率化
今後の展開
Googleは、初期ユーザーからのフィードバックを基に機能の改善を続け、将来的にはより多くのユーザーと言語に提供範囲を拡大する予定です。ただし、無料版 Geminiユーザーや他言語版への展開時期は明らかにされていません。
技術的詳細
- Imagen 3は、AI生成のキャプションでトレーニングされ、データの多様性と多彩さを向上
- トレーニングデータは安全性のためにフィルタリングされ、公平性の観点からレビュー
- DeepMind開発のSynthID技術を使用し、生成画像に目に見えない暗号化透かしを適用
Googleは、この機能の再開に向けて慎重なアプローチを取っています。ユーザーからのフィードバックを重視し、継続的な改善を約束しています。AI技術の進化と倫理的な配慮のバランスを取るGoogleの取り組みは、今後のAI開発の方向性を示す重要な事例となるでしょう。
romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!
- ChatGPTで〇〇を効率化したい
- スライドを作るならどのAIツールがおすすめ?
- おすすめのGPTsが知りたい
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!