Googleが急遽発表した「ScreenAI」の性能が最先端すぎる | romptn Magazine

Googleが急遽発表した「ScreenAI」の性能が最先端すぎる

AIニュース

前回Geminiを発表し、AIに力を入れているGoogleですが、先日発表された最新のAIの機能が他のAIを圧倒するかもしれません。

以下で詳しく解説していきます。

スポンサーリンク

今回のニュースのポイント・要約!

引用:https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/

ScreenAIは、ユーザーインターフェース(UI)やインフォグラフィック(図表やグラフなど)を理解するための最先端のAIモデルです。UIやインフォグラフィックは、人間とコンピュータのインタラクションにおいて重要な役割を果たしますが、その複雑さと多様な表現形式のため、モデル化が難しいという課題がありました。

ScreenAIは、次のような特徴を持っています。

  1. アーキテクチャ: 既存のPaLIというアーキテクチャをベースに、pix2structという技術のパッチ戦略を取り入れることで、様々なアスペクト比の画像に対応できるようになっています。
  2. 学習方法: 事前学習と微調整(fine-tuning)の2段階で学習を行います。事前学習では、自己教師あり学習を用いてデータのラベルを自動生成し、これを使ってVision Transformer(ViT)と言語モデルを学習します。微調整では、人間がラベル付けしたデータを主に使用します。
  3. データ生成: 自己教師あり学習に加えて、大規模言語モデル(LLM)を使ってデータを自動生成します。これにより、質問応答、画面ナビゲーション、要約の3種類のタスクに対応するデータを大量に作成できます。
  4. 性能: ScreenAIは、WebSRCやMoTIFなどのUIやインフォグラフィックに関する様々なタスクで最先端の結果を達成しています。また、ChartQA、DocVQA、InfographicVQAなどのタスクでも、同等のサイズのモデルの中で最高クラスの性能を示しています。
  5. スケーラビリティ: モデルのサイズを大きくすると、全てのタスクで性能が向上し、最大サイズ(50億パラメータ)でも頭打ちになっていないことがわかりました。
  6. 新しいデータセット: Screen Annotation、ScreenQA Short、Complex ScreenQAという3つの新しいデータセットを公開しています。これらは、モデルのレイアウト理解能力や質問応答能力を評価するために使用できます。

ScreenAIは、ユーザーインターフェースとインフォグラフィックの理解において大きな前進をもたらしましたが、大規模モデルにはまだ及ばず、さらなる研究が必要とされています。

今後、この分野の発展に貢献することが期待されます。

romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
  • ChatGPTで〇〇を効率化したい
  • スライドを作るならどのAIツールがおすすめ?
  • おすすめのGPTsが知りたい
といったことはありませんか?
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!