AI開発のアノテーションサービスを提供する代行会社の選び方・費用の相場を解説! | romptn Magazine

AI開発のアノテーションサービスを提供する代行会社の選び方・費用の相場を解説!

AI活用

AI開発におけるアノテーション作業には手間と時間がかかることから、AIモデルの構築を行う際に、外部に委託したいと考える企業は多くなっています。

しかし、いざアノテーションを外部に依頼したいと考えても、「どの会社・サービスを選ぶべきか分からない」と考えるケースは多いのではないでしょうか。

そこで当記事では、アノテーション代行サービスを検討している方に向けて、最適なサービス・代行会社の選び方や費用の相場、アノテーションサービス利用のメリットを解説しています。

ぜひ最後までご覧ください。

スポンサーリンク

アノテーションサービスの基本的な機能一覧

アノテーションの機能

アノテーションサービスは、基本的に以下の3つの種類があります。

  • テキストデータ
  • 音声データ
  • 画像・動画データ

それぞれ対応する形式のデータにタグ・ラベル付けを行います。

近年ではよりコストを抑えた海外製サービスを利用する企業も増えてきています。

アノテーションの種類は6種類

アノテーションの種類

アノテーションの種類は次の6種類あります。

  • 画像分類
  • バウンディングボックス(物体検出)
  • セグメンテーション(領域抽出)
  • キーポイント
  • 音声データ
  • 文字起こし

順に詳しく解説します。

アノテーションの種類①:画像分類

画像分類とは、画像に含まれる対象物をカテゴリ分けするアノテーションのことで、画像内の物体や人物を特定のカテゴリに分類する手法です。

画像分類をすることで、画像内の物体や動物を認識し、意味や役割を理解しやすくなります。

例えば、画像内の生物を「人間」というカテゴリに分類したり、「犬」や「猫」というカテゴリに分類したりします。

画像分類は私たちの生活の身近なさまざまな分野で活用されており、たとえば次のような分野で活用されています。

  • 自動運転
  • 顔認証
  • 商品検索

画像分類には以下の2種類があります。

  • 単一カテゴリ分類
    • 単一カテゴリ分類とは、画像内の物体を1つのカテゴリに分類することです。
      例えば、画像内の犬を「犬」というカテゴリに分類するシンプルな分類のことを指します。
  • 多重カテゴリ分類
    • 多重カテゴリ分類とは、画像内の物体を複数のカテゴリに分類します。
      例えば、画像内の人物が複数人いる場合、「男性」、「女性」そして、「子供」などのカテゴリに分類することを指します。

また、画像分類の精度を向上させるため、以下の3点に注意する必要があります。

  • アノテーションの品質:品質が高い程良い
  • 学習データの量:学習量が多い程良い
  • AIのアルゴリズム:最新かつ高度なアルゴリズムである程良い

アノテーションの種類②:バウンディングボックス(物体検出)

バウンディングボックスとは、画像に含まれる対象物の位置と大きさを矩形で示すアノテーションのことで、画像内の対象物を検出するために使用します。

バウンディングボックスの目的として、画像内の対象物を特定し、その位置と大きさを特定することにあります。

画像内の対象物がどこにあり、何であるかをAIに認識させることができます。

アノテーションの種類③:セグメンテーション(領域抽出)

セグメンテーション(領域抽出)とは、画像内の特定の領域のみを抽出する技術です。

画像内の物体や背景をピクセルという単位で分類し、ピクセルのまとまりにラベルを付けることで、画像内の特定の領域を抽出することができます。

セグメンテーションには、2つの種類があります

  • セマンティックセグメンテーション
    • セマンティックセグメンテーションとは、画像内のすべてのピクセルを、物体や背景等のカテゴリに分類する手法です。
      例えば、画像内の猫を「猫」というカテゴリに分類したり、画像内の道路を「道路」というカテゴリに分類します。
  • インスタンスセグメンテーション
    • インスタンスセグメンテーションとは、画像内の同じ物体領域を、個別のオブジェクトとして分類する手法です。
      例えば、1つ画像に映っている複数の犬を、個別の犬として分類したり、1つの画像に映っている複数の車を、個別の車として分類します。

アノテーションの種類④:キーポイント

キーポイントとは、画像内の対象物に対して、特徴的な点を指す手法です。

キーポイントの目的として、画像内の対象物を特定したり、姿勢を判別するといったものが挙げられ、キーポイントは画像内の特定のピクセルの位置情報として処理されます

位置情報に加えて、「特徴量」と呼ばれる値が付与され、「特徴量」は形状や色などの特徴を指します。

アノテーションの種類⑤:音声データ

音声データのアノテーションとは、音声データにラベルを付与することで、以下のようなものがあります。

  • 文字起こし
    • 文字起こしは、音声データ文章に変換することを言います。最近では、会議音声等を基に議事録を作成するの目的等で使用されます。
  • 音素割り当て
    • 音素割り当てとは、音声データを音素単位に分割することを言います。音素割り当てを行うことで、音声データの特徴を把握することができます。
  • 言語タグ付け
    • 言語タグ付けとは、音声データの単語に対して言語タグというカテゴリを付与することを言います。言語タグ付けを行うことで、音声データの文法的特徴を把握できます。
  • 意味タグ付け
    • 意味タグ付けとは、音声データの単語に意味タグというカテゴリを付与することを言います。意味タグ付けを行うことで、音声データの意味を把握することができます。

アノテーションの種類⑥:文字起こし(テキスト)

文字起こし(テキスト)のアノテーションとは、テキストデータにラベルを付与することで、以下のようなものがあります。

  • テキスト分類
    • テキスト分類とは、文章を意味のまとまりごとのカテゴリに分類する作業です。テキスト分類を行うことで、テキストの意味や目的を把握することができます。
  • 感情分析
    • 感情分析とは、テキストの感情を分析する作業です。感情分析を行うことで、テキストの感情を理解することができ、SNSの分析等に使用されます。
  • キーワード抽出
    • キーワード抽出とは、テキストの中から重要な単語やフレーズを抽出する作業です。キーワード抽出を行うことにより、文章の要約や重要な情報を抽出したりすることができます。

AI開発には必須!アノテーションサービス・代行会社を選ぶポイントは5つ

アノテーションサービスを選ぶポイント

実際にアノテーションサービスを代行会社に依頼する際に意識するべきポイントはどのようなものでしょうか。

ここではポイントを5つご紹介します。

アノテーションサービス・代行会社の選び方①:アノテーション要件を明確化

アノテーション代行サービス検討時に、AIモデルを用いて、「何を行いたいか」アノテーションにおける目的や要件を決定する必要があります。

具体的には、アノテーションの種類や精度、納期などを整理しておきましょう。

要件の整理後、画像分類、物体検出、セグメンテーション、キーポイント等どの手段を使用するか検討します。

また、アノテーションの精度は、AIモデルの性能に大きく影響するため、高精度なデータの作成が必要となります。納期とともに、AIモデルの開発スケジュールに合わせて、余裕を持った設定をしておきましょう。

アノテーションサービス・代行会社の選び方②:必要な費用の比較

アノテーション代行サービスの費用は、依頼内容、品質水準、技術変動、納期等の要素で大きく異なります。

そのため、複数の業者から相見積もりを取りましょう。相見積もりを取ることにより、費用の比較検討をすることができます

また、アノテーション代行サービスの料金を公開していない企業も少なくありません。
アノテーション代行サービスの見積もり依頼時に、具体的な要件を明確にして、見積もりの根拠を問い合わせましょう。

なお、一般的な料金の目安は以下のとおりです。

  • テキスト:1文章140文字程度で30円~
  • ドキュメント:1文字0.4円~2円程度
  • 画像:分類・矩形10円、多角形25円、線10円、キーポイント5円、セグメンテーション100円
  • 動画:矩形10円~
  • 音声:ケバ取り120円~、文字起こし250円~、整文350円~(全て1分あたり)

アノテーションサービスの選び方③:セキュリティ対策

アノテーション作業を代行会社に依頼する際には、自社が保有するデータに、個人画像や個人情報などの機密データが含まれる場合があります。
万一情報漏洩や流出が起こってしまった場合、損害賠償を請求される可能性もあります。

アノテーション代行サービスを利用する際には、セキュリティ対策が万全かどうか、万全を保証する根拠や体制、セキュリティ教育の有無、損害発生時の損害賠償規定等を代行会社に確認し、契約書に盛り込むようにしましょう。

具体的なセキュリティ対策の有無や内容は、代行会社が提供するサービスによって異なります。

クラウド型のサービスを利用する場合は、データの保管場所やアクセス権限、情報漏洩対策などの内容を代行会社に確認しましょう。

一方、オンプレミス型のサービスを利用する場合は、セキュリティ体制や、自社のセキュリティ基準との整合性を確認しましょう。

アノテーションサービスの選び方④:品質管理への取り組み方

アノテーションサービス代行会社を選ぶ際、代行会社の品質管理への取り組み方も重要で、高精度のAIモデル構築のためには必須となります。

アノテーションサービス代行会社によって、品質管理への取り組み方は異なるため、人によるチェック、AIによるチェック、その他品質管理ツールなどどのように実施しているかを確認しましょう。

また、人によるチェックには、以下の3つの方法があります。

  • シングルチェック
    • 1人で品質をチェックする方法です。メリットとして、早く納品される可能性はありますが、デメリットとして誤差の検出率は低くなります。
  • ダブルチェック
    • 2人で品質をチェックする方法です。シングルチェックよりもアノテーション品質誤差の検出率が高くなりますが、時間やコストがシングルチェックよりも多くかかります。
  • コンセンサスチェック
    • 3人以上のアノテーターが同じデータをチェックし、多数決で決定する方法です。最も誤差の検出率が高いチェック方法で高精度ですが、納期が長くなったり、コストがかなり高くなるというデメリットがあります。

アノテーションサービスの選び方⑤:データ収集が可能かどうか

アノテーションサービス・代行会社を利用する際、アノテーションのデータ収集が可能かどうかも重要です。

アノテーション代行会社がデータ収集も行わない場合、追加で費用が発生するケースもあるため、できる限り可能な会社を選定することをおすすめします。

自社の目的や課題解決に最適なアノテーション代行サービスを依頼してみませんか?

いかがでしたでしょうか。

この記事ではアノテーションサービスを提供する代行会社の選び方をはじめ、アノテーションについて広く解説しました。

AIやビッグデータが広く活用されるようになった現在、AIの学習手段となるアノテーションは必須の作業であるため、AI活用を考えている場合は避けては通れないと言えます。

そのため、当記事を参考に自社にマッチしたアノテーションサービスを利用していただき、AI活用によって社内の業務効率化を進めていただければ幸いです。