AI分野において「アノテーション」という言葉が聞かれるようになりました。
しかし、アノテーションとは一体どういう意味なのか、どんなシーンにおいて使われる言葉なのかわからないという方もまだまだ多いと思われます。
本記事ではアノテーションについて、基本的な意味や種類、アノテーションを活用しているサービスなど幅広く解説しますので参考にしてください。
アノテーションとは?
アノテーション(annotation)とは英語では注釈や注解といった意味を持ちます。
ITの分野ではアノテーションは、テキストや音声、画像など幅広い形態のデータにタグやメタデータといった情報を注釈として付与していくことを指します。
AIの分野では、機械学習のモデルに学習させるための教師データ(アノテーションされたデータのこと)を作成する作業のことをアノテーションといい、AI開発の流れにおいては「意味づけ」の工程で用いられます。
AI開発の流れとしては以下の通りです。
- データ収集
- 意味づけ:アノテーション
- 学習
- 評価
- 運用
ちなみに、AIとは人工知能のことで、機械学習とはAIの精度を向上させるためのトレーニングと認識していただくとわかりやすいでしょう。
アノテーションという言葉が使われるシーン
AI分野以外ではYouTubeにおいてアノテーションという言葉聞く機会があります。
YouTubeにおけるアノテーションとは、機能の1つで、YouTubeの動画上にテキストやエリアを表示させることができます。作成したテキストやエリアはクリックすることが可能です。
アノテーション機能を利用することで、動画の内容を補足したり、他のコンテンツへのリンクを貼り付けることができます。
アノテーションは動画制作の際には特別な手間はかからず、YouTubeの管理画面から利用できる機能となっています。
アノテーションの種類
アノテーションの種類としては「画像」「音声」「テキスト」の3種類が主要なものとして分類できます。それぞれについて解説します。
画像
物体検出(オブジェクト・ディテクション)
画像のアノテーションでは、画像写っているもののに対して「車」「パン」「人間」といった物体を検出して、それぞれに対応した意味のあるタグをつけます。
この作業を物体検出(オブジェクト・ディテクション)と呼びます。
領域抽出(セマンティック・セグメンテーション)
次に画像の中の特定の領域を抽出して「この領域は洋服」「この領域はタイヤ」「この領域は猫」といった抽出した部分が持つ意味をタグづけしていきます。
画像分類(クラシフィケーション)
画像分類は、画像に対して属性をタグづけする作業です。
例えば、「犬か猫か」「波線なのか水玉なのか」「青色か赤色か」といった属性を付与することで分類ができるようになります。
音声
音声のアノテーションは、音量や音の種類といった音声データにタグづけを行うか、人間が発した言葉の意味にタグづけを行う場合もあります。
音声データを文章として書き起こしテキスト化、単語1つ1つにタグづけを行ったり、テキスト化されたデータが正しいかを確認します。
音声認識や意図抽出の分野で音声のアノテーションは活用されています。
テキスト
テキストデータのアノテーションは、大量の文書から特定のテキストを抽出したり、フリーテキストで書かれた文書に対して、前もって定義されたカテゴリーを割り当てる作業のことを示します。
例えば、複数のシステムに分散している大量のテキストデータの中から、自社のリードとなりそうなデータを抽出したり、事前に設定したルールに従ってタグづけを行い集計や分析に活用、SNSの投稿を分類したり、不適切なコンテンツを取り除いたりする目的で利用されることがあります。
アノテーションを利用できるサービス
Accurately
特徴
Accuratelyとは、AIを一気通貫することができるシステムで、AI開発における課題である教師データ作成の負荷を軽減するために画像のラベリングを高速化が可能です。
クラウド上にデータをアップロードして操作できるラベリング機能を搭載しているため、リモート環境での作業も問題ありません。
また、アップロードしたデータが非常に強固なセキュリティで守られるため、安全な利用が可能です。
料金
- 料金:50,000円
- 無料トライアル:フリープランあり
※価格情報は2022年9月現在のもの
FastLabel
特徴
FastLabelとは、FastLabel株式会社が運営しているアノテーションツールで、教師データの作成サービスからMLOps構築までを包括した国内唯一のオールインワンソリューションです。
AI開発のPDCAを高速で回すことができ、データ起因の問題を早期に発見して改善、AIの開発速度を加速させます。
これまでに100社以上の導入実績があり、ラベル提供は1,000万を突破しています。
端末へのインストールが不要で、画像や動画、テキスト、音声、帳票、3Dといった幅広い種類のデータのアノテーションをWeb上で実現できる点が特徴的です。
また、学習済みのモデルを活用してアノテーション作業の自動化が可能なため、教師データの作成にかかるコストや期間の削減にもつながります。
料金
- Starter:要問い合わせ
- Pro:要問い合わせ
- Enterprise:要問い合わせ
※価格情報は2022年9月現在のもの
harBest
特徴
harBestとは、クラウド上でAIデータの収集から作成・効果測定まで行うことができるAI作成支援プラットフォームです。
AI開発において手間がかかるアノテーション作業をWeb上から発注するだけで、全国のクラウドワーカーにアウトソーシングすることができます。
依頼するクラウドワーカーは条件を絞って依頼することができるため、一定以上の品質を保ったアノテーションが可能です。
また、ノーコードでAI開発ができる機能があり、連携することで運用や保守まで対応してくれます。
料金
- 初期費用:要問い合わせ
- 月額料金:要問い合わせ
- 無料トライアル:要問い合わせ
※価格情報は2022年9月現在のもの
TASUKI
特徴
TASUKIとは、ソフトバンクのAI開発経験から生まれたアノテーション代行サービスです。
TASUKIを利用することで高品質なデータを最短当日中には作成することができ、簡単発注システムがあるので依頼書不要で迅速な依頼ができます。
コラボレーション機能があるため、発注者とのコミュニケーションを取りながら開発を進めることができる点も魅力的です。
料金
- 初期費用:要問い合わせ
- 月額料金:要問い合わせ
- 無料トライアル:要問い合わせ
※価格情報は2022年9月現在のもの
まとめ
アノテーションについて基本的な意味や種類、アノテーションに活用できるサービスなどを紹介しました。
アノテーションはこれまで活用の道が見えなかったデータにも価値が生まれる可能性があるため、企業のデータ活用戦略に大きな意味を持つ行為です。
画像やテキストを見てタグづけするだけの単純作業に思えるアノテーションですが、イレギュラーなケースも多いため、専用のサービスを導入すると効率的にAI開発を進めることができるでしょう。