非構造化画像データから分析要素を抽出する(2)- オブジェクトと文字の検出

 
重要:個人情報や機密情報の使用に関する注意喚起(必ずお読みください)
 当検証で紹介している技術やサービスの使用は、読者の皆様自身の判断と責任で行ってください。特に、個人情報や機密情報を含むデータの取り扱いについては、最大限の注意を払い、適切なセキュリティ対策を講じることが不可欠です。
 検証や実際の利用を行う際には、常にプライバシー保護の法律、規制、およびベストプラクティスを遵守するよう心掛けてください。また、第三者のデータを使用する場合は、必要な同意を得ること、及びそのデータの使用が法律に準じていることを確認することが重要です。
 本ブログや筆者、所属する団体は、紹介する技術を用いて行われるいかなる活動から生じる直接的または間接的な損害に対して、責任を負いかねます。技術を使用することによって生じ得るリスクを理解し、自己の責任で慎重にご活用ください。
 ご不明点や懸念がある場合は、クラウドベンダーや専門家に相談することをお勧めします。
 当検証の情報を活用することで、読者の皆様が新たな知識やスキルを安全に身に付け、ビジネスでの活用をすすめていただければ幸いです。
 
 
本投稿の対象領域
本投稿の対象領域
 
 前回の投稿「非構造化画像データから分析要素を抽出する(1)- 顔の検出」では、非構造の画像データから顔の情報を検出する技術を解説・検証しました。今回は画像解析の技術の中で、画像内の物体(オブジェクト)を認識しラベル付けする技術、画像内の文字を検出する技術を検証します。

ビジネス利用例

 本投稿でテーマとなる技術が適用される分野の一例にはつぎのようなものがあります。

画像内のオブジェクトのラベル付け

  1. コンテンツ分類と管理 メディアライブラリやデジタルアセット管理システムにおいて、自動的に画像やビデオをカテゴライズし、整理するために使用されます。これにより、コンテンツの検索性とアクセス性が向上します。
  1. 監視とセキュリティ 公共の場や企業施設のビデオ監視システムで、異常行動、危険物、特定の活動などを検出するために使用されます。これにより、セキュリティのリスクを軽減し、迅速な対応が可能になります。
  1. 製品カタログとEコマース オンライン小売業者は、製品画像を自動的にラベル付けし、類似のアイテムを推薦するためにこの機能を使用します。これにより、顧客体験が向上し、販売促進につながります。
  1. ソーシャルメディア分析 ソーシャルメディアプラットフォームは、ユーザーが投稿した画像やビデオの内容を分析し、トレンドやユーザーの関心事を把握するためにラベル検出を利用します。
  1. 医療画像分析 医療分野では、X線やMRIなどの医療画像を分析し、異常箇所や疾患の兆候を検出するためにラベル検出が使用されることがあります。

画像内の文字検出

  1. 文書管理と自動化 書類やフォームのスキャン画像からテキストを抽出し、デジタル化することで、文書管理プロセスを自動化し、効率化します。
  1. ナンバープレート認識 駐車場管理や交通監視システムで、車両のナンバープレートを自動的に認識し、記録するために使用されます。
  1. 商品パッケージの分析 小売業者や製造業者は、商品パッケージのテキストを読み取り、製品情報や成分リストを自動的に抽出するためにこの機能を利用します。
  1. 広告とブランド認識 ソーシャルメディアやウェブ上の画像からブランド名やキャッチフレーズを検出し、広告の影響力やブランド露出を分析するために使用されます。
  1. 旅行と観光 旅行者が撮影した画像からランドマークや観光地の名前を認識し、関連する情報やガイドを提供するために活用されます。
  1. 教育と学習 教材や図書からのテキスト抽出を通じて、教育コンテンツのデジタル化やアクセシビリティの向上に貢献します。
  1. メディアモニタリング ニュース記事や報道映像からのキーワード抽出により、メディアのトレンド分析や情報収集を自動化します。

オブジェクトや文字を検出する機能の検証

 本投稿では、前述のサービスの中でAmazon Rekognitionのdetect_labels, detect_text APIを使用した顔の検出技術を検証します。

検証の環境と構成

 
次の構成で検証を実施します。
  1. AWS Lambda関数として機能を実装します。
  1. 入力となる画像をS3にアップロードし、そのイベントをトリガーに関数を実行します。
  1. 実行結果は、コンソールに出力し、CloudWatchから内容を抽出します。
LambdaFunctionの設定概要
LambdaFunctionの設定概要

APIによるオブジェクトや文字の詳細情報の抽出(3例)

 
次の写真を入力に、オブジェクトのラベル付けや検出された文字の情報を抽出します。
 
ソースコードは次の通りです。AWSのLambdaには、様々なサービスを使用するためのテンプレートが用意されており、Rekognitionのテンプレートも備わっています。次のコードは、テンプレートの一部を変更したものです。
 
3枚の写真に対し、どのような情報が出力されるか確認します。
オブジェクトラベル、テキストとも、信頼度80%以上の上位5件を画像の右側に記載します。(詳細は、個々のJSONファイルをご参照ください。)
 

例1:机とディスプレイ

 
検出されたオブジェクトラベル
ラベル信頼度
Desk100.0
Furniture100.0
Table100.0
Computer99.98818969726562
Computer Hardware99.98818969726562
検出されたテキスト
なし
 
検出されたオブジェクトラベルのJSON
検出されたテキストのJSON
 

例2:AI書籍

 
 
検出されたオブジェクトラベル
ラベル信頼度
Advertisement99.99945068359375
Poster99.9969253540039
Book99.87954711914062
Publication99.87954711914062
Text71.04859924316406
検出されたテキスト
テキスト信頼度
AI96.97637939453125
-98.94622039794922
AI success patterns in Finance98.7236557006836
Financial Data Utilizing Association97.64059448242188
/98.8760986328125
検出されたオブジェクトラベルのJSON
検出されたテキストのJSON
 

例3:風景

 
 
検出されたオブジェクトラベル
ラベル信頼度
Mountain99.99998474121094
Mountain Range99.99998474121094
Nature99.99998474121094
Outdoors99.99998474121094
Peak99.99995422363281
検出されたテキスト
なし
検出されたオブジェクトラベルのJSON
検出されたテキストのJSON
 
 
 
 
 

まとめ

画像内のオブジェクトのラベル付け

 例1および例3を参照すると、視覚的に認識できるものには適切なラベルが付けられているようです。出力は基本的に英語となります。別途、翻訳サービスなどを利用して日本語化することも可能です。

画像内の文字検出

 2024年4月現在、本サービスは英語、アラビア語、ロシア語、ドイツ語、フランス語、イタリア語、ポルトガル語、スペイン語に対応していますが、日本語には対応していないようです。例2の画像からは、アルファベットの文字列が正確に検出されていることが分かります。このため、アルファベットや数値の検出が必要な局面での利用が想定されます。