2024.11.27

[AWS]Amazon Textractを試してみた

こんにちは。植松です。

OCRという言葉、聞いたことがありますか？
OCRとは「光学文字認識」といって、紙文書をスキャナーで読み込み、書かれている文字を認識してデジタル化する技術です。（Optical Character Reader（またはRecognition）の略）

PDFやPNGなどに書かれている文字をメモ帳（テキストエディタ）やWordなどに手作業で転記、もしくは、紙に書き出してたことはありませんか？
そういった手間をOCRによって自動化が可能です。

OCRを提供するサービスはいくつもあります。今回はAWSが提供している「Amazon Textract」を試してみようと思います。
私自身、OCRを使ったことが無いのでどれくらいの精度で文字を認識するのか楽しみです。

Amazon Textractについて

実際に試す前に、「Amazon Textract」について確認しました。

Amazon Textract は、スキャンしたドキュメントからテキスト、手書き文字、レイアウト要素、データを自動的に抽出する機械学習 (ML) サービスです。単純な光学文字認識 (OCR) のレベルにとどまらず、ドキュメントから特定のデータを識別、理解、抽出します。
Amazon Textract は ML を利用して、手作業なしで、あらゆる種類のドキュメントを読み取って処理し、テキスト、手書き文字、表などのデータを正確に抽出します。
参考：https://aws.amazon.com/jp/textract/

どんな画像データでもいい感じに読み取ってくれるようですね。

Amazon Textract は、現時点では PNG、JPEG、TIFF、および PDF 形式をサポートしています。
参考：https://aws.amazon.com/jp/textract/faqs/

一般的に使われるファイル形式がサポートされていますね。

Amazon Textract は現在、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)、AWS GovCloud (米国西部)、AWS GovCloud (米国東部)、カナダ (中部)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (フランクフルト)、欧州 (パリ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (ソウル)、およびアジアパシフィック (ムンバイ) の、各リージョンで利用いただけます。

東京・大阪リージョンには現時点では未対応のようです。