- PyCon JP 2021
- 2021/10/15 16:00 - 16:30
- Level: Intermediate
https://github.com/yagays/di-pyconjp2021
- 01_load_image.ipynb : 画像処理の導入
- 02_vision_api.ipynb : OCRによる文字起こし
- 03_visualize.py.ipynb : 情報抽出
近年の機械学習技術の飛躍的発展により、計算機が画像や文書をより深いレベルで解析できるようになりました。これにより可能となったのが「ドキュメント・インテリジェンス」で、近年では機械学習の研究対象としても企業における実応用としても盛り上がりを見せている分野です。
ドキュメント・インテリジェンスとは、人間が記述したビジネス文書を機械的に解析する技術の総称です。契約書や発注書、領収書、事業レポートなどのビジネスで利用される書類は、テーブル構造や箇条書きといった人間が読みやすくするための工夫が凝らされ、言葉のみならず図表や記号を活用した多様なフォーマットで記述されます。書類という空間上で自由に表現される文字情報は、ただ画像から文字起こしをするだけでは意味がなく、散らばった文字を有機的につなぎ合わせて言葉を構成し、レイアウトや配置から対応関係を汲み取り、そして解釈する必要があります。このためには画像処理や自然言語処理といった機械学習技術を組み合わせ、一つのアプリケーションして構築することで実現します。
ドキュメント・インテリジェンスのアプリケーションを作る上では、Pythonがもっとも適したプログラミング言語と言えるでしょう。機械学習の文脈で広く用いられるPythonですが、それ以外にも画像処理や文字列処理、ウェブアプリケーション上でのインタラクティブな可視化など、Pythonで利用できる豊富なパッケージにより開発を強力にサポートすることができます。
そこで本発表では、ドキュメント・インテリジェンスの分野を俯瞰しつつ、どのドメイン領域においても共通して必要となる画像処理や自然言語処理の技術を対象に、Pythonで実現するための方法をご紹介します。
本デモで利用したレシートの作ににはreceiptlineを利用しています。