クローラーとか作っててPDFファイルのテキストを抽出したいって希望がある。
PDFからテキストを抽出手段としていくつかあるけど
今回はpdfminerを使ってテキストを抽出する方法を書き溜める。
pdfminer.sixを使ってテキスト出力
pdfminer.sixはPython2.7向けのpdfminerをforkしたプロジェクトで
ptyhon3系をサポートしてます。
Pdfminer.six is an community maintained fork of the original PDFMiner.
テキスト抽出でつかう実行環境は、もちろんDockerで作ってますよ。
必要なのは、入力PDFファイルと出力先ファイル。
下記で一発
1 |
$ docker run -e INPUT_FILE=input.pdf -e OUTPUT_FILE=result.txt -v `pwd`/:/app noffuy/python-pdfminer |
Dockerhubに公開済みです。
出来上がったテキストファイルは、
その後、整形したり、パイプラインで繋いだりお好きなように。
じゃあね〜〜〜〜〜〜。