Python3 pdfminerを使ってPDFのテキストを抽出してファイルに出力する

クローラーとか作っててPDFファイルのテキストを抽出したいって希望がある。
PDFからテキストを抽出手段としていくつかあるけど
今回はpdfminerを使ってテキストを抽出する方法を書き溜める。

pdfminer.sixを使ってテキスト出力

pdfminer.sixはPython2.7向けのpdfminerをforkしたプロジェクトで
ptyhon3系をサポートしてます。

Pdfminer.six is an community maintained fork of the original PDFMiner.

テキスト抽出でつかう実行環境は、もちろんDockerで作ってますよ。　
必要なのは、入力PDFファイルと出力先ファイル。
下記で一発

$ docker run -e INPUT_FILE=input.pdf -e OUTPUT_FILE=result.txt -v `pwd`/:/app noffuy/python-pdfminer

1	$ docker run -e INPUT_FILE=input.pdf -e OUTPUT_FILE=result.txt -v `pwd`/:/app noffuy/python-pdfminer

Dockerhubに公開済みです。

出来上がったテキストファイルは、
その後、整形したり、パイプラインで繋いだりお好きなように。

じゃあね〜〜〜〜〜〜。