Python3 pdfminerを使ってPDFのテキストを抽出してファイルに出力する

クローラーとか作っててPDFファイルのテキストを抽出したいって希望がある。
PDFからテキストを抽出手段としていくつかあるけど
今回はpdfminerを使ってテキストを抽出する方法を書き溜める。

広告

pdfminer.sixを使ってテキスト出力

pdfminer.sixはPython2.7向けのpdfminerをforkしたプロジェクトで
ptyhon3系をサポートしてます。

Pdfminer.six is an community maintained fork of the original PDFMiner.

テキスト抽出でつかう実行環境は、もちろんDockerで作ってますよ。 
必要なのは、入力PDFファイルと出力先ファイル。
下記で一発

Dockerhubに公開済みです。

出来上がったテキストファイルは、
その後、整形したり、パイプラインで繋いだりお好きなように。



じゃあね〜〜〜〜〜〜。