pdfminer.sixでhigh_level attributeが使用できず Error!?
過去、Python3とpdfminer.sixでPDFからテキストを抽出する方法を書いた。
この記事を書いている時に、
AttributeError: module 'pdfminer' has no attribute 'high_level'
で先に進まない問題が発生。
あれ?おかしい、ejectされたのかなと思い、
pdfminerのリポジトリいってリリース履歴調べたり、
grep したりすると普通にある。
1 2 3 4 |
$ grep -r high_level /usr/local/lib/python3.6/site-packages/ /usr/local/lib/python3.6/site-packages/pdfminer.six-20200104.dist-info/RECORD:pdfminer/high_level.py,sha256=ADd34S_5_T9-4FrrzIUlDUWkSMDo0ViCAN7SDbuz_Mo,5012 /usr/local/lib/python3.6/site-packages/pdfminer.six-20200104.dist-info/RECORD:pdfminer/__pycache__/high_level.cpython-36.pyc,, Binary file /usr/local/lib/python3.6/site-packages/pdfminer/__pycache__/high_level.cpython-36.pyc matches |
解決策
解決策は簡単で、importするとき下位モジュールまで読みこむこと。
下記のようにすればおk
1 2 |
import pdfminer.high_level text = pdfminer.high_level.extract_text("./input.pdf") |
意外と苦戦した(笑)
from pdfminer import high_lebelとかはだめですので。
じゃあね〜〜〜〜。