【Python】PDFのテキストを取得する方法
記事
IT・テクノロジー
概要
PDFから一括でテキストを取得したいことがあると思います。Pythonのライブラリを使用することで簡単に取得できます。「pdfminer.six」を利用します。
sample.pdf
Pythonソースコード
import pdfminer
from pdfminer.high_level import extract_text
text = extract_text('./sample.pdf')
print(text)
解説
import pdfminer
インストールが必要です。(pip install pdfminer.six)
from pdfminer.high_level import extract_text
pdfminer.high_levelをインポートします。
text = extract_text('./sample.pdf')
PDFのパスを指定して読み込みます。
print(text)
PDFから取得したテキストを表示します。
サンプルPDF
Pythonのpdfminer.sixを利用して、PDFからテキストを抽出します。
出力結果になります。
所感
PDFのテキストを取得するだけでなく、PDFの画像取得や操作を行うことができます。