【Python】PDFのテキストを取得する方法

記事
IT・テクノロジー

概要

PDFから一括でテキストを取得したいことがあると思います。Pythonのライブラリを使用することで簡単に取得できます。「pdfminer.six」を利用します。

sample.pdf
samplePDF.png



Pythonソースコード

import pdfminer
from pdfminer.high_level import extract_text

text = extract_text('./sample.pdf')
print(text)


解説

import pdfminer
 インストールが必要です。(pip install pdfminer.six)
from pdfminer.high_level import extract_text
 pdfminer.high_levelをインポートします。
text = extract_text('./sample.pdf')
 PDFのパスを指定して読み込みます。
print(text)
 PDFから取得したテキストを表示します。
サンプルPDF

Pythonのpdfminer.sixを利用して、PDFからテキストを抽出します。
 出力結果になります。

所感

 PDFのテキストを取得するだけでなく、PDFの画像取得や操作を行うことができます。
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す