2019年1月17日木曜日

開発環境

ということで、PDFの情報を取得してみた。

コード

Python 3

#!/usr/bin/env python3
import PyPDF2

# ダウンロードしたPDFファイルの名前
filename = 'sample.pdf'
with open(filename, 'rb') as f:
    pdf_reader = PyPDF2.PdfFileReader(f)
    for k, v in pdf_reader.documentInfo.items():
        print(f'{k}: {v}')

入出力結果(Terminal、cmd(コマンドプロンプト)、Jupyter(IPython))

$ python3 sample.py 
/Author: ANIHO
/CreationDate: D:20190110151935+09'00'
/Creator: Microsoft Word - 01_事業の概要0110.docx
/ModDate: D:20190116094801+09'00'
/Producer: Gaaiho PDF
/Title: Microsoft Word - 01_事業の概要0110.docx
$

MS Wordで作成したのをGaaiho PDF(ソフトウェア)で編集して公開?

ということで、MS Wordで編集中にExcel使用してるのかも。

(PyPDF2は日本語の取り扱いは得意ではない(?)みたいなので、各ページのテキストを取得するのは上手くいかなかった。(getPageメソッド、textExtractメソッド))

0 コメント:

コメントを投稿