PDFからテキストを抽出する

データ入力とかの仕事で,PDFを扱っている方にとって,これは結構ありがちな問題だと思います. その他,論文をテキストにして解析したいとか,なかなかPDFからテキストへの変換はよく聞く話です(僕だけでしょうか笑). PDFMinerというものがあります.フォントの埋め込まれた?PDFにはこれで立ち向かえます.

以下使用例です. Pythonから使ったりできるみたいですけど,僕はshellで一旦ファイルに出して使っています.

pdf2txt.py test.pdf > test.txt

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中