どうやらHTML本文抽出はDIFFBOTに任せた方が良さそうだ(Python)

wpid-diffbot_logo-white.png DIFFBOTはWEBページから必要な情報を抽出するためのAPIを提供している. 無料でもある程度の機能を使うことができる.

登録

まずは会員登録をする.

の一番下のView Plansをクリック. FreeプランのSign Upから登録. 送られて来るメールにtrial developer tokenが記入してある. これを使います.

Pythonから使う

以下のコマンドでインストールできる.

sudo pip install diffbot

例のごとくライフハッカーをパースしてみる.

>>> import diffbot
>>> token = "your developer token"
>>> url = "http://www.lifehacker.jp/2014/02/140224cochlearimplant.html"
>>> json_result = diffbot.article(url, token=token)

これでタイトル,画像,本文などが簡単に抽出できる. 前述のPocket APIではArticle View APIはまだ提供されていないので, もし,HTMLからデータを抽出したければ,DIFFBOTを使うのが最も簡単な方法かもしれない.

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中