python-gooseでHTML本文抽出(英語)

素晴らしいものを見つけました. ライブラリはここ.

ここに書いてある通りにすればインストールできる. Gooseは本当に素晴らしくて記事内の画像,動画も抽出することができる. 正直まだ精度は検証していないが,期待はもてる. しかしながら日本語の記事には対応していないみたいなので,作ってみたいと思う. もしできたとしても,githubのpull requestの使い方がよくわからないからその辺も調べないとなあ.

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中