PocketのHTML本文抽出機能が素晴らしい

wpid-pocket.jpg

どうも( ´_ゝ`). ここ最近HTML本文抽出に携わっているわけですが,これはかなり難しいですね. 最初からあるライブラリを使うのがベストかと思いまして先日よりライブラリを探す作業を行っています. しかし,なかなか全言語対応のものは少なくて,精度もうーんという感じでした. そんなある日,evernote web clipperやPocketを僕はよく使うのですが, これの精度に疑問を持ったことは一度もないなあということに気づきました. というわけで検証してみようと思いました.

僕もHTML本文抽出のスクリプトを書いたことがありますが,問題なのは以下の二つでした.

1.写真いっぱいの記事
2.複数ページにわたる記事

1は写真がメインで文が少ないという記事です.2は「次へ」なんていうリンクがあって,複数ページにわたって記事が書かれている場合. というわけでこの二つの場合にもポケットはうまく機能するのかやってみました.

写真メインの記事(GIGAZINE)

まずは写真メインの記事(GIGAZINE)

結果は完璧でした.

複数ページにわたる記事(ロイターニュース)

次は,複数ページにわたる記事(ロイターニュース),

なんと,全ページまとめて一つにしてくれました.

結論

PocketのHTML本文抽出は素晴らしい.おそらくこれはサービスの核となる機能なので非常に念蜜に研究されているのだろうと思います. 個人でここに行き着くには相当な時間が必要だと考えられました. そこで,APIはないのか調べてみると,なんとありました.

これを使えば,素人でもpocketのHTML本文抽出機能を使うことができますね.感謝です.

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中