共起行列の作成 scipy.sparse.coo_matrix

単語の共起行列をコーパスから作成する手順を紹介する.共起行列はスパースなので,scipy.sparse.coo_matrixを使って実装する.これにより大幅にメモリを削減できる.なお,英語以外のコーパスの使用を考えて文字列は全てUnicodeで処理する.

こんな感じになりました.一応,共起行列の行と列が何を指しているのか知りたいと思うのでvocaburaryも返しています.tokenizerは実装して渡してあげてください.generatorでかまわないです.window_sizeは普通乱数を足したり引いたりすると思うのでそれはお任せします.

Gistで載せたコード,綺麗だ〜〜〜〜.

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中