単語は不連続変数だけど,連続変数として考えたいんだ

一般に,単語は不連続変数だと考えられていると思う. なぜなら,例えアルファベット順に並べたとしても,”a”という単語と”b”という単語の間が定義できないからだ. なので単語wの生起確率p(w)を考えるとき,パラメトリックモデルを使うなら, 不連続型のモデル(例えば多項分布)を考えてそのパラメータを最尤推定することが多いと思う. なんとなくのイメージだが,不連続型のモデルの推定の方が,連続型より難しい気がするのは僕だけだろうか. 本当になんとなくだが,不連続型の推定は不安定な気がする.本当になんとなくでなんの根拠もない. 単語というのは本当に不思議で,標本空間が定まっていない(と思う). よく出て来るサイコロや,コイントスなんかはビシッと定まっているのに(まぁ7の目があるサイコロを作れば破綻するんだけども). 今日も新たな単語は誕生し,ボキャブラリーにないから生起確率は0だと推定されているのではないだろうか (確かボキャブラリーになくてもある程度の生起確率を与えられる推定法(MAP推定)があった気がするが).

では,2単語間の距離はどうだろう.単語w1w2の距離d(w1, w2)は一応定義できるし,これは連続的な値だ. そうすると,条件付き確率みたいなものが考えられる気がする. 単語w’から見た,単語wの生起確率p(w|w')は以下のようにして考えることができる.

\displaystyle  p(w|w') = \frac{d(w, w')}{\int_V d(w, w') dw}

ただし,Vはボキャブラリー. これの推定には明らかに連続型のモデル(例えば正規分布)が使える. 今回は単語の話なので,単語間の距離というちょっと普段使わないようなものが出て来てしまったが, これは文,文章へと用意に拡張できる.

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中