情報理論
エントロピー(entropy)
エントロピー(entropy):確率変数がどの値を取るかを言い当てにくさ(乱雑さ)、不確かさを測る尺度。
確率変数を持つ離散分布に対して、確率変数のエントロピーは
※はロピタルの定理から?
ここで、ギブスの不等式より、とすれば、
エントロピーの上限が求まる。
※ギブスの不等式は対数の性質を使って、あるいは、ジェンセンの不等式を使って証明できる。(ギブスの不等式 - Wikipedia)
エントロピーは、確率分布(確率変数)に対して定義される量である。
× | 「データのエントロピー」 |
○ | 「あるデータが従う確率分布のエントロピー」 |
○ | 「データの経験分布のエントロピー」 |
※データの経験分布は、で決まる分布のこと(言語処理のための機械学習入門 (自然言語処理シリーズ)p51)。
条件付エントロピー(conditional entropy):
が与えられたときのの条件付きエントロピーは
が与えられたときのの条件付きエントロピーは
※の前は同時確率だが、の中身は条件付確率であることに注意
KLダイバージェンス(KL divergence)
カルバック・ライブラー・ダイバージェンス(情報量)(Kullback-Leibler divergence)、KLダイバージェンス(情報量)(KL divergence)、相対エントロピー(relative entropy)、情報利得(Information gain):
二つの確率分布に対して、それらの間の異なり具合を測るものである。
二つの確率分布が与えられたとき、からみたのKLダイバージェンスは
※×「データ間のKLダイバージェンス」
※同じ事象空間上の確率分布でないと定義できない。
※かつのときとなり定義できない。かつの場合はとなって問題ない。
※、=はのときに成り立つ。これはギブスの不等式(Gibbs' inequality)の符号を反転したものである。
※厳密には距離、擬距離ではない
※(言語処理のための機械学習入門 (自然言語処理シリーズ)p52)
非負性 | : |
同一性 | : |
対称性 | : |
三角不等式 | : |
を満たすを距離、同一性を取り除いたものを擬距離という。KLダイバージェンスは対称性と三角不等式を満たさない。
言語処理では、例えば単語間の意味的な遠さを測るためにKLダイバージェンスを用いる。各単語を何らかの確率分布で表し、それらの間のKLダイバージェンスを単語間の意味的な遠さと考える。(言語処理のための機械学習入門 (自然言語処理シリーズ)pp.52-53)
JSダイバージェンス(JS divergence)
相互情報量(mutual information)
自己相互情報量(pointwise mutual information):関連度合いをはかるときなどに用いられる
確率変数のある実現地と別の確率変数の実現値に対して、自己相互情報量は
で定義される。
特に、であれば
とが共起しやすいなら
とが共起しにくいならとなる。
※言語処理では、単に相互情報量と呼ばれることもあるが、情報理論で定義される相互情報量とは異なる。
※は共起性の尺度になっていて、で単体の生起確率の影響を差し引いている。
言語処理のための機械学習入門 (自然言語処理シリーズ)p57の例:
文中で単語が出現する確率を、が同時に出現する確率をとし、は意味的な関連性を示す尺度として使うとする。しかし、が"the"のような頻出語の場合どの単語についても関連があると判断されてしまう。そこで、単語単体での出現確率の影響を差し引いて、正確に共起を測るという目的でMPIを使用できる。
相互情報量(mutual information):
(言語処理のための機械学習入門 (自然言語処理シリーズ)p57)(情報理論の基礎と応用 (電子工学・技術科学シリーズ)p13)