確率統計
確率(probability)
(言語と計算 (4) 確率的言語モデルpp.1-2)
事象(event):標本空間の部分集
経験的確率(empirical probability)または相対頻度(relative frequency):で定める経験的な確率
ただし、を観測結果の総数、を観測結果の中でが生起した回数とする。
・ 任意の事象に対して、
・ 全事象に対して、
・ 互いに排反な事象に対して、
完全加法族(completely additive class)または集合体(-field):次の条件を満たす事象の族
・
・ 補集合
・
確率空間(probability space):の三つ組み
確率変数(random variable, stochastic variable) がある特定の数値をとる確率が定まっているときの(標本空間からのへの関数となっている)。
離散確率変数、ある事象に対して、
確率関数(probability function):確率分布(probability distribution)を表す関数
確率関数:
--確率質量関数(probability mass function) | (discrete) |
--確率密度関数(probability density function) | (continuous) |
確率
(累積)密度関数( (cumulative) distribution function )
、
モーメント(moment):
期待値(expected value)もしくは平均(mean): (を剛体の質量密度→重心)
分散(variance): (を剛体の質量密度→慣性モーメント)
歪度:(非対称性、のとき対称)
平均ベクトル:
共分散(covariance):
(分散)共分散行列(variance covariance matrix):
ジェンセンの不等式(Jensen's inequality):(イェンゼンの不等式 - Wikipedia)
を実数上の上に凸な関数としたとき、
を確率密度関数と考えると、
※をとして、ほげほげ→算術平均(相加平均)幾何平均(相乗平均)が得られる。
標本空間(sample space):ある確率分布における値が取りうる範囲
標本に対して、
標本平均(sample mean) または算術平均(arithmetic mean):
標本分散(sample variance):
※母分散の不偏推定量を単に分散と呼ぶ場合もあ(確率・統計 (理工系の数学入門コース 7)p136)
同時確率(結合確率)(joint probability):
条件付確率(conditional probability):、色々なに対する条件付確率をと表す
乗法定理:
(の)周辺確率:
特に、としたとき、
ベイズの定理(Bayes' theorem):
とが独立(independent)とが従属(dependent)
特に、 としたとき、
は互いに独立
が与えられたときが条件付独立(conditionally independent)
離散確率分布の例
ベルヌーイ分布(Bernoulli distribution):
の取りうる値が2値(確率で1、確率で0)
多変数ベルヌーイ分布(multivariate Bernoulli distribution):
の取りうる値がそれぞれ2値(確率で1、確率で0)
ただし、では互いに独立
2項分布(Binomial distribution):
ある事象が生起する確率,しない確率の独立な試行(ベルヌーイ試行)を回行ったとき、が回生起する確率分布
(確率・統計 (理工系の数学入門コース 7)pp.71-72)
多項分布(multinomial distribution):
排反事象 ()が生起する確率がそれぞれ の独立な試行を回行ったとき、がそれぞれ回生起する確率分布。
ただし、,
、
(確率・統計 (理工系の数学入門コース 7)p79)
ポアソン分布(Poisson distribution):
めったに起こらない事象に対して、ベルヌーイ試行を何回も行ったときが回生起する確率分布
(確率・統計 (理工系の数学入門コース 7)pp.75-76)
に関して上に凸(言語処理のための機械学習入門 (自然言語処理シリーズ)p60)
連続確率分布の例
ディリクレ分布(Dirichlet distribution):
多項分布のパラメータの確率分布として使うことが多い(※極端なパラメータにはなりにくい)
、
正規化項
(http://www.cis.nagasaki-u.ac.jp/~masada/DirDistNorm.pdf:)
※実部が正となる複素数について、
一般の複素数については、
自然数、実数に対して、
(大学編入試験問題 数学/徹底演習p140)
(ガンマ関数 - Wikipedia)
最尤推定(maximum likelihood estimation)
・独立に同一の確率分布に従う(independently, identically distributed; i.i.d.)データ:
確率変数の標本データの生起確率(尤度)が
尤度(likelihood) | |
対数尤度(log-likelihood) |
と書けることを保証する仮定。
確率変数のとりうる全ての値について、
が中で出現した回数
と表せる。
最尤推定(maximum likelihood estimation):
(対数)尤度が最も高くなるようにパラメータを推定する。「できる限りデータにフィットさせる」推定方法。
凸性を考慮しながら、変微分=0、ラグランジュ乗数法などで最大値を求める。
MAP推定(MAP estimation)
パラメータの確率分布が分かっているとする。これをパラメータの事前確率分布(prior distribution)とよぶ。
一方、データが与えられたときのパラメータの確率分布を、事後確率分布(posterior distribution)とよぶ。
最大事後確率推定(maximum a posterior estimation)またはMAP推定(MAP estimation):
事後確率が最大になるようにパラメータを決定する。
として、を最大化するパラメータを求める。つまり、を確率変数とみなし、がどんな値をとりややすいかについても考慮している。
ベイズ推定(Bayesian inference)
ベイズ推定(Bayesian inference):パラメータを確率変数として扱い、パラメータの様々な値の影響を足し合わせるような枠組み
Latent Dirichlet Allocationに代表されるベイズ文書モデルの基盤となっている。
(http://clipmarks.com/clipmark/7DCBC6C4-7BB7-4283-AE07-F162880D25D4/)