kanetaiの二次記憶装置

プログラミングに関するやってみた、調べた系のものをQitaに移して、それ以外をはてブでやる運用にしようと思います。http://qiita.com/kanetai

確率統計

確率(probability)

(言語と計算 (4) 確率的言語モデルpp.1-2)
事象(event):標本空間の部分集
経験的確率(empirical probability)または相対頻度(relative frequency): P(A)=\frac{C(A)}{N}で定める経験的な確率
ただし、 Nを観測結果の総数、 C(A)を観測結果の中で Aが生起した回数とする。
・ 任意の事象 Eに対して、 0\leq P(E)\leq 1
・ 全事象 \Omega に対して、 P(\Omega )=1
・ 互いに排反な事象 A_1, A_2, \cdots に対して、 P(\bigcup_{i=1}^\infty ) = \sum_{i=1}^\infty P(A_i )
完全加法族(completely additive class)または \sigma集合体( \sigma-field):次の条件を満たす事象の族 \beta
 \Omega \in \beta
 A \in \beta \Rightarrow 補集合 A^C \in \beta
 A_i \in \beta (i=1,2,\cdots )\Rightarrow \bigcup_{i=1}^\infty \in \beta
確率空間(probability space): (\Omega ,\beta ,P) の三つ組み

確率変数(random variable, stochastic variable)  Xがある特定の数値 xをとる確率が定まっているときの X(標本空間からの \mathbb{R}への関数となっている)。
離散確率変数 X、ある事象 Aに対して X:\Omega\rightarrow \mathbb{R} P(A)=P(\{ \omega \in \Omega | X(\omega )\in A\} )
確率関数(probability function) p(x):確率分布(probability distribution)を表す関数
確率関数:

--確率質量関数(probability mass function) (discrete)
--確率密度関数(probability density function) (continuous)

確率
{ \begin{cases} P(X=x) = P(\{ \omega \in \Omega | X(\omega )= x\} )=p(x), P(a\leq X\leq b) = \sum_{a < x \leq b}p(x) & (discrete) \\ P(a\leq X\leq b) =  \int_a^b p(x) dx & (continuous) \end{cases} }
(累積)密度関数( (cumulative) distribution function )
{ F_X(x) = P(-\infty < X \leq x) = P(a < X \leq b) = F_X(b) - F_X(a) }
 F_X(-\infty) = 0 F_X(\infty)=1
{ \begin{cases} \sum_x p(x) = 1 & (discrete) \\ \int _{-\infty}^{\infty} dx = 1 & (continuous) \end{cases} }

モーメント(moment):
 E[\varphi(X)] = \begin{cases} \sum_x \varphi(x)p(x) & (discrete) \\ \int_{-\infty}^{\infty} \varphi(x)p(x) & (continuous) \end{cases}
期待値(expected value)もしくは平均(mean): \mu = E[X]  ( p(x) を剛体の質量密度→重心)
分散(variance): \sigma ^2 = V[X] = E[(X-\mu)^2]  ( p(x) を剛体の質量密度→慣性モーメント)
歪度: \gamma = E[(X-\mu )^3] (非対称性 \gamma  =0 のとき対称)
平均ベクトル: {\bf \mu}=E[{\bf X}]=\left [ E[X_1] , E[X_2] , \cdots , E[X_d] \right. ] ^T
共分散(covariance): C[X_1,X_2] = E[(X_1 - E[ X_1])(E_2-E[ X_2])]
(分散)共分散行列(variance covariance matrix):
 {\bf \Sigma} = V[ {\bf X}] = E[ ({\bf X}-{\bf \mu})({\bf X}-{\bf \mu})^T] = \left [ \begin{array}{cccc} V[ X_1] & C[ C(X_1 ,X_2)] & \cdots & C[ X_1, X_d] \\ C[ X_2, X_1] & V[ X_2] & \cdots & C[ X_2, X_d] \\ \vdots & \vdots & \ddots & \vdots \\ C[ X_d, X_1] & C[ X_d, X_2] & \cdots & V[ X_d] \end{array} \right ]

ジェンセンの不等式(Jensen's inequality):(イェンゼンの不等式 - Wikipedia)
 f(X=x)を実数上の上に凸な関数としたとき、
 \left \{ \begin{array}{ll} \sum_i p_if(x_i ) \geq f\left ( \sum_i p_i x_i \right ) & (p_i > 0, \sum_i p_i =1)\\ \int f(y(x)) p(x) dx \geq f \left( \int y(x)p(x) \right ) & (p(x)>0, \int p(x)dx =1)\end{array} \right.
 p(x)確率密度関数と考えると、
 E[ f(X)] \geq f(E[ X] )
 f \log として、ほげほげ→算術平均(相加平均) \geq幾何平均(相乗平均)が得られる。

標本空間(sample space):ある確率分布における値が取りうる範囲
標本 D=\{ x^{(1)}, x^{(2)}, \cdots , x^{(|D|)}\} に対して、
標本平均(sample mean) または算術平均(arithmetic mean):
 \bar X = \frac{1}{|D|} \sum_{x^{(i)}\in D} x^{(i)}
標本分散(sample variance):
 S^2 = \frac{1}{|D|} \sum_{x^{(i)} \in D} (x^{(i)}- \bar X)^2
※母分散 \sigma ^2 の不偏推定量 =\frac{|D|}{|D|-1}S^2 を単に分散と呼ぶ場合もあ(確率・統計 (理工系の数学入門コース 7)p136)

同時確率(結合確率)(joint probability): P(X=x, Y=y)
条件付確率(conditional probability): P(X=x|Y=y)、色々な x,yに対する条件付確率を P(X|Y)と表す
乗法定理: P(x,y)=P(x|y)P(y)=P(y|x)P(x)
( xの)周辺確率:
 P(x) = \sum_y P(x,y)

特に、 x_i ^j = x_i,x_{i+1},\cdots ,x_j としたとき、
 \begin{array}{ll} P(x_1,x_2,\cdots,x_K) & = P(x_1,x_2,\cdots , x_k|x_{k+1},x_{k+2},\cdots,x_{K})P(x_{k+1},x_{k+2},\cdots,x_{K}))\\ &= \prod _{i=0}^{K} P(x_i|x_1^{i-1}) \end{array}
ベイズの定理(Bayes' theorem):
 P(x_i ^j | x_{j+1}^{k}, x_{k+1}^{K}) = \frac{P(x_i ^j|x_{k+1}^K)P(x_{k+1} ^K | x_i ^ j, x_{k+1}^{K})}{P(x_{j+1}^{k}| x_{k+1}^{K})}

 X Yが独立(independent) \leftrightarrow X Yが従属(dependent)
 \Leftrightarrow P(X=x,Y=x) = P(X=x)P(Y=y)
 \Leftrightarrow P(x|y)P(y)=P(x)P(y)
 \Leftrightarrow P(x|y)=P(x)

特に、 x_i ^j = x_i,x_{i+1},\cdots ,x_j としたとき、
 X_1, X_2, \cdots , X_d = \prod _i P(X_i) \Leftrightarrow X_i(1\leq i \leq d)は互いに独立
 x_{k+1}^Kが与えられたとき x_1 ^i , x_{i+1}^kが条件付独立(conditionally independent)
 \Leftrightarrow P(x_1 ^i , x_{i+1}^k|x_{k+1}^K)=P(x_1^i|x_{k+1}^K)P(x_{i+1}^k|x_{k+1}^K)
 \Leftrightarrow P(x_1 ^i|x_{i+1}^j ,x_{k+1}^K)P(x_{i+1}^j|x_{k+1}^K)=P(x_1 ^i|x_{k+1}^K)P(x_{i+1}^j|x_{k+1}^K)
 \Leftrightarrow P(x_1 ^i|x_{i+1}^j ,x_{k+1}^K)=P(x_1 ^i|x_{k+1}^K)

離散確率分布の例

ベルヌーイ分布(Bernoulli distribution):

 Xの取りうる値が2値(確率 p=\bar Xで1、確率 1-pで0)
 \begin{array}{ll} p_{Bernoulli}(x;p) = P(X=x;p) & = \delta(x,a)+\delta(x,b)(1-p)\\ &= \delta(x,a)p+(1-\delta(x,a))(1-p)\\ &= p^{\delta(x,a)}(1-p)^{1-\delta (x,a)} \end{array}

多変数ベルヌーイ分布(multivariate Bernoulli distribution):

 {\bf X}の取りうる値がそれぞれ2値(確率 {\bf p}で1、確率 {\bf 1}-{\bf p}で0)
ただし、 {\bf X}=[X_1, X_2, \cdots , X_m] ,{\bf p}=[p_1,p_2, \cdots , p_m] X_i\ (1 \leq i \leq m) は互いに独立
 p_{Bernoulli}({\bf x};{\bf p}) = P({\bf X};{\bf p}) = \prod_{i=1}^{m} (\delta(x_{i},1)p_{i}+(\delta(x_{i},0)(1-p_{i}))

2項分布(Binomial distribution):

ある事象 Aが生起する確率 p,しない確率 1-pの独立な試行(ベルヌーイ試行)を n回行ったとき、 A X=x回生起する確率分布
 p_{Bin}(X=x;p,n)=P(X=x;p,n){}_n C _x p^x(1-p)^{n-x}
 \mu = np, \sigma ^2 = np(1-p)(確率・統計 (理工系の数学入門コース 7)pp.71-72)

多項分布(multinomial distribution):

排反事象 A_i ( 1\leq i\leq I)が生起する確率がそれぞれ p_i の独立な試行を n回行ったとき、 A_iがそれぞれ x_i回生起する確率分布。
ただし、 \sum _i p_i = 1,  \sum_i x_i = n
 p_{multi}({\bf x};{\bf p}) = P({\bf X}={\bf x};{\bf p},n) = \frac{n!}{\prod _i x_i!}\prod_i p_i ^{x_i}
 {\bf \mu} = [np_1, np_2, \cdots , np_I]^T {\bf \sigma^2} = [\sigma_1 = np_2(1-p_2), \sigma_2 = np_2(1-p_2) , \cdots , \sigma_I = np_I(1-p_I)]^T
(確率・統計 (理工系の数学入門コース 7)p79)

ポアソン分布(Poisson distribution):

めったに起こらない事象 Aに対して、ベルヌーイ試行を何回も行ったとき A X=x回生起する確率分布
 p_{poisson}(x;\mu) = P(X=x;\mu) = \frac{\mu ^x}{x!}e^{-\mu}
 \mu = \sigma ^2 (確率・統計 (理工系の数学入門コース 7)pp.75-76)
 \muに関して上に凸(言語処理のための機械学習入門 (自然言語処理シリーズ)p60)

連続確率分布の例

正規分布(normal distribution)またはガウス分布(Gaussian distribution):

 p_{gauss}(x;\mu ,\sigma) = \frac{1}{\sqrt{2\pi \sigma ^2}} \exp \left( -\frac{(x-\mu)}{2\sigma ^2} \right)
 p_{gauss}({\bf x};{\bf \mu},{\bf \Sigma}) = \frac{1}{\sqrt{(2\pi )^d} \sqrt{|{\bf \Sigma}|}} \exp \left( -\frac{1}{2}({\bf x}-{\bf \mu})^T {\bf \Sigma}^{-1} ({\bf x}-{\bf \mu}) \right)
特に独立の場合、特に独立の場合、 p_{gauss}({\bf x};{\bf \mu},{\bf \Sigma}) = \frac{1}{\sqrt{(2\pi \sigma ^2 )^d }} \exp \left( -\frac{||{\bf x}-{\bf \mu}||^2 }{2\sigma ^2 }\right)

ディリクレ分布(Dirichlet distribution):

多項分布のパラメータの確率分布として使うことが多い(※極端なパラメータにはなりにくい)
{ {\bf x}=[x_1, x_2, \cdots , x_n] }{ {\bf \alpha} = [\alpha _1 , \alpha _2 , \cdots , \alpha _n]^T }
{ p_{Dirichlet}({\bf x};\alpha) = \frac{1}{\int \prod _i ^n x_i ^{\alpha _i -1} d{\bf x} }\prod_i ^n x_i ^{\alpha_i -1} ,\left \{ {\bf x} \left | \sum_i x_i =1, x_i\geq 0 \right. \right \} }
正規化項 
{ \int_{ \left \{ {\bf x} \left | \sum_i x_i =1, x_i\geq 0 \right. \right \} } \prod _i ^n x_i ^{\alpha _i -1} d{\bf x} = \frac{\prod _i \Gamma(\alpha_i)}{\Gamma(\sum_i \alpha_i)} }
(http://www.cis.nagasaki-u.ac.jp/~masada/DirDistNorm.pdf:)
※実部が正となる複素数 zについて、
 \Gamma(z) = \int _0 ^{\infty} t^{z-1}e^{-t}dt
一般の複素数 zについては、
 \Gamma(x) = \lim _{n\rightarrow \infty} \frac{n^z n!}{\prod _{k=0}^n (z+k)}
自然数 n、実数 pに対して、
 \Gamma(1)=1,\Gamma(p+1)=p\Gamma(p),\Gamma(n+1)=!n,\Gamma(\frac{1}{2})=\sqrt{\pi}
(大学編入試験問題 数学/徹底演習p140)
(ガンマ関数 - Wikipedia)

最尤推定(maximum likelihood estimation)

・独立に同一の確率分布に従う(independently, identically distributed; i.i.d.)データ:
確率変数 Xの標本データ D=\{ x^{(1)}, \cdots , x^N \}の生起確率(尤度) P(D)

尤度(likelihood)  P(D)=\prod_{x^{(i)}\in D}P(x^{(i)})
対数尤度(log-likelihood)  \log P(D) = \log \prod_{x^{(i)}\in D} p(x^{(i)}) = \sum_{x^{(i)}\in D} \log p(x^{(i)})

と書けることを保証する仮定。

確率変数 Xのとりうる全ての値 xについて、
 \log P(D) = \sum_x n_x \log P(x)
 n_x: xD中で出現した回数
と表せる。

最尤推定(maximum likelihood estimation):
(対数)尤度が最も高くなるようにパラメータを推定する。「できる限りデータにフィットさせる」推定方法。
凸性を考慮しながら、変微分=0、ラグランジュ乗数法などで最大値を求める。

MAP推定(MAP estimation)

パラメータ \theta の確率分布 P(\theta )が分かっているとする。これをパラメータの事前確率分布(prior distribution)とよぶ。
一方、データ D が与えられたときのパラメータ \theta の確率分布 P(\theta |D)を、事後確率分布(posterior distribution)とよぶ。

最大事後確率推定(maximum a posterior estimation)またはMAP推定(MAP estimation):
事後確率が最大になるようにパラメータを決定する。
  \begin{array}{ll} \arg \max_\theta \left. P(\theta |D) \right. & = \arg \max _\theta \frac{P(\theta )P(D|\theta )}{P(D)} \\ & = \arg \max _\theta P(\theta )P(D|\theta ) \\ \arg \max_\theta \log P(\theta |D) & = \arg \max_\theta \log P(\theta )P(D|\theta ) \\ & = \arg \max_\theta \left \{ \log P(\theta) + \sum_{x^{(i)}\in D} \log P(x^{(i)}|\theta ) \right \} \end{array}
として、 P(\theta )P(D|\theta )を最大化するパラメータ \thetaを求める。つまり、 \thetaを確率変数とみなし、 \thetaがどんな値をとりややすいかについても考慮している。

ベイズ推定(Bayesian inference)

ベイズ推定(Bayesian inference):パラメータを確率変数として扱い、パラメータの様々な値の影響を足し合わせるような枠組み
Latent Dirichlet Allocationに代表されるベイズ文書モデルの基盤となっている。
(http://clipmarks.com/clipmark/7DCBC6C4-7BB7-4283-AE07-F162880D25D4/)