確率統計 - kanetaiの二次記憶装置

確率(probability)

(言語と計算 (4) 確率的言語モデルpp.1-2)
事象(event)：標本空間の部分集
経験的確率(empirical probability)または相対頻度(relative frequency)： $P(A)=\frac{C(A)}{N}$ で定める経験的な確率
ただし、 $N$ を観測結果の総数、 $C(A)$ を観測結果の中で $A$ が生起した回数とする。
・任意の事象 $E$ に対して、 $0\leq P(E)\leq 1$
・全事象 $\Omega$ に対して、 $P(\Omega )=1$
・互いに排反な事象 $A_1, A_2, \cdots$ に対して、 $P(\bigcup_{i=1}^\infty ) = \sum_{i=1}^\infty P(A_i )$
完全加法族(completely additive class)または $\sigma$ 集合体( $\sigma$ -field)：次の条件を満たす事象の族 $\beta$
・ $\Omega \in \beta$
・ $A \in \beta \Rightarrow$ 補集合 $A^C \in \beta$
・ $A_i \in \beta (i=1,2,\cdots )\Rightarrow \bigcup_{i=1}^\infty \in \beta$
確率空間(probability space)： $(\Omega ,\beta ,P)$ の三つ組み

確率変数(random variable, stochastic variable) $X$ がある特定の数値 $x$ をとる確率が定まっているときの $X$ (標本空間からの $\mathbb{R}$ への関数となっている)。
離散確率変数 $X$ 、ある事象 $A$ に対して $X:\Omega\rightarrow \mathbb{R}$ 、 $P(A)=P(\{ \omega \in \Omega | X(\omega )\in A\} )$
確率関数(probability function) $p(x)$ ：確率分布(probability distribution)を表す関数
確率関数：

--確率質量関数(probability mass function)	(discrete)
--確率密度関数(probability density function)	(continuous)

確率
${ \begin{cases} P(X=x) = P(\{ \omega \in \Omega | X(\omega )= x\} )=p(x), P(a\leq X\leq b) = \sum_{a < x \leq b}p(x) & (discrete) \\ P(a\leq X\leq b) = \int_a^b p(x) dx & (continuous) \end{cases} }$
(累積)密度関数( (cumulative) distribution function )
${ F_X(x) = P(-\infty < X \leq x) = P(a < X \leq b) = F_X(b) - F_X(a) }$
$F_X(-\infty) = 0$ 、 $F_X(\infty)=1$
${ \begin{cases} \sum_x p(x) = 1 & (discrete) \\ \int _{-\infty}^{\infty} dx = 1 & (continuous) \end{cases} }$

モーメント(moment)：
$E[\varphi(X)] = \begin{cases} \sum_x \varphi(x)p(x) & (discrete) \\ \int_{-\infty}^{\infty} \varphi(x)p(x) & (continuous) \end{cases}$
期待値(expected value)もしくは平均(mean)： $\mu = E[X]$ 　( $p(x)$ を剛体の質量密度→重心)
分散(variance)： $\sigma ^2 = V[X] = E[(X-\mu)^2]$ 　( $p(x)$ を剛体の質量密度→慣性モーメント)
歪度： $\gamma = E[(X-\mu )^3]$ (非対称性、 $\gamma =0$ のとき対称)
平均ベクトル： ${\bf \mu}=E[{\bf X}]=\left [ E[X_1] , E[X_2] , \cdots , E[X_d] \right. ] ^T$
共分散(covariance)： $C[X_1,X_2] = E[(X_1 - E[ X_1])(E_2-E[ X_2])]$
(分散)共分散行列(variance covariance matrix)：
${\bf \Sigma} = V[ {\bf X}] = E[ ({\bf X}-{\bf \mu})({\bf X}-{\bf \mu})^T] = \left [ \begin{array}{cccc} V[ X_1] & C[ C(X_1 ,X_2)] & \cdots & C[ X_1, X_d] \\ C[ X_2, X_1] & V[ X_2] & \cdots & C[ X_2, X_d] \\ \vdots & \vdots & \ddots & \vdots \\ C[ X_d, X_1] & C[ X_d, X_2] & \cdots & V[ X_d] \end{array} \right ]$

ジェンセンの不等式(Jensen's inequality)：(イェンゼンの不等式 - Wikipedia)
$f(X=x)$ を実数上の上に凸な関数としたとき、
$\left \{ \begin{array}{ll} \sum_i p_if(x_i ) \geq f\left ( \sum_i p_i x_i \right ) & (p_i > 0, \sum_i p_i =1)\\ \int f(y(x)) p(x) dx \geq f \left( \int y(x)p(x) \right ) & (p(x)>0, \int p(x)dx =1)\end{array} \right.$
$p(x)$ を確率密度関数と考えると、
$E[ f(X)] \geq f(E[ X] )$
※ $f$ を $\log$ として、ほげほげ→算術平均(相加平均) $\geq$ 幾何平均(相乗平均)が得られる。

標本空間(sample space)：ある確率分布における値が取りうる範囲
標本 $D=\{ x^{(1)}, x^{(2)}, \cdots , x^{(|D|)}\}$ に対して、
標本平均(sample mean) または算術平均(arithmetic mean)：
$\bar X = \frac{1}{|D|} \sum_{x^{(i)}\in D} x^{(i)}$
標本分散(sample variance)：
$S^2 = \frac{1}{|D|} \sum_{x^{(i)} \in D} (x^{(i)}- \bar X)^2$
※母分散 $\sigma ^2$ の不偏推定量 $=\frac{|D|}{|D|-1}S^2$ を単に分散と呼ぶ場合もあ(確率・統計 (理工系の数学入門コース 7)p136)

同時確率(結合確率)(joint probability)： $P(X=x, Y=y)$
条件付確率(conditional probability)： $P(X=x|Y=y)$ 、色々な $x,y$ に対する条件付確率を $P(X|Y)$ と表す
乗法定理： $P(x,y)=P(x|y)P(y)=P(y|x)P(x)$
( $x$ の)周辺確率：
$P(x) = \sum_y P(x,y)$

特に、 $x_i ^j = x_i,x_{i+1},\cdots ,x_j$ としたとき、
$\begin{array}{ll} P(x_1,x_2,\cdots,x_K) & = P(x_1,x_2,\cdots , x_k|x_{k+1},x_{k+2},\cdots,x_{K})P(x_{k+1},x_{k+2},\cdots,x_{K}))\\ &= \prod _{i=0}^{K} P(x_i|x_1^{i-1}) \end{array}$
ベイズの定理(Bayes' theorem)：
$P(x_i ^j | x_{j+1}^{k}, x_{k+1}^{K}) = \frac{P(x_i ^j|x_{k+1}^K)P(x_{k+1} ^K | x_i ^ j, x_{k+1}^{K})}{P(x_{j+1}^{k}| x_{k+1}^{K})}$

$X$ と $Y$ が独立(independent) $\leftrightarrow X$ と $Y$ が従属(dependent)
$\Leftrightarrow P(X=x,Y=x) = P(X=x)P(Y=y)$
$\Leftrightarrow P(x|y)P(y)=P(x)P(y)$
$\Leftrightarrow P(x|y)=P(x)$

特に、 $x_i ^j = x_i,x_{i+1},\cdots ,x_j$ としたとき、
$X_1, X_2, \cdots , X_d = \prod _i P(X_i) \Leftrightarrow X_i(1\leq i \leq d)$ は互いに独立
$x_{k+1}^K$ が与えられたとき $x_1 ^i , x_{i+1}^k$ が条件付独立(conditionally independent)
$\Leftrightarrow P(x_1 ^i , x_{i+1}^k|x_{k+1}^K)=P(x_1^i|x_{k+1}^K)P(x_{i+1}^k|x_{k+1}^K)$
$\Leftrightarrow P(x_1 ^i|x_{i+1}^j ,x_{k+1}^K)P(x_{i+1}^j|x_{k+1}^K)=P(x_1 ^i|x_{k+1}^K)P(x_{i+1}^j|x_{k+1}^K)$
$\Leftrightarrow P(x_1 ^i|x_{i+1}^j ,x_{k+1}^K)=P(x_1 ^i|x_{k+1}^K)$

離散確率分布の例

ベルヌーイ分布(Bernoulli distribution)：

$X$ の取りうる値が2値(確率 $p=\bar X$ で1、確率 $1-p$ で0)
$\begin{array}{ll} p_{Bernoulli}(x;p) = P(X=x;p) & = \delta(x,a)+\delta(x,b)(1-p)\\ &= \delta(x,a)p+(1-\delta(x,a))(1-p)\\ &= p^{\delta(x,a)}(1-p)^{1-\delta (x,a)} \end{array}$

多変数ベルヌーイ分布(multivariate Bernoulli distribution)：

${\bf X}$ の取りうる値がそれぞれ2値(確率 ${\bf p}$ で1、確率 ${\bf 1}-{\bf p}$ で0)
ただし、 ${\bf X}=[X_1, X_2, \cdots , X_m] ,{\bf p}=[p_1,p_2, \cdots , p_m]$ で $X_i\ (1 \leq i \leq m)$ は互いに独立
$p_{Bernoulli}({\bf x};{\bf p}) = P({\bf X};{\bf p}) = \prod_{i=1}^{m} (\delta(x_{i},1)p_{i}+(\delta(x_{i},0)(1-p_{i}))$

2項分布(Binomial distribution)：

ある事象 $A$ が生起する確率 $p$ ,しない確率 $1-p$ の独立な試行(ベルヌーイ試行)を $n$ 回行ったとき、 $A$ が $X=x$ 回生起する確率分布
$p_{Bin}(X=x;p,n)=P(X=x;p,n){}_n C _x p^x(1-p)^{n-x}$
$\mu = np, \sigma ^2 = np(1-p)$ (確率・統計 (理工系の数学入門コース 7)pp.71-72)

多項分布(multinomial distribution)：

排反事象 $A_i$ ( $1\leq i\leq I$ )が生起する確率がそれぞれ $p_i$ の独立な試行を $n$ 回行ったとき、 $A_i$ がそれぞれ $x_i$ 回生起する確率分布。
ただし、 $\sum _i p_i = 1$ , $\sum_i x_i = n$
$p_{multi}({\bf x};{\bf p}) = P({\bf X}={\bf x};{\bf p},n) = \frac{n!}{\prod _i x_i!}\prod_i p_i ^{x_i}$
${\bf \mu} = [np_1, np_2, \cdots , np_I]^T$ 、 ${\bf \sigma^2} = [\sigma_1 = np_2(1-p_2), \sigma_2 = np_2(1-p_2) , \cdots , \sigma_I = np_I(1-p_I)]^T$
(確率・統計 (理工系の数学入門コース 7)p79)

ポアソン分布(Poisson distribution)：

めったに起こらない事象 $A$ に対して、ベルヌーイ試行を何回も行ったとき $A$ が $X=x$ 回生起する確率分布
$p_{poisson}(x;\mu) = P(X=x;\mu) = \frac{\mu ^x}{x!}e^{-\mu}$
$\mu = \sigma ^2$ (確率・統計 (理工系の数学入門コース 7)pp.75-76)
$\mu$ に関して上に凸(言語処理のための機械学習入門 (自然言語処理シリーズ)ｐ６０)

連続確率分布の例

正規分布(normal distribution)またはガウス分布(Gaussian distribution)：

$p_{gauss}(x;\mu ,\sigma) = \frac{1}{\sqrt{2\pi \sigma ^2}} \exp \left( -\frac{(x-\mu)}{2\sigma ^2} \right)$
$p_{gauss}({\bf x};{\bf \mu},{\bf \Sigma}) = \frac{1}{\sqrt{(2\pi )^d} \sqrt{|{\bf \Sigma}|}} \exp \left( -\frac{1}{2}({\bf x}-{\bf \mu})^T {\bf \Sigma}^{-1} ({\bf x}-{\bf \mu}) \right)$
特に独立の場合、特に独立の場合、 $p_{gauss}({\bf x};{\bf \mu},{\bf \Sigma}) = \frac{1}{\sqrt{(2\pi \sigma ^2 )^d }} \exp \left( -\frac{||{\bf x}-{\bf \mu}||^2 }{2\sigma ^2 }\right)$

ディリクレ分布(Dirichlet distribution)：

多項分布のパラメータの確率分布として使うことが多い(※極端なパラメータにはなりにくい)
${ {\bf x}=[x_1, x_2, \cdots , x_n] }$ 、 ${ {\bf \alpha} = [\alpha _1 , \alpha _2 , \cdots , \alpha _n]^T }$
${ p_{Dirichlet}({\bf x};\alpha) = \frac{1}{\int \prod _i ^n x_i ^{\alpha _i -1} d{\bf x} }\prod_i ^n x_i ^{\alpha_i -1} ,\left \{ {\bf x} \left | \sum_i x_i =1, x_i\geq 0 \right. \right \} }$
正規化項　
${ \int_{ \left \{ {\bf x} \left | \sum_i x_i =1, x_i\geq 0 \right. \right \} } \prod _i ^n x_i ^{\alpha _i -1} d{\bf x} = \frac{\prod _i \Gamma(\alpha_i)}{\Gamma(\sum_i \alpha_i)} }$
(http://www.cis.nagasaki-u.ac.jp/~masada/DirDistNorm.pdf:)
※実部が正となる複素数 $z$ について、
$\Gamma(z) = \int _0 ^{\infty} t^{z-1}e^{-t}dt$
一般の複素数 $z$ については、
$\Gamma(x) = \lim _{n\rightarrow \infty} \frac{n^z n!}{\prod _{k=0}^n (z+k)}$
自然数 $n$ 、実数 $p$ に対して、
$\Gamma(1)=1,\Gamma(p+1)=p\Gamma(p),\Gamma(n+1)=!n,\Gamma(\frac{1}{2})=\sqrt{\pi}$
(大学編入試験問題数学/徹底演習p140)
(ガンマ関数 - Wikipedia)

最尤推定(maximum likelihood estimation)

・独立に同一の確率分布に従う(independently, identically distributed; i.i.d.)データ:
確率変数 $X$ の標本データ $D=\{ x^{(1)}, \cdots , x^N \}$ の生起確率(尤度) $P(D)$ が

尤度(likelihood)	$P(D)=\prod_{x^{(i)}\in D}P(x^{(i)})$
対数尤度(log-likelihood)	$\log P(D) = \log \prod_{x^{(i)}\in D} p(x^{(i)}) = \sum_{x^{(i)}\in D} \log p(x^{(i)})$

と書けることを保証する仮定。

確率変数 $X$ のとりうる全ての値 $x$ について、
$\log P(D) = \sum_x n_x \log P(x)$
$n_x: x$ が $D$ 中で出現した回数
と表せる。

最尤推定(maximum likelihood estimation)：
(対数)尤度が最も高くなるようにパラメータを推定する。「できる限りデータにフィットさせる」推定方法。
凸性を考慮しながら、変微分=0、ラグランジュ乗数法などで最大値を求める。

MAP推定(MAP estimation)

パラメータ $\theta$ の確率分布 $P(\theta )$ が分かっているとする。これをパラメータの事前確率分布(prior distribution)とよぶ。
一方、データ $D$ が与えられたときのパラメータ $\theta$ の確率分布 $P(\theta |D)$ を、事後確率分布(posterior distribution)とよぶ。

最大事後確率推定(maximum a posterior estimation)またはMAP推定(MAP estimation)：
事後確率が最大になるようにパラメータを決定する。
$\begin{array}{ll} \arg \max_\theta \left. P(\theta |D) \right. & = \arg \max _\theta \frac{P(\theta )P(D|\theta )}{P(D)} \\ & = \arg \max _\theta P(\theta )P(D|\theta ) \\ \arg \max_\theta \log P(\theta |D) & = \arg \max_\theta \log P(\theta )P(D|\theta ) \\ & = \arg \max_\theta \left \{ \log P(\theta) + \sum_{x^{(i)}\in D} \log P(x^{(i)}|\theta ) \right \} \end{array}$
として、 $P(\theta )P(D|\theta )$ を最大化するパラメータ $\theta$ を求める。つまり、 $\theta$ を確率変数とみなし、 $\theta$ がどんな値をとりややすいかについても考慮している。

ベイズ推定(Bayesian inference)

ベイズ推定(Bayesian inference)：パラメータを確率変数として扱い、パラメータの様々な値の影響を足し合わせるような枠組み
Latent Dirichlet Allocationに代表されるベイズ文書モデルの基盤となっている。
(http://clipmarks.com/clipmark/7DCBC6C4-7BB7-4283-AE07-F162880D25D4/)