ベイズ統計 第3章 ベイズの展開公式
ベイズ統計
第3章 ベイズの展開公式
3.1 ベイズの展開式の導出
前章では乗法定理からベイズの定理を導き、ベイズの基本公式(1)にたどり着いた。
・・・(1)
Dは結果(データ)、Hはその仮定(原因)であり、は「データDが得られたときの原因がH」である確率であるが、通常想定できる原因は1つではない。仮にその原因が3つあるとし、、、とする。 ここで、原因にのみ着目し、(1)のHをに置き換えると、
・・・(2)
となり、これを出発点とする。
3つの原因、、が排他的である(ダブりはない)とすると、原因Dは次のように展開できる。
図1
・・・(3)
図1のようにDを得る確率は、、、の3つの和で表現される部分から得られる確率の和となる。 ここで、この(3)の右辺の各項に、確率の乗法定理を適用してみる。 乗法定理は、であるので、
・・・(4)
となる。これを(2)に代入すると、
・・・(5)
となる。 (5)は原因として、、、 の3つを仮定したものであるが、データDの原因としてn個のものを考えるとこれを一般化することができる。
データDは、原因、、・・、のどれか1つから生まれると仮定する。このとき、データDが得られたとき、その原因がである確率は、
・・・(6)
となり、これをベイズの展開公式という。 各原因からデータの得られる確率と、データを得る前の原因の確率が得られたときに、データDが得られたとき原因がである確率を表す公式である。
3.2 尤度、事後確率及び事後確率
ベイズの展開式(6)のうち、、及びには、それぞれ統計学的な意味がある。 右辺の分子にあるを原因の尤度という。これは、原因のもとでデータDが得られる尤もらしい確率を表す。 次に尤度の左隣にあるを事前確率という。データDの影響をまだ考慮していない、分析前の原因の起こる確率なので、そう呼ばれる。 また、左辺にある原因の確率を事後確率という。ベイズの基本公式を用いてデータDを考慮して得られた分析後の原因の確率であるため。
:尤度 原因のもとでデータDが得られる確率
:事前確率 データDを得る前の原因の確からしさ
:事後確率 データDが原因から得られた確率
3.3 ベイズの展開公式の利用例
例1:ある地方の気象統計では、10月1日に晴れ、曇り、雨の確率は0.3、0.6、0.1である。翌10月2日に雨の確率は、1日が晴れのときは0.2、曇りのときは0.5、雨のときは0.4である。この地方で、2日が雨のとき前日1日が曇りの確率を求めよ。
まず、記号を定義する。 そうすると各尤度は、 、、
各事前確率は、 、、
ベイズの展開式(6)から10月2日が雨のとき10月1日が曇りの確率(事後確率)は、
この計算仮定は、一般化することができベイズ理論の計算の流れもこの手順に従うこととなる。
①モデル化し、それから尤度を算出する。 ②事前確率を設定する。 ③ベイズの展開公式を用いて事後確立を算出する。
例2:赤玉と白玉合わせて3個入った壷が3つある。1つには赤玉が1個、もう1つには赤玉が2個、残りの1つには赤玉が3個入っている。これら3つの壷の1つから玉を取り出したところ、それが赤玉であった。取り出された赤玉が「赤玉3個の入った壷」からの玉である確率を求める。ただし、3つの壷が選ばれる確率は順に3:2:1とする。
まず、記号を定義する。 そうすると各尤度は、 、、
各事前確率は、3つの壷が選ばれる確率は順に3:2:1であることから、 、、
ベイズの展開式(6)から取り出した赤玉が赤玉3個の壷からのものである確率(事後確率)は、
3.4 ベイズ更新
例3:くじが10個入った箱が2つある。1つは当たりくじが5個、もう1つには当たりくじが1個入っている。2つの箱の1つからくじを引いたところ、ハズレ⇒当たり⇒当たりであった。引いたくじが当たりくじ5個の箱からである確率を求める。なお、引いたくじは箱に戻すものとする。
この例3は、これまでの例と異なり、複数のデータが得られたときの処理を考えることになる。 ベイズ理論は、このように独立して得られる複数のデータを、1つのデータのときと同じように処理することができ、しかも1データずつ逐次処理していくことが可能である。実際に、どのように処理されるかを以下に説明する。
まず、記号を定義する。 そうすると、各尤度は、 、、、 となる。 ここで、2つの箱が選ばれる確率が与えられていないため、これまでの例のように事前確率を計算することができない。 こういうとき、ベイズ理論は何も条件が無いのなら事前確率として各々の箱の選択確率は等確率になるという考え方をする。 これを、理由不十分の原則という。 少々理解しにくいかも知れないが、天気が雨・晴れ・曇りの3通りならそれぞれ1/3の確率とする、箱の中の猫が生きているか死んでるかわからないのなら、生きている確率を1/2、死んでいる確率を1/2ととりあえず設定しておこうという発想である。
そうすると、事前確率は、 、 となる。 これをベイズの展開式(6)に代入して事後確率を求めると、最初のくじは外れであったため、
・・・(7)
・・・(8)
となる。最初に引いたのがハズレであったため、当たりくじが1個である箱からである確率が高くなっている。
次に2回目のくじ引きの結果である当たりにベイズの展開公式(6)を適用する。 計算方法は、1回目と基本的に変わらないが、事前確率をどうしたらよいのか? そこで、用いられるのがベイズ更新という考えで、1回目の事後確率を2回目の事前確率として利用する。 つまり、(7)と(8)を用いて、事前確率は、 、 となる。 そして、2回目のくじ引きの結果は当たりであったため、
・・・(9)
・・・(10)
となる。2回目で当たりくじを引いたことで、当たりくじが5個である箱からである確率が急激に高くなっている。
同様にベイズ更新を用いて、3回目くじ引きの結果である当たりにベイズの展開公式(6)を適用する。 (9)と(10)を用いて、事前確率は、 、 となる。 そして、3回目のくじ引きの結果は当たりであったため、
・・・(11)
・・・(12)
となる。
なお、ハズレ⇒当たり⇒当たりという順番で今回はくじを引いているが、この順番が変わったとしても(当たり⇒当たり⇒ハズレ、当たり⇒ハズレ⇒当たりetc)計算結果に違いは生じない。これをベイズ理論の逐次合理性という。
試しに、当たり⇒当たり⇒ハズレと引いた場合について計算し結果を比べてみる。
理由不十分の原則より 事前確率:、
1回目は当たりなので
ベイズ更新により 事前確率:、
2回目は当たりなので、
ベイズ更新により 事前確率:、
3回目はハズレなので、
同じ結果となることがわかる。