数学と物理学のブログ

本業から離れて、趣味である数学と物理学について書きます。

ベイズ統計 第4章 ナイーブベイズ分類器とナイーブベイズフィルター

第1章  確率の基礎
第2章  ベイズの定理からベイズ理論の出発点へ
第3章  ベイズの展開公式

ベイズ統計

第4章 ナイーブベイズ分類器とナイーブベイズフィルター

4.1 ナイーブベイズ分類器とナイーブベイズフィルター

ベイズ分類器とは、ベイズ理論を用いて、与えられたデータを目的のカテゴリーに分類する分類器のモデルをいう。例えば、文書に記載されている特定のキーワードが一定確率であるならば、この文書のカテゴリーは「物理学」「労働法」「社会保険」等といった分類をする。
このベイズ分類器で有名な応用の1つがナイーブベイズフィルターである。ナイーブベイズフィルターは、分類するといっても多数のカテゴリーに分類するのではなく、2つのカテゴリーに分類し不要なものを排除する(まさに、フィルターである)。わかりやすい例は、迷惑メールの排除で、メールに記載されたキーワードから迷惑メールを判別し、排除する。
ここでは、この迷惑メールの排除方法にどのようにベイズ統計が用いられているか見てみる。

4.2 ナイーブベイズフィルターの具体例

迷惑メールであるかどうかを判別するために、4つキーワード「クリック」「キャンペーン」「運営」「停止」に着目すると、これらのキーワードが次の確率で迷惑メールと普通メールに含まれていることが分かっているものとする。

クリック    :迷惑メール 0.6 普通メール 0.2
キャンペーン:迷惑メール 0.5 普通メール 0.1
運営     :迷惑メール 0.05 普通メール 0.45
停止     :迷惑メール 0.01 普通メール 0.3

あるメールを調べてみると、「クリック」「キャンペーン」「停止」の順でこれらのキーワードが1回ずつ記載されていた。
このメールが、迷惑メールであるかどうか判別してみる。
なお、受信メールのうち、迷惑メールと普通メールの比率は8:2の割合であるものとする。

4.2.1 事象(記号)の定義

まず、各事象について、次のとおり記号を定義する。
なお、前章までと同様に、原因をH、データをDで表すこととする。

H_1:受信メールが迷惑メールである。
H_2:受信メールが普通メールである。

D_1:受信メールに「クリック」というキーワードが含まれる。
D_2:受信メールに「キャンペーン」というキーワードが含まれる。
D_3:受信メールに「運営」というキーワードが含まれる。
D_4:受信メールに「停止」というキーワードが含まれる。

メールで出現したキーワードは、順番に「クリック」「キャンペーン」「運営」であったので、これをデータ(D)として次のように定義する。

DD_1→D_2 → D_4

求めたいものは、データがDであるという条件のもので、受信メールが迷惑メールである確率もしくは普通メールである確率であるため、

P(H_1|D)=P(H_1|D_1→D_2 → D_4)

P(H_2|D)=P(H_2|D_1→D_2 → D_4)

と表される。

ベイズ統計 第3章 ベイズの展開公式 - 数学と物理学のブログ

ここで前章で導出したベイズの展開式を用いると、

P(H_1|D)=\frac{P(D|H_1)P(H_1)}{P(D|H_1)P(H_1)+P(D|H_2)P(H_2)}  (1)

P(H_2|D)=\frac{P(D|H_2)P(H_2)}{P(D|H_1)P(H_1)+P(D|H_2)P(H_2)}  (2)

4.2.2 判別条件

式(1)と式(2)を用いれば、迷惑メールであるか普通メールであるかを判別できるが、分母が同じため、次のようになる。

迷惑メール:P(H_1|D)>P(H_2|D) ⇒ P(D|H_1)P(H_1)>P(D|H_2)P(H_2)  (3)

通常メール:P(H_1|D)<P(H_2|D) ⇒ P(D|H_1)P(H_1)<P(D|H_2)P(H_2)  (4)

4.2.3 ベイズ更新による判別

ベイズ更新を用いて、実際に判別をしてみるが、対象とする文書の中の単語はそれぞれ独立であると仮定する。つまり、メールに記載されている各単語は互いに確率的に影響がないものとする。
まず、「受信メールのうち、迷惑メールと普通メールの比率は8:2の割合であるものとする。」としていることから、事前確率P(H_1)P(H_2)を次のように設定する。

  P(H_1)=0.8
  P(H_2)=0.2

ここで、ベイズの展開式を用いてデータD_1が出た場合(「クリック」というキーワードが出た場合)に迷惑メールである確率P(H_1|D_1))と普通メールである確率P(H_2|D_1)を求めると、

  P(H_1|D_1)=\frac{P(H_1)P(D_1|H_1)}{P(D_1|H_1)P(H_1)+P(D_1|H_2)P(H_2)}=\frac{0.8×0.6}{0.6×0.8+0.2×0.2}≒0.9231
  P(H_2|D_1)=\frac{P(H_2)P(D_1|H_2)}{P(D_1|H_1)P(H_1)+P(D_1|H_2)P(H_2)}=\frac{0.2×0.2}{0.6×0.8+0.2×0.2}≒0.0769

となる。

ベイズ更新により、この結果を今度は事前確率とすると

  P(H_1)=0.9231
  P(H_2)=0.0769

同様にして、データD_2が出た場合(「キャンペーン」というキーワードが出た場合)にそれぞれの確率を求めると、

  P(H_1|D_2)=\frac{P(H_1)P(D_2|H_1)}{P(D_2|H_1)P(H_1)+P(D_2|H_2)P(H_2)}=\frac{0.9231×0.5}{0.5×0.9231+0.1×0.0769}≒0.9836
  P(H_2|D_2)=\frac{P(H_2)P(D_2|H_2)}{P(D_2|H_1)P(H_1)+P(D_2|H_2)P(H_2)}=\frac{0.0769×0.1}{0.5×0.9231+0.1×0.0769}≒0.0164

ベイズ更新により、この結果を今度は事前確率とすると

  P(H_1)=0.9836
  P(H_2)=0.0164

同様にして、データD_4が出た場合(「停止」というキーワードが出た場合)にそれぞれの確率を求めると、
  
  P(H_1|D_4)=\frac{P(H_1)P(D_4|H_1)}{P(D_4|H_1)P(H_1)+P(D_4|H_2)P(H_2)}=\frac{0.9836×0.01}{0.01×0.9836+0.3×0.0164}≒0.667
  P(H_2|D_4)=\frac{P(H_2)P(D_4|H_2)}{P(D_4|H_1)P(H_1)+P(D_4|H_2)P(H_2)}=\frac{0.0164×0.3}{0.01×0.9836+0.3×0.0164}≒0.333

となる。これが最後のキーワードであるため、

  P(H_1|D)≒0.667
  P(H_2|D)≒0.333

となり、P(H_1|D)>P(H_2|D)が成り立つため、迷惑メールと判別される。

なお、第3章で説明したベイズ理論の逐次合理性により、「クリック」「キャンペーン」「停止」という順番が変ったとしても結果は同じになる。

4.2.4 単語の独立性による判別

次は、ベイズ更新を用いずに判別してみる。対象とする文書の中の単語はそれぞれ独立であると仮定していることから、P(D|H_1)P(D|H_2)は次のように表すことができる。

P(D|H_1)=P(D_1→D_2 → D_4|H_1)=P(D_1|H_1)P(D_2|H_1)P(D_4|H_1)  (5)
P(D|H_2)=P(D_1→D_2 → D_4|H_2)=P(D_1|H_2)P(D_2|H_2)P(D_4|H_2)  (6)

そして、式(5)と式(6)を式(3)と式(4)に代入すると、判別式は次のようになる。

迷惑メール:P(D_1|H_1)P(D_2|H_1)P(D_4|H_1)P(H_1)>P(D_1|H_2)P(D_2|H_2)P(D_4|H_2)P(H_2)  (7)
通常メール:P(D_1|H_1)P(D_2|H_1)P(D_4|H_1)P(H_1)<P(D_1|H_2)P(D_2|H_2)P(D_4|H_2)P(H_2)  (8)

式(7)の左辺と右辺を求めると、

P(D_1|H_1)P(D_2|H_1)P(D_4|H_1)P(H_1)=0.6×0.5×0.01×0.8=0.0024  (9)
P(D_1|H_2)P(D_2|H_2)P(D_4|H_2)P(H_2)=0.2×0.1×0.3×0.2=0.0012   (10)

となり、迷惑メールと判別されることがわかる。そして、式(9)と式(10)はそれぞれ迷惑メールである確率と普通メールである確率に比例するので、

P(H_1|D)=\frac{0.0024}{0.0024+0.0012}≒0.667
P(H_1|D)=\frac{0.0024}{0.0024+0.0012}≒0.333

これは、4.2.3でベイズ更新を用いて計算した確率と一致する。

4.3 ナイーブベイズ分類器と壷のモデル

このナイーブベイズ分類器は、前章の3.3の例2で利用した壷と玉のモデルと同等である。
ベイズ統計 第3章 ベイズの展開公式 - 数学と物理学のブログ
例えば、「クリック」というキーワードを玉に置き換えてみると、それが「迷惑メール」の壷から出てきた玉か、「普通メール」の壷から出た玉かを判別していることとなる。そして、「クリック」というキーワードが現れる尤度は、各壷に入っている玉の割合で算出される。また、4.2.3で計算したように、事前確率には壷の選択確率、すなわち迷惑メールと普通メールとの経験的なメール数の比があてられることとなる。


続き
第1章  確率の基礎
第2章  ベイズの定理からベイズ理論の出発点へ
第3章  ベイズの展開公式

一般相対性理論を一歩一歩数式で理解する [ 石井 俊全 ]

価格:3,780円
(2019/3/21 13:11時点)
感想(0件)

マンガでわかる量子力学 日常の常識でははかりしれないミクロな世界の現象を解 (サイエンス・アイ新書) [ 福江純 ]

価格:1,188円
(2019/3/21 13:13時点)
感想(2件)