データサイエンス分析テクニック理論解説確率論

イメージで理解できる『条件付き』の意味【ベン図をビジネスに持ち込む】

データサイエンス

データを見るとき、ベン図のイメージは非常に便利なツールです。ベイズ確率を習得する際も、ベン図でイメージできるかどうかは習熟度に大きく関係していると思います。

ベン図でイメージするポイントは、

『条件付き』がどの部分になっているのかを確実に捉える

に尽きます。そして、

現実世界で情報が色々と分かってくると、『条件付き』によって有効なデータが絞られる

ということをイメージできれば、より確率ベースの思考ををビジネス現場を落とし込みやすくなるでしょう。

二項対立のイメージおさらい

手っ取り早くイメージするには効果てきめんの『二項対立』ですが、これはあくまで最初のイメージに過ぎず、全体の一部分を見ているだけです。このイメージのまま仮説を考えたりデータ収集作業を進めると、非常に危険です。

例えば、ある新商品が発表されたとします。すると、その新商品を評価するグループと、批判するグループが必ず発生します。ここまでは二項対立の有効な使い方ですが、これは「Aだけでなく、対立するBも拾うことで一元的な見方をしてしまう危険を回避できた」という状態に進んだだけで、まだデータ活用のレベルに達していません。

 

ベン図で「その他」のグループを用意する

次にすべきことは、AでもBではない「その他」を設定します。すると、そもそも新商品に関わらないグループの存在が目に見えてきます。

例えば、「ラーメンはA.醤油かB.とんこつか」という争いがあったとします。すると、「その他グループ」というのは、塩ラーメンだったり担々麺だったり…AでもBでもないグループですね。

この「その他グループ」の重要な役目は、「AとBのスケール感が想像できる」という点です。その他が大きければ大きいほど相対的に対立しているAとBは小さくなり、あまりに小さければその問題自体が大した話題ではないことになります。別の話題に移ったほうが時間のムダにならなくて済みますね。

またこの「その他グループ」は、「興味がないので関係がない」「まだ知らない」「いつかはAかBのグループをになるかもしれない」という選択肢が残されます。

 

AとBを「AかつB」を設定する

この状態のベン図は学校で習ったときから頻繁に目にしてきていると思います。A.醤油とB.とんこつなら、「とんこつ醤油ラーメン」を支持する人たちです。とんこつも醤油も好きなので、ちょうどAとB両者が重なる部分に位置します。

 

このAとBが重なっている部分を、学校では次のように表すと習いました。

$A\cap B$

「AキャップB」と読みます。

「条件付き」はどういうイメージなのか

ビジネスデータを見るときに避けて通れないのは『条件付き確率』です。この「条件付き」というのは、

ということになります。

先ほどの例だと、A.醤油ラーメン好きの集会が行われており、会場にはA.醤油のグループしかいない=A.に関係している人しかいない世界を想像します。すると、このAが母数となり、「醤油ラーメンが好きな人のうち…」という考え方になります。

 

 

どのようなときに「条件付き」が発生しているのか?

結論から言えば、新しい情報が入ってきたとき、その時点で条件付きが発生しています。

ベイズ確率の分野で有名な例で「あなたがある病気の検査で陽性と出たとき、本当に陽性である確率はどれくらい?」というものがあります。これは、まず「あなたは陽性か陰性か分からない」という形でスタートしていて、次に「最初の検査で陽性と出た」という新しい情報が入ってきたため、「あなたが最初の検査で陰性」という世界は無くなった、となります。

先ほどの例だと、

αさんはラーメンは醤油かとんこつか醤油ラーメンに決めているらしい。αさんが「醤油は好きですよ」と言ったので、B.とんこつだけを支持するグループではないことが確定した。だから、A.醤油ラーメン好きの集会にいる。

となります。あとは、αさんは醤油ラーメンかとんこつ醤油ラーメンのどちらかの支持者になるので、もう少し情報があれば絞れる=真実が判明する、ということになります。

大事なのは、新しい事実が判明したら、計算に使用する集団(=母数)自体が変化しているという点です。

これを見誤ると、確率を計算する際に分母を間違った状態で計算することになるため、確実に理解しておく必要があります。

 

【話題(課題)】によって有効なデータが絞られる例

 

データは往々にして使わない部分が生まれる

ビジネスでデータ分析を活用する際、「まず課題をハッキリとさせよう」というのは、この「条件付き」と深い関係があります。

これが曖昧な状態だと、膨大なデータをいつまでも網羅的に扱っていくことになってしまうのは想像できると思います。

逆に、ある課題をターゲットとすることができれば、その課題に全く関係のないデータは除外することができるため、先ほどのイメージ例のように非常にシンプルな状態に落とし込み、集計レベルで何か発見が出てくる可能性もあります。

『条件付き』の理解はベイズ確率を学ぶ際にも、また実生活でも役に立つ考え方なので是非マスターしてください。

 

コメント

タイトルとURLをコピーしました