2021年大学入試共通テスト数学ⅡBの統計学に関する問題を勝手にビジネスデータ分析してみる③【確率分布の理解編】

前回は2021大学入試共通テスト（独立行政法人大学入試センター）の数学Ⅱ・Bのうち、選択問題第３問の問(１)から、ビジネスでよく二項分布が出てくることを紹介しつつ、「会員制居酒屋Q」についてちょっとした予測を行ってみました。

今回の問(２)では次のことがチェックポイントとして挙げられました。

・「正規分布に近似できるかどうか」は安易に決められない
・二項分布含む確率分布は合計が「1」になる。
・それを利用して、「〇以上になる確率」「◯以下になる確率」が計算できる

それでは引き続き、共通テストを『勝手にビジネスデータ分析』していきましょう。

問題(２)から確率分布の考え方を理解しよう
「近似的に正規分布」は実務ではどうなのか？
サイコロ確率の表（確率分布）の美味い使い方
確率分布のイメージがあれば数式なしでも問題が解ける
今回の内容だけでも「起こりやすさの確率」が計算できる

問題(２)から確率分布の考え方を理解しよう

（２）標本の大きさ$100$は十分に大きいので、$100$人のうち全くをしなかった顧客の数は近似的に正規分布に従う。全く来店をしなかった顧客の母比率を$0.5$とするとき、全く来店をしなかった顧客が$36$人以下となる確率を$p_5$とおく。$p_5$の近似値を求めると、$p_5=$【$0.003$】である。
また、全く来店をしなかった顧客の母比率を$0.4$とするとき、全く来店をしなかった顧客が$36$人以下となる確率を$p_4$とおくと、【$p_4>p_5$】である。

この問題はかなりビジネス現場で実践的なエッセンスが濃いと思いました。
ここで何を問うているのかというと、「全く来店しない顧客数が◯人以下になる確率はどれくらいか、を求めよ」ということで、来店しない人数がどれくらいになるのか、の確率を直接計算しようとしています。

$100$人中、
来店しない人数が「$1$人」の確率
来店しない人数が「$2$人」の確率
来店しない人数が「$3$人」の確率　…

『$100$人中、◯人が来店しない』という求め方を行っているので、裏を返せば『$100$人中、$(100-◯)$人が来店する確率』になり、売上の期待値も導き出すことができそうです。

ここからは少々、数学的な解説です。

『来店しない人数が$1$人』というケースと『来店しない人数が$2$人』というケースはそれぞれ、目の前で同時に起こりません。来店しない人数が$1+2$人は『来店しない人数が$3$人』がありますので、$1$人のケースと$2$人のケースはまるで別世界の話、と考えても良いくらいです。サイコロは1から6の目が出ますが、1回サイコロを振ったときに「１と６が一緒に出た！」ということはありえないのと同じです。これと同じように考えられますので、来店しない人数が$N$人（$N$は$0$から$100$）それぞれのケースは独立している（独立事象）となります。

そして、それぞれのケースが独立している場合、『全ての確率を足し合わせると$1$になる』ということが確定します。これまたサイコロで考えてみると、1から6の目それぞれが出る確率は$1/6$なので、全てのケース（目の出方）を足し合わせると1になるのと同じ考え方です。

これを使って、前半の

標本の大きさ$100$は十分に大きいので、$100$人のうち全くをしなかった顧客の数は近似的に正規分布に従う。全く来店をしなかった顧客の母比率を$0.5$とするとき、全く来店をしなかった顧客が$36$人以下となる確率を$p_5$とおく。$p_5$の近似値を求めると、$p_5=$【$0.003$】である。

を解くことができます。

「近似的に正規分布」は実務ではどうなのか？

問題文には『標本の大きさ$100$は十分に大きいので、$100$人のうち全くをしなかった顧客の数は近似的に正規分布に従う。』とあるので、この問題は正規分布を使って解くというのが分かります。

ちょっとここでビジネス的に考えてみましょう。『100人は十分に大きいので近似的に正規分布で考えてOK』という部分についてですが、これは「サンプルが同じような属性の標本集団なので、正規分布で考えて大丈夫だ」と考えているようです。

ビジネスケースでも目の前のデータ（直近のデータなど）をまず標本集団と考えて前処理に進むことがありますが、そのまま正規分布を当てはめてOKかどうか、についてはいったん疑います。それは、性質が違う集団が複数混ざっているかもしれないからです。特に数百～だいたい2,000に届かない直近のデータの場合、最初からグループ分け（クラスタリング）を行ったほうが良いかもしれない、と思われるケースが多いです。

その理由として、トレンドや最後に行った施策などにより、何かしら特徴を持った集団とそれ以外の集団＝性質が結構違う大きめの集団が混ざっている可能性が挙げまれます。（いわば、全く違う確率分布を持つ集団が混ざっていて、ひとくくりに正規分布とするにはサンプル数が少ないまま進めてしまう危険性）

まず「性別」「年代」「業種」「規模」といった分かりやすい属性情報を簡単に集計してみて、極端に偏っていたりしたら『近似的に正規分布』は要注意です。

サイコロ確率の表（確率分布）の美味い使い方

問題に戻りましょう。ここで分かることは

・正規分布で考えてOK（と言っているが、100人はさすがに少なすぎると思う）
・全く来店をしなかった顧客の母比率が$0.5$＝居酒屋Qの顧客は来店しない確率が$0.5$だ

です。ここから、『全く来店をしない顧客が$36$人以下になる確率$p_5$』を求める問題でした。

ここでは100人の標本集団＝100人しかいない世界で考えているため、『$100$人中、来店しない人数が$36$人以下になる』というのは『来店しない人数が$36$人のケース、$35$人のケース、$34$人のケース、…$1$人のケース、$0$人のケース、それぞれの確率を全部足し合わせて、まとめて「$36$人以下」となる確率を求めよ』と言っているのと同じです。

これもまたサイコロの例で考えると、結局『サイコロの目が2以下になる確率を求めよ』と同じ問題である、ということです。

ところで、サイコロはこんなイメージが教科書なんかに載ってると思います。

この手の話題はイメージが大事です。

サイコロの問題だと『サイコロの目が2以下になる確率を求めよ』だったので、「出目が1の確率」と「出目が2の確率」を足せば答えになりますね。

今回の問題も、同じような考え方ができます。

サイコロの確率の表にあるグレーの部分は、それぞれが「$\frac{1}{6}$」という大きさで、これを1～6全てのケースの確率を足し合わせると「$\frac{1}{6}+\frac{1}{6}+…＝\frac{1}{6}×6＝1.0$(100%)」となるのと、全く同じ考え方ができます。
ポイントは、「全てのケースを足し合わせると$100$％($1.0$)になるので、そのうち問題のケースに該当する部分を足し合わせると、求めたいケースの確率そのものになる」という点です。

この確率の求め方ですが、これは

成功確率Pの事象が、n回中k回成功する確率

の考え方で求められます。つまり、来店確率0.5の顧客が100人中5人来店する確率は

$p=0.5$　$n=100$　$k=5$

これを次の式に当てはめます。

$ {}_n \mathrm{C}_k $ $ p^k $$ (1-p)^{n-k} $

顧客それぞれが来店しない確率は0.5だったので、

来店しない顧客が0人のケースの確率＝
$ {}_{100} \mathrm{C}_0 $ $ 0.5^0 $$ (1-0.5)^{100-0} $
来店しない顧客が1人のケースの確率＝
$ {}_{100} \mathrm{C}_1 $ $ 0.5^1 $$ (1-0.5)^{100-1} $
来店しない顧客が2人のケースの確率＝
$ {}_{100} \mathrm{C}_2 $ $ 0.5^2 $$ (1-0.5)^{100-2} $
…
来店しない顧客が36人のケースの確率＝
$ {}_{100} \mathrm{C}_{36} $ $ 0.5^{36} $$ (1-0.5)^{100-36} $

これら$0$人から$36$人、各ケースの確率全てを足し合わせると、約$0.33$％（問題の回答は一番近い数字である【$0.003$】）になります。

※これは手計算ではやってられないので、Pythonを利用しました。

n = 100
p = 0.5

# わかりやすくfor文で
# kに0から36(Pythonでは37未満)を入れていく
A = 0
for k in range(0,37):
  P = comb(100, k, exact=True) * p**i * (1-p)**(n-i)
  A = A+P

print(A*100)

なお、本来はこの問題を標準正規分布に変形して考えさせる問題のようです。「正規分布は釣鐘型」とよく聞くように、こんな形です。

正規分布は期待値と標準偏差が分かればその形状が確定し、正規分布表を使える形に式変形すれば今回の問題を解くことができます。（実際の試験は正規分布表がついてました）

この解法だと、答えは『$0.0026$』くらいになり、確かに【$0.003$】に近いので試験としては問題ないですが、これだけ差（$0.33$％と$0.26$％）がつくのは、『100サンプルを近似的に正規分布と考えた』という部分に原因があります。これが「事前にサンプル数でクラスタリングを検討すること」の理由にもなっていますし、「教科書的なアプローチとビジネスデータ分析のアプローチの違い」が如実に表れている部分だと思います。

確率分布のイメージがあれば数式なしでも問題が解ける

後半の問題についてですが、問題は次のようになっていました。

また、全く来店をしなかった顧客の母比率を$0.4$とするとき、全く来店をしなかった顧客が$36$人以下となる確率を$p_4$とおくと、【$p_4>p_5$】である。

これは、イメージとしては母比率が小さくなっている、つまり『来店しない確率が減っている＝来店確率が高まっている』という状況です。
すると、「来店しない顧客数が$36$人以下$p_4$は$p_5$より大きいのか小さいのか」という今回の問題は、特に計算をしなくても解くことができます。
結局、

「来店しやすい→来店しない人数が減る→少ない来店人数が起こりにくい→来店しない人数$36$人以下は起こりやすい（$p_4>p_5$）」

ということですね。
これをサイコロのような実際の確率の表だと、こうなります。

これが、二項分布の確率分布になっています。

この二項分布の確率分布を見ると、

・一番確率が高いところは、期待値のところ（$0.5$のほうは「$50$」人、$0.4$のほうは「$40$」人）
・「100人中0人、1人、2人」とか「100人中99人、100人」というケースが起こる確率はものすごく低い（見えないくらい）

ということが分かりますね。問題の「$36$人以下」の部分ですが、明らかに母比率$0.4$の方がたくさん確率が入っているので、$p_4>p_5$も一目瞭然です。また、これを見れば他にも「100人中、50人以下になる確率は？」「100人中、40～60人になる確率は？」といった、気になる数字も調べられそうです。

そして、なぜ「近似的に正規分布」と言っていたのか、についても理解できますよね。

『二項分布はサンプルのスケールが大きくなると釣鐘型に近づく』

という性質があるからです。

ビジネスでよく使う確率分布は二項分布のほかにポアソン分布がありますが、これもサンプル数が大きくなると正規分布に近づきます。

今回の内容だけでも「起こりやすさの確率」が計算できる

今回は2021大学入試共通テスト：数学Ⅱ・B選択問題の問(２)を使って、確率分布の理解を深めたと同時にビジネスで確率分布を使うための根本的なエッセンスを解説しました。
また『正規分布に近似する』という部分で「100人のデータで大丈夫なのか？」についても実際の計算結果を見て確認することができました。

当然ながらビジネスは『現実の実践の場』なので、計算量が大変だと分かったとしてもプログラム言語を電卓のように使って、すぐに試してみることができるため、学校の勉強とは違った面白さがありますね。

次回も引き続きこの『会員制居酒屋Q』のビジネスデータ分析を進めていこうと思います。

問(３)以降はここまでの問題をベースとした発展的な問題、知識問題寄りな印象なので、あまりビジネスデータ分析的な深堀りできなさそうな気配があります。エッセンスが濃いのは前回と今回の問題だと思いますので、ビジネスに確率分布の考え方を使いたい方はここまでの部分を読み込んでいただくことをオススメします。