前回は2021大学入試共通テスト(独立行政法人大学入試センター)の数学Ⅱ・Bの問題からビジネスデータ分析の題材にできそうな問題を使って、身の回りのケースに置き換えてみました。
問題文については「Q高校」を「会員制居酒屋Q」に置き換えることができたので、いよいよ問(1)から問題を解きつつ、ビジネスデータ分析を実戦していきましょう。
【前回、ビジネス例に置き換えた問題文】
会員制居酒屋Qの店主は、ある日、記事を読んだ。そこで、Q商店の顧客データを対象に、直前の1週間の購入者を対象に、$100$人の顧客を無作為に抽出して調査を行った。その結果、$100$人の顧客のうち、この1週間に全く来店しなかった顧客が$36$人であり、$100$人の顧客のこの1週間の売上の平均値は$204$(単位:10円)であった。居酒屋Qの顧客全員のこの1週間の売上の母平均を$m$、母標準偏差を$150$とする。
※赤字がビジネスデータと見立てて置換した部分
なお、今回の問(1)までで次のことがチェックポイントとして挙げられました。
・二項分布で当てはめて良さそうだが、外部の影響を受けて独立事象でない可能性を確認する。
・居酒屋Qの顧客について、来店しない確率は$40.2$%~$59.8$%と見込まれる。
それでは、これに至った過程を見ていきましょう。
問題(1)をビジネスデータとして見てみよう
それでは、今回は問(1)について「ビジネスの例」として見てみましょう。
(1)全く来店をしなかった顧客の母比率を$0.5$とする。このとき、$100$人の無作為標本のうちで全く来店をしなかった顧客の数を表す確率変数を$X$とすると、$X$は【二項分布$B(100, 0.5)$】に従う。また、$X$の平均(期待値)は【$50$】、標準偏差は【$5$】である。
この問題は選択式で、正解の二項分布の他には正規分布がありました。
そもそもビジネスで問題になるのは『売れるのか、売れないのか=買ってもらえるか、そうでないか』という二項対立になるケースがほとんどであり、ここでは『来店してもらえるのか、そうでないか』という内容が興味の対象になっています。
『来店してもらえるのか、そうでないか』というのは結果が2通りしかないので、これは二項分布に従う、ということになります。
教科書には載ってない「ビジネス現場で分析前に確認すること」
ここで、念のため意識しておきたいことがあります。
今回のケースは『来店してもらえるのか、そうでないか』のベルヌーイ試行と考えられますが、ベルヌーイ試行の条件に『各試行が独立している=前の試行が次の試行に影響を与えない』というものがあるため、「ひょっとしたら、ある顧客が来店するかどうかが、他の顧客が来店するかどうかに影響を及ぼしているかもしれない」という懸念が残る、ということです。
なので、次の点を確認します。
・メディアやインフルエンサーに取り上げられた等、自社の施策以外でPR活動が発生していないか
このように、明らかに平常時と違った特別な要因が考えられる場合は、直近1週間より以前の期間からデータを再抽出するようにします。
厳格さを求めると「顧客の来店が互いに完全に独立している」(影響なし)とは考えづらいですが、「ランダムに抽出していることである程度その影響は薄まっている」と考えることにします。
以上から、今回は「平常時のシチュエーション」という設定として、まずは『このケースは二項分布で考えてみる』は妥当、ということで進んでいきましょう。
母集団と標本集団について確認
さて、そもそもの問題を振り返ってみるとこうでした。
…直前の1週間の購入者を対象に、$100$人の顧客を無作為に抽出して調査を行った。その結果、$100$人の顧客のうち、この1週間に全く来店しなかった顧客が$36$人であり、$100$人の顧客のこの1週間の売上の平均値は$204$(単位:10円)であった。居酒屋Qの顧客全員のこの1週間の売上の母平均を$m$、母標準偏差を$150$とする。
まず、母集団を確認します。母集団は「今回の問題の中の、全ての範囲はどこか?」なのですが、問題によると母集団は「居酒屋Qの、ここ1週間の顧客全員」と書いています。
次に、標本集団を確認すると、「100人の顧客を無作為に抽出して」とあるので、標本集団は「無作為に選んだ100人の顧客」のことです。
これより、まず母集団については次のように整理できます。
・母平均=母集団の売上平均値(ここ1週間の平均客単価)=$m$(わからない)
・母標準偏差=母集団の標準偏差(ここ1週間の客単価の標準偏差)=$150$
母集団、つまりここ1週間の全顧客の代金について、標準偏差が「$150$」と分かっている部分が不自然ではありますが、ここは「過去に調べたことがあって、経験則から」ということにしておきます。このあたりの数値については「やがてデータが溜まってきたら、ベイズ更新を駆使して調べてみようかな」とよく思います。ここでは素直に「母集団の標準偏差は$150$」と受け止めておきましょう。
標本集団については次のように整理できます。
・標本集団の売上平均値(平均客単価)=$204$
・標本集団の標準偏差(客単価の標準偏差)=わからない
ひととおり、必要そうな情報はまとめられました。
二項分布の問題を解いてみる
問(1)にはこう書いてありました。
…標本集団($100$人の無作為標本)のうちで全く来店をしなかった顧客の数を表す確率変数を$X$とすると、$X$は【二項分布$B(?, ?)$】に従う。また、$X$の平均(期待値)は【$?$】、標準偏差は【$?$】である。
この問題では、「来店しない顧客の人数は色々な人数が考えられる($X$)が、それは二項分布に従うので、$X$(=来店しない人数)の平均(期待値)と標準偏差を求めよ」と言っており、「顧客が来店しない人数(の分布)はどんな感じなのかを計算して考えろ」ということです。つまり、「来店しない確率をズバッと求めるのではない」という点が、考え方としては非常にビジネス的です。
ここからは数学の話になりますが、二項分布は$B(n, p)$と表現され、$n$は試行回数、$p$は確率のことです。すると、$n$は試行回数=平たく言えばくじを引いた回数であり、今回は顧客データの中から100人を抽出した(選んだ)とあるので、$n=100$となります。
次に$p$ですが、これは「来店しない確率」であり、問題(1)の冒頭に
(1)全く来店をしなかった顧客の母比率を$0.5$とする。このとき…
と書いてあります。「母比率」というのは「母集団のうちそれに該当する比率」のことで、ここでは単に「顧客全体で来店しないのは$50$%」ということを言っているだけです。つまり、そもそもこの居酒屋Qには「この1週間で全顧客の半分が来店した」ということになります。ものすごいリピート率です。スタートアップでかなり好調な居酒屋かもしれません。
結局、二項分布$B(n, p)$の確率$p$は$0.5$ということが問題から分かりました。よって、答えは【$B(100, 0.5)$】になります。
そして、二項分布の平均値(期待値)と標準偏差は次の式で求められます。
二項分布の標準偏差$=n\times p\times(1-p)$
これで計算すると、$X$の平均(期待値)は【$50$】、標準偏差は【$5$】になります。
二項分布の性質から『見込み』に発展させる
ここまでで分かったことから、次のように発展させて考えることができます。
居酒屋Qに来店した最近のサンプル100人の顧客のうち、来店しない顧客の平均人数は
$95$%の確率で、$100$人中 $50-1.96\times5~50+1.96\times5$
$=40.2~59.8$、つまり来店しない確率は$40.2$%~$59.8$%
この先、同じような100人のサンプル調査で平均値が$40$人を下回ったら何かまずい事態が起こっていると疑うのが良いでしょうし、「リピート率、目指せ8割!」といった目標(KPI)は数学的に、確率的にも難しそうだ、ということも分かります。
ここでいきなり「$1.96$」といった数字が出てきましたが、これは『データが正規分布に従っているとき、母平均の信頼区間を求める方法』になっていて、「これからどんどん溜まっていくデータは正規分布に近づく」という前提で、ちょっとした見込みを行ってみたことになります。
サイコロの期待値からリピート確率の推定へ
今回は2021大学入試共通テスト:数学Ⅱ・B選択問題の問(1)を使って、ビジネスデータ分析で二項分布を使うケースと見立てて統計学的なテクニックを織り込んでみました。
やはり現実は『公式に当てはめて、おしまい』になるはずもなく、その過程で「これは覚えておいた方がいいな」「これは先に確認しておきたいな」「いまのところ、こんな感じの予測が立てられそうだな」と、目の前のデータ以外に気になるところやマークしておくべき事項がたくさん出てきますね。
次回は引き続き、この『会員制居酒屋Q』のビジネスデータ分析を進めていこうと思います。
コメント