分析テクニック確率論

2021年大学入試共通テスト数学ⅡBの統計学に関する問題を勝手にビジネスデータ分析してみる④【完結編】

分析テクニック

前回は2021大学入試共通テスト(独立行政法人大学入試センター)の数学Ⅱ・Bのうち、選択問題第3問の問(2)で、確率分布の解説と二項分布を使った計算、さらに「正規分布に近似するとみなす」について、ビジネスデータ分析面から考察を行いました。

残りの問題である問(3)~(5)は数学的な問題が多いですが、プロジェクトとしてデータ分析に望む場合の「まずい例」が問題に登場します。

それでは残りの問題を見ていきましょう。

 

問(3)で母平均の信頼区間の求め方をチェック

(3)1週間の売上の母平均$m$に対する信頼度$95$%の信頼区間を$C_1≦m≦C_2$とする。標本の大きさ$100$は十分大きいこと、1週間の売上の標本平均が$204$、母標準偏差が$150$であることを用いると、$C_1+C_2=$【$408$】、$C_2-C_1=$【$58.8$】であることがわかる。
また、母平均$m$と$C_1$、$C_2$については、【$C_1≦m$も$m≦C_2$も成り立つとは限らない】。

この問題については、実はすでに問(1)の記事で解法を先出ししています。「正規分布を仮定したとき、信頼度95%の信頼区間は標本平均$\pm1.95×\times\sigma$の範囲になる」という内容です。

二項分布の$n$が十分に大きいと、正規分布とみなすことができる。正規分布であるなら、標準偏差$\sigma$さえ分かれば、母平均$\mu$は$95$%の確率で$-1.96\sigma\le\mu\le+1.96\sigma$の間にあることが分かる。

これを利用して、前回は100人のサンプルを対象にしていましたが、今回は母集団=居酒屋Qの全顧客が対象です。
ポイントは、不明だった「母集団の標準偏差」を求めなければならない点です。

結論から言うと、母平均$\mu$の信頼区間は95%の場合、抽出したサンプル数を$n$、抽出したサンプルの平均(標本平均)を$\overline{m}$、母集団の標準偏差が$\sigma$のとき

$\overline{m}-1.96$ $\times$ \(\displaystyle \frac{\sigma^2}{\sqrt n}\) $\le$ $\mu$ $\le$ $\overline{m}+1.96$ $\times$ \(\displaystyle \frac{\sigma}{\sqrt n}\)

という式にそれぞれの値を当てはめると、母平均$mu$の95%信頼区間を求めることができます。

${\sqrt n}$の部分が何なのかというと、「$95$%の区間」を求める際に標準正規分布という『平均が$0$、標準偏差が$1$』という正規分布に変換する必要があり、そこから「$1.96$」という数字が導き出されるのですが、この「標準正規分布に変換する」という操作で出てくる変形のことです。

【参考】正規分布を標準化して95%の範囲内の値を求める式

$-1.96$ $\le$ $\displaystyle \frac{\overline{m}-\mu}{\sqrt {\displaystyle \frac{\sigma^2}{n}}}$ $\le$ $+1.96$

これで計算を進めると$C_1$と$C_2$が求められ、前半の問題は解くことができます。

また後半の母平均$m$と$C_1$、$C_2$の関係についてですが、そもそも信頼区間が「$95$%の確率で母平均$m$はこの範囲にある」ということを言っているため、『$5$%の確率で両端である$C_1$と$C_2$から外れることもある』ということが言えます。よって、【$C_1≦m$も$m≦C_2$も成り立つとは限らない】となります。

問題(3)はかなり数学寄りの知識問題チックだったので、この辺にしておきましょう。

 

問(4)に見えるチーム連携の大切さ

(4)会員制居酒屋Qのスタッフも、店主と同じ記事を読んだため、店主が調査をしていることを知らずに、スタッフとして店主と同様の調査を独自に行なった。ただし、調査期間は店主による調査と同じ直前の1週間であり、対象を居酒屋Qの顧客全員として$100$人の顧客を無作為に抽出した。その調査における、全く来店をしなかった顧客の数を$n$とする。店主の調査結果によると全く来店をしなかった顧客は$36$人であり、【$n$と$36$との大小はわからない】。

 

この問題は常識の範囲で解ける問題だと思います。「また別に100人を無作為抽出した」ということであれば、そのうち何人が全く来店をしなかった顧客だったのか、というのはわかるはずがありません。「たくさん当たりが入っているくじ引きから100個選んで、最初は100個のうち36個が当たりだった。2回目は?」と同じです。

この問(4)は問われている回答そのものより、『会員制居酒屋Qのスタッフも、店主と同じ記事を読んだため、店主が調査をしていることを知らずに、スタッフとして店主と同様の調査を独自に行なった』という部分が問題です。

特にビジネスデータ分析の場合、複数のチームで取り掛かること自体に間違いはありません。しかし、これはビジネス一般で言えることですが、「知らない間にやっていた」だったり「後から、やっていたことを知った」といった事態は絶対に避けなければなりません。これは時間の浪費そのものでしょう。

ビジネスデータ分析ではバイアス(先入観)を避けなければならないため、敢えてこのような方法を取る場合があります。しかし、意見や見解を共有することはバイアスに繋がる可能性が高いですが、競争の中でスピード感を持ってデータを活用するのであれば、できるだけ足並みをそろえてムダを省くことを意識しなければならないでしょう。

 

問(5)は確率分布のイメージの復習

(5)(4)のスタッフが行った調査結果による母平均$m$に対する信頼度$95$%の信頼区間を$D_1≦m≦D_2$、店主が行った調査結果による母平均$m$に対する信頼度$95$%信頼区間を(3)の$C_1≦m≦C_2$とする。ただし、母集団は同一であり、1週間の売上の母標準偏差は$150$とする。このとき、【$C_1<D_2$または$D_1<C_2$のどちらか一方のみが必ず成り立つ。】と【$C_2-C_1=D_2-D_1$が必ず成り立つ。】である。

この問題は完全に確率分布そのものの知識を問うている問題で、この問題が何かビジネスケースで使えそうか想像してみましたが…ビジネスデータのケースとして考えるのは難しいですね。
問題の解説的には、正規分布を2つイメージすれば解ける問題です。簡単にイメージだけ置いておきます。

 

 

まとめと振り返り

今回は2021大学入試共通テスト:数学Ⅱ・B選択問題の、残りの問(3)~(5)を見ていきました。教科書的な内容がメインでしたが、複数人で同じデータに向かう場合の注意点も浮かび上がりました。

全体を振り返ると、数学Ⅱ・Bのうち「確率分布と統計的な推測」という単元の問題でした。
ビジネスデータ分析での、特に確率分布の基本的なエッセンスが織り込まれている問題もありました。実際のビジネスケースで考える場合、やはり目の前のデータだけでなく、それに至った経緯、取り巻く環境など、気になる点がたくさん出てきました。『未来の施策につなげるためのビジネスデータ分析』という視点で見たとき、いかに目の前のデータはあくまで一部分であるか、が分かります。

問題の内容から、実際に数値を扱うような作業(相関や回帰分析)がなかったので、かなり理論的な内容になってしまいました。他の問題を見てみると、数学Ⅰ・Aにそれっぽい問題があるので、また機会があれば題材にしようかな…と思います。

 

コメント

タイトルとURLをコピーしました