大学入試センター試験は2021年(令和3年)実施ぶんより、「大学入学共通テスト」となったようです。
(独立行政法人大学入試センター)
この問題のうち数学Ⅱ・Bに統計学、確率分布に関する問題が選択問題で出題されていて、これが非常に教科書的で、かつ『教科書的な内容をビジネスデータ分析に応用するのに程よい内容』であったため、普段自分が理論的な情報収集を行った内容をどのように現実世界で使えるようにしているか、そのノウハウ(ちょっと大げさ?)を紹介したいと思います。
また、このようなケースが実際にあったと仮定して、「ビジネスデータ活用」まで広げ、半ば無理やり施策に関する仮説まで”勝手に”考えてみようと思います。
2021大学入試共通テスト【数学Ⅱ・B】の実際の問題
実際の問題は次のような内容でした。回答方法は計算で導き出した数字や選択肢の番号ををマークシートで塗りつぶす形式なので、正答(選択肢の場合はその内容)も書き入れておきます。
Q高校の校長先生は、ある日、新聞で高校生に読書に関する記事を読んだ。そこで、Q高校の生徒全員を対象に、直前の1週間の読書時間に関して、$100$人の生徒を無作為に抽出して調査を行った。その結果、$100$人の生徒のうち、この1週間に全く読書をしなかった生徒が$36$人であり、$100$人の生徒のこの1週間の読書時間(分)の平均値は$204$であった。Q高校の生徒全員のこの1週間の読書時間の母平均を$m$、母標準偏差を$150$とする。
(1)全く読書をしなかった生徒の母比率を$0.5$とする。このとき、$100$人の無作為標本のうちで全く読書をしなかった生徒の数を表す確率変数を$X$とすると、$X$は【ア:二項分布$B(100, 0.5)$】に従う。また、$X$の平均(期待値)は【イウ:$50$】、標準偏差は【エ:$5$】である。
(2)標本の大きさ$100$は十分に大きいので、$100$人のうち全く読書をしなかった生徒の数は近似的に正規分布に従う。全く読書をしなかった生徒の母比率を$0.5$とするとき、全く読書をしなかった生徒が$36$人以下となる確率を$p_5$とおく。$p_5$の近似値を求めると、$p_5=$【オ:$0.003$】である。
また、全く読書をしなかった生徒の母比率を$0.4$とするとき、全く読書をしなかった生徒が$36$人以下となる確率を$p_4$とおくと、【カ:$p_4>p_5$】である。(3)1週間の読書時間の母平均$m$に対する信頼度$95$%の信頼区間を$C_1≦m≦C_2$とする。標本の大きさ$100$は十分大きいこと、1週間の読書時間の標本平均が$204$、母標準偏差が$150$であることを用いると、$C_1+C_2=$【キクケ:$408$】、$C_2-C_1=$【コサ】.【シ】:【$58.8$】であることがわかる。
また、母平均$m$と$C_1$、$C_2$については、【ス:$C_1≦m$も$m≦C_2$も成り立つとは限らない】。(4)Q高校の図書委員長も、校長先生と同じ新聞記事を読んだため、校長先生が調査をしていることを知らずに、図書委員会として校長先生と同様の調査を独自に行なった。ただし、調査期間は校長先生による調査と同じ直前の1週間であり、対象をQ高校の生徒全員として$100$人の顧客を無作為に抽出した。その調査における、全く読書をしなかった生徒の数を$n$とする。校長先生の調査結果によると全く読書をしなかった生徒は$36$人であり、【セ:$n$と$36$との大小はわからない】。
(5)(4)の図書委員会が行った調査結果による母平均$m$に対する信頼度$95$%の信頼区間を$D_1≦m≦D_2$、校長先生が行った調査結果による母平均$m$に対する信頼度$95$%信頼区間を(3)の$C_1≦m≦C_2$とする。ただし、母集団は同一であり、1週間の読書時間の母標準偏差は$150$とする。このとき、次の【0】~【5】のうち、正しいものは【ソ:$C_1<D_2$または$D_1<C_2$のどちらか一方のみが必ず成り立つ。】と【タ:$C_2-C_1=D_2-D_1$が必ず成り立つ。】である。
教科書的な内容を現実にあり得そうなシチュエーションに置き換える例
この問題を、次のように現実にありそうなシチュエーションで所々を置き換えてみます。
顧客個人を会員番号などでしっかりと追うことができれば、会員カードを発行している美容室やフィットネスクラブなど、色々と応用が効くと思います。
・この1週間の読書時間→この1週間に来店した顧客が使った金額(いわば売上金額)
今回の問題は「この1週間に『読書をしたのかどうか』『読書をした生徒は、何分読書をしたのか』」という2つの視点が織り込まれているため、これを「この1週間に『来店したのかどうか』『来店した顧客は、いくら使ったのか=売上』」と置き換えます。
ここの設定は何でもOKでしょう。
会員制居酒屋Qの店主は、ある日、記事を読んだ。そこで、Q商店の顧客データを対象に、直前の1週間の購入者を対象に、$100$人の顧客を無作為に抽出して調査を行った。その結果、$100$人の顧客のうち、この1週間に全く来店しなかった顧客が$36$人であり、$100$人の顧客のこの1週間の売上の平均値は$204$(単位:10円)であった。居酒屋Qの顧客全員のこの1週間の売上の母平均を$m$、母標準偏差を$150$とする。
ちょっとした想像力で、難なく「Q高校」を「会員制居酒屋Q」に置き換えることができるかと思います。
書籍やネット情報に目を通すときは
今回は2021大学入試共通テストの数学から、身の回りにありそうなケースに置き換える方法を見ていただきました。統計学とかデータサイエンスの書籍やネットの解説は、どうしても理論的か局地的になりがちなのです。このブログもそうですが、『どう使うか』という視点で中身を見ることに注力するためには、とにかく身の回りのケースで想像することが最も頭に入る方法だと思います。今回の「Q高校」も、もっと様々な業種で置き換えることができそうですね。
次回は問題(1)から、ビジネスデータ分析に役立ちそうな部分をピックアップしながら見ていこうと思います。
コメント