データ分析業務を行う際、参考になる分野がいくつかあります。分析のアプローチはケースや個人によって異なると思いますが、自分がよく意識する分野を場面ごとに思い返してみました。
よく言われるのが「数学が得意じゃないと出来ないんでしょ?」ということですが、データ分析、特にビジネスデータを取り扱う場合は知っておいたほうが良い分野と、あまり登場しない分野がはっきりしているよな気がします。
そこで今回は、ビジネスデータ分析に興味があって勉強しようとしている方に、どの分野を進めるとオススメなのかについて、個人的な見解をご紹介したいと思います。
筆者が選ぶ『ビジネスデータ分析でよく遭遇する数学分野』
統計学や機械学習で代表的なのが
・線形代数(大学)
ですが、「いきなりそれかよ!」となる読者の方が多いと思います。これは高校数学の範囲ではないので、特に今回は『小学校の算数~中学・高校の数学』という縛りでいきます。
※なお、筆者は高校時代「数学C」の行列まで一応は学んでいましたが、これも線形代数と同等だと思うので今回は取り上げません。
この縛りでいくと、ざっと次のようになりました。
【1次関数】(中学2年)
【多項式】(中学3年)
【集合と論証】(高校2年)
【ベクトル】(高校2年)
【極限】(高校3年)
【確率】(中学2年)
【場合の数と確率】(高校2年)
【指数関数・対数関数】(高校2年)・【確率分布】(高校3年)
※学年は筆者が2021年1月に独自に調査したものなので、閲覧時点での齟齬はご了承ください。
ぱっと見たところ、『幾何学分野』(図形とか)、あと『複素数』は思い当たりませんでした。
(個人的には得意分野だったはず…)
それでは、それぞれの分野について思うところをコメントしていきます。
【比例と反比例】(中学1年)
あるデータ項目に着目したとき、そのデータの変化が他のデータ項目に影響があるのかどうかについて、ざっくりイメージできます。
【1次関数】(中学2年)
データの関係性を調べるとき、強さをイメージするときはグラフを想像しますね。
【多項式】(中学3年)
通常データの項目は複数であり、回帰モデルといったモデリングはまさにこれです。
【集合と論証】(高校2年)
ビジネスデータ分析で、意外に意識することが多いと思ったのがこの分野です。クロス集計も実務的な確率算出も、集合の設定・把握が正確でないと目的に沿わない意味のない作業に時間を浪費してしまうので、参考書を読み返すレベルで訓練すべきだと思いました。
【ベクトル】(高校2年)
特にアンケートの自由記述内容といったテキストデータを扱うときに、イメージの基礎になることが多いです。
【極限】(高校3年)
このまま続けると最終的にどうなるか、をパッとイメージするときは極限の考え方が使えます。
なお、統計学・機械学習の理論を勉強するレベルになると【微分・積分】が必要です。
【確率】(中学2年)
言わずもがなですね。ただ、学校で習うのは頻度論の確率なので、ベイズ確率を学ぶ際、これの理解を深める目的で復習しておいたほうが良いと思います。
【場合の数と確率】(高校2年)
特に場合の数は、計算の正確さよりも「考えられるアプローチはあといくつ実行できそうか」をイメージするときに、「これ以上仮説を増やすと組み合わせが大きくなりすぎる」といった判断がすぐにできるようになるために必要だと感じます。
また、組み合わせに関する分析もよく使います。
【指数関数・対数関数】(高校2年)・【確率分布】(高校3年)
ビジネスデータは集計値を視覚化した瞬間から、特徴的な確率分布の形を見ることが多いです。
集計結果以外だと、特にベイズ統計の分野で関係してきます。
確率論は学び始めるとで「確率分布・極限・微積分・指数関数・対数関数」まで流れるように関係しているイメージがあるため、ここに入れてます。
最後に
書き出してみると、ビジネスデータは複合的な要素から成り立っているので「こういう場合はこれ!」と分野を決めるのは難しいですね。アプローチによって関係する分野は違っていて、課題や仮説によってアプローチも違ってくる…ということで、これは本当に「無理やり学校の課程で当てはめてみた例」になってしまいました。
今回は「勉強する気はあるけど、どれからやるのがオススメなんだよ!」という方向けの参考に、数学分野という切り口での紹介でした。
コメント