データサイエンス分析テクニック現場テクニック

実務でよく遭遇する数学分野の紹介【筆者がビジネスデータを扱うの場合】

データサイエンス

データ分析業務を行う際、参考になる分野がいくつかあります。分析のアプローチはケースや個人によって異なると思いますが、自分がよく意識する分野を場面ごとに思い返してみました。

よく言われるのが「数学が得意じゃないと出来ないんでしょ?」ということですが、データ分析、特にビジネスデータを取り扱う場合は知っておいたほうが良い分野と、あまり登場しない分野がはっきりしているよな気がします。
そこで今回は、ビジネスデータ分析に興味があって勉強しようとしている方に、どの分野を進めるとオススメなのかについて、個人的な見解をご紹介したいと思います。

 

注意点
あくまで個人の見解であり、「○○分析にはあの分野が必須」といったレベルまで踏み込まず、
・本当に初歩的な部分で何から復習すべきか迷ったとき
・ヒアリング後データを見て、分析方針をどう組み立てようか考えているとき
・「集計」「考察時」あたりの、関係者と議論を交わす前のシチュエーション
を想定しています。

筆者が選ぶ『ビジネスデータ分析でよく遭遇する数学分野』

統計学や機械学習で代表的なのが
・線形代数(大学)
ですが、「いきなりそれかよ!」となる読者の方が多いと思います。これは高校数学の範囲ではないので、特に今回は『小学校の算数~中学・高校の数学』という縛りでいきます。
※なお、筆者は高校時代「数学C」の行列まで一応は学んでいましたが、これも線形代数と同等だと思うので今回は取り上げません。

この縛りでいくと、ざっと次のようになりました。

【比例と反比例】(中学1年)
【1次関数】(中学2年)
【多項式】(中学3年)
【集合と論証】(高校2年)
【ベクトル】(高校2年)
【極限】(高校3年)
【確率】(中学2年)
【場合の数と確率】(高校2年)
【指数関数・対数関数】(高校2年)・【確率分布】(高校3年)

※学年は筆者が2021年1月に独自に調査したものなので、閲覧時点での齟齬はご了承ください。

ぱっと見たところ、『幾何学分野』(図形とか)、あと『複素数』は思い当たりませんでした。
(個人的には得意分野だったはず…)

それでは、それぞれの分野について思うところをコメントしていきます。

 

【比例と反比例】(中学1年)

あるデータ項目に着目したとき、そのデータの変化が他のデータ項目に影響があるのかどうかについて、ざっくりイメージできます。

・関係する分析手法、キーワードなど(一例)
正の相関、負の相関
ウェイトバック集計

【1次関数】(中学2年)

データの関係性を調べるとき、強さをイメージするときはグラフを想像しますね。

・関係する分析手法、キーワードなど(一例)
時系列データ分析(移動平均など)

【多項式】(中学3年)

通常データの項目は複数であり、回帰モデルといったモデリングはまさにこれです。

・関係する分析手法、キーワードなど(一例)
回帰分析全般

【集合と論証】(高校2年)

ビジネスデータ分析で、意外に意識することが多いと思ったのがこの分野です。クロス集計も実務的な確率算出も、集合の設定・把握が正確でないと目的に沿わない意味のない作業に時間を浪費してしまうので、参考書を読み返すレベルで訓練すべきだと思いました。

・関係する分析手法、キーワードなど(一例)
母数に対する標本範囲の確認
クロス集計
クラスター分析後の読み取り
「A→Bは成り立つが、B→Aはどうか?」
set( ) (Python:複数のリストを作ったあとによく使う)

【ベクトル】(高校2年)

特にアンケートの自由記述内容といったテキストデータを扱うときに、イメージの基礎になることが多いです。

・関係する分析手法、キーワードなど(一例)
クラスター分析
Word2Vec(Python)
・分析アイデア
「どの単語がレアなのかが分かれば、レアな回答の顧客の例を見に行ける」
「ベクトルが逆なら、単語の意味が反対」

【極限】(高校3年)

このまま続けると最終的にどうなるか、をパッとイメージするときは極限の考え方が使えます。

・関係する分析手法、キーワードなど(一例)
マルコフ過程

なお、統計学・機械学習の理論を勉強するレベルになると【微分・積分】が必要です。

 

 

【確率】(中学2年)

言わずもがなですね。ただ、学校で習うのは頻度論の確率なので、ベイズ確率を学ぶ際、これの理解を深める目的で復習しておいたほうが良いと思います。

・関係する分析手法、キーワードなど(一例)
ベイズ確率

【場合の数と確率】(高校2年)

特に場合の数は、計算の正確さよりも「考えられるアプローチはあといくつ実行できそうか」をイメージするときに、「これ以上仮説を増やすと組み合わせが大きくなりすぎる」といった判断がすぐにできるようになるために必要だと感じます。
また、組み合わせに関する分析もよく使います。

・関係する分析手法、キーワードなど(一例)
説明変数の設定
アソシエーション分析

【指数関数・対数関数】(高校2年)・【確率分布】(高校3年)

ビジネスデータは集計値を視覚化した瞬間から、特徴的な確率分布の形を見ることが多いです。
集計結果以外だと、特にベイズ統計の分野で関係してきます。

確率論は学び始めるとで「確率分布・極限・微積分・指数関数・対数関数」まで流れるように関係しているイメージがあるため、ここに入れてます。

・関係する分析手法、キーワードなど(一例)
機械学習、確率論のパラメータ
ベイズ確率のベータ分布

最後に

書き出してみると、ビジネスデータは複合的な要素から成り立っているので「こういう場合はこれ!」と分野を決めるのは難しいですね。アプローチによって関係する分野は違っていて、課題や仮説によってアプローチも違ってくる…ということで、これは本当に「無理やり学校の課程で当てはめてみた例」になってしまいました。

今回は「勉強する気はあるけど、どれからやるのがオススメなんだよ!」という方向けの参考に、数学分野という切り口での紹介でした。

コメント

タイトルとURLをコピーしました