十分なデータがあり、「いよいよデータサイエンススキルを試せそうな時が来たか?!」と感じる瞬間というのがあります。
ずいぶん前からの購買履歴がある、行動ログのデータを集めていた、といったケースは、行数(サンプル数)も列数(説明変数の種類)も、じゅうぶんに期待できるものです。(前処理は大変そうではありますが)
しかし、特に探索型のアプローチで始まるプロジェクトの場合、よほど初めから明確に「顧客にこの商品を買ってもらえるかどうかをデータから調べたいんだ」といった感じで定められていない限り、「一体、何を教師データにすればいいんだろうか?」となることも多いです。
その際、手っ取り早く教師データを設定する方法があります。それは、『パレートの法則』を活用することです。これを使うと、スピード感、説得力ともに、かなり妥当な線で考察を進めることができます。
『パレートの法則』とは?
パレートの法則は「80:20の法則」とも呼ばれ、多くの自然現象や社会現象に当てはまる法則です。ビジネスの例でいうと
といったもので、下図のような形状のグラフ(分布)で説明がなされます。
これは、顧客一人ひとりが使った金額を大きい順に左から並べていったイメージで、特徴としては左側がとても大きく、右側になればなるほど一気に下がっていき、裾が長くなるような形状をしています。(裾の部分=グラフの右側をロングテールといいます)
ビジネス以外の例だと、
・仕事の成果の8割は、費やした時間の2割で生み出される。
・組織は2割の人間が大部分の利益を生み出しており、その2割がいなく成ると、残ったうちの2割がまたその役割を担う働きをする(働きアリの法則)
といった事象にパレートの法則が用いられます。
ビジネスデータ分析におけるパレートの法則
実際にビジネス現場でこのパレートの法則をどう使うか、についてです。これはマーケティング戦略を考える際にも使いますが、『上から2割に着目すれば、全体の8割について対策を行っていることになる』ということなので、
『たくさんお金を使ってくれる顧客、よく買ってくれる顧客を並べて、上位20%をターゲットとすれば良い』
とし、このターゲットを教師データとすれば、モデリングなり機械学習なり、次の工程に進むことができます。
正確に金額が分かっていればそれが一番ですが、どうしても金額が算出できないケースもあるはずです。その場合は「契約月数」だったり、「購入数量」「来店回数」と売上に関係が深い項目で集計し、並べていくことが代替案になります。
具体的なやり方としては、まず全体の合計値を求めて金額(や購入数量など)の累計を見ていき、それが全体の合計値の80%に近づいたとき、人数や企業数が全体の20%程度になっていれば、キレイにパレートの法則に当てはまっていることが確認できるはずです。
しかし、実際は「全体の売上の80%になったとき、人数が50%くらいになった」といったように、うまく当てはまらないことも多いです。(実際に先日、「契約数」で集計したときこんな感じになりました)
この場合、
といったことが考えられれます。
分析のとっかかりで使えるケース
ビジネス現場では、特に組織では下に降りてくる時点で作業レベルの具体性を帯びていないケースが多く、「うちの事業部の商材の売上をどう伸ばしていこうか」からスタートし、「何に着目したらいいか?」自体に悩むことがあります。
ただ網羅的にデータを調べる、または商材をグルーピングすることができても、そこからの1歩がなかなか進まず、同じところをぐるぐる回っているようなもどかしい事態にもなりかねません。
この状態は、何か妥当かつ客観的な目印があればクリアされるはずです。これは、まさに『何を「吉」とすれば良いか分からない状態=教師データを決めかねている状態」なので、ひとつのアイデアとしてパレートの法則を使ってみるのはいかがでしょうか?
コメント