データサイエンス理論解説

ビジネスデータ分析の役目とは何か【未来予測とモデリングの関係】

理論解説

世の中の多くの人々は、時間について共通の世界観を持っています。多くの人々の価値観を理解することは、これはマーケティングに限らず重要なことです。ビジネスデータ分析は未来につながる施策ために行うこともあるため、多くの人々が持つ時間に関する価値観を理解する必要がありますし、ビジネスデータ分析で行っていること(主にモデリングが)がこの世界観とどのような関係になっているのか、について知る必要があります。

時間に関する世界観を知る意味

今回はまず、ビジネスデータ分析を行う際に知っておきたい時間に関する世界観について深堀りしてみようと思います。

ビジネスデータ分析は検証型と探索型がある、という記事を書きましたが、いずれも過去のデータについて理解を深めたい、見えなかった部分を明らかにしたい、というモチベーションがあるからそのような調査を行うわけです。

さらにもう一歩踏み込んで「なぜそのようなモチベーションがあるのか?」を考えたとき、それは「分析者のベネフィットは何か?」を考えることになります。

ビジネスデータを分析することでどのようなメリットがあるのか、という点で見てみると

「本質的な部分が分かれば、『こうなったらどうなるのか』が分かる」

つまり、分析のメリットは「未来の予測ができる」ということになります。これが、特にビジネス分析者のベネフィットに相当しています。

誰もが「そりゃ未来が分かれば苦労しないよ」と思うところで、かなり一般的な話になってきますね。予測ができる、というのはデータ分析の魅力のひとつでもあると思います。

しかしながら、刻一刻と状況が変わるビジネスの世界で、未来の予測は非常に困難です。今回の内容は、分野でいえば「因果関係、モデリング、データ予測」といったあたりに関係しますが、ことビジネスデータ分析業務において「時間(現在・過去・未来)の考え方」そのものについて知識として持っておくことは、「未来に向けた施策に役立てる能力の高さ」に直結していると思っています。
データ分析の手法やテクニックに関する情報はたくさんありますが、一度ビジネスデータ分析に役立つような「時間に関する世界観」について、じっくり考えてみることにしましょう。

過去と未来のとらえ方(代表的な2つの世界観)

時間に関する色々な考え方を紹介します。

まず、「過去」とは何かを考えてみます。過去は「既に起こったこと」であり、「変えられない」「戻れない」「やり直せない」と、まとめてみるとすれは『確定した事実』です。積み重なると、歴史になるでしょうか。これを記録したものが「データ」である、と言えるでしょう。

次に、「未来」とは何でしょうか。未来は「見えない・分からない」「未だ来てない」「自分で切り開くもの」…と、過去に比べるとやや異なった捉え方が出てきます。今の捉え方の例だと、

・「見えない・分からない」=「現在確認できるかどうか」という過去との違い、未来の性質
・「未だ来ていない」=そのうちやってくる、というニュアンス
・「自分で切り開くもの」=今から作っていく、というニュアンス

と、何だか個人差が出てきそうなタイプに分かれます。

このように改めて「過去・未来とは何か?」を考えてみると、どれも正解な気がします。少なくとも、「これは絶対間違いだろう」ということが言えません。なぜなら、証明することができないからです。

では、どのような考え方ができるのか、について調べてみましょう。役に立つ考え方があるのなら、儲けものです。

 

時間に関する世界観「決定論」とは?

決定論とは、「あらゆる出来事はその出来事に先行する出来事のみによって決定している」という立場です。
「これは運命だ!」の運命は、何だか決まりきっていた未来のような感じがしますが、これも決定論の色合いが強いです。

そこで、決定論について簡単に紹介します。

 

簡単に言うと「全ての出来事はあらかじめ決まっていて、そこに自由はない」という主張で、いわば「何もかも運命」みたいな言い方で片付けられてしまいそうな、おおよそ感覚的に受け入れがたい考え方です。この主張は、「どんな現象もそれ以前の現象の単なる結果で出来ていて、原因と結果は因果律(という考え)に支配されている」という考えに基づいており、大昔の自然科学では支持されていたようです。

 

そもそも物理現象ですら法則性は発見できても完全に予測するのは(誤差などが存在するように)不可能なのに、ビジネスで役に立ちそうな考えではありませんし、当然この考え方は証明することができません。

 

硬い決定論に対し、こちらは「因果律ではなく、確率によって支配されているという主張なので、いくらか納得できるでしょう。

確率的決定論は、「色々な選択肢・パターンがその時々に存在していて、確率的にどれになるかが決まる」というものであり、その選択肢・パターンは何か?については「既に用意されているシナリオ」であり、そこに自由はない、と主張する立場があるようです。(自由意志の存在を否定)

 

 

 

どちらも内容はなんとなく掴めるにしても、どこか腹落ちしない主張だと思います。

これらの立場からすると、「未だ来ていない」=そのうちやってくる、というニュアンスはそのとおりだとしても、「自分で切り開くもの」=今から作っていく、というニュアンスはどこにも見当たりません。

 

最も支持されている世界観とは?

先ほどの「硬い決定論」と「確率的決定論」のどちらかといえば、後者の「確率的決定論」の方がまだ受け入れやすいと思います。

それでは、そこに「自由意志」を入れると、実はこれが恐らく世界で最も人間が受け入れやすい時間に関する世界観になっています。
言葉で説明すると、こうなります。

 

・選択肢=シナリオは自分でいくつか用意することができて、どのシナリオをたどるのかは確率的である

 

時間、特にタイムトラベルを題材にした映画などの作品はこの世界観に基づいていることが分かります。

時間の流れから逆方向に考えてみると、

「今・現在(Now)」がどのように作られているのか?

という疑問になります。

 

 

 

すると、「あのとき、Aを選んだがBを選ぶこともできた」と、たいていは「当時、他の選択肢もあった・他のシナリオも考えられた」ことになります。

その選択肢が自分ひとりで決定できるのであれば、

「あのとき、あんなこと言わなければ良かったなぁ」

といった後悔は、この世界観を支持しているからこそ出てくるものですし、自分ひとりの決定ではなく他の要素で結果が決まる出来事であれば、

「あのとき、雨が降っていなければなぁ」

と、確率で決まったと説明ができることになります。

この世界観の説明は、かなり自然に入ってくるのではないでしょうか?

重要なのは、「現在、この世界観が多くの人々に支持されている」という点です。これは、

 

・あるアイデアを多くの人に受け入れてもらおうとするなら、この世界観に基づいた思考で生み出されたアイデアでなければならない

 

ということでもあるのです。

 

予測はどのように行われるのか?(因果関係とモデリング)

多くの人がこのような世界観を支持しているのであれば、その中でデータ分析(特にモデリング)はどんなことを行っているのか、が見えてきます。

まず、未来の予測(未来の見積もり方)を過去のデータから探ります。

・このような結果になったのは、過去にこういうシナリオをたどったから

という関係を模索します。実はこの構造が「原因→結果」の関係になっており、因果関係を探索する作業になっています。

そして、この因果関係を探索する方法にデータを用いていると、これが「探索型のデータ分析を行っている」ことになるのです。

 

上の競馬のイラスト例だと、まず

【結果】(現在、または過去でもOK)
・馬Aが勝った

という事実があり、

【原因】
あのとき、
・落札できた(確率的)
・トレーニングであの方法を使った(自由意志で選択した)
・調教タイムが、とても良かった(事実)
だった。

という過去から「次も同じような調教のはずなので、次も勝つ!」という予想を行っており、これがまさに先ほどの世界観に基づいた予測になっています。

それでは次に、どのように予測を行っているのかを考えてみます。既に出てきた項目1つずつを確認してみると、

・落札できた …既に馬Aがいるので、考える必要なし
・トレーニングであの方法を使った …同じトレーニングを行ってくれたら結果が再現できると思う
・調教タイムが、とても良かった …ひとつの記録(データ)となった

と、時間が経ったことで考慮しなくても良い項目が出てきました。

また、時間が経ったことでさらに新たな情報が入ってきました。

・前回のレースで、勝った …ひとつの記録(データ)となった
・他の競走馬情報 …次も同じレベルの競走馬らしい(確率的)

そして最後に、関係ありそうでもまだ分からない情報もあります。

・レース当日の天気 …確率で決まる、と考えられる

今回の例だと天気は数日前に天気予報などである程度予想がつくので、これら全体をまとめると

「同じトレーニング」「調教タイムが良い」「レースの記録:勝ち」「ライバル:前回と同レベル」「天気:前回と同じく晴れ」
→予想:『馬Aは勝つ』

という予測(予想)に至った、という流れが見えました。

ここで、各項目が次のようなら予測はどうなってしまうでしょうか?

「同じトレーニング」「調教タイムが良い」「レースの記録:勝ち」
「ライバル:前回より強い馬のクラス」「天気:

次のレースは上位クラスで、天気も悪いそうです。きっと、馬Aについてこのような予想になるでしょう。

 

予想:『馬Aの勝率は70%』

このような予想がなされたとしても、特に不自然さは感じませんよね?
それは、私たちの未来に関する世界観に次のようなものが組み込まれているからです。

 

・出来事にはメカニズム(法則性)がある
・同じ原因からは、同じ結果が生まれる=出来事には再現性がある

 

馬Aが次に勝つかどうかの予想については、
・法則性
「トレーニング」「調教タイム」「レースの記録」「ライバル」「天気」で結果が決まる

・出来事の再現性
「ライバル:前回より強い馬のクラス」「天気:雨」→使えない

という状況ですが、私たちは自然と

 

「トレーニング」「調教タイム」「レースの記録」「ライバル」「天気」で全具の条件が揃うと馬Aは勝つ=勝率100%になるけど、「ライバル」と「天気」は前回と違うから、

5項目中2つがちがう=勝率は60%くらい?

と、まずは考えるわけです。そして、それぞれの項目に重みを設定して、

「前回のレースの結果は大事だから、他の項目2つぶんくらいにして…

馬Aの勝つ確率は $(1+1+1*3)/7=71%$くらい?」

といった修正を行います。これは、シナリオはそのままで、そのシナリオの先に起こるシナリオを修正するという作業を行ったことになります。

ここまでの流れは、データを用いた未来の予測そのものです。そして、「法則性」を設定することがモデリング、「再現性」の部分が実際に予測に使うデータに相当しています。

 

予測におけるモデリングの役割(まとめ)

最終的に、「レースで勝つ」という未来に到達するために組み立てた法則性=モデルに基づいて、例えば「エサはどれにしようか」「どれくらいエサを与えようか」「どんなトレーニングをしようか」「どれくらいのトレーニングをさせようか」について、最も勝てる確率が上がるような調整、すなわち「選択をする(=シナリオを選ぶ)」というのが「目的を達成するために、作成したモデルに基づき、最も成功確率が高い施策を決定している」ということになるのです。

 

 

なお、すべての条件が揃った馬Aが次のレースで勝つ、つまり実際にこの予想は確実に的中するのでしょうか?答えは「NO」です。これは、誰もが経験則から分かることですが、詳しくは「期待値」に関する話題で取り上げたいので別の機会にしようと思います。

 

今回は競馬の例でモデリングの役割について確認しました。特にビジネスにおいて過去から現在までのデータから統計モデリングを行うことは、過去のデータから現在までの「たどり方・至り方」を調べていることになります

 

ビジネスデータ分析は「未来の予測を行っていることにはなっていないが、大多数が受け入れやすい考え方に基づいた方法である」と理解した上で活用することが重要です。

 

【今回の記事に関連するオススメ書籍】

予測のはなし改訂版 未来を読むテクニック [ 大村平 ]

価格:2,420円
(2021/1/31 22:36時点)
感想(0件)

 

コメント

タイトルとURLをコピーしました