第4回: 過去データは未来を予測できるか
サイコロは過去を知らない ─ 確率とデータの本当の関係④
「明日も太陽は昇る」
これは確率か。
それとも、確実か。
ヒュームの問い
18世紀のスコットランドの哲学者、デイヴィッド・ヒューム。
彼は1739年、『人間本性論』の中で、ある問いを投げかけた。
「未来が過去に似るということは、どうやって証明できるのか?」
過去1万日、太陽は昇った。
だから、明日も太陽は昇る。
これは論理的に正しいのか?
帰納法の問題
ヒュームの答えは、「証明できない」だった。
過去がこうだったから、未来もこうだろう。
これを「帰納法」という。
でも、帰納法は論理的には飛躍がある。
演繹法(論理的に確実):
- すべての人間は死ぬ
- ソクラテスは人間である
- ゆえに、ソクラテスは死ぬ
帰納法(経験からの推論):
- 過去1万日、太陽は昇った
- ゆえに、明日も太陽は昇る
演繹法は、前提が正しければ結論も必ず正しい。
帰納法は、前提が正しくても結論が間違う可能性がある。
七面鳥の寓話
哲学者バートランド・ラッセルは、こんな寓話を使った。
ある農場の七面鳥。
毎朝9時に、農夫がエサをくれる。
1日目、9時にエサが来た。
2日目も、9時にエサが来た。
100日目も、9時にエサが来た。
七面鳥は確信した。
「9時にはエサが来る」
そして感謝祭の前日、七面鳥は殺された。
過去のデータは、未来を保証しない。
サイコロは過去を知らない
コインを投げる。
過去100回、50回表が出た。
次に投げたとき、表が出る確率は?
答えは、50%だ。
過去に何回表が出たかは、関係ない。
これを「試行の独立性」という。
サイコロは、過去に何が出たか知らない。
コインは、前回表が出たか覚えていない。
各試行は、独立している。
ギャンブラーの誤謬
カジノのルーレット。
赤が5回連続で出た。
「次は黒が出やすい」
これは間違いだ。
ルーレットは、過去に何が出たか知らない。
次に黒が出る確率は、相変わらず約50%(0と00を除く)。
これを「ギャンブラーの誤謬」という。
過去の結果が、未来の確率を変えると思い込む誤り。
予測できる条件
では、過去データから未来を予測できることはないのか?
条件がある。
定常性:統計的性質が時間で変わらない
コインの物理的性質が変わらなければ、50%は維持される。
でも、コインが曲がったり、投げ方が変わったりすれば、変わる。
エルゴード性:時間平均とアンサンブル平均が一致する
難しい言葉だが、要するに「同じ条件が繰り返される」ということ。
コインを1万回投げるのと、1万枚のコインを同時に投げるのが、同じ結果になる条件。
この2つの条件が満たされるとき、過去データは未来を予測できる。
でも、現実の世界では、この条件は常に成り立つわけではない。
変わる世界
マーケティングデータを考えてみる。
過去3年間、広告Aのコンバージョン率は5%だった。
来年も5%だろうか?
分からない。
市場は変わる。
競合は増える。
消費者の好みは移り変わる。
コロナのような外部要因もある。
過去のデータが未来を予測できるのは、「世界が変わらない」という前提がある場合だけ。
ヒュームの答え
ヒュームは、帰納法を否定したわけではない。
「論理的には証明できないが、実用的には使うしかない」
私たちは、過去の経験から未来を予測して生きている。
それが論理的に保証されていなくても。
ただし、その限界は知っておくべきだ。
過去データは、未来を「保証」しない。
「ヒント」を与えてくれるだけだ。
ここまでの気づき
1. 帰納法は論理的には飛躍がある 「過去がこうだから、未来もこう」は証明できない。
2. サイコロは過去を知らない 各試行は独立。過去の結果は未来の確率を変えない。
3. 予測できる条件がある 定常性とエルゴード性。「世界が変わらない」という前提。
4. 世界は変わる 過去データが未来を予測できるのは、限定的な条件下だけ。
次回
過去データの限界を見てきた。
では、マーケティングにおいて、データはどう使えばいいのか。
大企業は膨大なデータを持っている。
中小企業には、それがない。
でも、「多ければ多いほど正確」ではなかった。
「過去が未来を保証する」わけでもなかった。
では、データの「量」ではなく「使い方」で勝負できないか。
次回: 大企業のビッグデータ vs 私の確率データ ─ 最終回