#36分

50%に収束する世界

確率論データサイエンスマーケティングビジネス思考法パスカル数学史ギャンブル

第3回: 50%に収束する世界

サイコロは過去を知らない ─ 確率とデータの本当の関係③


コインを10回投げた。


表が7回、裏が3回。


「このコインは表が出やすいのでは?」


そう思うかもしれない。

でも、それは正しいだろうか。


大数の法則

ベルヌーイが証明した「大数の法則」を思い出してほしい。


「試行回数を増やせば、観測された頻度は理論的な確率に近づく」


コインを投げ続ければ、表の割合は50%に近づいていく。


これは数学的に証明されている。


では、どれくらい投げれば、どれくらい近づくのか。


収束の速度

具体的な数字で見てみる。


5回投げた場合

  • 表が3回(60%)ということは、普通にあり得る
  • 表が4回(80%)も、あり得る
  • 表が5回(100%)すら、32回に1回は起きる

100回投げた場合

  • 表が60回(60%)の確率は約2%
  • 表が70回(70%)の確率は0.01%以下
  • ほぼ45〜55回の範囲に収まる

10,000回投げた場合

  • 表の割合は、ほぼ50%±1%に収まる
  • 60%になる確率は、事実上ゼロ

試行回数が増えるほど、50%に近づく。


でも、どう近づくのか。

ここに重要なポイントがある。


平方根の法則

誤差は、試行回数の平方根に反比例する。


これを「平方根の法則」という。


具体的には、こうなる。


  • サンプル100:誤差±10%程度
  • サンプル400:誤差±5%程度
  • サンプル1,600:誤差±2.5%程度

気づいただろうか。


サンプルを4倍にしても、誤差は半分にしかならない。


100を400にする(4倍)と、誤差は10%から5%になる(半分)。

400を1,600にする(4倍)と、誤差は5%から2.5%になる(半分)。


これは「収穫逓減」だ。


研究データ

実際の研究データを見てみる。


サンプルサイズ誤差
200±7%
400±5%
1,000±3%

200から400に増やす(2倍)と、誤差は7%から5%に減る。

400から1,000に増やす(2.5倍)と、誤差は5%から3%に減る。


さらに研究では、こんな結果も出ている。


「300-500サンプルを超えると、精度向上は無視できるレベルになる」


どこかで頭打ちになる。


「多ければ多いほど正確」の嘘

「データは多ければ多いほど正確」


これは、半分正しく、半分間違っている。


正しい部分:データが増えれば、精度は上がる

間違っている部分:データを増やすほど、精度向上の効率は下がる


10個のデータを100個にすると、精度は劇的に上がる。

100個を1,000個にすると、精度は少し上がる。

1,000個を10,000個にしても、精度はほとんど変わらない。


品質 vs 量

もう一つ、重要なことがある。


データの量より、データの品質が重要。


研究によると、高品質なデータで学習したモデルは、少ないサンプルでも効果的に予測できる。

一方、ノイズや不正確なデータで学習したモデルは、どれだけデータがあっても予測に失敗する。


IBMの調査(2016年)によると、低品質データにより組織は年間3.1兆ドル(約470兆円)の損失を出している。

Kantarの調査(2022年)によると、企業は収集データの最大38%を品質懸念で廃棄している。


量を追い求めるより、質を高める方が効果的なことがある。


収穫逓減のグラフ

イメージとしては、こうなる。


精度
 │
 │  ●
 │    ●
 │      ●
 │        ●──●──●──●──●
 │
 └────────────────────── サンプル数
     ↑        ↑
   急上昇    頭打ち

最初は急上昇する。

でも、どこかで曲線は平らになる。


300-500サンプルあたりが、その境目。


ここまでの気づき

1. 大数の法則は「近づく」だけ 試行回数を増やせば50%に近づくが、「一致する」わけではない。

2. 収穫逓減の法則 サンプルを4倍にしても、誤差は半分にしかならない。

3. 300-500サンプルで頭打ち それ以上増やしても、精度向上は無視できるレベル。

4. 量より質 低品質なデータは、どれだけあっても役に立たない。


次回

大数の法則は、試行回数を増やせば「収束する」と言う。


でも、ここで一つの疑問が浮かぶ。


過去のデータは、未来を予測できるのか。


コインを100回投げて、50回表が出た。

次に投げたとき、表が出る確率は50%か?


「明日も太陽は昇る」

これは確率か、それとも確実か?


次回: 過去データは未来を予測できるか ─ ヒュームの問い