#32026-01-176分

50%に収束する世界

確率論データサイエンスマーケティングビジネス思考法パスカル数学史ギャンブル

第3回: 50%に収束する世界

サイコロは過去を知らない ─ 確率とデータの本当の関係③

コインを10回投げた。

表が7回、裏が3回。

「このコインは表が出やすいのでは？」

そう思うかもしれない。

でも、それは正しいだろうか。

大数の法則

ベルヌーイが証明した「大数の法則」を思い出してほしい。

「試行回数を増やせば、観測された頻度は理論的な確率に近づく」

コインを投げ続ければ、表の割合は50%に近づいていく。

これは数学的に証明されている。

では、どれくらい投げれば、どれくらい近づくのか。

収束の速度

具体的な数字で見てみる。

5回投げた場合

表が3回（60%）ということは、普通にあり得る
表が4回（80%）も、あり得る
表が5回（100%）すら、32回に1回は起きる

100回投げた場合

表が60回（60%）の確率は約2%
表が70回（70%）の確率は0.01%以下
ほぼ45〜55回の範囲に収まる

10,000回投げた場合

表の割合は、ほぼ50%±1%に収まる
60%になる確率は、事実上ゼロ

試行回数が増えるほど、50%に近づく。

でも、どう近づくのか。

ここに重要なポイントがある。

平方根の法則

誤差は、試行回数の平方根に反比例する。

これを「平方根の法則」という。

具体的には、こうなる。

サンプル100：誤差±10%程度
サンプル400：誤差±5%程度
サンプル1,600：誤差±2.5%程度

気づいただろうか。

サンプルを4倍にしても、誤差は半分にしかならない。

100を400にする（4倍）と、誤差は10%から5%になる（半分）。

400を1,600にする（4倍）と、誤差は5%から2.5%になる（半分）。

これは「収穫逓減」だ。

研究データ

実際の研究データを見てみる。

サンプルサイズ	誤差
200	±7%
400	±5%
1,000	±3%

200から400に増やす（2倍）と、誤差は7%から5%に減る。

400から1,000に増やす（2.5倍）と、誤差は5%から3%に減る。

さらに研究では、こんな結果も出ている。

「300-500サンプルを超えると、精度向上は無視できるレベルになる」

どこかで頭打ちになる。

「多ければ多いほど正確」の嘘

「データは多ければ多いほど正確」

これは、半分正しく、半分間違っている。

正しい部分：データが増えれば、精度は上がる

間違っている部分：データを増やすほど、精度向上の効率は下がる

10個のデータを100個にすると、精度は劇的に上がる。

100個を1,000個にすると、精度は少し上がる。

1,000個を10,000個にしても、精度はほとんど変わらない。

品質 vs 量

もう一つ、重要なことがある。

データの量より、データの品質が重要。

研究によると、高品質なデータで学習したモデルは、少ないサンプルでも効果的に予測できる。

一方、ノイズや不正確なデータで学習したモデルは、どれだけデータがあっても予測に失敗する。

IBMの調査（2016年）によると、低品質データにより組織は年間3.1兆ドル（約470兆円）の損失を出している。

Kantarの調査（2022年）によると、企業は収集データの最大38%を品質懸念で廃棄している。

量を追い求めるより、質を高める方が効果的なことがある。

収穫逓減のグラフ

イメージとしては、こうなる。

精度
 │
 │  ●
 │    ●
 │      ●
 │        ●──●──●──●──●
 │
 └────────────────────── サンプル数
     ↑        ↑
   急上昇    頭打ち

最初は急上昇する。

でも、どこかで曲線は平らになる。

300-500サンプルあたりが、その境目。

ここまでの気づき

1. 大数の法則は「近づく」だけ 試行回数を増やせば50%に近づくが、「一致する」わけではない。

2. 収穫逓減の法則 サンプルを4倍にしても、誤差は半分にしかならない。

3. 300-500サンプルで頭打ち それ以上増やしても、精度向上は無視できるレベル。

4. 量より質 低品質なデータは、どれだけあっても役に立たない。

次回

大数の法則は、試行回数を増やせば「収束する」と言う。

でも、ここで一つの疑問が浮かぶ。

過去のデータは、未来を予測できるのか。

コインを100回投げて、50回表が出た。

次に投げたとき、表が出る確率は50%か？

「明日も太陽は昇る」

これは確率か、それとも確実か？

次回: 過去データは未来を予測できるか ─ ヒュームの問い

← サイコロは過去を知らないの一覧に戻る