第3回: 50%に収束する世界
サイコロは過去を知らない ─ 確率とデータの本当の関係③
コインを10回投げた。
表が7回、裏が3回。
「このコインは表が出やすいのでは?」
そう思うかもしれない。
でも、それは正しいだろうか。
大数の法則
ベルヌーイが証明した「大数の法則」を思い出してほしい。
「試行回数を増やせば、観測された頻度は理論的な確率に近づく」
コインを投げ続ければ、表の割合は50%に近づいていく。
これは数学的に証明されている。
では、どれくらい投げれば、どれくらい近づくのか。
収束の速度
具体的な数字で見てみる。
5回投げた場合
- 表が3回(60%)ということは、普通にあり得る
- 表が4回(80%)も、あり得る
- 表が5回(100%)すら、32回に1回は起きる
100回投げた場合
- 表が60回(60%)の確率は約2%
- 表が70回(70%)の確率は0.01%以下
- ほぼ45〜55回の範囲に収まる
10,000回投げた場合
- 表の割合は、ほぼ50%±1%に収まる
- 60%になる確率は、事実上ゼロ
試行回数が増えるほど、50%に近づく。
でも、どう近づくのか。
ここに重要なポイントがある。
平方根の法則
誤差は、試行回数の平方根に反比例する。
これを「平方根の法則」という。
具体的には、こうなる。
- サンプル100:誤差±10%程度
- サンプル400:誤差±5%程度
- サンプル1,600:誤差±2.5%程度
気づいただろうか。
サンプルを4倍にしても、誤差は半分にしかならない。
100を400にする(4倍)と、誤差は10%から5%になる(半分)。
400を1,600にする(4倍)と、誤差は5%から2.5%になる(半分)。
これは「収穫逓減」だ。
研究データ
実際の研究データを見てみる。
| サンプルサイズ | 誤差 |
|---|---|
| 200 | ±7% |
| 400 | ±5% |
| 1,000 | ±3% |
200から400に増やす(2倍)と、誤差は7%から5%に減る。
400から1,000に増やす(2.5倍)と、誤差は5%から3%に減る。
さらに研究では、こんな結果も出ている。
「300-500サンプルを超えると、精度向上は無視できるレベルになる」
どこかで頭打ちになる。
「多ければ多いほど正確」の嘘
「データは多ければ多いほど正確」
これは、半分正しく、半分間違っている。
正しい部分:データが増えれば、精度は上がる
間違っている部分:データを増やすほど、精度向上の効率は下がる
10個のデータを100個にすると、精度は劇的に上がる。
100個を1,000個にすると、精度は少し上がる。
1,000個を10,000個にしても、精度はほとんど変わらない。
品質 vs 量
もう一つ、重要なことがある。
データの量より、データの品質が重要。
研究によると、高品質なデータで学習したモデルは、少ないサンプルでも効果的に予測できる。
一方、ノイズや不正確なデータで学習したモデルは、どれだけデータがあっても予測に失敗する。
IBMの調査(2016年)によると、低品質データにより組織は年間3.1兆ドル(約470兆円)の損失を出している。
Kantarの調査(2022年)によると、企業は収集データの最大38%を品質懸念で廃棄している。
量を追い求めるより、質を高める方が効果的なことがある。
収穫逓減のグラフ
イメージとしては、こうなる。
精度
│
│ ●
│ ●
│ ●
│ ●──●──●──●──●
│
└────────────────────── サンプル数
↑ ↑
急上昇 頭打ち
最初は急上昇する。
でも、どこかで曲線は平らになる。
300-500サンプルあたりが、その境目。
ここまでの気づき
1. 大数の法則は「近づく」だけ 試行回数を増やせば50%に近づくが、「一致する」わけではない。
2. 収穫逓減の法則 サンプルを4倍にしても、誤差は半分にしかならない。
3. 300-500サンプルで頭打ち それ以上増やしても、精度向上は無視できるレベル。
4. 量より質 低品質なデータは、どれだけあっても役に立たない。
次回
大数の法則は、試行回数を増やせば「収束する」と言う。
でも、ここで一つの疑問が浮かぶ。
過去のデータは、未来を予測できるのか。
コインを100回投げて、50回表が出た。
次に投げたとき、表が出る確率は50%か?
「明日も太陽は昇る」
これは確率か、それとも確実か?
次回: 過去データは未来を予測できるか ─ ヒュームの問い