第5回: 大企業のビッグデータ vs 私の確率データ
サイコロは過去を知らない ─ 確率とデータの本当の関係⑤(最終回)
大企業は膨大な顧客データを持っている。
購買履歴、閲覧履歴、デモグラフィック情報。
何百万人、何億人のデータ。
中小企業には、それがない。
では、勝ち目はないのか。
これまでの連載を振り返る
ここまで、確率について見てきた。
第1回: 確率と計算は違う
- 計算は「知っている」世界、確率は「知らない」世界を扱う
第2回: パスカルとギャンブラー
- 確率論は賭博問題から始まった
第3回: 50%に収束する世界
- 300-500サンプルで精度向上は頭打ち
- 量より質
第4回: 過去データは未来を予測できるか
- サイコロは過去を知らない
- 予測できるのは「世界が変わらない」前提がある場合だけ
これらの知見を、マーケティングに応用してみる。
ビッグデータの落とし穴
大企業のビッグデータ。
確かに、量は多い。
でも、第3回で見たように、量だけでは精度は上がらない。
研究によると、300-500サンプルを超えると、精度向上は無視できるレベルになる。
100万人のデータと、500人のデータ。
予測精度の差は、思ったほど大きくない。
さらに、ビッグデータには別の問題もある。
データ品質の問題
Kantarの調査(2022年)によると、企業は収集データの最大38%を品質懸念で廃棄している。
IBMの調査(2016年)によると、低品質データにより組織は年間3.1兆ドルの損失を出している。
量は多くても、使えるデータは限られている。
Small Data の力
一方で、少数のデータでも有効なケースがある。
ある研究では、240サンプルという小さなデータセットで、決定木アルゴリズムが91.67%の精度を達成した。
別の研究では、インタビューベースのデジタルツイン(顧客シミュレーション)が80%以上の精度を達成している。
参考までに、人間が2週間後に同じ質問に一貫して回答する率は約81%。
つまり、人間自身の一貫性と同程度の精度だ。
少数でも、質の高いデータは効果的。
確率シミュレーションという武器
ここで、私のデジタルツインマーケティングの話をしたい。
デジタルツインマーケティングとは、顧客のシミュレーションを行う手法だ。
実際の顧客データは少ない。
でも、確率モデルを使えば、「あり得る顧客行動」をシミュレーションできる。
モンテカルロ法
不確実性を含むプロセスをシミュレーションする手法。
サイコロを何度も振るように、確率的なシナリオを何千回も試す。
例えば、新商品の売上予測。
- コンバージョン率:2%〜5%の間で変動
- 平均単価:3,000円〜5,000円の間で変動
- 広告費:100万円
これらの不確実性を組み合わせて、何千回もシミュレーションする。
結果は「売上500万円」ではなく、「売上300万円〜700万円の範囲に95%の確率で収まる」という形で出る。
不確実性を「なかったこと」にせず、正直に扱う。
中小企業の構造的優位性
大企業にはない、中小企業の強みがある。
1. 俊敏な実験
大企業は、意思決定に時間がかかる。
複数の承認レイヤー、長期のキャンペーン計画。
中小企業は、すぐに試して、すぐに学べる。
A/Bテストの結果を見て、翌日には戦略を変えられる。
2. 短い学習サイクル
中小企業の購買サイクルは短い。
結果が早く出る。
フィードバックループが速い。
大企業は、効果測定に数ヶ月かかることもある。
3. 深い対話
100万人の浅いデータより、100人の深い対話。
なぜ買ったのか。
なぜ買わなかったのか。
何に困っているのか。
数字では見えない「理由」が分かる。
道具の限界を知る
この連載を通じて、伝えたかったことがある。
確率は、万能ではない。
データは、未来を保証しない。
ビッグデータは、必ずしも正確ではない。
道具には、限界がある。
でも、限界を知っていれば、道具を正しく使える。
「データがあれば何でも分かる」と思うより、
「データには限界があるが、使い方次第で武器になる」と思う方が、正しい。
ここまでの気づき
1. ビッグデータは万能ではない 300-500サンプルで精度は頭打ち。品質問題も深刻。
2. Small Data でも戦える 240サンプルで91.67%の精度。質の高いデータは効果的。
3. 確率シミュレーションという武器 不確実性を正直に扱う。モンテカルロ法で「あり得る範囲」を知る。
4. 中小企業の構造的優位性 俊敏な実験、短い学習サイクル、深い対話。
おわりに
サイコロは過去を知らない。
確率とデータの本当の関係を、5回にわたって見てきた。
確率は「知らない」を扱う道具。
大数の法則は「収束する」が「保証しない」。
過去データは未来を「示唆する」が「保証しない」。
ビッグデータは「量がある」が「質を保証しない」。
限界がある。
でも、限界を知っていれば、道具は使える。
大企業のビッグデータに、量で勝つ必要はない。
確率の使い方、データの質、学習の速度。
そこで勝負すればいい。
道具の限界を知る者だけが、道具の主人でいられる。
サイコロは過去を知らない ─ 確率とデータの本当の関係(了)