2011年07月31日

超能力と統計分析 (2)

*ずいぶんと時間が経ってしまいましたが(すいません!><)、「超能力と統計分析」の後半にいってみたいと思います。

前回の最後にご紹介したカイ二乗検定ですが、これは、「ある現象が偶然起きたのか」を判断するのに使われる最もポピュラーな手法で、統計学の教科書ではけっこう最初の方に出てきます。ようするに、それだけ(学問の世界では)広く信頼されている方法なので安心してください、ということなのですが(苦笑)、それでも信用できないという方がいたら統計学の本やネットの検索で調べてみてください。

さて、難しい理屈は飛ばしてしまいましょう。カイ二乗検定をちゃんと理解するには、カイ二乗分布、標準正規分布、自由度、期待値、帰無仮説、有意水準、独立分布などを説明しなくてはなりませんが、きっと読者はそんなこと求めてない(笑)。ここで読者の多くが知りたいのは「本物の超能力者を見分ける方法」でしょうから。

というわけで、カイ二乗検定の使い方です。まず、コイン当てをある程度の回数やってから、次の X を計算してみてください。

X={(当り回数−偶然当たる回数)の2乗/偶然当たる回数}+{(外れ回数−偶然外れる回数)の2乗/偶然外れる回数}

例えば、コイン当てを100回やって56回の当たりを出したとしましょう。その場合、「当り回数」は56回、「外れ回数」は(100回−56回)=44回になります。「偶然当たる回数」は、前回ご説明したように、偶然当たる確率が50%なので 0.5(50%)×100回= 50回 です。「偶然外れる回数」は、(100回−偶然当たる回数)なのでやはり50回です。すると X は、

X={(56−50)の2乗/50}+{(44−50)の2乗/50}

なので、X=1.44 となります。ちなみに、X のことを「カイ自乗統計量」と言います。

次に EXCEL を使います。EXCEL には CHIDIST関数 という便利な機能があるので、どのセル(マス目)でもいいですから、次のように書き込んでみてください(*2)。

=CHIDIST(X,1)

56回の当たりが出た上の例では X=1.44 でしたから、セルの中には“=CHIDIST(1.44,1)”と書き込めばいいわけです。すると、だいたい 0.23 という計算結果が出てきます。これが何を表しているかというと、実は「56回の当たりが偶然出た確率」なのです。だから、100回中56回の当たりが偶然出る確率は 23% ということになります。ちなみに、100回のコイン当てなら、63回の当たりを出せばこの確率は 約0.93% まで下がります。つまり 1% 以下ですから、逆に言うと「99%以上の確率で偶然の結果ではない」と言えることになるのです。

もちろん、「偶然の結果ではない」というだけのことですから、インチキ不正をやっても同じ結果は出せてしまいます。だから、この辺がどうも統計学の限界だと言えそうです。インチキや不正を暴くのは、TVで活躍する反オカルトの科学者先生やマスコミの記者さん達に任せることにします。

とはいえ、「遊び」として友達に目の前でやってもらうのなら、インチキや不正がないかは存分に調べられますし、コインやコインを投げる人もこっち側で準備すれば、インチキや不正の心配もほとんどなくなりますよね。ということで、皆さんもパーティなどで試してみてはいかが?

私が前にやってみた経験から言うと、100回ぐらいならば63回以上当たりを出す人(つまり「偶然の範囲」を超えて当たりを出した人)もごくまれに出てくるようです。でも、200回、300回、と実験を重ねていくうちに、しまいには全員が「偶然の範囲」におさまってしまうでしょう。なんなら、必ずそうなると断言してもかまいません。

なぜなら、2000回の実験でこの「偶然の範囲」を突破しようとするなら、上で紹介した計算をやり直してみると 約53% の正答率(1058回以上の当たり)を出すだけで良いことがわかりますが、この程度のハードルでさえ、今までに越えられた人はただの一人もいないからです。

少し傲慢な言い方をしてしまったかもしれませんが、いつか私の鼻っ柱をへし折ってくれるような本物の「超能力者」が現れてくれることを祈っています。

*2  EXCELを使わないと、この計算はとても大変なので、ここではEXCELを使った方法だけを紹介します。
posted by ohkuma2300 at 11:09| Comment(1) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年11月18日

超能力と統計分析 (1)

今日はちょっと趣向を変えて「超能力」をとり上げたいと思います。といっても、あくまで統計分析の観点から、です。あらかじめお断りしておきますが、「超能力は存在するか?」という問題にここで結論を出すことはしません。

例えば、コインを投げてかを当てるゲームをするとしましょう。もしこのゲームを100回やって100回当たれば、当てた人は「超能力者である」と認めていいものでしょうか? もしインチキや不正の類いが一切ないと仮定すれば(*1)、大抵の人は認めても良いと思うのではないでしょうか。

しかし、とても疑り深い人だったら こう言うかもしれません、「100回の当たりくらい、偶然に起きることだってある」。これは本当でしょうか? 100回のうち100回当たりなんて現象が、そうそう偶然起こるものでしょうか? ……そんな極端なケースの場合は、ちょっと「疑り深い人」に分が悪いようですね。

ですが、100回のうち90回当たりだったらどうでしょうか? それでも偶然はないと言い切れますか? 100回中80回なら? 70回なら? ほら、だんだん「疑り深い人」に賛同する人が増えてきたのではないでしょうか。 さて、60回ならどうでしょう? 50回だったら……これは偶然と言えそうですね。

偶然にまかせてコイン当てをしていれば、1回のコイン投げで裏表を当てる確率50%(0.5)になります。それは次のような理由からです。この場合の確率は「コイン投げの裏表を前もって予想する」と「コインを投げる」という2つの現象の組み合わせから決まります。つまり{コイン投げの予想,コイン投げの結果}で1セットということですが、この組み合わせは{表,表}{表,裏}{裏,表}{裏,裏}の4セットで全てです。このうち、当たりである組み合わせは{表,表}と{裏,裏}の2セットだけですから、当たる確率は(2セット/4セット)=(1/2)=0.5ということになります。

理屈の上では、偶然当たる確率が50%のコイン投げを100回やった時の「当たる回数」は、0.5(50%)×100回= 50回になります。だから100回中50回の当たりなら、「偶然だ」と言っても良さそうなわけです。

しかし自然界の現象には必ず「誤差」というものが付きまといますから、むしろ毎回きっかり50回当たるという方が現実には無さそうです。だから当たりの回数が48回(誤差:-2回)や53回(誤差:+3回)であったとしても、「偶然ではない」とは言い切れないでしょう。それでは、誤差の大きさというのは一体どこまで認められるものなのでしょうか? 当たりの回数が60回(誤差:+10回)までは誤差の範疇でしょうか? 極端なことを言えば、誤差が+50回まで認められるのならば、先ほどの「疑り深い人」が言った、「100回全部が偶然に当たることだってある」という意見だって認められてもいいんじゃないでしょうか?

どこまでが偶然による誤差なのか? それを判断するのにとても便利な統計分析法があります。それはカイ二乗検定という手法なのですが、次回はそのやり方(誰にでもできます!)をご説明したいと思います。


*1  現実の超能力真贋論争ではここが一番重要視されたりしますが、その事には後(次回以降)で触れるので、ひとまずこう仮定しましょう。
posted by ohkuma2300 at 17:31| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする

2010年09月21日

統計データ分析の将来

最初に私個人の結論を書いておくと、統計データ分析は今後、一大産業にまで発展すると考えています。

以前のエントリで、統計データ分析の効用は何よりも「確かめる」ことにあると書きました。ビジネスの世界では最近、経営リスクを減らす武器として統計データ分析(=「確かめる」)の重要性が再認識されています。今後、ビジネス界での統計データ分析の需要は、IFRS(国際財務報告基準)の導入も追い風となってますます大きくなっていくでしょう

しかし、統計データ分析が産業化するには需要だけでは足りません。例えば、製造業が日本の主要産業に発展するには、製品の需要だけではなく安定した原料の供給が必要でした。では、統計データ分析の原料は今後も安定供給されるのでしょうか?

統計データ分析の原料は言うまでもなくデータですが、それが情報としての価値を持つためには、分析によって加工(集計・解析)されなくてはなりません。しかし、いったんデータから加工されて広く周知されてしまうと、情報としての価値は著しく低下します。ですので、産業化のためには多くの人が未知で、未加工のデータが日々大量に供給されなくてはなりません。そんな手付かずの、データの鉱脈が果たしてあるのでしょうか?

実はあるのです。これは大企業の経理畑の方に聞いた話なのですが、長い歴史を持つ大企業の資料庫には、そんな手付かずの膨大なデータが眠っているそうです。ところが、これが今は有効利用されていない。なぜか? それは、そのデータがに書かれた形で保存されているからです。これは企業だけでなく、官公庁でも同様だと聞いています。私は、これらが分析されないままに眠っているのは大変にもったいないことだと思っています。もっとも、「そんな古いデータに情報価値はない」とおっしゃる方もいます。しかし、その時代に固有な社会状況やデータ収集上の制約(技術の未発達等)については、それらの影響を可能な限り取り除く(コントロールする)分析方法が統計学にはあります。だとしたら、過去と同じような問題に直面した場合の状況分析として、十二分に有効な手段となり得るでしょう。そんな、知の宝庫ともいえる休眠データの付加価値が解き放たれたとき、一体どれほどの社会的利益がもたらされるか。

一方、コンピュータ化されたネット社会では、日々膨大な量のデータが新規に創出されています。一企業だけでも、毎日数十〜数百万件のオーダーで取引データが発生する、という状況も決して珍しくありません。ところが、これも決して有効活用されているとはいえない。むしろ、企業は日々の情報洪水をさばくことだけで精一杯で、分析することもないまま巨大な記憶装置にデータを眠らせていることも多いのが現状です。これも、きちんと分析して付加価値を生み出せば巨大な利益を生むでしょう。

あとは、データ分析を大規模に行うための追加投資分析要員の確保産業化は成ります投資については、実際に統計データ分析でリスクを減らして競争力を増す企業や組織が出てくれば(実際にIT企業や金融機関ではもう出始めています)追随者が積極的に追加投資を行うことでしょう。分析要員については、実は最近、統計分析のスキルを持つ人材の裾野が徐々に拡大しつつあります。というのは、Rのようなオープンソース型の統計分析ソフトの普及によって、EUC(エンド・ユーザー・コンピューティング)的に統計データ分析に関わるユーザーが増えているのです。この流れは、統計ソフトウェアが、よりユーザーフレンドリーで、よりオープンな方向に発展していくことで、ますます加速していくでしょう。つまり、ただ単に統計データ分析をしてもらう「お客さん」の立場から、「分析者」の立場、あるいはその中間的な立場へとシフトする人が増えているので、分析要員の確保も、これまでよりは比較的楽になるということです

そんなわけで、統計データ分析が産業化していくことは間違いないと思います。問題は、それが日本で起こるかどうかなのですが、日本の統計学赤池弘次博士のような世界レベルの研究者を輩出するほどの水準を誇っているので、素養は十分にあると思います。あとは、勇気ある経営者の方が、目の前に転がっている「統計データ分析の産業化」というビジネスチャンスに手を伸ばす、つまり資金を投資すれば、日本企業は来るべき統計データ分析産業リーダーとなり、大きな開拓者利益を享受できるでしょう。
posted by ohkuma2300 at 10:35| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする