前の記事 | 目次 | 研究所 | 次の記事 2000年5月からの訪問者数(画像)
農業と環境 No.153 (2013年1月1日)
独立行政法人農業環境技術研究所

農環研ウェブ高座 「農業環境のための統計学」 第5回 「データを観る・見る・診る」

前回の記事で提起した 「身の丈サイズの統計学」 についてさらに話を続けましょう。統計的データ解析を手がける上で、「計算」する前にまずしなければならないことは、データを自分の目でしっかり 「見る」 ことです。統計学とは計算することであるという先入観からすれば意外に思えるかもしれません。しかし、今回と次回の連載を通して読んでいただければ、データを十分に「見る」ことが、地に足のついた「計算」をするための第一歩であることがきっとわかっていただけるでしょう。

図1;実験前(左)と実験後(右)の架空生物のかたち

簡単な例として、架空生物を用いた仮想実験 図1 を見て下さい。図1 の左側の群は実験をする前の状態で、まんまるい形をしています。いま、この生物群にある薬剤を投与して一週間が経過したところ、右側の群のようになったと仮定します。見ての通り、実験前はまんまるだった生物が投与後一週間経つと長細く伸びて楕円形になっていることがわかります。いま「見ての通り〜がわかります」と書きました。おそらく読者の大多数はこの実験の前後の「差」に “直感的” に気がつき、投与した薬剤にはこの架空生物の形を変える効果があったのだという結論を自然に受け入れるでしょう。

図2;実験前(左)と実験後(右)の架空生物のかたち

今度は 図2 の仮想実験を見て下さい。図1 と同じく、左側の群は実験する前、右側の群はこの薬剤を投与して一週間が経過した後を示しています。実験のやり方そのものは 図1 とまったくちがいがありません。しかし、図2 から得られる “直感的” な解釈は大きく異なり、この結果を見た読者の多くは、実験前後でこの生物の形状には「差」があるとはどうしても認められず、この薬剤には体長を伸ばす効果がなかっただろうと結論するでしょう。

もちろん、生物統計学の素養のある読者ならば、図1図2 の状況で実験の前後で有意な差があるかどうかを 「統計学的に判定する方法」 があることに気づかれるでしょう。確かに、集団間の有意差を検出するためには、この架空生物の体長に関するしかるべき統計的検定 (たとえば集団平均に関するt検定) をすればよいからです。

統計学の理論をもちだすならば、確かにその通りです。しかし、たとえ統計学の知識をまったく持ち合わせていなかったとしても、上のような仮想実験の結果を見せられれば、われわれ人間は “直感的” な判断をできるだけの知的能力をもっています。認知心理学の分野では、人間がだれでももっているこの能力のことを 「素朴統計学 (naive statistics)」 と呼んでいます。素朴統計学とは曖昧(あいまい)さや不確定さをふくむ状況のもとで推論し判断する認知能力の総体を指しています。前回説明した 「アブダクション」 という推論様式のルーツはこのあたりにあるのでしょう。

では、人間ならばだれもがもっているこの素朴統計学的な直感 (要するに “統計センス” ) は、上の状況でどのように作動するのでしょうか。その手がかりは実験結果の 「ばらつき」 がどのように認知されているかという点にあります。

図1図2 のどちらの実験を見ても、実験前のまんまるな架空生物は体長データ(円の直径)に関してばらつきがあります。生物学的には個体変異に起因するデータの変動です。一方、実験後の結果を見てもやはり群内には体長データ(楕円の長軸)に関するばらつきがあります。両実験にちがいをもたらしたのは、実験前後の群間の 「差」 の大きさといえます。体長に関する群内のばらつきが同程度であったとしても、図1 では群間のばらつきがもっと大きいために、われわれは “直感的” に差異を認知できます。一方、図2 の状況では、同じ群内のばらつきに対して、群間のばらつきは 図1 に比べればそれほど大きくないため、差異を認知することができません。

この実験の集団間に 「差がある」 かどうかが群内のばらつきに対する群間のばらつきの相対的な大きさに依存しているならば、簡単な 「比」 すなわち 「群間のばらつき/群内のばらつき」 がもっともわかりやすい直感的判断基準となるでしょう。図1 の場合はこの比の値が大きいのに対し、図2 では小さいことになります。もちろん、ここでいう 「比の値」 とは厳密な計算によって求められたものではありません。あくまでも、直感的に認知された 「比の値」 です。それでも日常的な生活の場での判断基準としてはそれで十分です。

「群間のばらつき/群内のばらつき」 で定義される直感的な 「比」 の値は、上で挙げた仮想例では 「差」 の有無を見極めるのにとても効果的な判断基準といえます。もちろん、ここでは万人がもっているであろう “統計センス” の話をしていますので、厳密な数値基準の問題すなわちこの比の値がいくつ以上ならば 「差」 があるといえるのかという点は問いません。しかし、のちに統計学的な扱いを論じる際に登場する厳密な数値的判断基準が、実はここで論じた直感的な基準とみごとに呼応していることを読者は知ることになるでしょう。

統計分析に基づく説明にほんとうに納得できるかどうかの最後の一線は、わたしたち人間がもともともっている認知心理的な背景と整合的かどうかにあります。もしそうであれば、いっそのこと人間のもつ “統計的センス” の方を重視して、小難しい統計学のリクツなど勉強しなくても、私たちの直感だけですませればいいではないかという主張が現れてくるかもしれません。

しかし、人間の “統計的センス” に全面的に頼るこの主張に対しては強力な反論が出されています。それは前回の記事で言及した 「心理的本質主義 (psychological essentialism)」 という人間の認知的バイアスのもつ弊害と密接に関係しています。それは一種の “思考バイアス” であって、人間は身の回りの世界とそこにある存在物そして生じる現象をある傾向性をもって解釈しようとします。その “思考バイアス” を心理的本質主義と呼びます。

心理的本質主義とは、万物は離散的に分割することができ、分割された 「群」 には目に見えない固有の 「本質 (essence)」 があるとみなしてしまう心理を意味します。たとえば、分類学の素養をもたない一般の人は、ヒトとサルとイヌは 「別種の動物」 であるとみなします。その判断を背後で支える心理的本質主義は、生物界の中には 「ヒト」「サル」「イヌ」 という離散的な分類群が実在していて、たとえば 「ヒト」 という分類群には 「ヒトをヒトたらしめている本質」 が背後に潜んでいると解釈します。

もちろん、現代の進化生物学が説く基本中の基本は 「すべての生物群には本質はない」 という綱領です。もしそれぞれの分類群に本質なるものが実在しているとしたら、生物進化という根幹が崩れ去ってしまうからです。不変なる本質は可変なる進化という観念と真っ向から矛盾します。神がすべての生物を創ったとみなす個別創造説のもとでは本質主義は延命できても、祖先から子孫への経時的変化を仮定する進化学のもとでは本質主義が生き残る余地はまったくありません。

やっかいなことに、そういう科学的な観点からの本質主義の論破は理解できても、なお心理的本質主義を最後まで捨て去ることができないのが人間の悲しい性(さが)です。論理と心理は必ずしも同調しません。発達心理学の研究によると、人間のもつ心理的本質主義は乳幼児の時期にすでに芽生えているそうです。つまり、私たち人間は生まれながらの心理的本質主義者だと言えそうです。

本質主義の世界観は、万物を離散的に分割した上で、分割された群は本質によって支配されていると解釈します。かつて人間が進化してきた過去の地球にあっては、このような本質主義的世界観をもつことにより、多様な存在物を少数の「群」に分割して整理し、その背後にある現象を本質という統一的な観点から効率的に理解するという適応的意義があったのでしょう。そのようにして獲得された心理的本質主義が現在もなお “誤作動”した結果が “思考バイアス” だと考えられます。

心理的本質主義について長々と述べてきたのは、その “思考バイアス” がまさに直感的な “統計センス” をも偏向させる危険性であるからです。

上で挙げた図1図2の例に戻りましょう。この仮想実験ではある薬剤の架空生物の成長への効果が 「あるのか/ないのか」 が問われていました。薬剤投与の前後での体長の差を目で見て比較することにより 「あるのか/ないのか」 を判定しようとする “統計センス” の落とし穴は、ほんとうは 「差はない」 のに、誤って 「差はある」 とつい結論してしまう点にあります。二つの 「群」 を目の前で並べられたとき、人間は両者の 「差」 を何とかして検出しようとします。二群に分けられているのは何かしら目に見えない本質が異なっているからにちがいないという先入観は統計センスに “バイアス” の弊害をもたらします。

「あるのか/ないのか」 と問われたときについ 「ある」 と応答してしまうのは心理的本質主義の “誤作動” です。統計学では推論上には二種類のまちがいがあると指摘してきました。そのひとつは、ほんとうは 「ない」 のに 「ある」 と結論するまちがいで、「第一種の過誤 (type-I error)」 と呼ばれます。もうひとつは、その裏返しで、ほんとうは 「ある」 のに 「ない」 と結論するまちがいです。こちらは 「第二種の過誤(type-II error)」 と呼ばれてきました。

もう明らかなように、私たち人間は生まれつき 「第一種の過誤」 をより犯しやすいという “思考バイアス” をもっています。生得的な “統計センス” がもつ玉に瑕(きず)とは、やはり生得的な心理的本質主義だったという結末です。したがって、私たちは、必ずしも客観的にデータを 「見る」 ことができるわけではなく、むしろはっきりとした “バイアス” がかかっている可能性があることをわきまえる必要があります。

では、生得的な “認知バイアス” を認めた上で、なおデータを 「見る」 ことにどのような意義があるのでしょうか。次回はその話題に進むことにしましょう。

三中 信宏 (生態系計測研究領域)

農環研ウェブ高座「農業環境のための統計学」 掲載リスト

第1回 前口上−統計学の世界を鳥瞰するために (2012年8月)

第2回 統計学のロジックとフィーリング (2012年9月)

第3回 直感的な素朴統計学からはじまる道 (2012年10月)

第4回 統計学的推論としてのアブダクション (2012年11月)

第5回 データを観る・見る・診る (2013年1月)

第6回 情報可視化と統計グラフィックス (2013年2月)

第7回 データのふるまいを数値化する:平均と分散 (2013年3月)

第8回 記述統計学と推測統計学:世界観のちがい (2013年4月)

第9回 統計モデルとは何か:既知から未知へ (2013年5月)

第10回 確率変数と確率分布:確率分布曼荼羅をたどる (2013年6月)

第11回 正規分布帝国とその臣下たち (2013年7月)

第12回 パラメトリック統計学の世界を眺める (2013年8月)

前の記事 ページの先頭へ 次の記事