前の記事 | 目次 | 研究所 | 次の記事 2000年5月からの訪問者数(画像)
農業と環境 No.150 (2012年10月1日)
独立行政法人農業環境技術研究所

農環研ウェブ高座「農業環境のための統計学」 第3回 「直感的な素朴統計学からはじまる道」

統計学のたどってきたルーツをふりかえるとき、きわめて逆説的ながら 「数学は統計学にとって必須ではない」 と断言できます。われわれ統計学ユーザーにとって本当に必要なのは、日常的に取り組んでいる具体的な問題状況の把握に尽きます。統計学で現在用いられている多くの理論はいずれも特定の生物学的問題の解決を目指して開発されたものです。たとえば、回帰分析は、生物統計学の祖であるフランシス・ゴルトン(Francis Galton)が親子間での関連性を解決するために編み出した手法でした。また、現在でも広く用いられている実験計画法や分散分析は、1920年代、イギリスのロザムステッド農業試験場にいた統計学者ロナルド・フィッシャー(Ronald A. Fisher)が圃場実験データを解析するために開発した方法でした。

世には 「統計イコール数学」 とか 「数学は統計の基礎である」 という通説がまかり通っています。この通説のせいで、多くの農学・生物学分野の統計学ユーザーは統計学の理論的背景に関して思考停止してしまい、結果として「無思考的統計ソフトウェア依存症候群」の広範な蔓延をもたらす結果となりました。もうそろそろこの通説から卒業してもいい頃でしょう。本末転倒してはいけません−−私たちユーザーは、統計理論の会得やソフトウェアの習熟などではなく、なによりもまず現場で生じる具体的問題の解決を目指していたはずだから。統計学はその問題を解決するためのツール(のひとつ)にすぎません。

ここで、データはばらつくという真理に注目しましょう。たとえ精密を期した工業製品であっても、製造工程でのさまざまな確率的要因の関与により、製品の特性値にはばらつきが生じます。生物学の分野では、遺伝的変動および環境的変動の複雑な絡み合いにより、観察データの中にはばらつきが生まれます。全数調査のようにすべて調べ尽くす状況では、データのばらつきは集められた全情報の要約という記述統計としての意味を持ちます。一方、母集団からの有限個のサンプル抽出を考える推測統計の場合には、ばらつきのあるすなわち変動のあるデータに基いて、母集団に関する未知のパラメーター(真の平均や分散の値)を推論するという状況が生じます。

データのばらつきとは、次の二つの段階を経てはじめて定量化できるでしょう。まずはじめに、複数データの “真ん中” (たとえば平均値や中央値)を計算することによりデータのおおまかな 「位置付け」 ができます。それに続いて、それぞれのデータが計算された “真ん中” からどれほど遠くまでばらついているかを分散として数値化することにより、データ集合としてのばらつきの評価が可能になります。

一変量データ・多変量データの別を問わず、私たちが統計理論を用いるときの出発点はデータの変動(ばらつき)です。観察されたデータの値がばらつくとき、その原因は処置した実験処理の結果でしょうか、それとも偶然誤差に起因したのでしょうか。複数の実験処理を組み合せたとき、それらの要因の間にはどのような関連があるのでしょうか。統計学的な推定・検定とは、これらの問いに答えるための方法です。ある被検集団の真の平均(パラメーター)の値を複数の無作為抽出されたサンプル値から推定(点推定または区間推定)したり、あるいは平均値パラメーターの大きさに関する仮説を検定することを通して、わたしたちは未知のパラメーターに関する推論を行なうことができます。統計学的な推論は、データに照らして不適当な仮説を棄却することによって進められます。

そのためには、まずはじめにデータの変動という現象をモデル化したり定量化したりする必要があります。前回紹介したガウスの正規分布関数はそのための強力な武器の1つです。しかし現実には正規分布に正確に従うデータはありません。正規分布(あるいは他のパラメトリック確率分布)からのずれが小さいときは、近似的にもしくは変数変換によって、ばらつきが正規分布に従うことを前提とするパラメトリックな標準的統計手法を利用するのが常道でした。しかし、そのずれが大き過ぎるときには、検出力は多少落ちてもノンパラメトリックな統計手法を用いるべきでしょう。あるいは、一般化線形モデルのような融通の効く方法論が使えるかもしれません。また、最近ではブーツストラップなど新たなコンピューター集約型の統計手法を駆使して経験的に確率分布を生成するというやり方も広く利用されるようになってきました。ベイズ統計学の利用もモデル選択や意思決定の場面では重要です。統計学の「現場」の事情に合わせて、既存の統計学の理論を鍛え直していく試みは今後も続けられていくでしょう−−そして、賢明な統計学ユーザーはこのような手法の進歩が今なお続いていることを知っています。

われわれヒトが素朴統計学的な判断能力をもつにいたった進化心理学的シナリオは考察に値する研究対象でしょう。しかし、ここでは次の点を確認するにとどめておきます。つまり、対象の属性が変動し知覚されるデータがばらつく状況に直面したときの直感的判断能力(たとえば群間差の検出能力)は誰もが有しているということです。科学としての統計学は、観測されたデータを読み、それに基づいて要約や推論をすることを目指します。その目的に関するかぎり素朴統計学に基づく直感的判断となにひとつちがいはありません。むしろ、素朴統計学との整合性が保持されているかぎり、科学としての統計学の説得力は安泰だとさえ言えるでしょう。

上では、万人がもつであろう素朴統計学的な認知能力について述べました。このように論じると、ひょっとして「ヒトがすぐれた直感的統計判断ができるのだったら、小難しい統計学の理論を勉強しなくてもいいのではないか」と誤解する読者がいても不思議ではないでしょう。確かに、われわれは内在的な統計判断能力をもっています。しかし、同時にヒトの判断能力には看過できない認知バイアスがあると言われています。その最たるものが 「心理的本質主義(psychological essentialism)」 と呼ばれる生得的傾向です。

本質(essence)とは事物の集合(類)の必要十分条件となる性質です。「存在の学」 たる形而上学(metaphysics)における本質主義(essentialism)とは、かつて中世に実在論(realism)対唯名論(nominalism)の間で何世紀にもわたって戦わされた 「普遍論争」 にも連なる伝統的な思潮でした。発達心理学において 「心理的本質主義」 と呼ばれる認知傾向は、1) 世界は離散的な類に分割され、2) それぞれの類は心理的本質によって定義された事物から構成され、3) 現象世界の背後で心理的本質が因果的メカニズムを担っていると性格づけられています。

心理的本質主義は、人間の日常生活のいたるところで発現します。統計的判断能力とは別に、この心理的本質主義が作動するとき、われわれヒトは「ない」はずのものを「ある」と誤って判定する危険性が高まります。生物分類では種(species)に関わる心理的本質主義の問題が論議されてきました。同様のことは統計学とも無縁ではありません。データの変動(ばらつき)の背後にある規則性や一般性を探ることが、素朴統計学ならびに科学統計学の目標であるとするならば、心理的本質主義が忍び入るすきはいたるところにあります。

たとえば、薬剤の効果が「ある」のか「ない」のかという問題状況でも心理的本質主義は容易に発現するでしょう。「ある」ものを「ある」と、「ない」ものを「ない」と正しく判断できるのならいいのですが、えてしてわれわれは「ない」のに「ある」というまちがい(統計学では「第一種過誤」と呼ばれる)を犯しがちです、逆に、「ある」ものを「ない」と錯覚するまちがい(「第二種過誤」と呼ばれる)は、それほど深刻に考える必要はないでしょう。なぜなら、過誤(まちがい)という点では同じであっても、そこに「ある」ものはとうぜん「ある」と認知されるだろうからです。このように、第一種過誤と第二種過誤は、論理的には確かに「対称的」な誤りに見えますが、心理的には明らかに「非対称的」です。いいかえれば、両者の間には、ヒトとしての犯しやすさに明瞭なちがいがあるということです。

ともすれば、確率論や統計学は数学的な論理体系として私たちの眼前にそびえ立っているように見えますが(実際その通りなのですが)、ヒトをとりまく現象世界のなかで「生きるすべ」として私たちとともに育ってきた 「素朴な確率思考」 あるいは 「野生の統計思考」 という側面はもっと強調されていいと私は考えます。ばらつきや不確定性をともなうさまざまな現象を前にして、わたしたちがどのように考察し、それらの現象の背後に潜むかもしれない一般性や規則性に関していかなる推測を組み立ててきたかを思いやるとき、心理的本質主義とそれに導かれた原初的な推論様式の重要性は無視することができません。

三中 信宏(生態系計測研究領域)

農環研ウェブ高座「農業環境のための統計学」 掲載リスト

第1回 前口上−統計学の世界を鳥瞰するために (2012年8月)

第2回 統計学のロジックとフィーリング (2012年9月)

第3回 直感的な素朴統計学からはじまる道 (2012年10月)

第4回 統計学的推論としてのアブダクション (2012年11月)

第5回 データを観る・見る・診る (2013年1月)

第6回 情報可視化と統計グラフィックス (2013年2月)

第7回 データのふるまいを数値化する:平均と分散 (2013年3月)

第8回 記述統計学と推測統計学:世界観のちがい (2013年4月)

第9回 統計モデルとは何か:既知から未知へ (2013年5月)

第10回 確率変数と確率分布:確率分布曼荼羅をたどる (2013年6月)

第11回 正規分布帝国とその臣下たち (2013年7月)

第12回 パラメトリック統計学の世界を眺める (2013年8月)

前の記事 ページの先頭へ 次の記事