いまからちょうど一年前の昨年8月に始まった本連載〈農業環境のための統計学〉は、当初予定していた通り、今回をもって終わりになります。連載記事を毎回読んでいただいたみなさんにまずはお礼を申し上げなければなりません。連載初回 「前口上−統計学の世界を鳥瞰するために」 のなかで、私は読者のみなさんに次のような前口上を申し上げました:
・ データの荒海を泳ぎ切ってもどこにも 「究極の真実」 などありはしないのだ。
・ 統計学はその時その場かぎりでの 「最良の結論」 を導く便法にすぎないのだ。
連載を終えるにあたり、一年前のこの前口上の意味するところを連載内容を振り返りながら再確認しておきましょう。
まずはじめに、第一のキーワードである 「究極の真実」 から取り上げます。この甘美な言葉は実に危険な誘惑です。研究者たるもの、いまだだれもが解明していないこの世の “真実” を手にしたいと望むでしょう。では、最新の統計学の手法を駆使すれば私たちは “真実” をつかむことができるのでしょうか? 日々増え続けるデータを前に解析し続けるアナリストは “真実” への近道をたどっているのでしょうか? そんなことはけっしてありません。データの向こうに “真実” があるというはかない期待は、アイルランドの民話に出てくる妖精レプラコーンをむなしく探し求めるようなものです。彼の地のレプラコーンは “虹の根元” に財宝を蓄えているとされています。しかし、世に言うビッグデータを最強の統計手法を使って解析したとしても、その “虹の根元” に到達することはできないでしょう。
統計ユーザーである私たちが求めるものは、夢見る 「究極の真実」 ではなく、もっと身体的な 「直感的説明」 であると私は考えます。なぜなら、私たちは、地に足の着いた生きものとして、身のまわりの環境からの情報を直感的に処理しながら生存するように淘汰されてきたからです。第2回「統計学のロジックとフィーリング」 と 第3回「直感的な素朴統計学からはじまる道」 に書いたように、統計的思考のルーツは、さまざまな不確定性のある環境の中でそのつど判断を下しながら生きてきたヒトとしての系統発生にあるからです。ばらつきやあやまりを含むかもしれない情報源をもとに自らの生存を追求することは、生きものとしての人間のもつ根源的姿勢です。統計的思考はその発現のひとつであるとみなされます。
万人が程度のちがいはあれ直感的感覚をもつと理解するとき、私たちはだれもが統計的思考の萌芽(ほうが)を自らのなかに育(はぐく)んできたという単純な事実に気がつくべきでしょう。統計学を学ぶことに二の足を踏む人の多くは、「やっかいな数学はちょっと……」 とか 「いままでに何度も挫折したことが……」 という理由をあげることが多いです。しかし、第5回「データを観る・見る・診る」 と 第6回「情報可視化と統計グラフィクス」 で、いくつかの実例とともに説明したように、統計学にとって数学は “あとづけ” のリクツにすぎません。それよりも、データがもつ “視覚的理解” をもっと重視し、みんながもっている直感的な統計フィーリングの潜在パワーに目を向けましょう。
かつて原始時代に生きた私たちヒトは、さまざまな感覚を研ぎ澄ませることにより、きびしい生存競争を生き抜いてきました。日常生活のなかで現れては消える大小さまざまな情報断片をつなぎあわせて、目前に迫る事態を的確に把握し、思考し、推論する能力は万人のものです。
ここで登場するのが第二のキーワードである 「最良の結論」 です。日々の生存にとって 「究極の真実」 はたいした意味をもちません。それよりも数ある選択肢のなかでどれを選ぶべきかの方が生存にとってははるかに重要です。つまり、複数の対立仮説のなかで 「最良の結論」 をデータに即して選び出す能力が問われているのです。そして、この能力もまただれもが生得的にもっています。
第4回「統計学的推論としてのアブダクション」 では、この 「最良の結論」 を導くための 「アブダクション」 という推論様式について説明しました。ある時点で手にするデータにもとづいて推論を行なうことは、既知の情報から未知の規則性を推論することです。ここでいう規則性を記述するものは統計モデルと呼ばれます。多くの場合、統計モデルは数式によって記述されることが多いですが、それは便宜に過ぎません。第9回 「統計モデルとは何か:既知から未知へ」 で述べたように、私たちは既知の知見に基いていかにして未知への外挿(がいそう)を行ない、それに基づく納得できる説明が可能かという点が重要です。要は、私たちは自分なりに納得できる説明をつねに求めているのです。
では、アブダクションはどういう点で納得できる説明を私たちに提供してくれるのでしょうか。それは、ある時点で利用できるデータに基づいて、複数の対立する仮説 (あるいはモデル) のなかから 「最良の結論」 を相対的比較によって選択することで可能になります。私たちが求める直感的説明は、最終的な真偽の判定を要求する演繹でも帰納でもない、相対的なアブダクションがふさわしいと考えられます。
もちろん、私たちが選び出す 「最良の結論」 はまちがっている可能性もあります。観察されたデータという “歪(ゆが)んだガラス” を通してしか判断することができない私たちには、生物としての認知バイアス (第一種過誤を犯しやすいとか心理的本質主義に影響されるなど) がつねにつきまといます。しかし、私たちが生き抜いてきた人類進化の過程では、完全無謬(むびゅう)な推論をすることは求められていません。むしろ、日常生活のその場その場で妥当な (しかし最終的には真実ではないかもしれない) 推論を迅速に行なう能力が生死を分けたにちがいありません。
統計的思考の背後に横たわるヒトとしての根源的存在のありようを知ることは、私たちが統計学を学ぶ際にもっとも頼りになるアリアドネの糸といえるでしょう。等身大の統計学はほかならない私たちの身体のなかに 「ある」 ということです。
さて、ここまでのところで私が強調したのは、統計的思考のもつ “身体性” でした。視覚化を通して把握できる直感的フィーリングは統計的認識のためのかけがえのない基盤です。それなくしては、いくら統計 「学」 のリクツを理解しようとしても身には付かないでしょう。しかし、データをいくらしっかり見つめたとしても、それだけではさらなる一歩を踏み出すことはできません。いつどこで誤りを犯すかもしれない私たちが下す判断に何らかの客観性を与えることができるものがあるとすれば、それは “数値化” という道です。ここでいう “数値化” は上で述べてきた直感的フィーリングを否定するものではありません。むしろ、両者が手を組むように学ぶことが重要でしょう。
本連載の後半では 「パラメトリック統計学」 を主要テーマに設定しました。前回 の統計曼荼羅(まんだら)に描いた通り、統計学ワールドの中で、「パラメトリック統計学」 はひとつの大きな峰としてそびえ立っています。このパラメトリック統計学の頂上への登攀(とうはん)路をたどることで、統計的思考とその “数値化” についてのみなさんの理解がいささかでも深まればいいと思います。
パラメトリック統計学の 「パラメトリック」 とは、データを説明するために仮定される統計モデルがいくつかの “パラメーター” をもつという意味です。たとえば、観察されたあるデータセットに対して、直線を回帰モデルとして当てはめようとするとき、私たちは直線という数式を決定する勾配(こうばい)と切片の二つのパラメーターを必要とします。データからこの二つのパラメーターの最適な推定値が計算されたとき、私たちは観察されたデータに対する 「最適な説明」 としてのひとつの回帰直線を手にするわけです。このように、「パラメトリック統計学」 とは言い換えれば 「モデルに基づく統計学」 です。
では、私たちはデータの 「何」 を “数値化” しているのでしょうか。第7回「データのふるまいを数値化する:平均と分散」 で定義したように、データのもつ情報とは 「ばらつき」 の情報にほかなりません。データから計算された 「平均」 はばらつきの基準値となり、「分散」 はデータセットが平均からどれくらいばらつくかを数値として表現します。
第8回「記述統計学と推測統計学:世界観のちがい」 では、記述統計学と推測統計学の世界観のちがいを説明しました。記述統計学の場合は、目の前のデータセットが世界のすべてですから、その平均と分散はデータセットの単なる集約にすぎません。一方、推測統計学では、抽出されたデータは未知の母集団に関する推定や検定などの推論を行なうための情報ソースです。したがって、データから計算された平均や分散などの 「統計量」 は、同時に母集団のもつ平均パラメーターや分散パラメーターの値を推定するための 「推定量」 という役割を担います。
パラメトリック統計学に関する解説書の多くはまるで数学書のような強面(こわもて)で、学習する私たちにとっては心理的なハードルが高すぎると感じられる場合が少なくありません。第10回「確率変数と確率分布:確率分布曼荼羅をたどる」 および 第11回「正規分布帝国とその臣下たち」 で概観したように、パラメトリック統計学は科学史的に見て数学化と形式化の道を歩んできたことは確かです。しかし、私たちのだれもがもっている統計的思考の直感的フィーリングは途切れることなく通奏低音のように流れ続けています。
パラメトリック統計学という山の頂上に立って下界を見下ろすとき、そこに広がる景色は数式だらけの荒涼たる世界ではけっしてありません。じっと透視するならば、きわめて人間臭い等身大の統計的思考があまねく横たわっていることが見えてくるでしょう。私たちのとっての “統計学” とは、空の上から降臨してきた無慈悲な大王ではなく、ほかならない私たちの身体の中にもともとある普遍的な思考様式の延長線上にいる同志です。
あなたの「統計人生」が幸多からんことを祈りつつ。おあとがよろしいようで。
※文献案内
統計学に関連するさまざまな日本語の本については、私がインターネットに公開している 「統計学へのお誘い本リスト」(http://www.naro.affrc.go.jp/archive/niaes/minaka/R/InvitationStatistics.html) をごらんください。
三中 信宏 (生態系計測研究領域)
■農環研ウェブ高座「農業環境のための統計学」 掲載リスト
第1回 前口上−統計学の世界を鳥瞰するために (2012年8月)
第2回 統計学のロジックとフィーリング (2012年9月)
第3回 直感的な素朴統計学からはじまる道 (2012年10月)
第4回 統計学的推論としてのアブダクション (2012年11月)
第5回 データを観る・見る・診る (2013年1月)
第6回 情報可視化と統計グラフィックス (2013年2月)
第7回 データのふるまいを数値化する:平均と分散 (2013年3月)
第8回 記述統計学と推測統計学:世界観のちがい (2013年4月)
第9回 統計モデルとは何か:既知から未知へ (2013年5月)
第10回 確率変数と確率分布:確率分布曼荼羅をたどる (2013年6月)
第11回 正規分布帝国とその臣下たち (2013年7月)
第12回 パラメトリック統計学の世界を眺める (2013年8月)