前の記事 | 目次 | 研究所 | 次の記事 2000年5月からの訪問者数(画像)
農業と環境 No.158 (2013年6月1日)
独立行政法人農業環境技術研究所

農環研ウェブ高座 「農業環境のための統計学」 第10回 「確率変数と確率分布:確率分布曼荼羅をたどる」

前回お話しした要点は、私たちが “アブダクション” によって観察されたデータについての最良の説明を発見するとき、「統計モデル」 はそのよりどころになるということでした。統計モデルというと、つい反射的に複雑な数式で表現された数理モデルを連想してしまいます。しかし、「モデル」 そのものはデータを見たときに直感的に仮定される説明シナリオのひな形です。したがって、前回に例示した 「ポアソン・クランピング」 のような “ひっかけ” に足をすくわれてまちがったモデルを想定するリスクはつねにあります。しかし、そういう過誤を犯すマイナスの可能性に悩むよりは、私たちだれもがモデルをつくる内的能力があるのだというプラスの面を積極的に評価しましょう。

さて、過去一世紀にわたる統計学史を振り返ると、統計学の主流を形成してきたのは数学に基づく厳密な統計学理論でした。数理統計学あるいはパラメトリック統計学と呼ばれてきたこの主流派は、現実に得られる実験や観察のデータを数学的体系の枠組みのなかで取り扱うさまざまなツールを提供してきました。同時に、統計学を学ぶ必要がある多くの農学系・生物学系の学習者にとって、パラメトリック統計学のそびえ立つ数学の 「壁」 はときに挫折(ざせつ)の憂き目の体験という苦い思い出を伴うものでした。

19世紀イギリスの進化学者チャールズ・ダーウィンの家系をさかのぼると、二世代前の祖父エラズマス・ダーウィンにいたります。近代統計学の祖となったのはこのエラズマスの娘フランセスの息子フランシス・ゴルトン(Francis Galton: 1822-1911) でした。数というものに尋常ならざる興味をもっていたゴルトンは19世紀後半に早くも正規分布や標準偏差などの基礎概念に関する研究や回帰分析など統計分析法を開発しただけでなく、優生学におけるヒトの形質遺伝の解析法や人体測定学および指紋分析法における形状定量化法など数多くの応用分野における定量的方法を開発したことでも知られています。

ゴルトンがユニヴァーシティ・カレッジ・ロンドンに開設したゴルトン研究室を継承したのは、彼の弟子である統計学者カール・ピアソン(Karl Pearson: 1857-1936) でした。生物測定学派(biometrics) の領袖(りょうしゅう)として20世紀初頭のメンデル遺伝学派と生物進化のメカニズムをめぐる大論争を戦わせたピアソンは論争好きな科学者として有名です。彼は、現実の生物界に統計学理論がどれくらいうまくあてはまるのかに強い関心をもち、同じくゴルトンに学んだウォルター・F・R・ウェルドン(Walter F. R. Weldon: 1860-1906) とともに、さまざまなデータへの生物統計学の適用を試みました。

以下では、だれもがもっている内的な統計学的思考が数学の理論体系とどのように結びついていったのかについて、1894年、ロンドン王立協会理学紀要(Philosophical Transactions of the Royal Society of London, Series A, volume 185, pp. 71-110)に出版されたピアソンの論文 「進化の数学理論への貢献 (Contributions to the mathematical theory of evolution)」 を参照しながら説明することにしましょう。この論文はその後長く書き続けられることになる連作論文の第一作で、自然界の生物に関する観察データに対して、数理統計学のアプローチがいかに効果的にあてはまるかを具体的かつ詳細に論じている点では、120年後の現在もなおその内容は賞味期限を過ぎてはいません。

次に示す 図1 は、ピアソンのこの論文の末尾に添付された 「図版 III」 です。ピアソンは、ウェルドンがイタリアのナポリに生息するあるカニの個体群からサンプリングした999個体のデータを用いて解析を進めました。横軸はカニの甲羅の計測値データ、縦軸はその頻度をあらわしています。実線の折れ線で表示されているのは観察されたデータの頻度図 (ヒストグラム) です。このヒストグラムと重なるように破線の曲線が描かれています。この曲線は観察データから計算された理論上の頻度分布曲線すなわち 「正規分布 (normal distribution)」 と呼ばれる関数です。

図1
図1 ウェルドンのデータにピアソンが正規分布曲線をあてはめた例(1)

これまで本連載では 「数式」 はできるだけ用いないで説明を進めてきましたが、ここで初めての数式を登場させましょう。ピアソンが 図1 でデータの近似式として用いた 「正規分布」 あるいは 「正規曲線(normal curve)」 は次の正規分布の確率密度関数によって定義されます:

数式:f(x)=[1/{σ(2π)^2}] e^-[{(x-μ)^2}/(2σ^2)]

この関数の変数 x図1 の例ではカニの甲羅の計測値です。実測データのヒストグラムが示すように、平均値付近には多くの個体が分布するため縦軸の頻度が高くなって 「山」 の頂点を形成します。一方、極端に大きかったり小さかったりする個体はヒストグラムの左右の端に位置し、その頻度は著しく低くなります。このようにある実数 x が出現頻度の大小をともなって確率的に出現するとき、変数 x を 「確率変数 (あるいは変量)」 と呼び、確率変数 の出現確率を規定する関数 f(x) を 「確率密度関数」 と呼びます。ピアソンが示したのは、ウェルドンのカニのデータは、とくに正規分布という確率分布をきれいに当てはめることができるという点でした。

正規分布の確率密度関数をいきなり示されてめんくらうかもしれません。もう少し説明することにより、違和感をいくらかでも和らげましょう。正規分布の確率密度関数は自然対数の底 e に関する指数関数から構成されています。この密度関数には 「平均(mean)μ」 と 「分散(variance)σ2」 というふたつの 「パラメーター」 があります。分散の平方根 σ は「標準偏差(standard deviation)」と呼ばれます。ここでいう 「パラメーター」 とは確率分布の形を決める定数という意味です。平均 μ は分布の「位置」を決定し、分散 σ2 あるいは標準偏差 σ は分布の「広がり」を決めています。

確率分布の平均とは、確率変数がどれくらいの値をとるかの 「期待値」 と定義され、確率変数の値 x にその確率密度 f(x) を乗じて全定義域にわたって積分した値です。また、分散 σ2 は確率変数のもつ偏差平方 (x−μ)2 の期待値として定義され、平均と同じく偏差平方を全定義域にわたって積分した値です。

しかし、数式をいくら並べ立てても確率変数や確率分布の具体的イメージはなかなか湧いてきません。そこで、正規分布のふたつのパラメーターを変化させるとどのように見えるかをヴィジュアルに示しましょう。図2 は標準偏差を 0.5 に固定し、平均だけを 0.0 から 2.0 まで 0.5 刻みに変化させたときの正規分布曲線のようすです。平均が変化するとともに曲線の山の位置は左右に動きますが、山の形そのものは変わりません。

図2
図2 平均を変えたときの正規分布曲線の位置変化

一方、図3 は平均を 0.0 に固定し、今度は標準偏差だけを 0.5 から 2.5 まで 0.5 刻みで変化させます。標準偏差が小さい値のときは平均を中心として尖(とが)った分布形状になりますが、標準偏差が大きくなるにしたがってすそ野がなだらかに広がる分布形状になります。分散あるいは標準偏差は確率変数が平均からどのくらい遠くまでばらつくかの尺度にほかなりませんので、その値が小さければ平均値のごく近くの狭い範囲に高い確率で集中するために分布形状は尖り、逆に大きくなるほど平均から遠く離れた値でもそれなりの大きな確率で生じるために分布形状はなだらかになると理解すればわかりやすいでしょう。

図3
図3 標準偏差を変えたときの正規分布曲線の形状変化

さて、正規分布の数学的性質はこのようにいくらでも詳細に説明することができます。しかし、読者の関心はこの正規分布を現実のデータに適用することによってどのような利点があるのかにあるでしょう。ピアソンが強調したのはまさにそこでした。彼は正規分布の確率密度関数がきれいに当てはまる実例をいくつも挙げることで、現実の生物現象にみられるデータのばらつき (ここでは生物個体群の形態変異) が正規分布という数式によってうまく近似できることを読者に示しました。

もちろん、現実世界に対して正規分布のような理論的モデルがいつもそれほどきれいに適用できるわけではありません。図1 の事例はたまたま現実に観察されたデータのヒストグラムが左右対称だったからこそ、ある正規分布の密度関数を用いてうまく近似することができました。ピアソンはそれができないような場合もあることを示すために別の例を提示しています(図4)。

図4
図4 ウェルドンのデータにピアソンが正規分布曲線をあてはめた例(2)

この 図4 は、ウェルドンの収集した別のカニのデータセット(1000 個体)に対するピアソンの正規分布の当てはめです。太い実線は実測値のヒストグラムを表していますが、明らかに左右対称ではありません。つまり、単一の正規分布曲線ではこのデータのばらつきの様相を近似することは困難です。そこでピアソンはふたつの正規分布を仮定し、その線形結合として近似するという新たな方法を編み出しました。おそらく異質なふたつの集団が混在していたことが原因として考えられるかもしれません。図には破線で示されたふたつの正規分布曲線とその足し算としての混合正規分布曲線が細い実線で書き込まれています。ピアソンはあくまでも正規分布を前提にして、現実のデータをモデル化する基本方針を堅持したのです。

以上述べてきたように、確率変数や確率分布に関する数学理論は、現実世界のデータをいかにきちんと近似できるか、観察されたデータのふるまいをどれほど正確にモデル化できるかを念頭に置いて発展してきました。もちろん、数学としてのパラメトリック統計学に内在する必然的傾向として(過度の)一般化と(排他的な)形式化は否定できません。生物系あるいは農学系の統計ユーザーはときにそれが苦痛になることもあるでしょう。

パラメトリック統計学をいろどる数々の確率分布の理論 (正規分布はそのひとつに過ぎません) はイデア世界に君臨しています。しかし、私たちは現実世界のデータとそれを生み出した問題状況に足場を置き続けるべきです。パラメトリック統計学が差し出すツールをいつどのように使うべきかあるいは使わざるべきかはユーザーの賢明な判断に委(ゆだ)ねられています。そのためにも、パラメトリック統計学の深奥部にある <確率分布曼荼羅> を開帳し、それがもたらす功徳と災厄を知っておくことはけっして損にはならないでしょう。

今回は、やや複雑な数式や概念が登場しましたが、もう少しおつきあいいただきたいと思います。

三中 信宏 (生態系計測研究領域)

農環研ウェブ高座「農業環境のための統計学」 掲載リスト

第1回 前口上−統計学の世界を鳥瞰するために (2012年8月)

第2回 統計学のロジックとフィーリング (2012年9月)

第3回 直感的な素朴統計学からはじまる道 (2012年10月)

第4回 統計学的推論としてのアブダクション (2012年11月)

第5回 データを観る・見る・診る (2013年1月)

第6回 情報可視化と統計グラフィックス (2013年2月)

第7回 データのふるまいを数値化する:平均と分散 (2013年3月)

第8回 記述統計学と推測統計学:世界観のちがい (2013年4月)

第9回 統計モデルとは何か:既知から未知へ (2013年5月)

第10回 確率変数と確率分布:確率分布曼荼羅をたどる (2013年6月)

第11回 正規分布帝国とその臣下たち (2013年7月)

第12回 パラメトリック統計学の世界を眺める (2013年8月)

前の記事 ページの先頭へ 次の記事