前の記事 | 目次 | 研究所 | 次の記事 2000年5月からの訪問者数(画像)
農業と環境 No.155 (2013年3月1日)
独立行政法人農業環境技術研究所

農環研ウェブ高座 「農業環境のための統計学」 第7回 「データのふるまいを数値化する:平均と分散」

前回は、データ解析における “視覚化” の重要性について論じました。私たちが誰でももっている認知能力を封印するのではなく、むしろそれをうまく使いこなすことにより、手元のデータがどのような挙動をするかを直感的に把握することができます。さまざまなグラフを利用した「データ視覚化」は最初の一歩です。しかし、いつまでもデータを見続けているだけでは、次の一歩を踏み出せないこともまた事実です。今回は、その「次の一歩」であるデータの挙動の “数値化” について説明しましょう。

ある実験を行なうとき、得られたデータはいろいろな要因によってばらつきます。実験処理がもたらすばらつきもあれば、背後に隠れた環境要因に起因するばらつき、さらには実験者による人為的ミスというばらつきもあるでしょう。データが示すこれらのばらつきの様相を分析することがデータ解析の本務です。その解析を通して、目的とする実験処理の効果の有無を判定することができます。

ある実験処理の効果の有無を統計学的に調べる目的で実験区を配置するための理論と方法論を「実験計画法」と呼びます。20世紀前半、生物統計学者ロナルド・A・フィッシャー (Ronald A. Fisher) は、彼が勤務していたイギリスのロザムステッド農業試験場でのほ場試験データをもとにして、反復測定・無作為化・局所管理という実験計画法の三原理を提唱しました。フィッシャーの実験計画の考え方の基本は、データのばらつきをいかに “管理” するかにありました。

ある実験区から得られる標本 (サンプル) のデータは、制御された実験処理の効果だけでなく、制御できない背景環境要因の効果や偶然誤差による効果によってもその値がばらつきます。したがって、観察されたデータをそのまま見ているだけでは、いったいどの変動要因 (「変動因」と言います) の効果がどれだけ作用したのかはわからないままです。そこで、データのばらつきを変動因ごとに分割した上で、各変動因の効果の大きさを統計学的に評価できるような実験計画を組む必要があります。実験計画法の根幹はデータのばらつきの “管理” であると述べました。そのためには、データのばらつきの “視覚化” から “数値化” へと軸足を移す必要があります。

次の実験データ 表1 を見てください:
表1
標本番号測定値土壌条件
016sand
0210sand
03 8sand
04 6sand
0514sand
0617sand
07 9sand
0811sand
097sand
1011sand
1117clay
1215clay
13 3clay
1411clay
15 4clay
1612clay
1712clay
18 8clay
1910clay
2013clay
2113loam
2216loam
23 9loam
2412loam
2515loam
2616loam
2717loam
2813loam
2918loam
3014loam

この実験では、ある作物の栽培土壌を3種類 (「sand」= 砂、「clay」= 粘土、「loam」= ローム) 用意しました。それぞれの土壌条件で 10 株栽培して得られた計測データが 表1 です。このデータをインデックス・プロットによって図示すると次の 図1 が得られます:

図1
図1 計30標本のインデックス・プロット

この 図1 は、横軸が標本番号(「index」)、縦軸が測定値(「data」) 10 標本ごとのデータはその土壌条件に対応して異なる点の記号 (■・●・▲) によって区別されています。見ればすぐにわかるように、データの間には明白なばらつきがあります。そのばらつきはどうすれば “数値化” できるでしょうか。

ばらつきを数値的に評価するには、あらかじめデータの “真ん中” を知る必要があります。前回取り上げた箱ひげ図はデータの集合 (これからは 「データセット」 と呼びます) の挙動を視覚化するために、頻度分布の “山” すなわち “真ん中” を 「中央値 (メディアン)」 によって示しました。以下では、中央値の代わりに、データの 「平均値」 すなわちデータの総和をデータの個数で割り算した値を “真ん中” の指標としましょう。母集団から抽出された標本のデータから計算された数値は一般に 「統計量(statistic)」 と呼ばれます。平均値はもちろん統計量のひとつです。図1 の上に 30 標本から計算した平均値 ( = 11.9) を横線(実線)で記入すると、次の 図2 が得られます:

図2
図2 インデックス・プロットに平均値を記入

平均値を “真ん中” の指標とするとき、それぞれのデータのばらつきは 「データ値−平均値」 と定義される 「偏差 (deviation)」 を計算すればすぐに数値化できます。この偏差は、データが平均値よりも大きければ正の値をもち、逆に平均値を下回れば負の値をもちます。 図2 の 30 標本のそれぞれがその平均値 11.9 に対してとる偏差の大きさを縦線(破線)で記入すると、次の 図3 が得られます:

図3
図3 それぞれの標本の偏差を図示

正の偏差の場合は横線よりも上に、負の偏差は横線よりも下に縦線が表示されます。このグラフを見ればひとつひとつのデータについては一目瞭然(いちもくりょうぜん)で偏差を理解することができます。しかし、私たちがもっぱら関心をもつのは、それぞれのデータがもつ偏差ではなく、むしろデータが全体としてどれくらいのばらつきをもっているかです。そのためには、個々の偏差をなんらかの方法で “集計” する必要があります。

偏差の “集計” というと偏差をそのまま足しあわせればいいではないかとつい考えてしまいますが、そのやり方には大きな欠点があります。偏差すなわち 「データ値−平均値」 の全データにわたる総和を計算すると 「データ値総和−平均値×データ数」 となります。ところが、平均値はもともと 「データ値総和÷データ数」 によって算出されるので、「データ値総和−平均値×データ数」 はゼロになってしまいます。これではデータ全体のばらつきを数量的に評価したことにはなりません。偏差をそのまま足しあわせたのでは偏差の正負が互いに相殺(そうさい)しあってゼロになってしまうということです。

データが平均値よりも大きいか小さいかによって偏差の正負の符号は変わります。しかし、私たちがいま知りたいのは、データが平均値からどれくらい離れているかの大きさであって、その正負の符号には関心がありません。

偏差の符号を取り去るもっとも単純な方法は偏差の 「絶対値」 を計算することです。それぞれのデータごとに得られる偏差の絶対値はけっしてマイナスにはなりませんから、偏差絶対値を全データにわたって総計すれば、正負で相殺されることなく、確かにデータ全体のばらつきの値は求まるでしょう。表1 のデータに対して偏差絶対値和を計算すると 「91.4」 という値が得られます。ただし、絶対値の計算は、偏差の正負によって場合分けをしなければならないという点がめんどうです。

そこで考案されたのが、偏差の絶対値ではなく 「平方値」 を求めるという代案です。つまり、それぞれのデータごとに計算された偏差を二乗 (平方) した上で、全データにわたってその偏差平方の総和を求めるという方法です。二乗した時点で偏差平方は必ず非負の値になり、しかも基準である平均値から離れるほどその値は大きくなります。したがって、この偏差平方和 (略して「平方和」と記されます) はデータ全体の平均値からのばらつきを数値化する尺度として適しています。表1 のデータに対して平方和を計算すると 「414.7」 という値が得られます。

データのもつばらつきをどのように数値化するかはいろいろな方法がありえるでしょう。上で定義した平方和という尺度は、形式的にいえば、平均値を基準として各データの偏差の集計を 「平方ユークリッド距離和」 として定義したことになります。ここでいう平方ユークリッド距離和とは 「データ値−基準値」 の平方の総和です。興味深いことに、与えられたデータの集合に対して計算された平方ユークリッド距離和を最小化する唯一の最適基準値は平均値であることが容易に証明できます。平方和と平均値とは理論的にも密接に関連づけられているということです。

ついでに言えば、データの偏差の絶対値の総和は、「絶対値距離和」 すなわち平均値を基準値としたときの 「データ値−基準値」 の絶対値の総和です。ところが、この絶対値距離和を最小化する基準値は平均値ではなく中央値 (一意性は保証されない) であることが証明されています。したがって、偏差すなわち 「データ値−平均値」 の絶対値の総和は数学的には根拠が薄弱です。

要約すれば、データの “真ん中” を示す基準値として中央値を選んだときは偏差絶対値和がばらつきの集計値として適していますが、その基準値が平均値であるならば平方和の方が適していることになります。さらに、絶対値距離のもとでの中央値が最適解としての一意性を必ずしも満足しないのに対し、平方ユークリッド距離のもとでの平均値が一意的な最適解であるという点を考えれば、平方和をもってデータの総体的な “ばらつき” の尺度とみなすのが妥当でしょう。以下では、平方和に焦点をしぼって説明を続けることにします。

ここまでは 表1 のデータを例として取り上げて、データのもつばらつきをどのように数値化するかを説明してきました。個々のデータに対する偏差を集計した平方和という考え方を使えば、どんなデータセットであっても、ばらつきの程度をひとつの数値として表すことができます。あえて視覚的に言うならば、ばらつきが大きいということは平均値からの “遠く離れた” ところにもデータが存在することを意味します。逆にばらつきが小さいということは平均値の “ごく近くの” 狭い範囲にデータが集結しているというイメージです。

ここで問題になるのは、異なるデータセットの間でばらつきの程度を比べるにはどうすればいいのかという点です。確かに、それぞれのデータセットについては平方和の値で十分でしょう。しかし、二つのデータセットのばらつきの大きさを比較しようとするとき、単に平方和の大きさを比べるだけでいいのでしょうか。一方のデータセットが 10 個しかデータ値を含まないのに、もう一方のデータセットには 1000 個ものデータ値があるとき、偏差平方の総和である平方和という統計量は 「データサイズ」 という重要な要因をまったく考慮していないことがすぐにわかります。

データセットの「サイズ」のちがいをどのように補正して、より “公平” なばらつきの比較をすればいいのか、次回はこの問題について考えてみましょう。

三中 信宏 (生態系計測研究領域)

農環研ウェブ高座「農業環境のための統計学」 掲載リスト

第1回 前口上−統計学の世界を鳥瞰するために (2012年8月)

第2回 統計学のロジックとフィーリング (2012年9月)

第3回 直感的な素朴統計学からはじまる道 (2012年10月)

第4回 統計学的推論としてのアブダクション (2012年11月)

第5回 データを観る・見る・診る (2013年1月)

第6回 情報可視化と統計グラフィックス (2013年2月)

第7回 データのふるまいを数値化する:平均と分散 (2013年3月)

第8回 記述統計学と推測統計学:世界観のちがい (2013年4月)

第9回 統計モデルとは何か:既知から未知へ (2013年5月)

第10回 確率変数と確率分布:確率分布曼荼羅をたどる (2013年6月)

第11回 正規分布帝国とその臣下たち (2013年7月)

第12回 パラメトリック統計学の世界を眺める (2013年8月)

前の記事 ページの先頭へ 次の記事