食品のサンプリングに関するガイダンス > 推定制度の評価
サンプルデータから得られた母集団の推定値の確からしさの評価 |
|
母集団からn個のサンプルをランダムサンプリングして分析した結果、以下のような相対頻度分布が得られたとします(このデータは説明のために作成したデータで濃度の単位は無次元にしてあります)。
このサンプルの相対頻度は母集団の相対頻度の推定量になります。もし、基準値を4とするとサンプルで基準値を超えている比率は0.05(5%)ですから母集団で基準値を超える比率の推定値も5%になります。それでは母集団で基準値を超える比率5%の確からしさはどの程度あるのでしょうか。この確からしさの評価方法についてここでは説明します。
例題の相対度数分布表
分析値の濃度区分 |
相対頻度 |
0 < x <= 1 |
0.15 |
1 < x <= 2 |
0.45 |
2 < x <= 3 |
0.25 |
3 < x <= 4 |
0.10 |
4 < x <= 5 |
0.04 |
5 < x <= 6 |
0.01 |
6 < x
|
0.00 |
合 計 |
1.00 |
1.サンプル平均値が正規分布する性質を利用する場合 |
この場合は理論的サンプル数で説明しています基本事項を用いて確からしさを計算します。理論的サンプル数を求めるときは信頼区間を先に設定してからサンプル数を計算しましたが、ここでは逆にサンプル数を先に設定してから信頼区間を計算することになります。
n個のサンプル中の比率は母集団の比率Pの推定値となり、Pは
の信頼区間に存在すると推定できます。ここで、kは1.96(危険率5%のときの正規分布の棄却限界)または2.58(危険率1%のときの正規分布の棄却限界)です。
のときの95%信頼区間は、
となります。
また、データのばらつきを表す指標の一つである変動係数は、
となります。
いくつかのnについて95%信頼区間と変動係数を計算すると
n= 20のとき、(95%信頼区間)、変動係数97%
n= 100のとき、 (95%信頼区間)、変動係数44%
n= 500のとき、(95%信頼区間)、変動係数19%
n=1000のとき、 (95%信頼区間)、変動係数14%
になります。
の場合は、
n= 20のとき、 (95%信頼区間)、変動係数45%
n= 100のとき、(95%信頼区間)、変動係数20%
n= 500のとき、(95%信頼区間)、変動係数9%
n=1000のとき、 (95%信頼区間)、変動係数6%
になります。
同じn数ではの方がよりも変動係数が大きくなります。このことは、母集団の比率が小さいものを精度良く(変動係数が小さくなるように)推定するにはサンプル数nを多くする必要があることを意味します。
ブートストラップ法は母集団の平均値、標準偏差などの推定量の推定誤差をコンピュータを用いた反復計算によって求める方法です。この方法を用いれば手持ちのデータは1回の調査データしかなくても同じ調査を何回も繰り返した場合の母集団推定値(平均値、基準値を超える比率など)の変動を求めることができます。
上記の相対度数分布表でゼロより大きい相対度数の区分は6区分あります。各区分に1から6の番号を割り振り、サイコロを振って1の目が出たら1の区分に入る濃度のサンプルが1個サンプリングされ、2の目が出たら2の区分に入る濃度のサンプルが1個サンプリングされたと6の目まで同じように考えます。サイコロの目はどれも等しい確率で出ますが、ここでは各区分は各区分の相対頻度(確率)で出現するとします。このようなサイコロを相対度数分布表を作成したサンプル数の回数振ります。そうすると同じサンプル数のデータセットが新たに1組得られます。この操作をコンピュータ上でm回繰り返すとサンプル数nのデータセットがm個得られます。これはm回の調査を実施したことに相当します。サンプル数nのデータセット毎に平均値や基準値を超える比率を計算すると、このような推定値もm個得られるため推定値がどのくらい変動するのかわかります。m個の推定値を小さい順に並べ、サンプル数nの2.5%番目に小さい推定値とサンプル数nの97.5%番目に小さい推定値が推定値の95%信頼区間になります。母集団の推定値の信頼区間を求める場合、mは最低1000回は必要です。
具体的な計算方法
サンプルn個の生データが手元にある場合は生データをブートストラップ法で使用します。相対度数分布表にまとめられたデータしかない場合は、各区分の代表値として区分の平均値を採用します。各区分の平均値×相対度数を計算し、全区分の和を求めるとn個のサンプルの平均値に等しくなるので検算できます。
ソフトウエア
実際の計算を行うにはブートストラップ関数を備えたソフトウエアを利用するのが便利です。商用ソフトウエアではデータ解析用のS言語を実装したS-PLUSなどがあります。フリーソフトウエアではGNUのR言語(http://www.r-project.org/)があります。
計算例
上記の相対度数分布表のデータで基準値4を超える割合5%の95%信頼区間をサンプル数nを変えて計算した図を以下に示します。この計算はR言語のsampleコマンドを用いたプログラムを作成してWindowsXP上のR1.8.1で2000回の復元抽出を行いました。
母集団の推定値は基準値を超える比率、平均値ともにサンプル数nが増えるに従い信頼区間が狭くなり推定精度が上がることが確認できます。
サンプル数nと母集団の基準値を超える比率の推定値の関係の例
相対度数分布表のサンプルデータの濃度4を超える比率0.05
ブートストラップ法で2000回計算
サンプル数nと母集団の平均値の推定値の関係の例
相対度数分布表のサンプルデータのサンプル平均値1.96
ブートストラップ法で2000回計算
|