分析法の妥当性確認に関するガイダンス
   
共同試験
 

定量分析法

定性分析法
技能試験
 

FAPASプロトコルのデータ解析

配付試料の均一性確認テスト
単一試験室による妥当性確認
   
参考文献
  TOP
      関連用語   関連リンク   更新履歴


分析法の妥当性確認に関するガイダンス >技能実験〜FAPASプロトコルのデータ解析

技能試験(Proficiency Test)のデータ解析

参考文献

FAPAS (2002). Food Analysis Performance Assessment Scheme (FAPAS) protocol for the organisation and analysis of data 6th ed., FAPAS central science laboratory, UK.

 

1.技能試験とは
1) 試験室間の分析値を比較することにより、試験室の分析能力を決める試験のことです(ISO Guide 43-1, 1997)。
2) 分析法の妥当性確認をするための共同試験(Collaborative trials)、標準試料(reference material)の認証値(certified value)を確定するための認証研究(certification study)のような他の試験室間試験と技能試験は明確に異なります。
3) 技能試験に参加する試験室は各自が得意な分析法で配付された試料を分析し、基本的に1試料1個の分析値を報告します。
4) 試験室の報告した値を元にzスコアを計算し、zスコアが2以下の試験室は満足な結果と判定されます。
5) 技能試験参加は外部精度管理のための一つの方法です。


2.zスコアの計算方法
1) 参加した試験室の分析値から明らかな異常値を除き、その後にHuberのH15法を用いてロバスト平均値を計算します。
このロバスト平均値を配付試料の濃度(assigned value)とします。
ただし、分析値の分布がひどく歪んでいる場合や二峰の場合には中央値(メディアン)または最頻値(モード)の方がロバスト平均値よりも代表値として適しているかもしれません。
2) ロバスト平均値の不確かさはHuberのH15法で計算したロバスト標準偏差を、この計算に用いたデータ数の平方根で割った値です。
不確かさはできるだけ小さいべきであり、0.4σpより小さいことが理想ですが、場合によっては0.6σpまで許容されます。
ここで、σpは目標標準偏差(Target Standard Deviation)です。
σpは濃度依存の値なので
適切なコラボデータがある場合は、コラボの室間再現標準偏差が濃度に比例すると仮定してσpを求めます。
コラボの室間再現相対標準偏差をRSDR(%)、HuberのH15法で求めたロバスト平均値をcとすると
  σp=RDR(%)/100×c
で計算します。
適切なコラボデータがない場合は、Horwitzの式から求めた室間再現標準偏差をσpとします。
3) 各試験室のzスコア=(各試験室の分析値-ロバスト平均値)/σp


2.ロバスト統計手法 − HuberのH15法 −

参考文献

Analytical Methods Committee (1989). Robust statistics - how not to reject outliers.
Part 1. basic concepts. Analyst, 114, 1693-1697.

概要
1) 外れ値を除外する代わりに外れ値には小さな重みを与えるロバスト統計は分析化学のデータに適した統計手法です。
2) 記録ミス及び小数点の位置のミスは外れ値発生の主要原因ですが、汚染や試料の変化のように分析のいろいろな過程でもミスは起きます。
3) 外れ値検定を分析法の変動を評価する手段に含めるのは明確な誤りです。
補足説明:
検定の棄却限界値を境にして値の近い分析値が採用と除外に扱いが分かれるのは、いろいろな変動要因で連続的に値がばらつく分析化学のようなデータには適さないという考えと思われます。
全粒小麦粉中の銅含量に関する24個の分析値の例について頻度グラフと箱ひげ図(i引用文献中のFig.1)を用いて分析値の分布の連続性を示しています。
4) 刈り込み平均と4分位範囲(Inter-Quartile Range、IRQ)を用いた分散は、母集団の平均と分散をロバストに推定するために手計算の時代に開発された方法であり、今日ではコンピュータでもっと洗練された方法が利用可能です。ここでは、実効性があり最も簡単な方法を紹介します。


ロバスト統計手法とは
以下のような分布でもうまく推定できる方法
1) 外れ値は他の値と非常にかけ離れた単独の値であることが多い。
2) 実際の誤差分布は正規分布よりも裾がどちらか一方に長い(変動が大きい)ことが多い。
分布の位置に関する推定量の特徴
1) 平均値は外れ値の影響大きい。
2) 中央値は平均値よりも外れ値の影響小さい。
3) 刈り込み平均はさらに外れ値の影響小さい。
n個のデータについて最小のr個と最大のr個のデータを除いた残りのデータの平均値を(100r/n) (%) 刈り込み平均と呼びます。
分布のばらつきに関する推定量の特徴
1) 標本分散は標本平均以上に外れ値に敏感です。
2) 正規分布の標準偏差をσとすると4分位範囲IRQ≒1.35σが期待されます。そこで、(IRQ/1.35)2で分散の推定値が求まります。
この分散の推定方法は明白な外れ値の影響を受けにくい方法です。
ここで、IRQとは4分位範囲(Inter-Quartile Range, IRQ)のことであり、データを大きさ順に並べ4等分したときの3番目の分位数(75%タイル)-1番目の分位数(25%タイル)になります。


HuberのH15法
1)目的
分析値を、分析値=真値+誤差と分けて考えたときに真値の推定値を見つけたい。

信頼できるデータの平均値を真値の推定値と仮定しますが、データの分布全体を信頼できるデータとはみなしません。理由は分析化学データでは、誤差分布は多くの場合非対象だからです。

2) 計算方法
a) データの中央値(メジアン、Median)を計算します。
b) MAD(Median Absolute Deviation)を計算します。
c) MAD/0.6745がデータの標準偏差の推定値σになります。
0.6745は正規分布の場合の標準偏差をMADから求めるときの定数です。
d) meadian-c・σより小さいデータはmeadian-c・σに全て置き換えます。
定数cは1〜2の間の値をとり、データに含まれる外れ値の割合によって変化します。
はずれ値が1%含まれているデータの場合はc=2、外れ値が5%含まれているデータの場合はc=1.4ですが、c=1.5が広く用いられています。
e) meadian+c・σより大きいデータはmedian+c・σに全て置き換えます。
f) 置き換え後のデータの平均値を計算します。
g) 平均値-c・σより小さいデータは平均値-c・σに全て置き換えます。
h) 平均値+c・σより大きいデータは平均値+c・σに全て置き換えます。
i) 得られた平均値と前回計算した平均値の差が一定の値(例えば、10-4)より小さくなったら計算を終了し、最後に得られた平均値を真値の推定値(ロバスト平均値)とします。
この推定方法をH15またはHuborのproposal2といいます。
3) データ数が少ない場合の注意
置き換えるデータ数も少ないべきなので、定数cも小さくします。
n個の分析値xiから推定した真値周りのxiの分散はおおよそσ2(n-1)/nなのでc×{(1-1/n)の平方根}を定数とします。
4) Huberの方法が適さないデータ
データ分布は、外れ値があったり分布の裾が長かったりしてもおおまかに正規分布(単峰性の左右対称な分布)していることを仮定しています。したがって、極端に歪んだ分布、多峰性の分布、データの大部分が同じ値の場合、この方法で得られるロバスト平均およびロバスト標準偏差は適切でないかもしれません。

 

3.HuberのH15法によるロバスト平均値を実際に計算するには
1) データ解析用のフリーウエアR(http://www.r-project.org/)には関数huberがあります。
2) Rに関するホームページや書籍は増えてきていますので、Rのインストール方法や使い方はそちらをご覧下さい。
3) 関数huberはパッケージ名MASSの中に入っています。
RGuiのウインドウ上部に並んでいるメニュー項目中の「Packages」の中の「Load package」でMASSを選択し、「ok」をクリックしてMASSを読み込みます。
4) RのConsole(コンソール)ウインドウ内の「>マーク」の右側にコマンドを入力します。
     
注)コマンド名など入力は半角英数字です。大文字と小文字は区別して認識されます。
例:
> x <- c(データ1, データ2, ・・・, データn)
・データをcatalogコマンドの略のc(小文字)でひとまとめにして変数xに与えます。
・記号「<-」(不等号の次にマイナスを続けて入力)は記号の右側を左側に代入することを意味します。
x <- read.table("ファイル名")
・データが多いときはテキストファイルをread.tableコマンドで読み込めます。
・ファイル名はパス名\ファイル名で指定します。 
・RGuiのウインドウ上部に並んでいるメニュー項目中の「File」の中の「Change Directory」で指定したフォルダ内のファイルの入出力はパス名を省略できます。
・変数名などヘッダー付きデータの場合は、read.table("ファイル名", header=TRUE)にします。
・データの区切り記号はスペースが初期値になってます。
・区切り記号がカンマの場合は、read.table("ファイル名", sep=",")にします。
> huber(x)
・ロバスト平均値とロバスト標準偏差が出力されます。
・定数cの初期値は1.5です。
・繰り返し計算の収束判定の初期値は10-6です。
> huber(x, k = 1.5, tol = 1e-06)
・関数huberでは、定数cは「k=」で、収束判定値は「tol=」で指定します。
5) Rに関する情報元
・The R Book データ解析環境Rの活用事例集. 九天社, 東京 (2004年刊)
・Rによる統計解析の基礎. ピアソン・エデュケーション, 東京 (2003年刊)
http://www.okada.jp.org/RWiki/?RjpWiki


トップページへ戻る   このページのトップへ