前回は、私たち人間はある “認知バイアス” を生得的にもっていると指摘し、その認知性向が外界の現象を 「見る」 ときにどのような影響をもたらすかについて説明しました。生物としてのヒトがその進化の過程で獲得してきたさまざまな “認知的特性” はかつては生存上どうしても必要だったにちがいないでしょう。しかし、現代人にも受け継がれている過去のこの進化的遺産は、場合によっては、現代社会や現代科学の中で “誤作動” を引き起こすことがあります。たとえば、前回言及した 「心理的本質主義」 のように、進化的思考と根本的に矛盾するにもかかわらず、私たちの “心” のなかでなお生き続けています。
ヒトがもつこれらの “生得的認知” のありようを否定的に評価するならば、観察者である私たちは客観的に現象やデータを見ることはもはや不可能であるという結論にもつながりかねません。しかし、完璧な客観性は統計学がめざす究極の目標ではありません。むしろ、限られたデータからいかにして妥当な結論を導き出すかというアブダクションの観点から言えば、データをいかにうまく読み取ってそれがもつ情報を検出することができるかという点にこそ関心を向けるべきでしょう。
得られたデータをしっかり 「読む」 ことはデータ解析の出発点です。統計分析といえば、つい数式を用いて複雑な 「計算」 をすることばかりに目が向きがちですが、それは根本的にまちがっています。あらゆる 「計算」 をする前に、私たちはデータを 「読む」 必要があります。データを 「読む」 という観点からいえば、私たちがもっている “生得的認知” の能力は積極的に役に立つ武器になりえます。今回は、データを 「読む」 ための直感的方法の重要性についてお話ししましょう。
まずはじめに、次のような実験データ 表1 を例に取りましょう:
標本番号 | 成長量 | 生育条件 |
---|---|---|
01 | 4.17 | ctrl |
02 | 5.58 | ctrl |
03 | 5.18 | ctrl |
04 | 6.11 | ctrl |
05 | 4.50 | ctrl |
06 | 4.61 | ctrl |
07 | 5.17 | ctrl |
08 | 4.53 | ctrl |
09 | 5.33 | ctrl |
10 | 5.14 | ctrl |
11 | 4.81 | trt1 |
12 | 4.17 | trt1 |
13 | 4.41 | trt1 |
14 | 3.59 | trt1 |
15 | 5.87 | trt1 |
16 | 3.83 | trt1 |
17 | 6.03 | trt1 |
18 | 4.89 | trt1 |
19 | 4.32 | trt1 |
20 | 4.69 | trt1 |
21 | 6.31 | trt2 |
22 | 5.12 | trt2 |
23 | 5.54 | trt2 |
24 | 5.50 | trt2 |
25 | 5.37 | trt2 |
26 | 5.29 | trt2 |
27 | 4.92 | trt2 |
28 | 6.15 | trt2 |
29 | 5.80 | trt2 |
30 | 5.26 | trt2 |
この実験は、ある植物の成長量が3通りの生育条件 (「ctrl」= 対照群 /「trt1」= 処理群1 /「trt2」= 処理群2) によってどのように変わるかを調べる目的で、それぞれの生育条件ごとに10個体ずつ計30標本に関して得られたデータです。おそらく統計学の素養のある読者ならば、このような数値データを見れば、反射的に生育条件ごとの 「平均」 や 「分散」 などの統計量を計算したり、あるいは生育条件の間で何かしら “有意” なちがいがあるのではないかと統計モデルを立てたりして計算するにちがいありません。しかし、ここではそういう “計算” はまだまだ先の話です。
私たちが上のようなデータを手にしたとき、最初にすべきことはこのデータを 「見る」 ことです。いっさいの 「計算」 に先立ってデータを 「見る」 と言われると、なんだか頼りないような気がするかもしれません。しかし、生の数値を読み取る能力に比べれば、データを 「視覚化」 した方がはるかに理解しやすくなります。それは観察者である私たち人間の “認知的特性” にアピールするからです。
たとえば、上の数値データを標本番号に沿ってシンプルに並べただけの 「インデックス・プロット」 を示します(図1)。このインデックス・プロットの横軸は標本番号、縦軸は成長量データです。計算はまったくせず、データをそのまま図示化しただけですが、データ点の “挙動” は数値そのものより理解しやすくなります。
「データを並べただけではあまりに芸がなさすぎる」 とご不満ならば、生育条件ごとにまとめた 「ドット・チャート」 を次に示しましょうか(図2)。このドット・チャートは、縦軸はインデックス・プロットと同じく成長量ですが、横軸は各生育条件の10標本をまとめて一列に並べています。生育条件ごとにデータ点をまとめることにより、それぞれの条件についてどれくらい成長量の “ばらつき” があるのかが視覚化できます。
さらに、生育条件ごとの10標本の “ばらつき” だけではなく “まんなか” がどこにあるのかをしりたければ、「箱ひげ図」 というとても役に立つグラフを描くことができます(図3)。この箱ひげ図では、それぞれの生育条件ごとに10個のデータ点を成長量にしたがって大小順に並べたときの「中央値(メディアン)」の位置を太線で示します。そして、この中央値を基準として上下に25%ずつ範囲をとって「箱」を描きます。つまり、中央値をはさむ箱の上辺と下辺にはさまれる区間には全データ点の半分(50%)が含まれることになります。さらに、箱の縦の長さの1.5倍の「ひげ」を上辺と下辺から伸ばすことにより、データの“ばらつき”の端の領域を示します。
図3 の箱ひげ図は、複数のデータ点の “挙動” (すなわち中央値とばらつき)を単一の図によって視覚化しているという点で画期的なグラフです。しかし、その作図にはいっさいの 「計算」 は含まれていません。生のデータをそのままグラフ化しているだけだからです。
上に示したインデックス・プロット、ドット・チャート、ならびに箱ひげ図の三つは、生の数値データを 「視覚化」 する意義を私たちに教えてくれます。数値をグラフ化するという行為は、私たち人間が共有している “生得的認知能力” を積極的に利用して、データを 「読む」 ことにほかなりません。もちろん、前回述べたように、このとき “認知バイアス” の誤作動も同時に生じている可能性があります。たとえば、図3 の箱ひげ図を生育条件ごとに見比べたとき、条件がちがえば成長量には 「差がある」 とつい心理的本質主義を働かせてしまうことだってあるでしょう。しかし、そういう認知的な “誤作動” のリスクを上回る利得がデータ視覚化にはあるということです。
次に、もう少し複雑な例 表2 をお見せしましょう。これは、ある花の形状を調べる目的で、50標本についてそれぞれ 「花弁長」 と 「花弁幅」 の二つを計測したデータです。
標本番号 | 花弁長 | 花弁幅 |
---|---|---|
51 | 4.7 | 1.4 |
52 | 4.5 | 1.5 |
53 | 4.9 | 1.5 |
54 | 4.0 | 1.3 |
55 | 4.6 | 1.5 |
56 | 4.5 | 1.3 |
57 | 4.7 | 1.6 |
58 | 3.3 | 1.0 |
59 | 4.6 | 1.3 |
60 | 3.9 | 1.4 |
61 | 3.5 | 1.0 |
62 | 4.2 | 1.5 |
63 | 4.0 | 1.0 |
64 | 4.7 | 1.4 |
65 | 3.6 | 1.3 |
66 | 4.4 | 1.4 |
67 | 4.5 | 1.5 |
68 | 4.1 | 1.0 |
69 | 4.5 | 1.5 |
70 | 3.9 | 1.1 |
71 | 4.8 | 1.8 |
72 | 4.0 | 1.3 |
73 | 4.9 | 1.5 |
74 | 4.7 | 1.2 |
75 | 4.3 | 1.3 |
76 | 4.4 | 1.4 |
77 | 4.8 | 1.4 |
78 | 5.0 | 1.7 |
79 | 4.5 | 1.5 |
80 | 3.5 | 1.0 |
81 | 3.8 | 1.1 |
82 | 3.7 | 1.0 |
83 | 3.9 | 1.2 |
84 | 5.1 | 1.6 |
85 | 4.5 | 1.5 |
86 | 4.5 | 1.6 |
87 | 4.7 | 1.5 |
88 | 4.4 | 1.3 |
89 | 4.1 | 1.3 |
90 | 4.0 | 1.3 |
91 | 4.4 | 1.2 |
92 | 4.6 | 1.4 |
93 | 4.0 | 1.2 |
94 | 3.3 | 1.0 |
95 | 4.2 | 1.3 |
96 | 4.2 | 1.2 |
97 | 4.2 | 1.3 |
98 | 4.3 | 1.3 |
99 | 3.0 | 1.1 |
00 | 4.1 | 1.3 |
花弁長と花弁幅のそれぞれのデータに関しては、すでに上で説明したインデックス・プロット、ドット・チャート、あるいは箱ひげ図を描くことができます。しかし、ここでは二つのデータ列の 「関連性」 を視覚化するために、次のような 「散布図」 を作成しました(図4)。この散布図の横軸は花弁長、縦軸は花弁幅を表しています。データの対に関するこの散布図から直感的にわかることは、花弁長と花弁幅の間には “正の共変動” の存在、すなわち一方の軸での増減が他方の軸での増減と同調し、データ点全体が “正の比例関係” を示す傾向です。もちろん、「共分散」や「相関係数」のようなしかるべき統計量を計算すれば、数値的にはもっと正確な結論が出せるでしょう。しかし、そういう「計算」以前に、適切なグラフを用いるならばデータの “挙動” をもっと直感的に認知できるということです
統計学にとってデータのもつ根本的意味を日常的に深く考える機会はそれほど多くありません。実験や観察によって得られたデータはそのまま鵜呑み(うのみ)にはできません。データに含まれているかもしれない、さまざまなまちがいやノイズ、ばらつきや偏りは、データを見ればその向こうに “真実” が透けて見えるという素朴な実証主義とは相いれません。一方で、データをいくら見ても導き出される結論には何の影響もないという過激な相対主義的懐疑論に対しても 「ノー」 を突きつけます。歴史学者カルロ・ギンズブルクは、データは 「逆撫で」 することにより批判的に評価されなければならないと言いました。データを十分に 「逆撫で」 した上で最良の仮説へのアブダクションをすることが統計学の最終目標です。そのためには、何の熟慮もなく単に 「計算」 するのではなく、前もってデータをよく 「見る」 心構えが私たちには求められています。
今回説明したように、データ視覚化と情報グラフィックスは、私たちがだれでももっている認知能力に訴えかける点で大きな威力があります。さまざまなグラフを用いて元のデータを「目に見える」ようにすることで、私たちはデータがどのようにふるまっているのか、その特徴や癖は何かを自らの認知能力を発揮して知覚することができます。数値そのものをいくら見たのではわからないことが、ちょっとした “見える化” の工夫でだれにでも理解できるようになります。
確かに、統計解析の “確信” は「計算」に由来するのかもしれません。しかし、今回説明したように、統計解析に先立つデータ処理の “核心” は「視覚化」にあります。生のデータの挙動が “見える” ようなグラフを描くこと、そしていろいろなグラフを併用して視点を変えてデータを “見つめる” ことは私たちの直感的な “統計センス” と生得的な “認知的能力” のもつ利点を積極的に活用したデータ解析の第一歩となります。
それでは、データの視覚化に続く次なる一歩とは何か。次回はその話題に移ることにしましょう。
三中 信宏 (生態系計測研究領域)
■農環研ウェブ高座「農業環境のための統計学」 掲載リスト
第1回 前口上−統計学の世界を鳥瞰するために (2012年8月)
第2回 統計学のロジックとフィーリング (2012年9月)
第3回 直感的な素朴統計学からはじまる道 (2012年10月)
第4回 統計学的推論としてのアブダクション (2012年11月)
第5回 データを観る・見る・診る (2013年1月)
第6回 情報可視化と統計グラフィックス (2013年2月)
第7回 データのふるまいを数値化する:平均と分散 (2013年3月)
第8回 記述統計学と推測統計学:世界観のちがい (2013年4月)
第9回 統計モデルとは何か:既知から未知へ (2013年5月)
第10回 確率変数と確率分布:確率分布曼荼羅をたどる (2013年6月)
第11回 正規分布帝国とその臣下たち (2013年7月)
第12回 パラメトリック統計学の世界を眺める (2013年8月)