統計学輪講(第05回)
日時 2012年05月15日(火) 14時50分~16時30分
場所 経済学部新棟3階第3教室
講演者 兵頭昌 (経済)
演題 高次元データにおけるW-rule及びk標本問題について
概要
高次元データにおけるW-rule及びk標本問題について
近年情報化の進展も相俟って, マイクロアレイデータあるいは音声データなどに代
表されるように, 様々な分野で目的変数の数pが標本の大きさNに比して大きいような
データが蓄積されるようになってきた. 前述のデータを高次元データと呼び, このよ
うなデータに対する多変量解析手法の構築が望まれる. 本報告では, 判別分析及び平
均の検定における話題を扱っていく.
高次元データにおける判別分析においては, W-ruleに基づく方法に関して議論す
る. 通常, W-ruleは大標本においてある種の最適性を有しているが次元pが標本の大
きさNと同程度である状況では、その性質は損なわれる. また, pがn(=N-2)より大き
い状況では, 標本共分散行列が特異になるためW-ruleを与えることができない. この
ような状況に対して, 近年種々の方法が提案されているがその性能の優劣等は議論さ
れていない. 少し限定的な話になってしまうが, その中の一部の判別法に対する
EPMC(期待誤判別)のp>nである状況での漸近的な性質を扱う. その結果, 3種類の判
別法がEPMCの観点で漸近的に同等であることがわかった. また, 各群の標本の大きさ
の差は, EPMCに影響する. この点を判別関数のバイアス補正を行うことで修正する.
一方で, pnである
状況では, T^2統計量を与えることができない. そのため, MANOVAで用いられるデン
プスタートレースクライテリオンを利用した検定法がある. この統計量に基づく検定
法は, Wakaki et al. や等で用いられている. 本報告では, 共分散行列の等分散性が
崩れた場合の話題を扱う. アイデアとしては, k-標本問題をサンプルを変換すること
によって1標本問題へかきかえデンプスタートレースクライテリオンに基づき検定を
行うことを考える. しかし, デンプスタートレースクライテリオンは漸近正規性を有
しているものの次元と標本サイズが小さい場合近似精度が悪い. そこで, デンプス
タートレースクライテリオンの分布関数をp>nである状況でn,p→∞ with
p/n→c\in(0,∞)の下で漸近展開し, そこから得られるコーニシュ・フィシャー展開を
用いた棄却点の修正を考える.