統計学輪講(第9回)

日時      2010年05月25日(火)    15時~16時40分
場所      経済学部新棟3階第3教室
講演者    金田 尚久 (学習院大学)
演題      混合分布を、カーネル推定から考える

概要

2001年にデヴィッド・W・スコットとウィリアム・F・シェフチェック(SS)は、
混合分布問題の新しいアルゴリズムを発表しました。そのアウトラインは以下
のようです。まずN個の観測値を含むデータから、カーネル推定によって、確率
分布を求めます。次に、これを、Nクラスター・モデルと見なし、適当な
similarity measureによって、最もよく「似た」クラスターのペアを探します。
このペアは、SSの独自の方法によって、一つのクラスターに融合され、ここに
N-1クラスター・モデルができあがります。以下基本的には同様にして、クラス
ターの数を下げて行き、最終的には1クラスター・モデルに達します。このプロ
セスにおいて、正しいクラスター数のありそうなnの領域は、わかっていること
にし、そこでは、各nについてモデルが選ばれるごとに、BICを計算します。
この値が最小となるnを最適のクラスター数として選択します。まことに単純な
アイディアであり、実際のデータへの適用例でも、シャープな結果が出ています。
しかし、彼らは、この降下プロセスを三段階に分けており、段階ごとに
similarity measureとクラスター・ペアの融合法が異なっています。惜しい
ことに、この論文では、何故このような変化をつけるのかということが十分に
説明されていません。報告者は、彼らのsimilarity measureや融合法の概念の
明確化と、彼らが考察した一次元正規混合分布以外の分布への拡張に、関心を
持ちました。まず、2次元正規混合分布の場合は、グラフィックが非常に明快
なので、新しい概念の説明は、この2次元の場合で、行っています。さらに、
ガンマ混合分布への拡張を行い、二つの拡張のいずれにも、豊富なシミュレー
ション結果によって、この方法の有効性が確かめられました。この方法とEM
アルゴリズムとのパフォーマンスの比較も行いました。今回の発表では、
時間の都合上、2次元正規混合分布への拡張を中心に解説します。