統計学輪講 第08回

日時 2024年06月11日(火)
14時55分 ~ 15時45分
場所 経済学部新棟3階第3教室 および Zoom
講演者 岡野 遼 (経済D3)
演題 分布値データに対するk-中心クラスタリング
概要

各データが確率分布の形で与えられるデータセットを考える。このようなデータセットは分布値データセットと呼ばれ、様々な応用分野で現れる。分布値データは数学的には無限次元かつ非線形性を持つという特徴があり、既存のタイプのデータに対する統計手法をそのまま用いるのは適切でない。近年、最適輸送問題によって定まるワッサースタイン距離を用いて、分布値データに対する統計手法を開発する研究が盛んに行われている。しかしながら、クラスタリングの問題に対しては、分布値データの特性を考慮した手法の開発は未だ発展途上である。

本発表では、関数値データに対して[1]により提案されたk-中心クラスタリングと呼ばれるアプローチに基づき、分布値データに対する新たなクラスタリング手法を提案する。k-中心クラスタリングとは、クラスター間の平均構造と共分散構造の両方の違いを考慮してクラスタリングを行うアプローチであり、平均構造の違いのみを考慮するk-平均法などに比べて、クラスタリングの精度を高めうることが知られている。提案手法では、ワッサースタイン空間におけるフレッシェ平均と、[2]で提案された測地線主成分分析という概念を用いて、分布値データクラスターの平均構造と共分散構造の特徴付けをそれぞれ行う。発表では、提案手法の概要のほか、得られている理論的結果や、数値実験の結果等も紹介する予定である。本発表は今泉允聡先生との共同研究の内容に基づく。

参考文献: [1] Chiou, J.-M. and P.-L. Li (2007). Functional clustering and identifying substructures of longitudinal data. Journal of the Royal Statistical Society Series B: Statistical Methodology 69(4), 679–699.
[2] Bigot, J., R. Gouet, T. Klein, and A. L ́opez (2017). Geodesic PCA in the Wasserstein space by convex PCA. Annales de l’Institut Henri Poincar ́e, Probabilit ́es et Statistiques 53(1), 1–26.