統計学輪講 第3回

日時 2019年4月23日(火)
14時55分 ~ 16時35分
場所 経済学研究科棟 3階 第3教室
講演者 大森 宏 (農学生命科学研究科)
演題 複数の学習済み畳み込みニューラルネット (CNN) を利用した写真間視覚的類似度の予測
概要

ある環境で撮られた写真群に対し、多くの人に類似写真をグルーピングしてもらう作業から写真間視覚的類似度が計測されたとする。 この情報をもとに、これ以外の写真間視覚的類似度を予測する問題を考える。 テストケースとして、写真間視覚的類似度が計測された200枚の東京大学農学部学生生活写真を用い、一部の視覚的類似度から全体の視覚的類似度が復元できるかを調べた。

最近、画像認識の分野で、畳み込みニューラルネットワーク (CNN) を用いた深層学習 (deep learning) が急速に進歩した。 深層学習は非常に多くの訓練データ(数千~数十万程度)を用いて学習する。 いくつかの学習済み CNN が利用できる。 画像の1000クラス分類では ImageNet で学習した VGG16 などの10種、画像を意味のある領域に分割する semantic segmentation では ADE20K で学習した PSPNet など6種を用いた。

写真を CNN に入力すると確率分布が得られるので、確率分布間の類似度で写真間の類似度を近似することができる。 視覚的類似度と高い相関を与える距離尺度は、Hellinger 距離であることが分かったが、その相関は0.5程度で、低くはないが高いとも言えなかった。

写真全体の視覚的類似度行列を P, CNN による類似度行列を Q とする。 P は正確だが一部が欠測である。 一方、Q はやや不正確であるが簡単に計算できる。 P, Q それぞれを平均 0 の正規分布の分散共分散行列とみなし、P, Q 間の Kullback-Leibler ダイバージェンス D(P, Q) を最小化することで P の補完を行い、未知の視覚的類似度行列部分を予測した。 予測がどの程度うまく行ったかを報告し、併せて明治大学農学部学生生活写真群を合わせた解析結果を報告する。