統計学輪講 第22回

日時 2021年12月07日(火)
14時55分 ~ 16時35分
場所 Zoomオンライン開催(URLはITC-LMSをご確認ください)
講演者 大森 宏 (農)
演題 学習済みCNNやVision Transformerによる視覚的類似度の予測
概要

最近、ImageNet-21Kで学習したVision Transformer (ViT) などの画像認識モデルが公開された。この新しい画像認識モデルを用いて、手動で計測された写真間視覚的類似度の予測が上手くいくかを調べた。視覚的類似度を計測済みの写真セットとして、庭景観100枚、川越町景観242枚、学生生活写真200枚、がある。学生生活写真に関しては、ImageNet-1Kで学習したCNNや、ADE20Kで学習したsemantic segmentation CNNを用いると、視覚的類似度が良好に予測できたことが分かっている。予測の精度は、視覚的類似度と予測された類似度間の相関や、視覚的類似度からのMDS座標とプロクラステス変換で調整した予測類似度からのMDS座標間の相関行列のトレースで測った。風景や物体、食物など色々な種類の写真からなる学生生活写真では、新しい画像認識モデルにより、ほぼ完全に視覚的類似度の予測が行えた。しかし、庭の写真しかない庭景観写真セットでは予測はそれ程上手く行かなかった。川越町景観写真セットでの予測精度は良かった。ImageNet-1Kで転移学習したViTモデルの画像特徴ベクトルを用いた予測の精度がいずれの写真セットでも高かったが、いくつかの画像認識モデルを組み合わせると予測精度が幾分上昇した。