統計学輪講のスケジュール

統計学輪講（第1回）
日時      2015年04月07日(火)    14時55分～16時40分
場所      経済学部新棟３階第３教室
講演者    大森 宏 (農)
演題      地域の認知と評価の集合知としてのSALoTマップとトピックモデル

概要
　SALoTマップとは，ある地域において，スナップショット（写真）(S)と撮影した人の属性(A)，位置(Lo)，
その時感じたことや印象などのコメントのテキスト文(T)からなる4つ組のSALoTデータを統合して作成され
る印象の集合知マップである．SALoTデータは，視覚的類似度から分類された見た目グループと撮影地点分布から
分類された場所グループ，属性による属性グループに分けられる．
　形態素解析で単語を抽出し，コメントとグループ文集合（bag-of-words）の対応分析の結果がSALoTマップである．
SALoTマップからグループを特徴づける単語やコメントの得点が算出される．TF-IDFによる単語やコメント得点と
総合して重要単語や重要文を抽出する．
　一方，トピックモデルは文章の生成過程を確率的に表現したもので，単語に対する多項分布で規定されるトピックを
潜在変数として，個々の文章はトピックを混合して生成されるとする確率モデルである．有名なトピックモデルとして，
LDA (Latent Dirichlet Allocation) が知られている．LDA は文章集合からトピックと文章中単語へのトピック割り付け
を自動的に行う手法である．各トピックの意味付けは単語多項分布で高い確率を持った単語を眺めることにより行われる．
　トピックモデルの拡張版として，文章に何らかのラベルが付与された場合にラベルに対するトピックを抽出する
Labeld LDA (LLDA) がある．場所グループを特徴づけるトピックは，LLDA で抽出することもできる．
　地元大学生による埼玉県川越市内の気に入った景観を撮影する調査を行い，177名の学生から242件のSALoTデータが
集まった．8つの見た目グループと7つの場所グループが得られた．場所グループのイメージを特徴づける重要語や
重要文を SALoT マップと LLDA で抽出して両者を比較した．またそれらに基づき代表景観を抽出した．