統計学輪講(第39回)

日時      2008年12月16日(火)    15時〜15時50分
場所      経済学部新棟3階第3教室
講演者    池田 雅紀 (情報理工M1)
演題      Web検索における同姓同名問題のクラスタリングによる解消

概要

Web検索の重要性は年を経るごとに増している。しかし、語彙の多義性により、
検索結果には検索キーワードの持つ複数の意味が同時に表示され、検索結果の閲
覧を困難にしている。この問題の中で、特に重要となるものが同姓同名人物の特
定問題である。例えば、"鈴木一朗"で検索すると、野球選手の"イチロー" につ
いて言及しているページが最初に見つかり、別人物の"鈴木一朗"に関するページ
を発見するためには手間がかかる。また、このように同姓同名の有名人が存在す
る場合以外に、同姓同名の人物を多く持つ場合も検索すべき人物に関する情報を
得ることを困難にしている。特に欧米や中国、韓国などで後者が問題となっている。

この問題に対する解決策として考えられているのが、人名の検索結果に対して、
検索結果の各ページに含まれる人物に関する固有表現(人名、地名)・専門用語な
どから類似度を計算し、クラスタリングを行い、同一人物ごとのクラスターにま
とめて、結果を表示するという方法である。本発表では、この問題に対する研究
結果を適用したクラスタリング手法を中心として述べる。

ここで扱っているWeb検索結果のクラスタリングは文書クラスタリングの一種で
ある。文書クラスタリングは長年研究されてきたもので、本研究で用いている手
法の多くも文書クラスタリングの研究に基づいたものである。しかし、本研究に
おけるクラスタリングの目的が同姓同名人物の特定であるという点で、従来の文
書クラスタリングと異なっており、手法においても違いが生じる。また、この目
的によりクラスタリング結果に対する評価が明確に行うことができるという利点
がある。本発表ではこのような文書クラスタリングとの違いを踏まえて、同姓同
名問題のクラスタリングについて述べる。