統計学輪講(第11回) 日時 2012年06月26日(火) 15時40分~16時30分 場所 経済学部新棟3階第3教室 講演者 野村 亮介 (数理D1) 演題 時間的差分法のステップサイズに関する収束条件について 概要 状態と報酬の二種類のデータを観測するモデルを考える。ここで、状態はマルコフ連 鎖に従って遷移するものとし、報酬は遷移前の状態と遷移後の状態によってのみ決め られるものとする。このとき、ある状態が与えられたときの累積報酬の期待値を推定 する問題を考える。この問題はロボットの制御やゲームの形勢判断などを想定してお り、解くための方法として、線形関数近似を用いた時間的差分法がよく知られてい る。 本発表では、推定量を更新する際の重みであるステップサイズが定数である場合を取 扱う。このとき導出されるいくつかのアルゴリズムに対する収束条件について議論 し、数値実験により、アルゴリズムの比較を行う。