統計学輪講 第5回
日時 | 2021年5月11日(火) 14時55分 ~ 16時35分 |
---|---|
場所 | Zoomオンライン開催(URLはITC-LMSをご確認ください) |
講演者 | 今泉允聡 (総合文化) |
演題 | 深層学習の汎化誤差解析:損失形状による暗黙的正則化と過剰パラメータ化 |
概要 |
深層学習は優れた性能を発揮するデータ解析手法として知られているが、その原理は未だ未解明の部分が多い。本研究では、深層学習の汎化誤差(予測性能の尺度)を特徴付ける幾つかの要素を解析し、深層・大パラメータ構造を持つモデルの性質を調べる。特に、(i)深層ニューラルネットワークの非凸損失関数がもたらす暗黙的正則化、(ii)深層構造のもとでの過剰パラメータ化、の二点に関係する研究を紹介する。(i)暗黙的正則化とは、深層ニューラルネットワークモデルのパラメータの学習に用いられる学習アルゴリズムが、モデルの自由度を抑制する現象をさす。暗黙的正則化は深層学習の高い性能をもたらす要因として注目されていたが、近年実験的な反例が示されたことで、その前提の妥当性が揺らいでいる。本研究では、深層ニューラルネットワークの非凸な損失関数の形状を特徴付けることで、正則な勾配ノイズを持つ確率勾配降下法が暗黙的正則化をもたらし、結果として汎化誤差を減少させることを示した。(ii)過剰パラメータ化とは、モデルに必要以上のパラメータを与えることを指す。大規模な深層ニューラルネットワークの登場に動機づけられ、過剰なパラメータを持つ統計モデルの解析が活発に進んでいる。代表例として、二重降下現象に代表されるランダム行列理論を用いた解析がある。しかし、これら理論は広義の線形モデルにしか扱えないことから、深層ニューラルネットワークなどの非線形なモデルへの適応可能性は不透明である。本研究は、非線形モデルに対する近似と高次導関数の構造を評価することで、一定の正則条件を満たす深層モデルに対して、これらの理論が適応可能であることを示した。 |