masa-su/pixyz
A library for developing deep generative models in a more concise, intuitive and extendable way - masa-su/pixyz
https://github.com/masa-su/pixyz
人工知能研究において画像や文書,音楽などを生成する「生成モデル」に注目が集まる中、昨年秋に公開された深層生成モデル実装用ライブラリPixyz。
今回は、中心になって開発した松尾研研究員の鈴木雅大さんにPixyzについてお話を伺いしました。
昔から「ロボットの頭脳を人工知能によって実現したい」という夢があり、大学3年生の時に機械学習と出会いました。
そして、北海道大学の情報系の学科を卒業し、博士1年で松尾研に所属しました。 当時、深層学習(Deep Learning)が今ほど注目を集めていない時期から深層学習が大きな可能性を秘めていると仰っていた松尾先生に共感を抱いたのが松尾研を志望したきっかけでした。
現在は松尾研の研究員としてマルチモーダル学習と深層生成モデルの研究を進める他に、DeepLearning基礎講座を始め教育に関わることも多いです。
※マルチモーダル学習とは・・・複数種類のデータを入力とし、統合的に処理する機械学習。
Pixyzは深層学習の中でも「深層生成モデル」と呼ばれる枠組みを簡単かつ汎用的に実装するためのライブラリです。
深層生成モデルは生成モデルを深層ニューラルネットワークで構成したものなので、まずは生成モデルの説明をします。
生成モデルとは,簡単にいうと「今あるデータがどのようにできたのだろうか?」ということに着目し、それ(データの生成過程)をモデル化しようという枠組みです。これまでの深層学習研究の多くは、データを「分けること」に着目してきた訳ですが、生成モデルはそれとは対照的なアプローチです。
生成モデルをデータから適切に学習できれば、本物のデータとよく似た新しいデータを「生成」することができます。また生成モデルは学習したデータの生成過程を分かっているので、「異常検出」や「ノイズ除去」といったことも可能になります。
生成モデルは通常確率モデルとして設計されるのですが、最近ではこの確率モデルとして深層ニューラルネットワークが使われるようになっており、ネットワークの表現力のおかげで、より高次元かつ大規模なデータを学習できるようになりました。これが深層生成モデルです。
Pixyzの公開前は、利用する人は非常に限定的だと思っていたので、そこまで反響があるとは思っていませんでした。しかし、Twitterで告知後に想定以上の反響をいただき、大変驚きました。
深層生成モデルは、高画質な画像を生成できることから大きく注目を集めていますが、最近の手法はモデルが複雑になっており、従来の深層学習用ライブラリを用いて実装することが困難になっています。こうした背景から、今回Pixyzを開発することにしました。
なお、直接のきっかけは、2年前に開発したTarsでした。これも深層生成モデル用ライブラリでしたが、今回公開したPixyzは、Tarsを発展させ、より複雑かつ様々な種類の深層生成モデルを、簡潔に実装することができます。
当初、私一人が趣味で開発していたため全部自分で進めなければならず、苦労しました。しかし現在では、研究室の人にも使ってもらいながら一緒に開発をしています。
最近は非常に多くの深層生成モデルが提案されており、さらに深層生成モデル研究を発展させ、環境そのものを画像などから学習してしまう「世界モデル」の研究も進められています。
この世界モデルによって、世界の構造を理解することができ、さらに生成、すなわちシミュレーションすることで予測や想像を行う人工知能を実現することができると考えられています。
一方でこのような世界モデルは、非常に複雑な深層生成モデルによって設計されているため、難解で実装が困難になる上、専門家以外の人の利用が難しくなります。
そういう意味では、Pixyzは深層生成モデルや世界モデルの「民主化」に貢献できるのではないかと考えています。現在はまだライブラリとして整備が不十分だと感じていますが、今後は多くの研究者が活用できるライブラリにしていきたいと考えています。
世界モデルについては、昨年、DeepMindがScience誌で発表したGQN(Generative Query Network)という研究が話題になりました。
これは、ある部屋におけるいくつかの視点とそこから見える風景の画像を人工知能に与えると、人工知能がどのような部屋なのかという情報を推論し、同じ部屋の見たことのない視点からの画像を生成できるというものです。
松尾研では、このような背景で開発されたPixyzを活用し、松尾研メンバーで学部4年生の谷口さんによってGQNの再現実装に成功しました。
この実装は、GQN論文の第一著者であるAli Eslami氏のTwitterに、Pixyzと共に紹介され話題になりました。
また、それ以外にも最新の様々な深層生成モデルや世界モデルをPixyzで実装する試みも進めています。これらは「Pixyzoo」という名前のページ(リポジトリ)で公開していますので、こちらも是非ご覧ください。
私自身、ロボットの知識処理や、ヒトの脳のような汎用的な人工知能の実現に深層生成モデルや世界モデルの研究が重要だと考えており、Pixyzがその実現の一助となることができたら嬉しいですね。
教育にも携わる研究者として、今は機械学習や深層学習の勉強をするのにとても良い環境になってきていると同時に、それだけをやればいいという時代ではなくなってきていると感じています。
私の場合「どうしたら人間のような知能が実現できるか」ということを考えていく中で、人間の脳について調べてみたりもしました。私自身、研究者としてまだまだ未熟ですが、そうした知識が今になって役立っていると感じています。
ですので、1つのことだけを勉強するのではなく、幅広い知識を吸収することが遠回りに思えたとしても、結果的に自分の強みを見つける近道になることも知ってもらえたらと思います。
鈴木 雅大 東京大学大学院工学系研究科 特任研究員
2013年3月 北海道大学工学部卒業(学業優秀賞)
2015年3月 北海道大学大学院情報科学研究科修了
2018年3月 東京大学大学院工学系研究科修了,博士(工学)
博士論文:深層学習と生成モデルによるマルチモーダル学習に関する研究(工学系研究科長賞(研究))
2018年4月 東京大学大学院工学系研究科 特任研究員
研究内容
転移学習(ゼロショット学習),深層生成モデル(VAE),マルチモーダル学習