やわやわ人工知能考察

人工知能に関する話題を技術的側面だけでなく、もうちょっと俯瞰的に主観的に話してみようとするブログです。やわやわやっていきます。

認識フレーム問題とタスク依存性について(2)

自由自在にフレームを作り変えることができる知能

前回にフレーム問題の簡単な説明を行った。そこでは、強化学習はミクロレベルの問題は解けるかもしれないが、マクロレベルの問題は未だに解決できないのではということを考察した。マクロレベルの問題とは、同じ目的でも環境や報酬が変化してしまうとタスク依存性の観点から、対応できなくなってしまうことである。

今まで人工知能の研究は非明示的にタスク依存の研究をしてきた。特に最近の強化学習ベンチマークはゲームを解くことや、与えられたタスクを解くことが1つの指標となっており、強いタスク依存性を持っているのではないか。これは、日常生活で我々が行っている生活に比べて、限定的な知能を作る方向ではないかと感じている(これは私の感覚なので間違っているかもしれない)。

様々な強化学習の研究で、汎化性能を持たせようという研究があるが、それでもやはり与えられたタスク(ある意味研究者が強化学習の神様になって与えたもの)からは逃れられない。*1

ここまでの話は今までの人工知能の研究からすればナンセンスに感じるかもしれない。なぜならば今までの人工知能はある意味あるタスクを解かせようということに注目をしてきたからだ。だからタスク依存性という言葉は少し人工知能の研究からすれば当たり前だし、それを取っ払って問題を考えることは途方もない課題のように見えるかもしれない。

しかし、人間はタスク依存性を攻略しているかのように見える。少なくとも今の段階の人工知能よりかは。そのあたりの雰囲気や自分の感情状態を加味して、欲求を作り上げ行動する(外からは目的をみつけて適切なタスクを構築しているように見えるのかもしれない)。このように自分の中で自身の欲求、感情や知識ををフレームとして構築しているのかもしれない。

このように人工知能の問題も、タスクベースで考えるのではなく、フレーム構造を作り上げるというふうに捉え直すことはできないだろうか。つまり主観的輪郭を加えるのである。

ただし、人間もフレームを自由自在に操られているかと言われれば疑問が残る。例えば、あることに熱中しているときはその他のことは考えることは難しい。認知バイアスは思考の範囲を狭めて正しいとされる概念を遠ざける。また感情が強すぎて客観的に問題を見ることができないこともある。これらの例はフレームがあるからこそ別の視点から物事を考えることができなくなってしまう、フレームがあるがゆえの人間的課題だろう。

だが、フレーム構造(もしくはシェマ)といった概念を作り上げて、目的に対してフレームを適応させてタスクに落とし込むという知的処理は機械にはまだ達成されていないことだろう。感情や思い込み、欲求など今までの機械学習が外側においていたことを利用して、機械が主観的なフレームを構築するという方法も1つの方法ではないかと考える。

タスク依存性があるからこそできること

機械はタスク依存性があり、フレームを作れないとしよう。それでは強化学習の研究は意味がないのだろうか。そうではない、タスクを限定するとその範囲で様々な方策を作る作る強化学習は、人間の与えることができるタスクの限界を示すことができる*2。また、機械にタスクを解かせることで、人間の思考を再確認することも可能だろう。

そして、タスクに対しては機械は様々なアプローチを、「ありえたかもしれない」解法取ることができる。それは、自分勝手にフレームを作ってしまう人間より新しい知見を与えることもある。

もう一度AlphaZeroを見てみる。

science.sciencemag.org

deepmind.com

 Alphaシリーズの一番最初であるAlphaGoは、2016年李世ドルと争い4対1で勝利した。このときのある対戦でこんなことが起こったそうだ。この情報は私が聞いた話であり、信憑性を高めるためにいろいろ調べたが直接その話を裏付けるものがなかった話である。話半分で見てほしい。AlphaGoがある手ー黒37手だったかもしれないーをうったとき、多くの囲碁関係者はAlphaGoの負けだと思ったらしい。なぜならばそれは人間からすると「ありえない」手だったらしい。しかし、どんどん局面が進むたびにおかしな現象に出くわした。その黒37手がどうもすごく効いているらしい。あそこに打ったのはそういう理由だったのかと気づいたときには、李世ドルの敗北は決定していた。

このことを単に機械が人間に勝利した強化学習すごい!捉えてもよいかもしれない。しかしフレーム問題の観点から考えると、申し越し踏み込んだ捉え方ができそうだ。すなわち、「人間がフレームを作ったがゆえにたどり着かなかった正解に、機械はフレームを作れなかったがゆえにたどり着いた」ということである。

AlphaGoの後継機AlphaZeroも同様である。AlphaZeroの棋譜を見ると、人間からは少し考えられない動きをした局面もあったらしい。例えば「王をど真ん中に打つ」という手である。人間はそんな手を考えない。私は将棋に全く詳しくないので王をど真ん中に打つというのはどういうことか理解はできないが、取られてしまったら負けてしまう駒をど真ん中に置くというのはあまり「美しくないだろう」。人間が勝手に作ってしまっている「強い棋譜は美しい」というフレームから逸脱しない限りこの手は出てこないはずだ。*3

これは何を意味するか。タスクが存在し、計算機資源が大量にある、そして強化学習のテクニックがあれば、人間が気づかない新しい発見を機械が与えてくれる可能性があるのだ。機械はフレーム問題を解決していない。しかし、フレーム問題を乗り越えているのかもしれない。

DeepMindではAlphaZeroの棋譜をみた羽生9段の言葉を紹介している。

Some of its moves, such as moving the King to the centre of the board, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position.
But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game."

Yoshiharu Habu, 9-dan professional, only player in history to hold all seven major shogi titles 

フレーム問題を乗り越える人工知能 

今の拙い考察でフレーム問題への解法が2つできそうだ。

1つはタスク依存性の考えをやめて、人間がやっているように感情や欲求、知識をこねくり回してフレームを作ってしまうということ。世界のモデル化かもしれない。World Modelsももちろんその1つだと思う。だが範囲はもうちょっと広く主観的な考えも含んでモデル化するとどうなるだろうかと考えてみたくなる。[1604.00289] Building Machines That Learn and Think Like Peopleは幅広い世界モデルを考えているが感情や欲求など主観的なモデル構築は言及されていない。今後の方針としては、世界モデルをもう少し拡張する方向に見つめ直す必要もあるのではないか。

もう1つは、フレーム問題を乗り越える機械を人間の系に加えてしまうという方法だ。IA(Intelligence amplification)に方針を切り替え、フレームを作る人間とフレームを乗り越える機械の共同作業を広げるのだ。餅は餅屋に戦法とでも言っておこうか。今この共同作業はゲーム界隈では盛んに行われているが*4、これを研究でもやってみようとするのだ。

先に程示した、トンチ解法を生み出してしまった論文を例に取ると、研究者はそのようなトンチ解法を出してしまったがゆえに更に良いあたらしい関数にたどり着いた(回りくどいという指摘もあるが)。だが、なかなかこういう「失敗」を論文に書かないだろう。だが、フレームが無いゆえに、トンチ解法を生み出してしまうように、学習中に起きてしまった人間の意図をとってくれながったゆえの失敗を「機械の新しい発見」としてプラスに捉えてしまうのはどうだろうか。

人工生命の研究ではこのようなアネクドートを集めて再現性がないし目的にそぐわないけど面白い発見・驚きだったというものを集めようというプロジェクトが動いている。

createwith.ai

それを強化学習(広く言ってしまったら人工知能だが)でもやっちゃおうということである。トンチ解法や想像もしていなかった方策、1度きりで発生した方策を集めることで、人間の取りうる思考の幅を広げることは可能ではないか。人間はその知見を利用して自身のフレームをアップデートする。そして新しい人工知能の研究に活かすのである。その中にタスク依存性を解決する方法がもしかして見られるかもしれない。

認識フレーム問題を解決するために

結局の所、人間もフレーム問題を解決できていないのかもしれない。しかし個々にもっているフレームが無いと何もできないという指摘をする哲学者や研究者もいる。フレームがあるからこそ人間は有限時間でものごとを負えられるのだと。しかし、一方でその結果として固まったフレームから離れることが苦手な人もいる。 そうするとこれは人間への逆フレーム問題として考えることができる。でネットはそこまでの拡張は望んでいないかもしれないが、フレームを考えるということは、フレームが存在しないがゆえに起こってしまう問題ととフレームが存在してしまったがゆえに起こってしまう問題両方捉える必要があるのかもしれない。

人間は幸い、他者による自治的な協調作業によってフレームを見つめ直すことができる。自由自在にフレームを操作し、フレームそのものを広げることが可能である。(しかも計算時間は事実上同じで!)機械は未だその領域まで踏み込めていない。だからこそ、人間が気づかなかった新しい概念を生み出し、それを人間が取り込むことで、人間に気づきを与え新たなフレームを構築することも可能だろう。

また、機械がもしフレームを構築できるようになったら、更に人間の手を介在しない目的に対する新しい結果が現れるかもしれない。

長くなったがとりあえず認識フレーム問題とタスク依存性から考える話を一旦終えることとする。

 

 

ご意見やご感想がありましたらコメントをぜひよろしくお願いします。また間違いの訂正もぜひよろしくお願いします。

*1:ところで、汎化の研究で個人的に好きな研究がある。World Moldes[Ha+2018]では、状態入力に予測モデルを組み込み(Dreamと本文中では表現)学習している。この表現は与えられた状況だけでなく、あり得るかもといった世界も表現することが可能となる。機械が取りうる知識を内部モデルで時系列的に処理し、不確実性をもたせているため、かっちりとした環境(ある意味タスク)を想定した今までの強化学習とはまた少し毛色が異なって見えたためだ。

*2:これはちょっと議論が必要かもしれない。タスクの与え方によってはトンチ的方策が現れてしまうこともある。[1704.03073] Data-efficient Deep Reinforcement Learning for Dexterous Manipulation 

*3:はずだと言っているのは、私が全くこれらのボードゲームに詳しくないからだ。チェスに至っては全く知らない。AlphaZeroの論文をぱらっと見たとき、チェスの項目が勝数が少なく、引き分けだらけじゃないか、なんで威張ってんだこいつと思ってしまった。だが研究室の後輩から「チェスは先手必勝が存在する」と聞いて納得した。つまりAlphaZeroは後手になると「引き分けに持ち込む」戦法に打って出ていた、らしい。

*4:そのような対戦も始まっていると聞く。これもまた聞きなので信憑性は少ないが