R-plus+　劉書志

Rist staff interview　#06 劉書志　〜インターン生から新卒入社へ　強化学習を用いたAI +Roboticsの未来を語る〜

R-plus+は、社員同士のコミュニケーションを目的とした社内報を、一般に公開した記事です。

※記事はインタビュー当時の内容です。

劉書志　2021年4月新卒入社
中国　山東財経大学　工商管理学部　マーケティング専攻　卒業
京都大学　工学部　電気電子工学科　卒業
京都大学院　情報学研究科　通信情報システム専攻　修了

Deep Inspectionチーム・AIエンジニア
中国出身
中国の大学卒業後、中国のメディア業界へ就職し営業を経験。その後2014年に来日。京都大学へ入学、京都大学院へ進学し、2019年よりインターン生としてRistに参加。
大学院卒業後、新卒でRistへ入社し、Deep Inspectionチーム所属のAIエンジニアとなる。現在はロボット開発チームのプロジェクトに参加しAIモデルの実装を行なっている。

今回は今年Ristに新卒で入社された劉さんにインタビューをお受けいただきます！
入社されてまだ半年ですが、どのように活躍をされているのか、また今後の目指す姿などもお伺いしていきたいと思います。
まずはRistに入社した理由をお聞かせください。

劉：大学院生のころにインターン先を探している中でRistを見つけ、当時から興味のあった機械学習ができるということですぐに応募しました。そして2019年からインターン生として1年半ほど働いていました。
そこから正社員として入りたいと思ったのは、まず一つ目に、AI開発の仕事ができるという理由が大きいです。Ristであれば、配属の変更等でAI開発以外の仕事になる可能性もなく、確実にAI開発に携わることができるというのが非常に魅力的な部分でした。
もう一つの理由としては、インターンを通じて仕事内容と働く環境がとても良いと感じたからです。当時は大きなプロジェクトに参加させてもらっていたのですが、そこで仕事のアウトプットがしっかり評価されることや、優秀で優しい人たちが集まっていると実感しました。そのため人間関係にも困らないですし、KaggleのGrandmasterやMasterも多く在籍されていて、このような環境で学べることは非常に貴重ですし、必ずRistに入社したいと思いました。

実際に正社員として働いてみていかがですか？

劉：インターン生の頃とのギャップは全くなく、先ほど申し上げた通りで、環境にも周りの人たちにも恵まれているなと感じながら働けています。

視点が違えば新たな発想に繋がる

それは良かったです！他にRistの良いなと思うところはありますか？

劉：充実した制度により自由な働き方ができること、仕事は過程よりも結果重視で形式的なものに拘っていないところが良いと思います。
他には国籍や文化の違う人が多くいることです。視点が違えば新たな発想に繋がる可能性が高まりますし、面白いものが生まれると思います。同時に、仕事に関係のないセンシティブな話題は基本的にしないということが、会社の文化としてあることも非常に良いと思います。

現在はどのような業務をされているのですか？

劉：AIエンジニアとして、ロボット開発チームに参加し、ロボットに必要な認識モデルと実際に掴む動作のモデル開発をしています。

ところで、劉さんがAIの仕事をしたいと思ったきっかけはなんですか？

劉：元々、大学院では情報学研究科でデジタル通信学を専攻していました。AIも情報技術の一つで、それによって社会が便利になるのが面白いと思い、興味を持ちました。そしてAIを学ぶ中で、強化学習でゲームプレイヤーを作ってみたいと思ったのがきっかけです。

強化学習とはどのようなものなのですか？

劉：強化学習はAIが自らさまざまな行動を試しながら、より価値のある行動を探していくものです。
身近なところだと、自動運転やゲームなどにも使われていて、ゲームだと囲碁や将棋などが有名ですよね。
こういったゲームの場合、勝ったら報酬を１与える。負けたら０。アクションは大体マイナス１を与えることでコストと認識させます。なので、少ない手数で勝つことを報酬の設計で与えて、その方針でAIが自ら学習して勝つ方法を見つけます。
同じように人間も報酬とコストを考えますよね。報酬の定義は人それぞれですが、低コストで報酬を一番多くもらえる行動を探し出します。なので、強化学習は人間と近い考え方をするということです。
このように強化学習は他のAI技術と違い、自らたくさん試行錯誤しながら学習をしていきます。だからこそ計算が複雑になります。

囲碁や将棋の例だとイメージしやすいですね。劉さんが個人的に強化学習を使って作られたゲームはありますか？

劉：以前五目並べを作ったことがあります。
ただ、五目並べのボードを拡張すると、計算量が膨大になり計算ができなくなるので、今はまだ個人で強化学習をするのには限界があると感じています。
ですが数年後には個人でも強化学習ができるようになると思っています。
昔は個人PCのスペックだと、画像認識AIにも耐えきれなかったのですが、今は個人PCのGPUで画像認識の計算が回せるようになりました。
強化学習は画像認識AIよりもさらに計算量が膨大で、今の個人PCやGPUではなかなか計算を回せないのですが、数年後にはそのスペックのPCやGPUが個人で持てる様なものが出てくると思っています。そのようになっていけば、この先強化学習がより身近になり、技術の発展もしていくのではないかと思います。

お話しいただいたように、AIに関することが世の中でどんどん発展していっていますが、その中でも中国のAIってすごく早く進化しているじゃないですか。なぜ、中国ではなく、日本でAI開発の仕事に携わりたいと思われたのですか？

劉：そうですね。昔から日本のアニメやゲームが好きだったというのもあるのですが、実際に日本で生活をしてみて、日本での生活も好きになりました。確かに中国はAIが早く発展していますが、そういった環境も含めて、日本でAIの仕事をしたいと思いました。

確かに、自分の好きな環境で生活や仕事をするのって大事ですよね。日本の生活の中で一番良いと思うことはなんですか？

劉：ラーメンが大好きなので、美味しいラーメン屋さんが多いところが最高です。
1番好きなのが博多ラーメンで、九州にもよく食べに行っていました。2番目に好きなのが喜多方ラーメンで、日本に来てから1年間は喜多方ラーメン屋さんでアルバイトをしていたのでほぼ毎日食べていましたが、全く飽きませんでした。アルバイトを辞めてからも店長さんが材料を送ってくださっていたので家でも作っていました。

本当にお好きなんですね。Ristラーメン部は入っていらっしゃらないんですか？

劉：え、そんなのあるんですか？

山田さんが部長です。山田さんより食べてる頻度高いんじゃないですか？

山田：私は毎日食べると健康的にえらいことになるから自制してるんです。部長の座を譲る時が来たかもしれません。

劉：まだまだです。。インターン生の頃はフットサル部の活動には参加していました。

そうでしたよね。インターン生の頃から、積極的にオフィスに出社されたり、社内のイベントなどにも参加してくれていたのは印象的です。メンバーともコミュニケーションを多くとっていらっしゃいましたよね。

劉：みなさん優しいので、内定式や入社式も和やかな雰囲気の中過ごせました。

Ristメンバーの中でこれだけは誰にも負けないことってありますか？

劉：根性は誰にも負けないと思います。

根性ですか！特徴的なエピソードなんかはありますか？

劉：例えば受験であったり、何においても基本的に根性があると思います。好きなゲームを例にすると、僕は大体競技ゲームをやるのですが、チームメンバーが弱音を吐いて「もう負けだ」などと言い出すと怒りそうになります（笑）
ゲームですし不利な状態になったとしても、基盤を固めてチャンスを見て挽回するとか、相手もミスをしない訳ではないです。時間が味方なので、最後まで勝つチャンスはいくらでもあります。もちろん、それでも負けてしまうこともありますが、諦めない気持ちを持っていたいですね。

粘り強く試し続ける、それこそがAI開発の面白さ

そういう意味では、AIの開発とゲームは似ているかも知れないですね。

劉：そうですね。AIの場合も最後まで試してみないと分からないことが多く、少し調整を加えたり新しいモデルを導入したりと色々な方法を試します。すると、いきなり学習できるようになる場合があります。最後まで粘り強く試し続けることが大事で、僕はそれこそがAI開発の面白い点だと感じています。

強化学習を使ってRistで新たに挑戦したいことはありますか？

劉：強化学習をロボットアームに応用したいです。ロボットアームでモノを掴む時に、様々な方法を使い行動を計算しますが、そこを強化学習を使って運用できるようにしていきたいと思っています。
ロボットアームは、どういった掴み方をするのか、一番省エネのアクションをするときに報酬を多く与えるのか、あるいは安定性重視にするのかなど、様々な報酬設計の可能性があります。しかし、実際その設計をするにあたって、繰り返す回数が大量にいるところが非常に困難です。
ゲームの場合は、PCでシミュレーションができるので大量に試行錯誤できます。しかしロボットアームの場合は、一回一回現物でしなければならないので、強化学習をロボットアームに応用することは難易度が高いんです。

ロボットアームをシミュレーション上で実際のように動かすことはできないのですか？

劉：シミュレーション上でできれば、学習を早く回すことができるため、そういったことにも挑戦していきたいとは考えています。しかし、難点もいくつかあります。
一つは、シミュレーション自体の構築コストが高い点。もう一つは、シミュレーション上と実世界では環境やアクションなどが異なるので、シミュレーションの経験をそのまま応用する事が難しいという点です。
シミュレーションと実世界にはドメインのギャップがあります。少しの違いが精度に影響することもあるんです。シミュレーション上で忠実に再現することも難しいですが、シミュレーションを活用した上で、実世界で活躍できるロボットアームを作るにはさまざまな工夫が必要になります。そういった研究も日々進化していっています。

なるほど。今後技術革新とかでできるようになっていく可能性はありそうですね。

劉：あると思っています。技術革新は、強化学習だけではなくAI全体で起きると思いますし、これまでと同様に計算機の計算速度が早くなる事で起きると思います。
最近の強化学習の技術で興味を持った「DreamerV2」というものがあります。Googleが開発しているもので、特徴としては従来のmodel-freeアルゴリズムより速度が早いことがあげられます。
前述のシミュレーションと実世界のギャップがある話ですが、このモデルはその問題にも強いものです。
タスクが行われる環境の学習をして、その学習した環境でシミュレーションを行うことができます。

細かく話していくと難しいのですが、バスケットボールで例えてみましょう。
シュート練習をしたい時に、今まではバスケットコート（環境）のイメージができなかったため、実際のコートに行ってひたすら練習をすることしかできなかったんですね。しかし、このモデルは明確なバスケットコートをイメージするということも同時に学習をすることができます。それにより、コートに行けない時にもどこにどうシュートするのか、イメージトレーニングでしっかりと練習ができるようになったような感じです。どちらがシュートが早く上手くなるかは明白ですよね。

これを実際の業務の中で応用できるかを試していきたいと思います。

強化学習のスキルをさらに高め、必要不可欠な存在に

では最後に今後の目標を教えてください。

劉：今参加しているロボットのプロジェクトで必要不可欠な存在になりたいと思っています。ロボットは画像認識だけではなく強化学習も必要なので、総合的に出来るようスキルを磨いていきます。
画像認識はロボットによって様々なことを可能にするための前段階です。ロボットは認識ができなければ何もできませんし、認識ができるからこそ、次の工程に進むことができます。
ロボットアームにおけるピッキングでいうと、画像認識が前段階、ピッキングして指定場所に置くのが次の工程ということですね。
現在は、指定場所に置くためのプログラミングを人が手動で行う必要がありますが、ロボットアームに強化学習を入れることで、自動で最適な置き場所を見つけることが可能になるかもしれません。
手動でのプログラミングはリソースがかかりますし、自動で出来るようになれば人員コスト削減とさらなるパフォーマンス向上が期待できます。それが可能になれば、製造業の現場で活用の幅が広がるのではないかと思います。
AI＋Roboticsの市場は大きいと思っているので、成果を出してロボット領域でのRistの知名度を上げていきたいです。

ありがとうございます。
今後はより強化学習の部分を劉さんが引っ張っていってくださり、AI＋Roboticsであらゆる課題解決を実現してくださることを楽しみにしています。

* 当サイトに記載する会社名、ロゴ、システム名、商品名、ブランド名などは、各社の商号、登録商標、または商標です。

事業内容

サービス

視点が違えば新たな発想に繋がる

粘り強く試し続ける、それこそがAI開発の面白さ

強化学習のスキルをさらに高め、必要不可欠な存在に

サービス

事業内容

本社

東京オフィス