お知らせ

Information

東京工科大学 HOME> お知らせ> 2019年のお知らせ >人工知能はまだできないことだらけ。その研究を進めることで、コンピュータにも人間と同じように画像理解をさせたい

人工知能はまだできないことだらけ。その研究を進めることで、コンピュータにも人間と同じように画像理解をさせたい

2019年7月26日掲出

コンピュータサイエンス学部 青木 輝勝教授

青木 輝勝 教授

 コンピュータサイエンス学部では、2020年度より「人工知能専攻」と「先進情報専攻」の2専攻体制が始まります。今回は「人工知能専攻」に所属する青木輝勝先生にご研究の詳細を伺いました。

■先生のご研究について、お聞かせください。

 人間と同等、もしくはそれ以上のコンピュータビジョンを実現するための基礎研究や人工知能技術(AI)を用いた応用研究に取り組んでいます。コンピュータビジョンとは、日本語の「画像理解」とほぼ同じ意味で、コンピュータに画像を理解させることです。つまり、コンピュータが画像を理解するにはどうすれば良いかという研究に取り組んでいるのです。
  一般に、人が何かを見て認識する仕組みは、目で見て、それを脳に伝達し、脳でそれが何かを理解するということになりますよね。その仕組みをコンピュータや機械の処理に当てはめると、人の目の部分がカメラで、そこから得た情報をコンピュータで解析するということになります。その解析の部分に、今はディープラーニング(深層学習)が広く使われているのです。もう少し詳しく言うと、カメラからコンピュータに情報を伝達する部分にCNN(Convolutional Neural Network)、情報を処理する部分にFCN(Full Connected Network)というディープラーニングの手法が用いられています。
 さて、ここで素朴な疑問ですが、人間の視覚や認知機能は、果たしてカメラやコンピュータと同じでしょうか? 例えば、屋内のパーティで写真を撮ると、暗く写ることがありますよね。目で見ている部屋はきちんと明るく見えているのに。あるいは屋内で写真を撮ると手ぶれしますが、そもそも人間の目ではそういうことがありません。ですから人間の目は素晴らしく良く出来ていて、カメラとは全く違うものなのです。
 一方、情報を伝達するCNNの部分は、今のAIブームのきっかけになったもので、案外、人間の脳内処理と似ているところがあります。ですからこの部分を研究している人は多いです。しかしFCNは人間の脳の処理とはまったく違います。そして、FCNの研究は、あまりされていません。
 ですから私の研究室では、人間が画像を理解するのと同じようにコンピュータにも理解させるために、カメラの部分やCNN、FCNを含めて研究していきたいと考えています。
 

■具体的には、研究としてどういうことを行うのですか?

 例えば、ブラー画像マッチングがあります。ブラー画像とは、手ぶれしたようなぼやけた画像のことです。ここに人の顔の画像があって、もう一方にそれがぼやけた画像があったとします。私たち人間は、すぐにそのぼやけた画像が、もう一方の人の顔が映っている画像がぼやけたものだとわかります。ですが、コンピュータにはわかりません。今の時代のAIであっても、そういう簡単なことができないのです。
  では、AIは何ができるのかというと、画像分類の精度は高いと言われています。画像分類とは、例えば車、花、人の顔、飛行機の画像をそれぞれ1000枚ずつ用意して、AIに学習させます。そこへ今度はよくわからない花の写真を入れると、「これは花だ」と分類します。事前に覚えている正しい画像に対して、新たに来た画像を分類するのは得意なのです。ですから先ほどのブラー画像は、そもそも何かわからないので学べませんよね。しかし、これが認識できるようになれば、色々と応用は広がります。例えば、研究室では雑誌とスマートフォン(以下スマホ)を使った新しいメディアである「静止画動画融合メディア」の開発に取り組んでいます。スマホに開発したソフトウェアを入れておき、雑誌上にかざすと、その画像をカメラが認識し、そこに関連した動画がスマホ画面上に流れるというものです。これがブラー画像とどう関係するのかというと、スマホのカメラを雑誌上に持っていく際にカメラが動くので、自然とぶれた画像になりますよね。そのぶれた画像をきちんと認識して、サーバーなどと通信することで、「これはこの雑誌の何ページ目だ」という情報を得て、それに関連する動画をスマホ画面上で流そうという仕組みです。
  それから、顔表情認識の研究もしています。顔表情認識は多くの人が研究していますが、私はその中でも苦笑いやつくり笑いといった微妙な表情をコンピュータで認識できないか検討しています。また、バス会社との共同研究で、運転手の顔表情から疲労度を認識する研究にも取り組んでいます。こうしたことを今のAIができない理由のひとつは、人間が正解を教えてあげられないからです。「この人のこの表情は曖昧な表情だけど、笑顔だ」というように、すべてに答えをつけた画像を1000枚ずつ用意できると、AIは学習できるかもしれませんが、そもそもそれが用意できませんよね。つくり笑顔の画像と笑顔の画像は、見た目としてそれほど差はありませんから。同じく疲労度も疲労度1と疲労度2の表情を区別できないので、今のAIでは難しい。そういう人間が事前に答えを用意できないものに対して、どうAIを使うかということを研究しています。
  あとは、コンピュータサイエンス学部全体のプロジェクトとして進めようとしている研究もひとつあります。

■それはどういう研究ですか?

 今、街中に監視カメラが置かれていますよね。ですがプライバシーの問題で、カメラを置けない場所もたくさんあります。例えば、トイレや温泉の脱衣所にカメラが置かれていたら、誰でも嫌ですよね。ですが公共のトイレからトイレットペーパーを盗む人がいるし、脱衣所で財布を盗む人もいます。そこで考えてみると、この問題は、基本的にカメラが情報を取り過ぎていることにあるのです。脱衣所でのカメラの役割は、誰かの裸映像を撮ることではなく、盗んでいないか、あるいは盗みそうだということを知りたいだけです。トイレの場合も同様です。
  そこで非常に簡単なアイデアですが、カメラにディープラーニングの処理機能の半分を持たせ、撮影したデータをカメラ側で機械語に置き換えてサーバーに送り、サーバーの方でもう半分の処理をして解析をする仕組みができないかと取り組んでいます。この仕組みをSDNN(Split Deep Neural Network)と呼んでいて、これで撮影した画像は機械語に置き換えられているので、人が見ても何かわかりませんが、結果として何が起きているのかは機械の解析によって把握できるというわけです。これならば、トイレや脱衣所だけでなく、学校でのいじめや電車内の迷惑行為、介護施設等での虐待などの防止としてカメラを設置することも可能です。つまり、プライバシーを守りながら、プライバシーの問題で今まで踏み込めなかった問題に踏み込めるようになるのではないかと思っています。

■AIを学ぶ面白さや可能性とはどのようなところにありますか。

 今日、お話ししたように、AIにはできないことがたくさんあります。今は世界中の研究者たちが、何ができて、何ができないのかを確かめている状態です。つまり、まだまだ始まったばかりの分野なのです。ですから学生には大学でAIの仕組みを学びつつ、それをどう使うのか、どう使いたいものに利用していくのかということを一緒に考えてもらいたいです。そこが面白い部分だと思います。

■受験生?高校生へのメッセージをお願いします。

 高校までの勉強は基礎ですから、正直、面白いとは言い難いでしょう。国語や英語、数学を学んでも、それを何に使うかということは高校では扱いません。しかし大学では、これまで学んできたことを使って、わからないことだらけのことを学べるので、きっと楽しくなるはずです。教員も答えを知らない問題に取り組むわけですからね。今は受験勉強で大変だと思いますが、それを乗り越えて、大学でわくわくするような学びを経験しましょう。

■コンピュータサイエンス学部:
/gakubu/cs/index.html

?次回は8月7日に配信予定です