授業動画の表情や音声をAIで解析しオンライン授業の質を高める第31回オンラインシンポレポート・後半

授業動画の表情や音声をAIで解析しオンライン授業の質を高める
第31回オンラインシンポレポート・後半

活動報告｜レポート

2021.2.12 Fri

授業動画の表情や音声をAIで解析しオンライン授業の質を高める<br>第31回オンラインシンポレポート・後半

概要

超教育協会は2021年1月13日、株式会社I’mbesideyou（アイムビサイドユー）の神谷渉三氏を招いて、「マルチモーダル AIで読み解く、オンライン教育の秘訣」と題したオンラインシンポジウムを開催した。

シンポジウムの前半では神谷氏が、I’mbesideyouが提供するマルチモーダルAIでオンラインコミュニケーションの動画を解析するサービスと教育業界での利用事例を紹介。後半は、超教育協会理事長の石戸奈々子をファシリテーターに､参加者を交えての質疑応答を実施した。その後半の模様を紹介する。

＞＞　前半のレポートはこちら

＞＞　シンポジウム動画も公開中！Youtube動画

「マルチモーダル AIで読み解く、オンライン教育の秘訣」

■日時：2021年1月13日（水）12時～12時55分

■講演：神谷渉三氏
株式会社 I’mbesideyou代表取締役社長

■ファシリテーター：石戸奈々子
超教育協会理事長

▲　写真・ファシリテーターを務めた

超教育協会理事長の石戸奈々子

シンポジウムの後半では、ファシリテーターの石戸奈々子より参加者から寄せられた質問が紹介され、神谷氏が回答する質疑応答が行われた。

現場の教育者の方々と協力しながら　子供が健全に育つために必要なことを考えていきたい

石戸：「中国では、先端的な実証実験校にカメラを設置して子供たちの表情や、動作を解析し授業改善に活用している例があります。教育への導入の観点でライバルとして意識している会社はありますか」

神谷氏：「テクノロジーでは、中国は昔から脳波や動画を撮っていますので、技術的に進んでいるエンジニアは多いのではないかと思います。ただ、私たちは中国での用途とは異なり、子供一人一人の喜びや自己実現に焦点を当てていることが特徴です。Zoomのようなオンラインコミュニケーションに特化して、しかもマルチモーダルAIをこの目的で扱っている会社はまだ私たちだけだと思います」

石戸：「必ずしも成績の向上のためだけではないということですね。それではどんな評価軸で表情や音声を解析しているのでしょうか」

神谷氏：「ケースによるとは思いますが、先ほどの家庭教師サービスのBANZAN様の例では、同社の実現したい目的の一つは解約を防ぐことなので、そこでディープラーニングを活用し、その効果がひとつの評価軸になります。

これまでは先生に『ここがよくなかったのではないか』とは言いづらかったそうですが、『問題があるようだとAIが言っていますよ』とAIのせいにすれば角も立ちません。そしてもしAIが間違った指摘をしたのなら逆に先生から報告してもらい、さらにAIを育てていけるサイクルにもなっています」

石戸：「なるほど。解約予知率が現状84%と高いからこそ、AIの言うことを信用してもらい、自ら振り返って改善する方法を考えてもらえるということですね」

神谷氏：「ただし悪いところだけ指摘すると委縮してしまいますので、基本的によい事例を褒めて、必要に応じて悪い指摘も織り交ぜるようにしています」

石戸：「視聴者からの質問です。表情の判定で愛想笑いと本心からの笑顔を区別することはできるのでしょうか」

神谷氏：「実は今『苦笑いを検知できるか』に取り組んでいます。ある程度はできそうですが、検証中です」

石戸：「次の質問は私も気になっています。先生や生徒がAIで『丸裸』になると思いますが、個人のプライバシー保護をどうしているか。例えば、先生や生徒が、共有可能な情報の範囲を指定できるのでしょうかという質問です。全部撮られることに抵抗を示す人はいませんか」

神谷氏：「とても大事な観点だと思います。これは事業者様のポリシーによります。先ほどのBANZAN様は、『サービス品質向上のために録音させていただいております』と、最初にアナウンスが流れる問い合わせ窓口などと同様のポリシーで、もともと全部録画していました。そのデータを私達が解析しました。許可がないともちろん解析はできません。

現在は、自分のパソコンの中だけで動作して外へ情報を送らないバージョンも作っています。日記のように自分の表情や発話内容をずっと記録する仕組みだと本人だけ解析のリフレクションができます」

石戸：「場合によっては監視されているように思う先生もいるのではないでしょうか」

神谷氏：「そうですね。例えば本人のログはなるべく本人だけが見るようにして、経営層にはいい部分だけ見せるとか、そのほうがうまく組織は回るのではないかと現在議論中です」

石戸：「BANZAN様以外の教育機関で導入されているところはありますか」

神谷氏：「はい。社名はお知らせできませんが、何社も使っていただいています」

石戸：「先生へのフィードバックの話が主でしたが、生徒が自分自身の状況を把握するために使う可能性もありますか」

神谷氏：「はい、あります。自分が今どんなステータスなのかを認識して次の学習を決めるなど、自己認識が一番大事だと思います。リフレクションの方向も徐々に強めていきたいと思います」

石戸：「学習効果との相関は、教育者の感覚と合っているものなのでしょうかという質問がきています。教育現場の方々と共にサービス構築されているのでしょうか」

神谷氏：「現在の開発プロセスでは、知り合いの小学校の先生や、解析結果確認にご協力いただいている方にプロトタイプを見せて、解析結果と実際の感覚と合うかを確認してもらってから実装しています。現場の感覚とあう結果が現状出ています」

石戸：「ディープラーニング精度向上に向けての課題はありますか。例えばプライバシーも考慮しつつ、学習データの質や量を担保することなどいかがでしょうか」

神谷氏：「用途に合わせたサンプルデータをどう早くたくさん確保するかは、精度の高さに関わってくる大事な要素です。ただ、今も毎月継続して1万時間以上解析できていますし、この先ビジネスが広がれば広がるほどデータ量は増えて、解析の精度が上がるよいサイクルに入っている認識です。

課題は、ケースによってディープラーニングのパターンが変わることです。うつ病の診断に使うなら、そのためのディープラーニングの母集団のようなデータセットが必要になります。家庭教師はある程度出来上がってきたと思います」

石戸：「今日は家庭教師の話でしたが、例えば塾によっても教え方は異なりますよね。導入するためには初めある程度、AIが学習するためのデータを作っていかなければならないということですね」

神谷氏：「例えば受験英語のための家庭教師と英会話ではまた違うので、英会話向けにするためのチューニングは必要といったことです」

石戸：「教育もそうですが、人の表情の作り方は社会的文化的背景がかなり影響すると思います。運用する国や地域によって判定の重みづけを変えたりするのでしょうか。国際展開を考えるにあたり、留意していることがあれば教えていただけますか」

神谷氏：「個人の中の相対変化を捉えることがまず一つです。例えば、私の表情が1カ月前よりも良くなったのか悪くなったのかは、私がどの国の人間だろうとあまり関係なく判断できると思いますが、育った国や環境によっての違いや個性もあるでしょう。それについては、『AIエンジンは笑っていると判定したけれど、実はこれ、笑っていないんだ』と、タグを付け直すアノテーションという作業を、チームを組んで継続的に行っています」

石戸：「今回はオンライン授業の話でしたが、録画すれば対面の授業にも活用できるのですよね。今後ビジネス領域となる可能性はいかがでしょうか」

神谷氏：「私が3年前ぐらいにやっていた教育サービスで、教室をスマホで撮影しようとしたことがありました。しかし子供が走り回ってしまい、顔が全く撮れなくてあきらめました。

Zoomのように、一定の枠の中に顔がちゃんと収まって会話している画像は、データとして表情や音声の認識の解析がしやすい。今はオンラインコミュニケーション特化で対応していこうと思っています」

石戸：「関連する質問です。中国では、挙手や机にうつぶしているなど、動作も見ているそうです。本来なら全身からの情報がベストなのでしょうか。表情と音声だけでどのぐらい読み取れるものなのですか」

神谷氏：「今のところ『授業をする』観点だと、かなり読み取れていると思います。うつ病の診断に関しては、顔の動画から脈拍を測ろうと試みていますが、動作の解析も有用なら解析ソースに加える、必要に応じて要素を増やす考え方です」

石戸：「コミュニケーションに活用するすべての要素を、解析の対象とするということですね。先ほど、コミュニケーション特化のマルチモーダルAIは世界で唯一無二だというお話がありましたが、その理由は技術的な難しさですか」

神谷氏：「技術的な理由もあります。技術者にはそれぞれ専門分野があります。音声認識して表情認識して音声解析してと、要素を加えて専門家を集めると、コストも膨れ上がるしチームを組む難易度も上がります。もうひとつ、この分野はこれまでとてもニッチで、コロナでみんながZoomでコミュニケーションするようになったからこそ、ビジネスとして成り立つようになったばかりです。2020年までは、これだけで会社を作ろうとは思いませんでした」

石戸：「AIの学習データの仕様については、標準のZoomの動画と音声の品質で十分解析ができるということでしょうか。他の映像コミュニケーションサービスではいかがですか」

神谷氏：「動画でさえあればZoom以外でも解析できます。ただ、ZoomはAPIを開放していて私たちが映像を取得できるので使いやすい。Zoom以外の例えばWebexやTeamsは、お客様が動画ファイルをダウンロードして私たちに送る手間がかかるため、Zoom推奨としています。

標準のZoomの動画と音声の品質で解析可能かについては、画面に50人の顔が小さく映った動画だと瞳の動きがよく見えないため視線解析に影響が出る、など精度は落ちます。少人数の動画であればあるほど、解析精度は増します」

石戸：「今後、新しい種類の分析やデータ同士のつながりは考えていますかという質問です。また、『これを学校現場に活かしていくためには、学習評価について学習科学の研究者と共に考えていく必要があるでしょう』というコメントもきています」

神谷氏：「学習評価の視点では、本当にその通りです。子供が一番健全に育って行くために必要なことを一緒に考えていきたいと思います。現場の教育者の方々と私たちが提供するサービスがぴったり噛み合わないと効果は発揮できませんので、ご協力いただきながら進めていきたいです。

新しい種類の分析は、先ほどの脈拍や動作ですね。データ同士のつながりについては、先生と生徒の相性や、このペアなら良いコミュニケーションを生むかもしれないといった、マッチングロジックの精度を、今後高めていければと思っています」

石戸：「AIでのデータ解析の精度のさらなる向上で、もし課題を認識されていれば教えていただければと思います」

神谷氏：「私たちのAIには2段階あって、表情認識でいうと顔のデータポイントを数百個取得するといった、素データだけをひたすら集めて解析して持つのが1段階目。2段階目は素データに『これは笑顔だね』と判定する認知モデルを加えて解釈することだと考えています。センサーとしての第1段階と、人の解釈の第2段階と、分離してのAIシステムの構造を作っていることが特徴です。

1段階目は共通部分で、とことん突き詰めて性能を高めていきます。2段階目は用途や最終的に何を得たいかによってチューニングをする必要があります」

最後は石戸の「非常に興味深いお話でした。オンライン教育が広がる今、ビジネス拡大の可能性を感じます」という言葉でシンポジウムは幕を閉じた。