ヒット商品には時代を切り開いていく力がある。もちろん一時的な流行、ブームがあるが、意図的につくられた顕在化ではなければ、そこには時代が求める決定要因が潜んでいる。

2016年に米国でブレイクして、世界へ広がっているコンシューマー向けクラウド型人工知能(AI)ある音声アシスタント(AI Voice-Assistant)は、いま、国内でも影響力のあるテクノロジーとなりつつある。

このテクノロジーはAIの在り方だけでなく、自動運転車(自律走行車)、ロボティック、スマートフォン、スマートアプライアンス、ビックデータの収集方法をはじめ、仕事や生活のスタイルまで変えてしまう潜在性を秘めている。

AIの導入は、医療・製薬、航空、金融・銀行、メディア、製造、防犯・防災などから始まっているが、早くも、クラウドAI音声アシスタントにより早くもコンシューマー市場に降りてきている。スピーカーだけでなく、ウェラブル、ヘルスケア。スマートフォン、自動運転車、ロボット、ドローン、スニーカー、お掃除ロボット(ロボット掃除機)などと、月を追うごとに増えていくだろう。

音声が持つ根源性

音声アシスタントには見逃せない特質・特徴がある。それがこのテクノロジーの破壊力であり革新力でもある。

まず、タッチインタフェースではなく、音声インタフェースであること。これは音声メディアの延長線上にもある。音声・声は、身振り、叫び、身体の接触とともにコミュニケーションの基本である。

「初めに言葉ありき」--新約聖書「ヨハネ伝」の冒頭の”言葉”は、その前文から推測して、文字ではなく、音声だったはずである。この発声が言葉の基本なのだ。文字の読み書きが一般化し、識字率が上がったのは、これも長い歴史からすれば、ごく最近のことであるし、手書き文字が生まれてからも、相当に長い間は声だけの読み聞かせや音読が基本だった。

このように音声による対話・会話は世代を越えて、ほとんどの人ができることであり、そのために音声メディアに含められるラジオ、電話、ケータイ(スマートフォン)、テレビはほぼ百パーセントの人に普及する親和性を持っている。

もちろん、テレビは映像メディアでもある。映像は視覚と感情に直接訴えかける力を持ち、フィクション、ノンフィクションに限らず、訴求力のある空間・情景・人物を示し、それを受動的に仮想的に消費させることで習慣性のようなものを植え付けてしまうことも付け加えておく。

テクノロジーとの融和

さて、音声アシスタントの特徴は、それは音声メディアであるため、声紋・音響パターンから話者照合・認証が可能であり、個人の特定ができることである。バイオメトリクス認証とも呼ばれる個人認証ができ、個々の人に合わせた対話・応対をすることもできる。現在、この機能がないテクノロジーであっても、装備されるのは時間の問題である。これにより、AI音声アシスタントが不審者をつきとめ、犯人逮捕につながるケースが増えていくことも予想される。

とりわけ重要なことは、音声アシスタントは単なる音声認識ではなくAIだということである。人の代わりに自律的に作業をするマシンをロボットというが、これは機械装置として捉えた捉え方だが、人の頭脳の代わりにさまざまな制御・命令をするテクノロジーでもある。つまり、音声アシスタントを搭載、付加することにより、ありとあらゆるものがロボット化する可能性がある。

人型ロボットはサービスロボットやコミュニケーションロボットの主流になっているが、この概念が根底から崩れることになる。アーム型ロボットも対話ができるし、介護用品もユーザーの声だけで最適な動きと与えられた命令をこなせるようになる。音声認識と画像認識を組み合わせれば、騒々しいところでも、ユーザーの唇の動きを読みとって何を言っているのか、言いたいのかを識別・判断するようにもできる。

これにより、ありとあらゆるものがデータ収集デバイスとなり、人間が身につけて歩いたり、走ったりすれば、自動運転車が道路状況と環境状態をリアルタイムで書き換えていくように、移動した道や周囲の状態をリアルタイムにクラウドへ送ることもできるようになる。いまやスマートフォンがニュースギャザリング端末になっているように、IoTや音声アシスタントに対応するものはデータ収集端末になっていく。

音声アシスタントは、高度に統合されたマルチレイヤー技術である。つまり、音声、音声認識、意味検索、コンテンツ、アプリケーションといったものが集約されており、単なる音声認識、音声入力のツールだけではないということである。

音声アシスタントによる検索やクエリー(質問)は、従来のテキスト文字列の検索(文書検索、文字列探索)や画像データ検索(画像検索)とは異なり、セマンティック検索といわれるものになる。これは、音声入力したキーワードや言葉からユーザーが求めている回答やその意図・目的を適切に理解し、その結果を送ることができる。これまでより一歩進んだ検索となり、AIによる学習機能があるため、この検索機能は日に日に精度を増すことになる。

人間の脳とAIの進化

AIは、1940年代、2000年代にもブームになり、現在は第三次ブームだと言われるが、AIが現実味を帯びた背景には、半導体を中心とするコンピューターテクノロジーの進歩がある。

ヒトの脳は1000億個のニューロン(神経細胞)から構成され、各ニューロンは1000個のシナプスで接続されていると言われている。これは、半導体に変換すると1つのニューロンとシナプスのモデルは約1000個の半導体に相当する。

たとえば、インテルのサーバー向けCPUのXeonは2012年時点で半導体数はすでに22億7000万個あり、2014年には56億9000万個になった。これは、約200万個から約100万個のニューロンに相当し、ヒトの脳を再現するとなると、3万個から5万個のXeonがあればいいことになる。この数は半導体の稠密度とともに級数的少なくなる。

このことから、レイ・カーツワイル(Ray Kurzweil)氏が『The Singularity Is Near:When Humans Transcend Biology』で予測したシンギュラリティー(技術的特異点:Technological Singularity)も現実を帯びる。つまり、100兆の極端に遅い結合(シナプス)しかない人間の脳の限界を、人間と機械が統合された文明によって超越することなり、2045年は汎用人工知能(AGI)が人類史上初めて出現する年というものだ。

これをどう受け止めるかは、すでにさまざまな思考・検討がされているので、そちらに譲るとして、AIが浮上した理由の一つがこうした機械的頭脳の人間への接近である。

ただ、AIと人間には根本的、決定的な差異があるため、人間の総合価値がAIより劣ってしまうことはないはず。それは、人間は生きている生命であるということ。この生命感によって、フルサービスのコミュニケーションができるからだ。

人間と人間が対話し、コミュニケーションを図ることは、命のメッセージをつなぐことであり、生命感の交換・交流でもある。この生きている感、文字どおりライブ感によって人間は優位性を保持できる。もちろん、人工生命体もできるだろうが、それまでにははるかに猶予がある。バイオテクノロジーとドローン技術をもってしても、いまだに蚊一匹の再現さえおぼつかないのだから……。

とはいっても、AI音声アシスタントのテクノロジーが人間の生活スタイルをさらに大きく変えてしまう可能性は、当面、縮まることはないだろう。