今年ラスベガスで開催されたCESで注目を集めていたのはAmazonのAlexaという音声認識のボイスアシスタント機能で、実に700ものデバイスが対応を発表していた。Alexaは元々Amazon Echoというハードウェアの機能からスタートした。
Echoは元々台所においてすぐにバーコードセンサーや音声入力で商品が注文できるようなデバイスからスタートしたが、今ではサードパーティでも利用できるようになり、音楽を再生したり、家の照明をつけたり、車の中でカーオーディオを操作したりなどあらゆるIoTデバイスと接続されて利用できるようになりつつある。
すでに米国では昨年のクリスマス商戦の人気商品にもなっており1000万台が累計で出荷されている。残念ながらまだ日本語に対応していないが音声入力という新しい可能性が広がりつつある。
しかし、懸念が残るのは日本語対応したとしても日本で普及するかどうかというところである。
日本語という言語の特性に人工知能含めてどのくらいの会話レベルまで行けるかということもあるが、そもそも日本人の行動意識として音声入力をあまり使わないという所は懸念として残る。欧米ではボイスメールやボイスメモなど音声入力という行為が割と普通であるが、日本ではオフィスのボイスメールも普及せず、留守番電話も廃れてしまった。スマホの音声入力もあまり使われていない。実は現在でも入力精度はかなり高く、入力だけであれば実用上はほとんど問題無いレベルまで来ている。
しかしそれでもあまり使われていない状況はやはり日本人の意識的な問題は大きいかも知れない。ただ現在の小学生などの子供達はキーボード入力がまだ不得意なところから、積極的にスマホでの音声入力を使いこなしており、こうした世代は音声入力に抵抗がない世代として普通に使うようになるかも知れない。
買い物難民としてキーボードリテラシーに不安のある高齢者も活用の可能性があるが、入力だけではダメで高齢者の場合は音声使うなら自然な会話レベルまで日本語で到達できるかというところ次第だろうか。
音声入力のさらなる可能性は感情判断と日常行動分析である。テキストでは人間の微妙な感情は表現しにくいが、音声の場合は言葉の速度や抑揚などによる感情の変化を読み取ることが可能になる。怒っているのか、急いでいるのかなど感情を読み取ることでの様々な提案や分析ができることはコミュニケーション上でもとても大きい情報である。
Amazonは日常会話を全て分析することもできる。家族の会話をずっと聴きながら分析することも可能であるし、実際やっているのではという声もある(ここは現時点であきらかでは無い)。そこから得られる情報は日常の全てだ。いつ食事をし、何を食べているか、その結果に満足しているのかなどの情報も会話などから知ることができる。
ある意味Amazonは家族のことを何でも知っているという世界の可能性も出てきているのだ。怖い部分もあるがその結果生活が快適になることでそれを受け入れていく人も増えていくのかも知れない。
このように音声入力はこれまでとは異なる様々な可能性を秘めていることだけは間違いないと言えるだろう。