音声認識、手作りのススメ
音声認識リモコンの作り方
第1回 音声認識とは何か?
はじめに
夢の科学技術はいくつかあります。音声認識もそのひとつです。人間と話すように機械やコンピュータとそしてロボットと会話する場面はSFの世界ではおなじみの光景です。しかしもしあなたの同僚や家族が職場や家庭で周囲を気にせずパソコンに話しかけたとしたらどうでしょう。多分あなたは当惑しその後の対応に少なからず苦慮することでしょう。かつて未来小説に描かれ、夢にあふれているはずの21世紀になってもう10年以上過ぎたのに、現実はなかなか小説に追いつけないようです。
機械との会話の前段階として、機械が人間の言うことを聞く作業が必要です。言うことを聞くと言っても、ことばを理解するわけでも、指示に従うわけでもありません。単に聞こえた言葉を区別する、知っている言葉の中から判別する作業です。ここでは言葉の意味の理解は含まれません。英語の聞きとりテストよりも簡単(?)なしごとです。これが音声認識と呼ばれる技術です。
音声認識といえば20世紀の終わり頃にWindowsパソコン用アプリケーションが市販されました。テレビコマーシャルも放映され技術系以外の一般にも広く知られ、一種の盛り上がりを見せました。読み上げた文章が次々にモニタに現れる様子に人々は大変驚きました。
しかし何種類か発売されたこれらのソフトは結局どれだけ売れたのでしょう?どうやら注目をあつめることと販売をあげることは別の話のようです。実際使ってみると、個人の発声を認識させるためにはあらかじめ声の学習(エンロール)が必要だったり、静かな場所でアナウンサーのような整った声が必要だったりしたことも普及を妨げたのかもしれません。そもそも猛烈な速さで文書を入力するニーズがどれだけ当時一般に存在したのかも今となっては疑問です。
音声認識は一種のテクノロジーマジックだったのかもしれません。つまりみんなびっくりして拍手したけれど、これが日常生活で役に立てるところまで話を持っていけなかったというのが本当なのかもしれません。最近、スマートホンで音声認識が利用されています。検索などのほか会話(らしきもの)にも応用されているようです。しかし内容はあくまでもご愛嬌でここでも実用性より話題性が先行しているようです。
このように音声認識は話題には事欠かないのですが、ビジネスの話に結びつけるにはいくつかの難しいハードルがあるようです。
福祉機器への応用
一般消費者とは異なり、福祉分野では音声認識に対して大きな期待が持たれています。例えば交通事故などで首や背骨を痛めると手足が麻痺することがあります。特に麻痺が重い場合には、テレビのリモコンボタンを押すことにも苦労するようになり、周囲の助けが必要になることがあります。しかしこのような重度の方でも、声は健康な人とほとんど変わらないことがよくあります。この声を利用できると不自由をいくらかでも軽くできると考えられます。
かつて音声認識ソフトが発売された時も、パソコンを声で操作できる、手を使わずに文字を入力できると、キーボードやマウス操作に支障のある人に朗報と考えられました。しかし当時も今も音声認識には誤認識がつきもので、音声認識とキーボードの両方を使っている一般ユーザには許容できる誤認識が、音声認識中心で取り組むユーザにはつらいこともありました。それでも文章をつくることに価値を持ち、割りきって使い続ける人がいる一方で、パソコン操作に価値を見いだせず、あきらめたり取りやめたりする人も少なくありませんでした。パソコンには大きな可能性があるのはまちがいないのですが、その程度にはずいぶん個人差があるようです。
また音声認識はパソコン操作以外にもさまざまな用途への応用が期待されていました。その代表例が家電製品の音声操作でした。
からだに不自由のある人が身の回りの家電製品を自分で操作できるようにする道具は、環境制御装置として1990年の段階で既に何社か製品を市販していました。当初は工夫された小型スイッチや呼気スイッチなどを利用して操作しました。しかし徐々に家電製品が増え、操作方法も複雑化し、操作に時間もかかり、また手順を覚えるのに苦労するようになりました。
この時期に音声認識方式の環境制御装置もいくつか現れました。
株式会社日本シューターのシーケアパイロットは1998年に発売された小型の音声認識リモコンです。(外部スイッチによる操作が可能な、学習リモコン、シーケアパイロット2とは別物です。)機能を割り切り小型軽量にまとめた製品は強い支持者も獲得しましたが、2007年に販売停止になりました。旭化成テクノシステム株式会社のライフタクトは2002年に発売された音声認識環境制御装置です。これも高い評価を受けましたが、ベースとなる小型パソコンの生産中止のため、2007年に出荷停止、2012年にサポートを停止しました。
2013年現在で販売されている機種として、株式会社ボイスキャン社が同名のボイスキャンという音声認識型環境制御装置があります。
環境制御装置では音声認識につきものの誤認識は致命的な欠点となりにくい事情があります。1,2度認識を間違えても、3度目に正しく動作すれば、一応目的を達成でき、ユーザは満足を得ることができます。このように、音声認識の泣き所である誤認識も用途によっては決定的な欠点になりにくいこともあります。しかし、音声認識方式も含め環境制御装置の普及は思うように進みません。その理由としていくつか考えられます。まず介護負担の軽減や患者本人の自立促進の意義も環境制御装置自体の働きも認められるものの、そのための費用が高価で補助制度も少ないこと。また使いこなせるか役に立つのか判断のための試用機会が多くないことがあげられます。さらにコミュニケーションエイドに比べてマスコミ等で紹介される機会も少なく、福祉関係者でも動いている実物を見たことがある人はそれほど多くないくらいです。以上のように福祉機器でよく見られる普及困難の悪循環に入っていると思われます。
福祉機器開発のツールとして音声認識の問題点と解決の方向性
音声認識は、声で機械を動かすために有望な技術と考えられます。特に身体に不自由をもつ人にとって、身体での操作の他に声を利用できることの意味はかなり大きいと思われます。
しかし不自由のある人では、ひとりひとりの目的と用途が一般人の場合と比べて一層多様になる傾向があります。これは身体状況や生活スタイルなど個人的な事情が多様であることが一番の原因です。また病気により発声にも呼吸にもいろいろ事情を抱えることが少なくありません。この結果、実に多様な音声が発せられることになります。これらの多様さがこの問題でのキーポイントになると考えます。
例えば、多くの人がテレビの操作を希望されます。ついでエアコンも希望が多い対象です。電動ベッドの操作も希望される方が多いですが、安全面で配慮が必要です。これ以降は多種多様です。呼び出しチャイム、照明やカーテン、趣味の家電製品、電話、玄関のオートロック、実にさまざまです。必要な人には欠かせないものですが、それ以外の人はまるで関心がありません。このようにニーズの個人差が大きい品々が随分あります。また、長い言葉を一気に発声できない人や、特定の音を発声できない人もいます。人が道具を使う場合に、人が道具に合わせる調整しろは随分少なくなり、その分道具の側の調整しろはたくさん必要になります。
音声認識を福祉機器に使う場合も、この点を外すことはできません。決められた言葉をきちんと発声できれば問題ないのですが、出来なかったり、難しかったり、やがて出来なくなったりする人もいるのです。発声できる言葉とやりたい機能を自由に関係つける機能がここでは必要です。また、利用頻度の高い一連の操作を一言で実行する機能も、体力にゆとりの少ない場合には必要になります。しかしかつて話題になった市販音声認識ソフトには、このような機能も調整や改造の余地もありませんでした。多くの消費者を対象とした商品にこのようなかなり広範囲の個別対応を期待するのは所詮無理のあることなのかもしれません。
隠れたニーズにフィットしたヒット商品を開発し、これを大量生産、大量販売して収益をあげるというビジネスモデルはこれまで多くの成功を納めてきました。しかし福祉機器開発ではあまりうまくいかないようです。まず人生の危機に直面して動揺している人や、途方にくれている人や、苦労で疲れ切っている人たちを対象に、市場調査を実施するのは決して簡単な仕事ではありません。さらにそれぞれのニーズの軽重を判断し商品コンセプトにまとめ上げる作業は大変難しいことと思われます。
企業の方からなかなかニーズがつかめないというお話をよく聞きます。当事者の方でも自分に何が必要なのか、うまく説明できないひとが多いように私は思います。福祉機器の開発にはこのような難しさがあります。
しかしここにひとつヒントがあります。福祉用具にはかなり昔から自助具と呼ばれる分野があります。身の回りの日用品に手を加えて患者さんが使いやすく不自由をへらす比較的シンプルな道具です。以下のように作られます。
誰かが役に立つ自助具を作って不自由な人に使ってもらう。
必要とする人がいれば、誰かが真似をしてもうひとつ作る。
さらに必要ならば誰かが改良も加える。
はじめに作った人は真似をされても改良されても文句はいわない。これまでいくつもの自助具が考案され、そのうち多くが今も作り続けられています。以前は爪切りや孫の手などに工夫を加えていました。
この方法は大量生産にもビジネスにもつながりにくいですが、作る人がいれば使う人に合った道具が必要とする人に届きます。
今、身近にある役に立ちそうな道具というと何と言ってもやはりパソコンになります。むかしハイテクと呼ばれていたパソコンもいまでは特に珍しくもない小学生も使っている平凡なものになっています。ここが昔と一番違うところです。
そして始まります
WindowsVistaから音声認識機能が標準で備わりました。マイクロソフト社には、技術資料を公開し関連ソフト開発を側面から支援する慣習があります。音声認識機能搭載と前後して、SpeechSDKなど、ソフト開発キットのほか関連する技術資料が公開され、だれもが無償で入手可能になりました。この結果一般のユーザがマイクロソフトの音声認識機能を利用したソフトの開発に取り組めるようになり、これ以降、各地で続々と音声認識の取り組みが行われ、各種のノウハウや関係する技術が開発されインターネットで公開されるようになりました。
そして今ではそれこそ日曜大工や家庭料理のように、声の学習が必要ない不特定話者音声認識を利用したソフトウエア作りができるようになりました。いよいよ音声認識手作り自助具が実現します。
始まりのおわりに
40年ぶりに、アシモフの鋼鉄都市を読みました。すっかり日に焼けたその本のストーリーは忘れていましたが、表紙のデザインはむかし小学校の図書室で手にしたものと同じでした。このSF小説にはロボットと人間が会話する場面がたくさんありますが、どれもこれも今はまだ実現していません。21世紀を夢見た少年も年をとってしまいましたが、未来は近づいてくるどころか予想外に道のりは遠いことがわかってきました。
降る雪や、未来は遠くなりにけり。
2013/10/31 公開研究企画課リハ工学科にもどる