語音應用引爆在即
語音應用引爆在即
2011/11/23
多年來,語音識別技術始終磕磕巴巴、欲語還休。現在,Siri橫空出世,將這項技術推向了主流,同時還帶來了非常廣泛的應用前景。
語音識別並不是什麼新鮮事物。多年來,消產品、汽車和自動呼叫中心一直就在“傾聽”使用者的指令。從2009年開始,谷歌公司le)就一直在採錄語音信箱的信息。而在此之前三年,微軟公司(Mis也將類似的技術置入了WisVista。那麼,蘋果這個名為Siri的全新虛擬個人助理到底有什麼神奇之處呢?
它能讀懂你的心。
換句話說,Siri不僅僅是語音識別技術,它還能理解語言——正是這一點開始改變用戶與手機的互動方式。現在,很多人預測,Siri將對這項長期以來呼之欲出的技術起到重大推動作用,正如蘋果iPhone的觸控系統讓觸控技術躋身主流一樣。這項技術將掃清眾多創新應用發展道路上的障礙。市場調研公司OpusReseh稱,今年語音識別行業的產值將達到約27億美元。該公司還預計,2012年,市場將掀起后Siri語音應用熱潮。
是什麼讓Siri如此與眾不同呢?戰略諮詢公司CreativeSegies總裁提姆?巴佳瑞稱,答案在於精確性。他說:“Siri推出的是真正的新一代人機界面,它對語音理解及精確把握語音的市場產生了重大影響。”
Siri當然談不上完美無缺。這項技術在理解某些口音上還頗為困難,不過蘋果已經在努力解決這些問題了。但對一款軟件來說,Siri的表現可圈可點。Siri的始創者是位於加州的門羅帕克市的研究實驗室SRIInteil,據它稱,Siri的關鍵在於自然語言處理技術。Siri的工作原理是:捕捉語音信號,直接將其轉換為文本,它們與用戶在手機屏幕上看到的文本並無二致。Siri然後將這些語句與某些預先編製好的指令配比,比如“撥打電話”,或“編輯短訊”。
這一技術潛力巨大,絕不是只適用於平板電腦和智能手機。語音識別系統Nue公司是語音識別軟件的開發者,這款軟件在醫療保健行業的應用已經長達十年之久。內科醫生的桌面上正運行着Nue的最新軟件,它利用一個夾式微型話筒來錄音。隨着問診的推進,這款軟件會及時更新病人的電子健康記錄。Nue公司醫療保健部門的資深研發副總裁喬?佩特羅稱:“病人可能在這一秒說的是母親的病史,下一秒又提起父親的病歷。而這些情況這款軟件都能理解。”
它是如何做到的呢?它的工作原理和Siri非常相似:通過從它所識別的語彙中獲取意義,然後參照一個醫療信息數據庫,將其與病人的病史做比對。隨後,它會運用統計推斷的方法,在其所發現的信息片段之間建立聯繫,甚至為對症治療給出建議。全美大約有45萬名內科醫生正在使用Nue公司的軟件。佩特羅稱,這一技術的準確率超過90%,而且還會隨着時間推移而不斷提高。顯然,這款軟件盈利前景良好,因此Nue公司決定,將其第四財季的收入預期調高約1,000萬美元。
然而,研究人員對這一技術的未來抱有更大的希望。思凱普?里佐是南加州大學創新技術學院(theUniversityofSoutheliia'sInstituteeativeTechnologies)的助理總監。他正在開發一種互動仿真技術,用以幫助退伍軍人針對創傷后緊張症st-uicstressdiser)尋求醫療諮詢服務。這款軟件名為Sih,它的最終目的是要設法理解人們口語背後的情緒狀態。里佐稱:“這是個十分巨大的挑戰。因為必須採集語音模式,然後得像人類的大腦那樣對它們進行分析。”里佐稱,人類或許能察覺自己的好友或家人情緒異常,因為這時人們的語速往往會變慢,重音也更少,但電腦要捕捉這些信號可就相當困難了。
不過這個領域的有些研究卻能更快獲得成果,而不用再苦苦等待。去年春天,里佐的研究夥伴——麻省理工學院(MIT)教授阿歷克斯?彭特蘭在美國銀行(Bankeri的呼叫中心開展了一項類似的語音推斷技術試驗,旨在分析員工的溝通對業務成功的影響。彭特蘭讓員工連續六周在脖子上戴着型電子設備,它們能記錄員工的實際位置以及身體語言和聲音。所記錄的數據能顯示這些員工是在和誰溝通,他們站着時與溝通對象距離有多遠,談話的語調如何。彭特蘭稱:“我們發現,效率最高的員工不光與大量對象交談,他們還與同樣表現出這種特點的同事交談。”結果,他說,只需要調整一下員工的茶歇時間,使這類員工之間的步調更為同步,這個呼叫中心每年就能節省1,500萬美元。
用戶現在對Siri的廣泛關注很可能將大大促進這類研究,並進一步推進其應用。里佐說:“語音識別技術確實是技術領域至高無上的聖杯(holyil)。我們已經掌握了這項技術的90%,但剩下的10%要求攻克更多難關。一旦到了引爆點,我們將迎來一片十分廣闊的市場。”看起來,這個引爆點很可能非Siri莫屬。
。