一篇文章搞懂語音交互的來龍去脈
過去60年人工智能經(jīng)歷了兩次潮起潮落-新AI時代的頭十年和后十年,前十年是通過ai去解決行業(yè)問題,例如醫(yī)療教育,信貸和金融等,通過大數(shù)據(jù)和機(jī)器學(xué)習(xí)迅速提升效率與準(zhǔn)確率;新ai時代的后十年則升級到消費(fèi)產(chǎn)品和用戶生活場景(無人駕駛車,智能家居,家用機(jī)器人等領(lǐng)域),相對應(yīng)的我們的交互方式也必然會隨之更新。
在特定的場景下,例如無人駕駛,智能家居等,語音交互方式其實是最便捷的交互方式,語言是人類獨(dú)有的溝通方式,在未來的人工智能時代,必然會通過語音的交互徹底解放我們的雙手。我們現(xiàn)在正處于語音智能產(chǎn)品的爆發(fā)之際,我們需要一個專業(yè)而系統(tǒng)的歸納,來幫助我們在語音交互和智能硬件的道路上共同探索和學(xué)習(xí)。今天我們就來討論關(guān)于語音界面設(shè)計方面的一些知識,本文章觀點(diǎn)大部分來自入《語音用戶界面設(shè)計—對話式體驗設(shè)計原則》這本書,希望能夠?qū)Υ蠹矣袔椭?/p>
第一:語音界面簡史
20世紀(jì)90年代出現(xiàn)了交互模式的語音應(yīng)答,簡稱為ivr,它可以通過電話線路理解人們的話并且執(zhí)行認(rèn)為,一般都廣泛的應(yīng)用在運(yùn)營的客服方面,即使是現(xiàn)在三大運(yùn)營上的機(jī)器客服還是采用了這種語音應(yīng)答的方式。但是通過電話撥號的方式開始語音的問答還存在很多的缺點(diǎn),例如只能應(yīng)用在單輪任務(wù)的問答,交互方式比較單一,不能進(jìn)行中途打斷等缺點(diǎn)。
第二個階段就是后期各大公司都出現(xiàn)了自己的語音助手,例如微軟的cortana,谷歌的Google OK和蘋果的Siri。這些語音助手集成了視覺和語音信息的app,可以同時使用語音和屏幕交互,是一種多模態(tài)的交互設(shè)計。發(fā)展到這個階段就有了多輪對話的可能性,但是如何對用戶的語音進(jìn)行理解就成為了語音交互的技術(shù)瓶頸了。
最近兩年,各大公司都出了自己的智能家居音箱,例如amzon echo和Google home這類的純語音設(shè)備。在未來的生活和工作場景中語音交互是一個新的入口,它提供了更靈活的交互方式,在未來的某一天人們必然會放棄屏幕和手勢的操作,可以通過語音進(jìn)行遠(yuǎn)距離的設(shè)備控制,這是各大公司搶占語音市場的原因。
第二:在語音界面的設(shè)計中,vui應(yīng)該注意什么?
首先我們先了解下什么是vui,其實它就是voice user interface的簡稱,在我個人看來,vui設(shè)計和普通的互聯(lián)網(wǎng)的設(shè)計沒有太多的不一樣,如果非要說區(qū)別的話,我個人認(rèn)為vui設(shè)計所接觸和涉及的范圍更廣。主要有下面幾個工作內(nèi)容:第一:進(jìn)行用戶研究,了解用戶是誰,需要思考用戶是誰以及在系統(tǒng)和終端之間從開始到結(jié)束的整個對話過程;第二,負(fù)責(zé)產(chǎn)品的原型設(shè)計和產(chǎn)品描述,描述系統(tǒng)與用戶之間的交互行為。第三,描述系統(tǒng)與用戶之間的交互行為并考慮需要處理的請求,通過分析數(shù)據(jù)來了解系統(tǒng)在什么地方發(fā)生了問題,最后進(jìn)行系統(tǒng)問題的排查和改進(jìn)。
另外,Vui設(shè)計師在設(shè)計一個產(chǎn)品的時候,需要考慮你的產(chǎn)品是什么類型的,他的主要功能是什么,是多模態(tài)產(chǎn)品還是純語音的硬件設(shè)備。在設(shè)計過程中可以通過示例對話的方式讓vui設(shè)計師真正的了解產(chǎn)品,知道用戶在和產(chǎn)品對話時會發(fā)生什么樣的情況。
第三:語音界面設(shè)計的常用規(guī)則有哪些?
1、命令-控制模式/對話模式
另外,在設(shè)計語音產(chǎn)品之前我們需要了解一些語音識別技術(shù),從而讓你的vui系統(tǒng)得以創(chuàng)建,在系統(tǒng)對人的語音理解方面分為兩大類:asr:自動語言理解和nlu自然語言理解,目前的發(fā)展階段已經(jīng)到了自然語言理解的階段。機(jī)器通過處理和理解文本,采用云處理的方式對用戶語音進(jìn)行識別和理解從而判斷指令給出正確的反饋。
一般的vui系統(tǒng)在對話模式上可以分為:命令-控制模式/對話模式,語音指令模式下用戶在說話前必須要給系統(tǒng)明確的指示。目前大多數(shù)的vui系統(tǒng)都是采用這種模式。例如:Siri要求用戶在說話前必須先按下主屏幕或者在Siri頁面按下麥克風(fēng)圖標(biāo)。
對話模式情況下當(dāng)出現(xiàn)較長的對話時,沒有必然讓用戶在說話前總是告訴系統(tǒng)用戶要開始說話了,當(dāng)然這是建立在用戶大致知道對話模式已經(jīng)改變的情況下才會這么做,一般來說一個語音系統(tǒng)都會有命令控制模式和對話模式的切換。
在視覺的表現(xiàn)上兩者都需要有明確的物理圖標(biāo)和明確的喚醒詞語,在對話模式中輪流對話更為自然,在視覺上需要有明確的開始和結(jié)束的封閉式對話標(biāo)示。
2、確認(rèn)策略
所有優(yōu)秀的vui設(shè)計,都必須確保用戶感覺到自己是被理解的,所以我們需要在設(shè)計原則中添加一個確認(rèn)策略。確認(rèn)策略的設(shè)計是因為在很多環(huán)境下機(jī)器并不能完全的識別用戶所說的問題,同時在生活場景下,例如購物支付等場景,需要用戶的再次確認(rèn),這個時候vui的確認(rèn)策略就派上用場了。
在設(shè)計確認(rèn)策略的過程中我們需要了解幾個問題:交互問答的錯誤后果是什么?系統(tǒng)需要什么樣的方式怎么反饋?屏幕需要顯示出什么?用戶需要用什么樣的手段進(jìn)行確認(rèn)等。
在確認(rèn)的形式上可以分為兩大類:顯性確認(rèn)和隱性確認(rèn),顯性確認(rèn)即強(qiáng)制用戶確認(rèn)信息,例如:判斷是否確認(rèn)支付,這一類型的產(chǎn)生的后果還是挺嚴(yán)重的,需要強(qiáng)制用戶確認(rèn)信息,此時用戶只需要回答是或者否即可。
隱形確認(rèn)通常采用的方法有下面幾種:三級置信度/隱性確認(rèn)/非語言式確認(rèn)/通用確認(rèn)/視覺確認(rèn)。
這種方法系統(tǒng)通過對不同閾值的判斷,給出不同的信息確認(rèn),一般情況下分為三種閾值情況,因此也就是三級置信度的設(shè)計。對于移動設(shè)備,視覺確認(rèn)是一種常用的方法,一般情況下系統(tǒng)會同時提供音頻和視覺確認(rèn)。在多模態(tài)的設(shè)計中,屏幕上可以出現(xiàn)可視化的列表。比如我們的語音助手,用戶說打開或者關(guān)閉語音助手,那么相應(yīng)的麥克風(fēng)圖標(biāo)會有消失和出現(xiàn)的動效。答案連同原始的問題一起回復(fù)Siri通過視覺上的可視化列表和語言上的隱性確認(rèn)來回復(fù)我的問題。
非語言的確認(rèn)方式也就是行動反饋,不需要口頭進(jìn)行確認(rèn),例如假如正在創(chuàng)建一個語音控制燈光的系統(tǒng),當(dāng)你說打開燈光的時候,燈自然就會打開,此時已經(jīng)給了你一個反饋,不需要進(jìn)行語音進(jìn)行提示了。在純語音設(shè)備或者系統(tǒng)下,可以提供一個行為反饋,例如光效等。
Vui系統(tǒng)在說話的時候,確認(rèn)用戶是否可以打斷,現(xiàn)在一般的語音智能聽到喚醒詞才會停止說話,喚醒詞應(yīng)在本地處理,設(shè)備一直處于接收喚醒詞的狀態(tài)。多模態(tài)形式下,一般是不可以打斷的,可以用可視化列表,如Siri不可以打斷對話。
3、異常情況處理
異常情況處理在語音識別和指令的場景下異常情況極為普遍,例如:未檢測到語音,語音終止超時和無語音超時;檢測到語音但是沒有識別出來;正確識別但是系統(tǒng)無法處理;部分語音識別錯誤等異常情況,不同的異常情況也對應(yīng)不同的異常情況的處理方式,具體的方法看下圖:
在這種情況下系統(tǒng)留給用戶說話和思考的時間,某些場景下可以調(diào)整時間和靈活度。例如開始啟動siri時,是用戶主動的一個行為,用戶不需要進(jìn)行思考;然后當(dāng)系統(tǒng)問用戶某一問題時,需要用戶思考,那么這個時候需要的時間就不一樣了。
當(dāng)用戶喚醒了vui系統(tǒng),無語音超時發(fā)生的情況有幾種:用戶沒有說話或者是用戶說話聲音小。這個 時候需要提供一個視覺上的一個退出按鈕。這種幫助類似于我們在填寫表單時,視覺的框里會告訴我們應(yīng)該用什么格式填寫。
這個可能與語音識別技術(shù)相關(guān)聯(lián)在一起了。比如說我們的語音助手,用戶說打開word,系統(tǒng)列出:打開word/打開我的/打開臥底等等。
第四:語音的發(fā)展趨勢
例如上下文語意的理解,當(dāng)然我們對siri說我想吃漢堡 它列出了幾個附近的餐館 ,當(dāng)用戶說好膩,不吃了,這個時候就需要系統(tǒng)理解上下文的語境從而給出正確的判斷。
在消除歧義方面,當(dāng)系統(tǒng)問用戶,你的主要癥狀是什么?而用戶說的是發(fā)燒和感冒,系統(tǒng)就要理解用戶說的是兩個癥狀,針對這個事情,系統(tǒng)需要進(jìn)行回復(fù)兩種不同的癥狀解決方式。
情感和情緒分析則需要機(jī)器進(jìn)入強(qiáng)人工智能了,讓機(jī)器理解人的情緒和情感從而給出對應(yīng)的有情感的回答,不在是冷冰冰的機(jī)器,這永遠(yuǎn)是一個未來的發(fā)展方向。
對于高級自然語言的理解目前還處于初級階段,目前,Siri和cortana出發(fā)處理問題的時候,會提供一個網(wǎng)頁搜索,并不會直接回答你的問題,但高級自然語言理解可以聽懂你說的話,直接回答。