智能音箱里那些神秘的聲學技術

時間：

2016-01-15

作者：

分類：

企業(yè)新聞

音箱行業(yè)有著悠久的歷史，但是在過去十多年里，傳統的音箱行業(yè)面臨著極大的市場困境，例如藍牙音箱剛出現各個廠商便直接殺成了一片紅海。而2015年隨著智能音箱的涌現，特別是亞馬遜的Echo、京東的叮咚、阿里的小飛，不僅對外展現出了智能音箱行業(yè)百花齊放的局面，也使沉悶的音箱市場看到了突破性發(fā)展的希望。但是，隨著這些巨頭們的集體涌入，這也讓在智能音箱行業(yè)摸爬滾打的創(chuàng)業(yè)者倍感艱難。

音箱特別是中高端音箱，本來就是強調品牌且技術門檻較高的領域。而智能音箱將聲學設計、無線技術、語音識別、遠場拾音、語義分析等眾多技術融合在一起，不僅技術更為復雜，而且更加依賴音樂內容平臺的支持，這些諸多因素都是創(chuàng)業(yè)者需要直面解決的難題。當然，技術還是其中的根本，本文希望從市面上現有的流行產品分析其中的幾項關鍵技術，以及一些不可規(guī)避的用戶體驗問題，也給正在創(chuàng)業(yè)或者準備進入這個領域的創(chuàng)業(yè)者一些參考。

（1）小型便攜與低音增強技術

音箱行業(yè)早在數年前就開始流行小型便攜化，最具代表性的就是藍牙音箱的持續(xù)熱銷。隨后的WiFi音箱并沒有復制藍牙音箱的奇跡，主要還是受制于內容平臺和技術的缺陷，并沒有帶來比藍牙音箱更好的用戶體驗。智能音箱實際上還是在WiFi音箱的基礎上發(fā)展的，除了繼承其小型便攜和無線連接的特點，其本質畢竟還是音箱，其音質設計還應該是第一位的。但是現在看來，市面上的智能音箱基本都忽略了這個問題，在筆者看來，目前還沒有音質上乘的智能音箱出現。反而銷量并不理想的WiFi音箱更加專注于音質設計，這其中不乏有傳統的消費級音箱巨頭Bose、JBL和Sony等品牌，也逐漸形成了兩大風格派系。以Bose為代表的歐美系更加注重低音的增強體驗，而以Sony為代表的日系則尤為看重中高頻的細節(jié)呈現。我們知道小型箱體設計中很難同時兼具中高頻和低頻的雙重音質保證，而對于大部分消費用戶來說，感受最為明顯的則是低音的提升，這也是小型箱體設計中的技術難點。

小型箱體的低音增強主要有兩類方法：其一是箱體的結構設計，例如結構上可采用密封式、倒相式、迷宮式、聲波管式和多腔諧振式等等，這些結構需要專業(yè)計算確定，適當的設計可以有效提升音箱的音質和低音效果。

另外，音箱結構設計中還包括了被動振膜技術。通常來說小型箱體比如智能音箱一般常用3寸以下的喇叭，這種喇叭本身低頻下潛就不是太好，至少也要在100Hz以上。但是小型音箱受制于體積也無法采用更大的喇叭，而被動振膜的出現就是為了更好的彌補這個缺陷。實際上，被動振膜的結構與喇叭有幾分相似之處，都有推動空氣的振膜和讓振膜恢復正常位置所需要的折環(huán)。但不同的是，被動振膜沒有喇叭那類驅動機構，也就是說，它自身并不能發(fā)出聲音。那么，被動振膜是如何工作的？由于被動振膜和喇叭單元是安裝在密封的箱體內，這樣，當喇叭工作發(fā)出聲音時，喇叭振膜的運動，會導致箱體內的空氣被壓縮和擴展，在氣壓變化的作用下，被動振膜也伴隨產生振動，推動箱體外的空氣，這樣就可以發(fā)出聲音來。被動振膜可以根據需求設計在音箱的不同位置，其振動面積往往可以做得比較大。這樣，推動空氣的體積也隨之增加，這就大大提升了低音的量感，獲得更好的低音下潛深度。

其二是算法方面的低音增強，比如常用的虛擬低音增強技術。虛擬低音增強的原理是采用了人耳的生理學特點來虛擬低音效果，人耳能夠把低音基頻中高頻段諧波的差頻聲音聽成原來低音基頻的音調，這就給我們實現虛擬低音提供了理論基礎。通過低音信號基頻的諧波序列在人耳中再現普通揚聲器無法達到的低頻音調，從而在聽感上就會讓人覺得低音分量更足了，有效彌補了小口徑揚聲器重放低頻不足的問題。這種虛擬低音增強方法也是耳機中常用的低音增強方法，特點是只需要嵌入特定算法，在播放前對音頻處理即可

（2）無線技術及聲音對碼技術

前面提到，智能音箱是由WiFi音箱發(fā)展而來，因此無線技術特別是WiFi的連接尤為重要，但是我們也知道，WiFi連接的過程比較復雜，連接成功后也會經常出現掉線、堵塞、延遲較大、切換太慢等問題，而這些都是導致WiFi音箱體驗較差的重要因素。另外智能音箱一般還是黑盒子產品，通常不安裝觸摸操作屏，而WiFi初始連接則要求用戶選擇網絡、輸入用戶和密碼等操作，這顯然不是智能音箱的特長?？墒侨魺o法聯網，那么智能音箱的語音識別也無法發(fā)揮作用，這反而成了一個場景悖論。那么有什么技術可以解決上述的這些問題呢？

首先我們看WiFi的初始連接問題，這如同當初的路由器配置一樣麻煩，何況大部分用戶根本沒有配置過路由器的經驗，因此讓用戶按照配置路由器的邏輯去配置智能音箱顯然不現實，但是目前很多產品其實就是這種模態(tài)，就連智能音箱中的翹楚——亞馬遜Echo，也是如此。配置路由器，一個熟知技術的人員尚且還要折騰一段時間，把如此復雜的產品甩給用戶簡直就是一種折磨！

聲學總是這么奇妙，對此，聰明的聲學研究人員早就找到了應對方法：聲波通訊對碼技術。這種技術是利用聲波調制技術，將WiFi連接需要的信息通過手機的喇叭發(fā)送到智能音箱上，利用智能音箱本身配置的麥克風接收聲音信號進行解調獲取信息，從而完成配置聯網，用戶僅僅需要在手機屏幕上輸入信息即可，這成功解決了智能音箱缺乏屏幕顯示和操控的問題。聲音對碼技術難度實際不是太大，但是要做的穩(wěn)定可靠也需要長時間積累，這個領域目前市場上幾乎沒有成熟的方案，據說小聲科技公司正在準備這項技術的開源工作，相信不久這項技術也將很快普及。

下面接著再說WiFi的切換及延遲問題，除了在硬件和協議上做些優(yōu)化，也可以通過聲學方法進一步優(yōu)化。我們知道大部分WiFi音頻傳遞的都是解碼后的音頻流，這很容易造成丟幀現象，其實傳輸過程中少量丟幀對語音甚至音樂播放來說影響并不大，因此這可以采用一定的算法進行適配。另外，隨著智能音箱浮點運算能力的加強，我們也可以考慮傳遞編碼的音頻文件流，當編碼的時候就將WiFi的問題考慮進去提前做出冗余，自然會大幅提高WiFi方面的性能。

（3）遠場語音喚醒和識別技術

“Alexa”，這是激活Echo音箱的默認喚醒詞，而“叮咚”這是激活京東叮咚音箱的喚醒詞。那么為什么音箱需要這種專用詞語喚醒呢？實際上這也是語音識別中的技術難題，有時候也稱為語音識別啟動特定詞。我們知道如果要想識別用戶說出的命令，麥克風必須一直在錄音狀態(tài)，并且語音識別算法也要一直在工作，這就是連續(xù)語音識別的基本前提。那么總要告知一下對方，什么時候才算開始。當然機器是非常愚笨的，一個眼神或者一個動作顯然不可能引起“她”的注意，自然就需要定義一個特別適合切換進入語音識別狀態(tài)的詞語，我們稱這種技術為語音喚醒，也就是把音箱從其他狀態(tài)切換到了語音識別工作狀態(tài)。

顯然上面提到的喚醒問題在Siri上是使用觸摸按鍵來解決的，但是智能音箱就不行了，因為我們不可能總在音箱旁邊，而一般都會距離音箱一段距離欣賞音樂。這就產生了一個更加困難的問題：遠場語音識別。遠場實際是聲學領域常用的一個概念，一般在智能音箱領域來說是指混響起主要作用的聲場。這個概念怎么解釋呢？這么說吧，我們聽到的聲音簡單分為兩種，一種是直接到達耳朵的，稱為直達聲。另外一種是墻壁反射后到達耳朵的，稱為反射聲，亂七八糟混在一起的聲場就理解為混響聲吧。顯然當距離聲源較近的時候，直達聲將起主要作用，而當距離聲源較遠以后，混響的影響就會增大。不要輕視這種混響，當混響嚴重到一定程度的時候，我們是很難聽清對方說話的。事實上，混響對于語音識別的影響是非常嚴重的，直接導致了識別率的下降。

那怎么解決這個問題呢？當然我們也有主動和被動兩種方法。主動的方法我們這里先暫且賣個官司，請您關注聲學在線的后續(xù)文章，我們會詳細介紹。下面我們來說被動的方法，就是我們常常說到的麥克風陣列技術，麥克風陣列的具體技術我們這里也不再贅述，聲學在線已經發(fā)布了很多相關文章，您可以重溫回憶一下。這里我們只說下麥克風陣列的技術難點。當然很多同學會首先想到算法的問題，多個麥克風協同工作確實是一個技術難點。另外，結構設計和器件方面也是一直制約麥克風陣列應用普及的重要因素，之所以這項技術到現在才能實用，也是因為MEMS技術很好的解決了目前麥克風器件的一致性問題。當然多聲道的采集技術也是非常重要的基礎技術。

這部分筆者覺得對于智能音箱來說極其重要，因此我們也拆解了市場上兩款流行的智能音箱做些麥克風陣列方面的比較。

第一款就是亞馬遜的Echo音箱，下圖綠色圈中的地方就是7個麥克風組成的陣列，型號是S10530090。Echo音箱并沒有采用多聲道采集處理芯片，而是用了4個立體聲ADC實現7個麥克風聲音的采集，這款ADC型號是TI的TLV320ADC3101。顯然Echo將來還會有更好的遠場語音識別性能方面的提升。亞馬遜Echo使用的是自家的語音識別引擎，因此國內使用的時候非常麻煩，需要連接到國外的服務器。

第二款便是京東的叮咚音箱，這款音箱采用了8個麥克風和4個喇叭以PK亞馬遜的Echo，但實際上意義不大，這個口徑的情況下，8個麥克風和7個麥克風并沒有本質上的區(qū)別，甚至4個也就夠用了。而且我們通過兩幅拆解圖對比就可以看到，叮咚所用的麥克風顯然沒有像Echo那樣升級到MEMS，傳統駐極體麥克風的一致性很難保證，這不利于陣列信號處理。叮咚采用的是CONEXANT科勝訊的CX20810-11Z芯片，這款芯片是4通道遠場語音捕獲的ADC，專門用于語音識別，控制和網絡會議等，因此叮咚只需要兩片ADC即可實現對8個麥克風的采集。很明顯，CONEXANT的芯片相比TI還是略遜一籌。不過，即便有如此遜色之處，叮咚音箱也屬于國內當前水平較高的智能音箱。另外，叮咚采用的是科大訊飛的語音識別引擎，因此國內使用起來特別方便。

（4）內容集成與智能學習技術

智能音箱一開始就被認為是家庭互聯網的入口之一，各個巨頭搶占這個領域也有這方面的考慮，所以與智能家居的融合一直是智能音箱的使命之一。但是聲音似乎和控制系統相差甚遠，這方面的集成并非那么簡單。智能音箱解決的僅僅是語音的識別問題，而這個功能，手機和電視同樣也可以實現，那么智能音箱還有什么優(yōu)勢呢？

筆者認為亞馬遜的戰(zhàn)略考慮應該更值得借鑒。誠然，接入更多智能家居的控制功能自然是個好事，但智能家居還沒發(fā)展起來，也不是用戶的剛需，目前來做這塊用戶似乎也不會買賬。亞馬遜的Echo除了和自身的音樂內容匹配，最主要還是看重了Echo將來在音樂內容方面的購買功能，所以Shopping自然就成為了Echo最重要的使命。想想也是，一個公司做硬件不考慮賺錢怎么行，軟件可以隨著用戶數量的無限增加而將成本攤薄為零，但是硬件的成本是永遠存在的啊。雖然目前還不了解京東有沒有這方面的考慮，但是自家沒有專有語音識別引擎，若想和自家產品無縫對接也非常困難。阿里就聰明很多，阿里做的小飛必然要和自家的音樂內容緊密相連。其他的廠商如QQ音樂、百度音樂、酷狗音樂還未發(fā)布自家產品，酷狗筆者有所了解，他們的智能硬件之路走得相當緩慢，現在轉去搞中國好聲音了。

除了內容方面的集成，智能音箱還面臨一個更大的挑戰(zhàn)。我們仔細想一下，用戶對智能音箱的要求其實遠非語音識別所能做到的那樣簡單，顯然還需要深入的語言交互才行，而且這種交互還應該是你日常生活中的場景。天哪，即便解決某個特定領域的語音交互就讓眾多科研人員心力交瘁了，更何況如此廣泛的領域。筆者一聽到這個需求大腦幾乎就要爆掉，但是如果做不到這點，怎么又能稱得上智能音箱呢？充其量不過是個語音控制的音箱而已。很多時候筆者覺得，語音識別還不如手勢識別更為簡單好用！當然對于那些流媒體的音樂內容提供商來說，這種前端產品或許是不得不做的產品，至少搶個賽道再說。

我們一直強調，智能音箱還是一個音箱，但是為什么大多數廠商都把這個基本訴求給忽略了呢？一味強調智能而不扎實做好音箱的品質，如此這般，還不如干脆做個智能盒子好了。筆者相信，就是因為有如此多的問題，說明智能音箱領域還存在眾多機會，若在這個領域創(chuàng)業(yè)創(chuàng)新，有必要思考下面的3個問題：

（1）回歸音箱本質，發(fā)燒音質才是智能的基礎

網上早已不止筆者一人批評智能音箱的音質了。無論智能音箱的產品

程曼詩：劇院“面子”問題，還得從“里子”入手

讓誰來當歌劇院院長？

程曼詩：劇院“面子”問題，還得從“里子”入手

讓誰來當歌劇院院長？

關鍵字：