從語音激活到空間音頻,讓聲音更加智能化

更新時間:0000-00-00 00:00:00    閱讀:2546

在人機交互過程中,聲音總是最自然和最直觀的途徑,不久之后所有設備都將會支持隨時傾聽,等待著我們的命令。

在人機交互過程中,聲音總是最自然和最直觀的途徑,不久之后所有設備都將會支持隨時傾聽,等待著我們的命令。



隨著新一代智能音箱和其它語音激活設備井噴式的發(fā)展,讓您可以更加舒適地和設備交談。如果在國外旅行時使用翻譯耳機的效果如何呢?雖然它們還不是很常見,但是Google剛剛發(fā)布的智能耳機Pixel Buds已經(jīng)支持了這個功能。


在最近的一篇文章中,我回顧了智能音箱發(fā)展的第二次浪潮,以高效生產(chǎn)和批量上市為特征。我推測這一階段將給市場領導者以壓力,促使他們進行技術創(chuàng)新和制造新的產(chǎn)品類型,同時進一步提高其它人的進入門檻。這正是我們這個月所看到的,谷歌、亞馬遜、蘋果等公司發(fā)布了很多新的音頻語音產(chǎn)品。


去年Google Home的推出對于之前大獲成功的Amazon Echo做出了回應。現(xiàn)在,谷歌正在擴大產(chǎn)品線,對抗包括Echo Dot,Apple HomePod和AirPods。谷歌語音激活助理因此可以有更多的使用場景,獲得更大的價格空間。


新的Google mini形狀像一個插針包,更小并且更便宜,是Google Home的替代品。對于那些尋找更好的聲音體驗而且愿意花更多錢的用戶,Google Max提供了更加高端的聲音體驗,它也具備Google Home的全部功能。新的Pixel Buds 提供了活動式(on-the-go )體驗,通過與智能手機配對創(chuàng)建一個入耳式的私人助理,和Apple的AirPods類似使用的是藍牙音頻流。這些耳機最有趣的特點之一是集成了谷歌翻譯,如視頻中看到的一樣支持入耳式同聲傳譯功能。谷歌表示它將支持40種不同的語言,這個數(shù)字無疑會隨著產(chǎn)品演進而不斷增加。


微信圖片_20181121175410.jpg

[圖1 | 從上到下依次是:AirPods 和Pixel Buds,Echo Dot 和Home Mini,以及HomePod 和Home Max]


語音激活技術另一個激動人心的發(fā)展是新的Gopro Hero6運動相機可以通過語音命令開機。這是GoPro第二代支持語音界面的設備,最早引入的是Gopro Hero5。


大多數(shù)的語音命令和之前一樣,比如“GoPro 啟動/停止錄音”等等。


新機型的創(chuàng)新點體現(xiàn)在用戶可以使用語音命令——“GoPro開機”打開相機。這個功能是可選的,在相機關機后的8個小時內(nèi)維持激活。盡管這還不是一臺完全隨時傾聽(always-listening)的設備,但它朝這個方向邁出了重要的一步。可以語音激活的Gopro還例證了我們的另一個設想,語音將會成為主要的用戶界面。在人機交互過程中,聲音總是最自然和最直觀的途徑,不久之后所有設備都將會支持隨時傾聽,等待著我們的命令。


Alexa的下一個應用是汽車,然后是你的臉


亞馬遜正在讓這一愿景成為現(xiàn)實,它仍在智能音箱市場上領先“新人”(谷歌)一步。在Google發(fā)布會之前,亞馬遜搶先發(fā)布了一系列新的Echo產(chǎn)品,包括采用了新外觀設計的一系列Echo產(chǎn)品和智能鬧鐘Echo Spot,延續(xù)了Echo Show開始的集成屏幕的風格。亞馬遜還透露Alexa很快就會整合到寶馬2018的車型中。


這可能是Alexa在成為最受歡迎的家庭智能音箱之后,再一次率先成為最受喜愛的公路旅行伴侶。


比任何官方消息都更有趣的是那些關于即將推出的亞馬遜眼鏡的推測。肆意蔓延的傳聞指出它是基于Alexa的非手持,電池供電的眼鏡。根據(jù)猜測,亞馬遜眼鏡不會提供視覺體驗,但作為一個可穿戴設備,將允許用戶隨時隨地和Alexa說話。這將是亞馬遜向前邁出的重要一步,進軍了可穿戴領域并且支持always-on功能。


很明顯為了釋放語音助手的全部潛能需要消除電源插孔,這里有相關技術可以實現(xiàn)。


空間音頻可以產(chǎn)生或者打破虛擬/增強現(xiàn)實


隨著亞馬遜和谷歌的加入,將直接導致耳戴式設備(hearables)的全面改善。針對這種產(chǎn)品已經(jīng)提出了很多有趣的概念,比如Kickstarter項目中名叫Vi的人工智能私人教練,可以掌握用戶的生物識別特征并由此定制化訓練,從而實現(xiàn)運動目標?,F(xiàn)在想象一下,通過添加多維空間的音頻制造出Vi就在你身前或身后的感覺,是不是可以提供額外的動力幫助你打破個人記錄(參見10年前申請的專利)。


微信圖片_20181121175415.jpg

[圖2 | AR/VR應用大肆炒作視覺技術,但是要制造沉浸式的感覺,音頻是至關重要的]


在蘋果全新的手機中提出了最新的音頻創(chuàng)新理念。iPhone 8第一次包含了雙揚聲器。這是一件大事情,因為雙揚聲器可以啟用多維空間音頻,這意味著蘋果正在押寶到增強現(xiàn)實和虛擬現(xiàn)實(AR/VR)應用上。要創(chuàng)建一個沉浸式的AR/VR體驗,空間音頻是必須的。否則即使有令人驚嘆的畫面也不會產(chǎn)生一個足夠有說服力的真實空間。


下一步是神經(jīng)網(wǎng)絡使能的聲音感知


音頻發(fā)展的下一步是什么? iPhone8和iPhoneX已經(jīng)包含了一個專門的神經(jīng)網(wǎng)絡引擎。針對耳戴式設備和語音激活設備,神經(jīng)網(wǎng)絡可用于聲音感知和音頻分析。這一技術已經(jīng)用來在家中識別某些特定的聲音,比如門鈴或者玻璃破碎,從而觸發(fā)適當?shù)捻憫?。它可以改善耳戴式設備使用時的安全性,比如Vi私人教練和其它沉浸式 AR/VR應用程序。神經(jīng)網(wǎng)絡可以感知到某些重要的聲音,并且通知用戶,如警報器或者狗叫。通過這種方式,無論安全性還是享受感都可以兼顧。



“閃電配音”是內(nèi)容與媒體首選的配音服務商,平臺可實現(xiàn)7*24小時在線、最快15分鐘實現(xiàn)千字配音且達到FM音質(zhì)標準的實際要求,每百字僅需2-10元,通過產(chǎn)品驅(qū)動滿足了對時效性要求高的自媒體等行業(yè),實現(xiàn)了配音行業(yè)生產(chǎn)方式的變革?,F(xiàn)階段,平臺已簽約主播1萬多名,平均每天有2千~3千筆訂單,已服務累計服務客戶超過3000家。行業(yè)覆蓋新聞媒體、自媒體、知識付費、短視頻、出版社有聲書業(yè)務等;包括故宮、知識分子、見字如面、吳曉波頻道、極客公園;磨鐵、郵電出版社、喜馬拉雅等。


該內(nèi)容為非商業(yè)目的的轉載分享,不代表本站觀點,本文版權屬其著作權人所有。若侵犯了您的正當權益,請立即聯(lián)系我們刪除。

閃電配音

掃碼免費試音
企業(yè)微信

免費試音

幫我推薦

價格計算

在線下單

開具發(fā)票

不招主播

確認提交

全網(wǎng)全品類皆可配 頂配好聲音

點我咨詢
錯誤